Nature · Vol 651 · 26 March 2026 · Sakana AI

AI가 스스로
논문을 쓰고
동료 심사를 통과했다

The AI Scientist는 아이디어 창안부터 실험 수행, 논문 작성, 자체 동료 심사까지 과학 연구의 전 생애 주기를 자동화한 최초의 엔드-투-엔드 시스템입니다. 그리고 최상위 ML 컨퍼런스 워크숍의 동료 심사를 실제로 통과했습니다.

연구 파이프라인 보기 → 핵심 결과 확인

📊 논문 핵심 수치

게재 저널Nature

동료 심사 통과1 / 3

워크숍 수락률70%

합격 논문 평균 점수6.33 / 10

AI 리뷰어 균형 정확도69%

인간 리뷰어 정확도66%

연구 파이프라인

AI Scientist는 어떻게 논문을 만드나?

4단계 순차 파이프라인으로 구성됩니다. 각 카드를 클릭하면 상세 내용을 확인할 수 있습니다.

💡

Phase 1

아이디어 창안 (Ideation)

LLM이 연구 방향과 가설의 아카이브를 반복적으로 성장시킵니다. 각 아이디어는 Semantic Scholar API와 웹 검색을 통해 기존 문헌과 비교해 중복 여부를 자동 필터링합니다.

세부 동작: 각 아이디어는 제목, 핵심 가설, 상세 실험 계획을 포함한 구조화 객체로 생성됩니다. 흥미도·참신성·실현 가능성을 1~10점으로 자체 평가합니다. 10라운드에 걸쳐 문헌 검색을 수행하며 기존 연구와 높은 의미적 유사성이 있는 아이디어는 자동 폐기됩니다. 시스템은 "상당한 기여를 목표로 하는 야심찬 AI 박사 학생"으로 프롬프트됩니다.

👆 클릭해서 더 보기

🧪

Phase 2

실험 수행 (Experimentation)

제안된 실험을 실제로 실행하고 결과를 시각화합니다. 템플릿 기반과 템플릿 프리(자유 탐색) 두 가지 방식이 있으며, 프리 버전은 에이전틱 트리 탐색을 활용합니다.

4단계 트리 탐색: (1) 예비 조사 → (2) 하이퍼파라미터 튜닝 → (3) 연구 아젠다 실행 → (4) 절제 연구(ablation). 각 단계에서 가장 유망한 체크포인트를 다음 단계의 시드로 선택합니다. 실행 오류 발생 시 자동으로 디버깅하며 최대 4회 재시도합니다. 각 노드의 최대 실험 실행 시간은 1시간입니다. Claude Sonnet 4가 코드 생성에 사용됩니다.

👆 클릭해서 더 보기

✍️

Phase 3

논문 작성 (Write-up)

실험 결과를 표준 ML 컨퍼런스 논문 형식의 LaTeX로 작성합니다. 20라운드에 걸쳐 문헌을 검색하고 각 인용에 대한 텍스트 근거를 생성해 적절히 삽입합니다.

세부 동작: 실험 저널을 분석해 핵심 발견을 요약하고 생성된 그림을 삽입합니다. Semantic Scholar API로 관련 문헌을 찾아 관련 연구 섹션을 구성합니다. LaTeX 컴파일 오류는 최대 5회 자동 수정됩니다. VLM(비전-언어 모델)이 그림과 캡션의 정합성을 검토합니다.

👆 클릭해서 더 보기

🔍

Phase 4

자동 동료 심사 (Peer Review)

자동화된 리뷰어가 NeurIPS 심사 가이드라인에 따라 생성된 논문을 평가합니다. 5개의 독립적 리뷰를 앙상블해 최종 메타 리뷰를 생성합니다.

세부 동작: 건전성·발표 수준·기여도·전체 품질·리뷰어 신뢰도를 수치로 평가합니다. 강점과 약점 목록, 수락/거부의 이진 판정도 포함됩니다. LLM이 에어리어 체어 역할을 맡아 5개 리뷰의 합의를 도출합니다. o4-mini 모델 기반으로 구축되었습니다.

👆 클릭해서 더 보기

핵심 결과

무엇을 달성했나?

The AI Scientist가 실제 동료 심사 과정에 제출한 결과와 자동화 리뷰어의 성능을 정리했습니다.

🏆

동료 심사 통과

1 / 3

제출한 3편 중 1편이 ICLR 2025 ICBINB 워크숍 동료 심사를 통과했습니다. 수락률 70%의 워크숍에서 평균 합격 기준을 초과하는 점수를 받았습니다.

📊

합격 논문 심사 점수

6.33

3명의 심사위원이 각각 6점(약한 수락), 7점(수락), 6점(약한 수락)을 부여했습니다. 워크숍 내 상위 45%에 해당하는 점수입니다.

🤖

자동 리뷰어 정확도

69%

자동화 리뷰어의 균형 정확도는 69%로 인간 리뷰어(66%)와 동등하거나 우수합니다. F1 점수(0.62)도 인간 간 합의 수준(0.49)을 초과했습니다.

📈

모델 개선 → 논문 품질 향상

R²=0.52

기반 모델 출시 일자와 논문 품질 간 통계적으로 유의미한 상관관계(P<0.00001)가 확인됐습니다. 미래 모델 개선이 자동 생성 논문 품질을 지속 향상시킬 것임을 강력히 시사합니다.

📋 자동화 리뷰어 vs 인간 리뷰어 성능 비교

균형 정확도 (AI)

69%

0.69

균형 정확도 (인간)

66%

0.66

F1 점수 (AI)

0.62

F1 점수 (인간)

0.49

AUC (AI)

0.69

구분	균형 정확도	F1 점수	AUC	FPR
👤 인간 (NeurIPS)	0.66	0.49	0.65	0.17
🤖 자동 리뷰어 (지식 커트오프 前)	0.69	0.62	0.69	0.45
🤖 자동 리뷰어 (지식 커트오프 後)	0.66	0.67	0.65	0.52
🎲 무작위 판정	0.50	0.47	0.52	0.47
❌ 항상 거부	0.50	0.00	0.50	0.00

출처: Lu et al. (2026), Table 1. 녹색 강조는 최고 성능값.

한계 및 윤리

무엇이 아직 부족하고, 무엇이 우려되나?

저자들은 이 성과의 의미를 인정하면서도 현재의 한계와 사회적 위험을 솔직하게 기술합니다.

⚠️ 현재 실패 유형

아이디어와 구현의 결함

일반적인 실패 유형으로는 단순하거나 미개발된 아이디어 생성, 핵심 아이디어의 잘못된 구현, 깊은 방법론적 엄밀성 부족, 실험 구현 오류 등이 있습니다. 주본문과 부록에 그림을 중복 삽입하는 형식 오류도 반복됩니다.

⚠️ 환각 문제

AI 고유의 신뢰성 문제

부정확한 인용 등 다양한 환각 현상이 발생합니다. AI는 쉽게 속거나 지나치게 확신에 차서 틀리는 경향이 있습니다. 이러한 약점은 일부 개선됐지만 여전히 남아있어 AI Scientist의 출력을 완전히 신뢰하기 어렵게 합니다.

⚠️ 창의성 한계

개념적 도약의 불확실성

AI 시스템이 위대한 과학적 도약과 같은 새로운 창의적 아이디어를 생산할 수 있는지는 아직 불명확합니다. 현재 AI Scientist는 연산 실험에만 적용됩니다. 물리적 세계의 실험(화학, 생물학 등)은 자동화 실험실 기술의 발전에 달려있습니다.

🔴 윤리적 위험

동료 심사 시스템 과부하

자동화된 논문 생성이 이미 과부하 상태인 동료 심사 시스템을 더욱 압박할 수 있습니다. 학술 크레딧을 인위적으로 부풀리거나, 타인의 아이디어를 적절한 출처 표기 없이 활용하거나, 과학자 일자리를 위협할 가능성도 있습니다.

🔴 연구 무결성

비윤리적·위험한 실험 가능성

비윤리적이거나 위험한 실험을 AI가 자율적으로 수행할 가능성에 대한 우려가 있습니다. 이를 위해 연구팀은 UBC IRB(H24-02652) 승인과 ICLR 리더십의 명시적 동의를 받았습니다. 사전 프로토콜에 따라 심사 후 결과에 무관하게 모든 논문을 철회했습니다.

🔵 미래 전망

7개월마다 2배씩 성장하는 AI 역량

최근 연구에 따르면 AI가 안정적으로 완수할 수 있는 작업의 길이는 7개월마다 두 배씩 증가합니다. 머신러닝에서는 결함이 있더라도 일단 작동하기 시작하면, 몇 년 안에 역량이 인간을 넘어서는 경우가 많습니다. 미래 버전의 능력이 현재보다 훨씬 강력할 것임을 강하게 시사합니다.

자주 묻는 질문

연구자·일반 독자를 위한 Q&A

네, 진짜 동료 심사입니다. ICLR 2025의 I Can't Believe It's Not Better(ICBINB) 워크숍에 실제로 제출됐으며, 심사위원들은 일부 논문이 AI 생성임을 알았지만 어떤 논문인지는 몰랐습니다(맹검 심사). 43편의 논문 중 하나로 포함돼 심사를 받았고, 평균 6.33점으로 워크숍 합격 기준을 초과했습니다. 워크숍의 수락률은 70%로 메인 컨퍼런스(32%)보다 높지만, 여전히 의미 있는 학술적 기준입니다.

템플릿 프리 버전은 복수의 모델을 역할별로 사용합니다. OpenAI의 o3: 아이디어 창안과 실험 중 코드 비판(강력한 추론 능력). Anthropic의 Claude Sonnet 4: 코드 생성 (기본값으로 사용). OpenAI의 GPT-4o: 비전-언어 작업(비용 효율적). OpenAI의 o4-mini: 자동화 리뷰어 구축 및 검토 단계의 추론(비용 효율적). 논문 품질은 기반 모델의 출시 일자와 강한 상관관계를 보이며, 최신 모델일수록 더 좋은 논문을 생성합니다.

합격한 논문은 신경망의 구성적 일반화 향상에서의 예상치 못한 장애물을 다룬 부정적 결과 논문이었습니다. ICBINB 워크숍이 "흥미로운 부정적 결과"에 초점을 맞춘 만큼, 구성적 정규화 항을 훈련 손실에 추가하는 방법이 일반화 개선에 실패했다는 내용을 LSTM 기반 신경망 실험을 통해 보고했습니다. 조직위원회는 AI 생성 논문이라는 이유가 아니었다면 수락됐을 것이라고 밝혔습니다.

저자들은 이 점을 진지하게 다룹니다. 잠재적 위험으로 과학자 직업 위협을 명시적으로 언급합니다. 그러나 현재 AI Scientist는 컴퓨터 실험에만 적용 가능하고, 최상위 컨퍼런스 기준은 충족하지 못합니다. 저자들의 시각은 AI가 과학적 발견을 가속화하는 도구로서, 책임 있게 개발되면 인류에게 이롭다는 것입니다. 다만 학술 커뮤니티가 공개 및 평가 기준을 먼저 확립해야 한다고 강조합니다.

몇 가지 차원에서 한국 연구자와 직결됩니다. 첫째, AI Index 2026(Stanford)에서 한국은 1인당 AI 특허 세계 1위로 AI 기술 혁신의 선두에 있습니다. 둘째, The AI Scientist는 SK하이닉스·삼성이 공급하는 HBM 메모리가 장착된 GPU로 구동됩니다. 셋째, 자동화된 논문 생성 시스템이 보편화될 경우, 동료 심사 시스템 과부하 문제는 국내 학술지와 한국 연구자들에게도 직접적 영향을 줍니다. 마지막으로, AI가 학술 글쓰기를 보조하는 수준을 넘어 독립적 연구 주체로 진화하는 흐름은 연구 윤리와 교육 정책에 새로운 질문을 던집니다.

아직 아닙니다. 저자들은 이 연구를 수행하기 위해 ICLR 리더십의 명시적 허락, 워크숍 조직위원회의 협조, UBC IRB 승인(H24-02652)을 사전에 받았습니다. 사전 프로토콜에 따라 심사 후 모든 논문을 철회했습니다. 저자들은 "과학 커뮤니티가 공개와 평가에 대한 명확한 기준을 수립하기 전에 완전 자동화 연구물을 출판하는 선례를 남기지 않기 위한 것"이라고 밝혔습니다. 현 시점에서 무단으로 AI 생성 논문을 제출하는 것은 심각한 연구 윤리 위반에 해당합니다.

AI가 스스로
논문을 쓰고
동료 심사를 통과했다

과학의 새 시대 — 발견이 더 이상 인간만의 영역이 아니다

AI Scientist는 어떻게 논문을 만드나?

아이디어 창안 (Ideation)

실험 수행 (Experimentation)

논문 작성 (Write-up)

자동 동료 심사 (Peer Review)

무엇을 달성했나?

동료 심사 통과

합격 논문 심사 점수

자동 리뷰어 정확도

모델 개선 → 논문 품질 향상

무엇이 아직 부족하고, 무엇이 우려되나?

아이디어와 구현의 결함

AI 고유의 신뢰성 문제

개념적 도약의 불확실성

동료 심사 시스템 과부하

비윤리적·위험한 실험 가능성

7개월마다 2배씩 성장하는 AI 역량

연구자·일반 독자를 위한 Q&A

The AI Scientist를 얼마나 이해했나요?

원문 논문 정보

AI가 스스로논문을 쓰고동료 심사를 통과했다

과학의 새 시대 — 발견이 더 이상 인간만의 영역이 아니다

AI Scientist는 어떻게 논문을 만드나?

아이디어 창안 (Ideation)

실험 수행 (Experimentation)

논문 작성 (Write-up)

자동 동료 심사 (Peer Review)

무엇을 달성했나?

동료 심사 통과

합격 논문 심사 점수

자동 리뷰어 정확도

모델 개선 → 논문 품질 향상

무엇이 아직 부족하고, 무엇이 우려되나?

아이디어와 구현의 결함

AI 고유의 신뢰성 문제

개념적 도약의 불확실성

동료 심사 시스템 과부하

비윤리적·위험한 실험 가능성

7개월마다 2배씩 성장하는 AI 역량

연구자·일반 독자를 위한 Q&A

The AI Scientist를 얼마나 이해했나요?

원문 논문 정보

AI가 스스로
논문을 쓰고
동료 심사를 통과했다