The AI Scientist는 아이디어 창안부터 실험 수행, 논문 작성, 자체 동료 심사까지 과학 연구의 전 생애 주기를 자동화한 최초의 엔드-투-엔드 시스템입니다. 그리고 최상위 ML 컨퍼런스 워크숍의 동료 심사를 실제로 통과했습니다.
인류 역사상 처음으로 완전히 AI가 작성한 논문이 최상위 머신러닝 컨퍼런스 워크숍의 정식 동료 심사 과정을 통과했습니다. Sakana AI(도쿄), 옥스퍼드 대학교, UBC, 벡터 연구소의 공동 연구팀이 Nature에 게재한 이 성과는 AI가 수백 년을 이어온 과학적 발견의 패러다임을 바꾸기 시작했음을 보여줍니다.
4단계 순차 파이프라인으로 구성됩니다. 각 카드를 클릭하면 상세 내용을 확인할 수 있습니다.
LLM이 연구 방향과 가설의 아카이브를 반복적으로 성장시킵니다. 각 아이디어는 Semantic Scholar API와 웹 검색을 통해 기존 문헌과 비교해 중복 여부를 자동 필터링합니다.
👆 클릭해서 더 보기
제안된 실험을 실제로 실행하고 결과를 시각화합니다. 템플릿 기반과 템플릿 프리(자유 탐색) 두 가지 방식이 있으며, 프리 버전은 에이전틱 트리 탐색을 활용합니다.
👆 클릭해서 더 보기
실험 결과를 표준 ML 컨퍼런스 논문 형식의 LaTeX로 작성합니다. 20라운드에 걸쳐 문헌을 검색하고 각 인용에 대한 텍스트 근거를 생성해 적절히 삽입합니다.
👆 클릭해서 더 보기
자동화된 리뷰어가 NeurIPS 심사 가이드라인에 따라 생성된 논문을 평가합니다. 5개의 독립적 리뷰를 앙상블해 최종 메타 리뷰를 생성합니다.
👆 클릭해서 더 보기
The AI Scientist가 실제 동료 심사 과정에 제출한 결과와 자동화 리뷰어의 성능을 정리했습니다.
제출한 3편 중 1편이 ICLR 2025 ICBINB 워크숍 동료 심사를 통과했습니다. 수락률 70%의 워크숍에서 평균 합격 기준을 초과하는 점수를 받았습니다.
3명의 심사위원이 각각 6점(약한 수락), 7점(수락), 6점(약한 수락)을 부여했습니다. 워크숍 내 상위 45%에 해당하는 점수입니다.
자동화 리뷰어의 균형 정확도는 69%로 인간 리뷰어(66%)와 동등하거나 우수합니다. F1 점수(0.62)도 인간 간 합의 수준(0.49)을 초과했습니다.
기반 모델 출시 일자와 논문 품질 간 통계적으로 유의미한 상관관계(P<0.00001)가 확인됐습니다. 미래 모델 개선이 자동 생성 논문 품질을 지속 향상시킬 것임을 강력히 시사합니다.
| 구분 | 균형 정확도 | F1 점수 | AUC | FPR |
|---|---|---|---|---|
| 👤 인간 (NeurIPS) | 0.66 | 0.49 | 0.65 | 0.17 |
| 🤖 자동 리뷰어 (지식 커트오프 前) | 0.69 | 0.62 | 0.69 | 0.45 |
| 🤖 자동 리뷰어 (지식 커트오프 後) | 0.66 | 0.67 | 0.65 | 0.52 |
| 🎲 무작위 판정 | 0.50 | 0.47 | 0.52 | 0.47 |
| ❌ 항상 거부 | 0.50 | 0.00 | 0.50 | 0.00 |
출처: Lu et al. (2026), Table 1. 녹색 강조는 최고 성능값.
저자들은 이 성과의 의미를 인정하면서도 현재의 한계와 사회적 위험을 솔직하게 기술합니다.
일반적인 실패 유형으로는 단순하거나 미개발된 아이디어 생성, 핵심 아이디어의 잘못된 구현, 깊은 방법론적 엄밀성 부족, 실험 구현 오류 등이 있습니다. 주본문과 부록에 그림을 중복 삽입하는 형식 오류도 반복됩니다.
부정확한 인용 등 다양한 환각 현상이 발생합니다. AI는 쉽게 속거나 지나치게 확신에 차서 틀리는 경향이 있습니다. 이러한 약점은 일부 개선됐지만 여전히 남아있어 AI Scientist의 출력을 완전히 신뢰하기 어렵게 합니다.
AI 시스템이 위대한 과학적 도약과 같은 새로운 창의적 아이디어를 생산할 수 있는지는 아직 불명확합니다. 현재 AI Scientist는 연산 실험에만 적용됩니다. 물리적 세계의 실험(화학, 생물학 등)은 자동화 실험실 기술의 발전에 달려있습니다.
자동화된 논문 생성이 이미 과부하 상태인 동료 심사 시스템을 더욱 압박할 수 있습니다. 학술 크레딧을 인위적으로 부풀리거나, 타인의 아이디어를 적절한 출처 표기 없이 활용하거나, 과학자 일자리를 위협할 가능성도 있습니다.
비윤리적이거나 위험한 실험을 AI가 자율적으로 수행할 가능성에 대한 우려가 있습니다. 이를 위해 연구팀은 UBC IRB(H24-02652) 승인과 ICLR 리더십의 명시적 동의를 받았습니다. 사전 프로토콜에 따라 심사 후 결과에 무관하게 모든 논문을 철회했습니다.
최근 연구에 따르면 AI가 안정적으로 완수할 수 있는 작업의 길이는 7개월마다 두 배씩 증가합니다. 머신러닝에서는 결함이 있더라도 일단 작동하기 시작하면, 몇 년 안에 역량이 인간을 넘어서는 경우가 많습니다. 미래 버전의 능력이 현재보다 훨씬 강력할 것임을 강하게 시사합니다.
5개 문제로 핵심 내용을 점검해보세요.
📅 투고: 2025년 7월 8일 | ✅ 수락: 2026년 2월 11일 | 🌐 온라인 게재: 2026년 3월 25일
📖 저널: Nature · Vol 651 · Pages 914–919
🏛️ 소속: Sakana AI (도쿄) · 옥스퍼드 대학교 · UBC · 벡터 연구소
🔓 오픈 액세스: CC BY 4.0 · DOI 바로가기
💻 코드: github.com/SakanaAI/AI-Scientist (Apache 2.0)