앤트로픽 Claude Opus 4.8 공개… GPT-5.5·제미나이 6개 벤치마크 추월

앤트로픽이 5월 28일(현지시간) 플래그십 인공지능 모델의 새 버전인 Claude Opus 4.8을 공개했다. 코딩·추론 성능을 끌어올린 동시에, 모델이 스스로 오류를 인정하고 불확실한 부분을 먼저 알리는 '정직성(honesty)'을 핵심 차별점으로 내세웠다. 가격은 이전 버전과 동일하다. (이 기사는 5월 30일 기준 공개된 자료를 바탕으로 작성됐다.)

이전 모델인 Opus 4.7이 나온 지 41일 만의 출시로, 통상 수개월 단위였던 앤트로픽의 모델 갱신 주기에 비하면 이례적으로 빠른 속도다.

📌 41일 만에 나온 '점진적 업그레이드'

Opus 4.8은 claude.ai, Claude Code, Claude API(모델명 claude-opus-4-8)를 통해 이용할 수 있다. 아마존 베드록, 구글 클라우드 버텍스 AI, 마이크로소프트 파운드리에서도 제공된다.

앤트로픽은 이번 모델을 코딩, 에이전트 작업, 다분야 추론, 컴퓨터 사용, 지식 노동, 금융 분석 전반에서 개선된 "더 효과적인 협업자"라고 설명했다. 다만 회사 스스로도 블로그를 통해 이번 모델을 "점진적이지만 분명한 개선(a modest but tangible improvement)"이라고 표현하며 기대치를 조정했다.

에이전트(agent) 작업이란 AI가 사람의 일일이 지시 없이 여러 단계의 행동을 스스로 이어서 수행하는 것을 말한다. 예컨대 코드를 짜고, 실행해보고, 오류를 고치는 일을 한 번의 요청으로 처리하는 식이다.

📊 숫자로 본 코딩 벤치마크 성적

앤트로픽이 공개한 내부 평가에서 Opus 4.8은 까다로운 코딩 벤치마크인 SWE-Bench Pro에서 69.2%를 기록했다. 이전 버전 Opus 4.7(64.3%)보다 4.9%포인트 높고, 경쟁 모델인 오픈AI GPT-5.5(58.6%), 구글 제미나이 3.1 Pro(54.2%)를 앞섰다.

다른 항목에서도 대체로 개선됐다. 컴퓨터 화면을 직접 조작하는 능력을 보는 OSWorld-Verified는 83.4%, 수학 증명 문제인 USAMO 2026은 69.3%에서 96.7%로 크게 뛰었다. 반면 대학원 수준 과학 문답인 GPQA Diamond는 93.6%로 직전 버전보다 소폭 낮아졌고, 터미널 코딩(Terminal-Bench 2.1)에서는 GPT-5.5(78.2%)가 Opus 4.8(74.6%)을 앞섰다고 앤트로픽은 각주에 밝혔다.

여기서 'SWE-Bench Pro 69.2%'는 실제 소프트웨어 저장소에서 가져온 까다로운 버그 100개 중 약 69개를 사람 개입 없이 해결했다는 뜻이다.

💬 "스스로 버그를 잡고, 모르면 모른다고 말한다"

앤트로픽이 가장 강조한 변화는 성능 수치가 아니라 '정직성'이다. 회사는 블로그에서 AI 모델이 근거가 약한데도 작업을 끝냈다고 자신 있게 주장하는 문제를 지적하며, 초기 테스터들이 Opus 4.8은 자신의 작업에 대한 불확실성을 더 자주 표시하고 근거 없는 주장을 덜 한다고 보고했다고 전했다.

앤트로픽의 자체 평가에 따르면 Opus 4.8은 자신이 작성한 코드의 결함을 그냥 넘기는 비율이 Opus 4.7보다 약 4배 낮았다.

"AI 모델의 일반적인 문제는 증거가 빈약한데도 진전을 이뤘다고 자신 있게 주장하는 것"
— 앤트로픽 발표 블로그

앤트로픽 정렬(alignment)팀은 이 모델이 사용자의 자율성을 지지하고 사용자에게 최선이 되도록 행동하는 등 친사회적 특성 지표에서 "새로운 최고치"에 도달했으며, 기만 같은 오정렬 행동 비율은 Opus 4.7보다 낮아 자사 최상위 모델인 'Claude Mythos Preview' 수준에 가까웠다고 밝혔다.

⚙️ 새 기능, 더 싸진 고속 모드

이번 출시에는 모델 외에 몇 가지 기능이 함께 추가됐다.

다이내믹 워크플로우(Dynamic Workflows) — Claude Code용 리서치 프리뷰 기능. 큰 작업을 계획해 한 세션에서 수백 개의 병렬 하위 에이전트를 돌리고, 수십만 줄 규모의 코드베이스 이전까지 처리한다. 엔터프라이즈·팀·맥스 요금제에서 제공된다.
노력 제어(Effort Control) — claude.ai와 Cowork에서 답변에 얼마나 많은 연산을 쓸지 사용자가 고를 수 있다. 높게 설정하면 더 깊이 사고하고, 낮게 두면 더 빨리 답하며 사용 한도를 천천히 소진한다.
메시지 API 중간 시스템 메시지 — 개발자가 작업 도중 지시를 갱신할 수 있다.

가격은 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 Opus 4.7과 같다. 고속 모드(fast mode)는 기본보다 2.5배 빠르면서, 이전 모델의 고속 모드보다 3배 저렴해졌다고 앤트로픽은 설명했다. 다만 출력 단가 기준으로는 여전히 시장에서 가장 비싼 프런티어 모델 중 하나로 평가된다.

⚖️ '실속'이라는 평가와 '기대 이하'라는 시선

업계 반응은 엇갈린다. 일부 매체는 같은 가격에 측정 가능한 성능 향상이 실렸다는 점을 긍정적으로 봤다. 반면 IT 매체 기즈모도는 큰 코딩 작업에서 체감 향상이 있겠지만 "게임 체인저는 아니다"라고 평가했다. 테크진(Techzine)은 항목별 개선폭이 1%포인트 미만에서 9% 가까이로 편차가 있어, 일상적 사용 경험의 차이는 크지 않을 수 있다고 분석했다.

빠른 출시 배경을 두고는, 일부 사용자에게 미지근한 반응을 얻었던 Opus 4.7과 같은 기간 오픈AI 코덱스, 구글 제미나이 플래시 등 경쟁 모델의 출시가 영향을 줬다는 해석도 나온다.

한편 IT 매체 서로트(Thurrott)는 앤트로픽이 같은 날 경쟁사 오픈AI의 기업가치를 넘어섰다고 보도했다. 다만 이는 비상장 기업 가치 평가에 관한 보도로, 평가 기관·기준에 따라 달라질 수 있는 만큼 단정하기 어렵다.

앞으로의 관전 포인트

앤트로픽은 이번 발표에서 더 높은 등급의 'Mythos-class' 모델 출시를 예고했으나, 구체적 시점은 공개하지 않았다. Opus 4.8을 자사 정렬 수준의 정점에 가깝다고 표현한 만큼, 차기 모델이 정직성·안전성 지표를 어디까지 끌어올릴지가 관전 포인트다.

다이내믹 워크플로우는 아직 리서치 프리뷰 단계여서, 수백 개 병렬 에이전트를 활용한 대규모 코드 작업이 실제 운영 환경에서 어느 정도 성과를 낼지는 추가 검증이 필요하다. 기존 Opus 4.7 사용자의 경우 대부분 설정 변경만으로 전환할 수 있다고 앤트로픽은 안내했다.

📚 출처

앤트로픽 공식 발표 블로그 및 시스템 카드 (2026.5.28)
MacRumors, "Anthropic Launches Claude Opus 4.8 With Gains in Coding and Honesty" (2026.5.28)
Gizmodo, "Anthropic Debuts Claude Opus 4.8, Teases Upcoming Launch of 'Mythos-Class Models'" (2026.5.28)
Inc., "Anthropic Says Its Claude Opus 4.8 Model Is Its 'Most Honest' Yet"
Techzine Global, "Anthropic releases Claude Opus 4.8, promising a more honest model"
llm-stats.com, "Claude Opus 4.8 Release, Benchmarks And More"
Thurrott.com, "Anthropic Releases Claude Opus 4.8, Surpasses Value of OpenAI"

이 기사는 작성 시점 기준 정보이며, 벤치마크 수치는 앤트로픽 자체 평가에 근거한다. 모델 성능·가격·기능은 이후 변동될 수 있으므로, 도입 판단 시 공식 발표와 문서를 확인하는 것이 좋다.