오픈AI가 23일(현지시간) 신규 AI 모델 'GPT-5.5'를 공개하며 앤트로픽과의 주도권 경쟁에 다시 불을 지폈다. 연내 기업공개(IPO)를 노리는 오픈AI가 불과 두 달 만에 차세대 모델을 선보인 것이다.

오픈AI는 이날 GPT-5.5를 공개하면서 "새로운 차원의 지능(a new class of intelligence)"이라고 소개했다. 에이전트형 연산에 더 적합하도록 자율성과 직관성을 높인 것이 핵심이다.
오픈AI가 함께 공개한 성능지표(벤치마크) 보고서를 보면 GPT-5.5는 여러 영역에서 앤트로픽의 주력 모델인 '클로드 오퍼스 4.7'을 앞섰다. 44개 직종에 걸쳐 지식 업무 수행 능력을 평가하는 'GDPval' 지표에서 84.9%를 기록해 오퍼스4.7(80.3%)을 웃돌았다.
터미널 환경 작업 능력인 '터미널-벤치(Terminal-Bench) 2.0'에서는 82.7%로 오퍼스4.7(69.4%)을 13%포인트(p) 이상 앞질렀고, 사이버 보안 능력 평가 지표인 '사이버짐(CyberGym)'에서도 81.8%로 오퍼스4.7(73.1%)을 뛰어넘었다.
반면 IT 업계에서 실제 수요가 가장 높은 코딩 평가 지표 'SWE 벤치 프로(SWE-bench Pro)'에서는 58.6%에 그쳤다. 오퍼스4.7이 64.3%를 기록한 점을 고려하면 5%p 이상 뒤처지는 수치다. 오픈AI는 이에 대해 "앤트로픽의 모델에서 데이터 암기 징후가 보고됐다"며 해당 평가 결과를 인정할 수 없다는 입장을 밝혔다.
오픈AI는 앞서 앤트로픽 모델이 80% 이상의 점수를 기록한 'SWE 벤치 베리파이드(SWE-bench Verified)' 지표의 평가 데이터가 오염됐다며 해당 지표 사용을 중단하겠다고 밝힌 바 있다.
오픈AI 측은 이날 화상 브리핑에서 앤트로픽의 '미토스(Mythos)'와의 성능 비교를 묻는 질문에 "모델이 매우 정확하다"며 성능지표를 확인해보라고 답했다. 미토스의 파라미터 수와 비교한 GPT-5.5의 규모를 묻는 질문에는 "매개변수 수는 답하기 어렵다"며 구체적인 답변을 피했다.
그레그 브록먼 오픈AI 사장은 이날 프레스콜에서 "이 모델이 정말 특별한 점은 더 적은 지침으로도 더 많은 일을 할 수 있다는 것"이라며 "불분명한 문제를 보고 다음에 무엇을 해야 하는지 스스로 파악해낸다"고 설명했다. 이어 "내게는 이것이 우리가 앞으로 컴퓨터를 사용하는 방식과 대규모 에이전트형 연산이 어떻게 작동할지에 대한 기초를 다지는 것처럼 느껴진다"고 말했다.
오픈AI는 GPT-5.5가 전작 GPT-5.4보다 높은 성능을 내면서도 토큰당 대기시간은 동일하게 유지했다고 밝혔다. "더 이상 성능을 위해 속도를 희생할 필요가 없다"는 것이 오픈AI의 설명이다. 다만 API 가격은 입력 기준 100만 토큰당 5달러, 출력 기준 30달러로 GPT-5.4 대비 두 배 수준으로 올랐다.












