• 10개 카테고리·2,485개 세부 항목 기반, 실제 업무 성과 중심 평가
  • 오픈소스 플랫폼 허깅페이스에 공개…다국어·교차 언어 지원으로 차별화
허깅페이스(Hugging Face)에 공개된 트루벤치(TRUEBench) 사이트 메인 화면. (사진=삼성전자)

삼성전자가 생성형 AI 모델의 실질적인 업무 생산성을 측정할 수 있는 자체 벤치마크 ‘트루벤치(TRUEBench, Trustworthy Real-world Usage Evaluation Benchmark)’를 25일 공개했다. 이는 단순 성능 지표를 넘어 실제 오피스 현장에서 AI의 활용 가치를 객관적으로 평가하기 위한 시도이자, 글로벌 벤치마크 표준 구축에 나서는 행보로 해석된다.

이번에 공개된 ‘트루벤치’는 삼성리서치가 사내 AI 적용 경험을 기반으로 개발한 것으로, 기존 영어 중심·단발성 평가에 치우친 벤치마크의 한계를 극복했다. 총 10개 카테고리, 46개 업무, 2,485개 항목으로 구성되어 있으며, 문서 요약·번역·데이터 분석·콘텐츠 생성·연속 대화 등 실제 기업의 AI 활용 시나리오를 세밀하게 반영한 것이 특징이다. 예컨대 사용자의 간단한 요청부터 최대 2만자에 이르는 긴 문서 요약까지 평가 가능해, 실제 생산성 향상에 미치는 영향을 다각도로 측정할 수 있다.

평가 지표 역시 기존과 차별화됐다. 사용자는 최대 5개 AI 모델을 동시에 비교할 수 있으며, 단순 점수뿐 아니라 반응 길이·효율성 등 부가 성과 지표까지 확인할 수 있다. 결과는 전체 점수 외에도 카테고리별 점수가 공개되어 모델별 강·약점을 분석하기 용이하다. 또한 한국어·영어·일본어·중국어·스페인어 포함 12개 언어를 지원하고, 글로벌 환경을 반영해 교차 언어 번역 평가도 가능하다.

삼성은 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 트루벤치 데이터 샘플과 모델별 평가 결과를 담은 리더보드를 공개했다. 이를 통해 전 세계 개발자·연구자들이 자유롭게 AI 모델 성능을 교차 검증하고 참고할 수 있도록 한다는 계획이다.

특히 평가 과정에는 AI 자체가 활용된다. 사람이 작성한 평가 기준을 AI가 재검토해 오류나 모순을 찾아내고, 이를 반복적으로 교차 검증함으로써 정교한 채점 체계를 완성한다. 이 방식은 기존 벤치마크에서 문제로 지적된 평가자의 주관적 편향을 최소화하면서 일관성 있는 결과를 보장한다.

업계 전문가들은 삼성의 이번 공개가 단순한 연구 성과 발표를 넘어 글로벌 AI 생태계에서 ‘표준 전쟁’으로 불리는 벤치마크 경쟁에 본격적으로 가세한 것으로 본다. 최근 구글, 오픈AI 등 주요 기업들도 자사 모델의 강점을 입증할 수 있는 맞춤형 평가 지표 개발에 공을 들이고 있는 만큼, 삼성의 트루벤치는 생산성 중심의 새로운 대안으로 자리잡을 가능성이 높다는 분석이다.

전경훈 삼성전자 DX부문 CTO 겸 삼성리서치장은 “삼성 리서치는 다양한 실제 사례를 기반으로 생산성 AI 기술 경쟁력을 확보해왔다”며 “트루벤치 공개는 AI가 실무 생산성을 얼마나 끌어올릴 수 있는지 객관적으로 보여주는 기준점이 될 것”이라고 강조했다.

삼성의 트루벤치 발표는 AI 성능 경쟁이 연구실 수준을 넘어 실제 ‘업무 효율성’으로 옮겨가고 있음을 보여준다. AI 활용이 기업 경영 전반에 자리잡는 시점에서, 글로벌 기업들이 어떤 척도를 통해 모델 경쟁력을 증명할지가 새로운 기술 주도권 싸움의 핵심이 되고 있다.