eINS S&C

아인스 칼럼

국가대표 AI의 수능 점수

우리는 무엇을 위해 AI를 만드는가

최근 ‘국가대표 AI’라는 이름으로 개발되는 대형언어모델(LLM)이 수능 수학 문제를 얼마나 잘 푸는지에 대한 평가 결과가 화제가 되고 있다. 김종락 서강대 수학과 교수 연구팀에 의하면 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮았다고 한다. 몇 점을 받았는지, 인간 평균을 넘었는지 같은 숫자가 빠르게 소비된다.

 

하지만 이 장면은 묘한 질문을 남긴다. 국가대표 AI의 목표가 정말 수능 평가에서 고득점을 받는 것인가. 이 질문에 선뜻 “그렇다”고 답하기는 어렵다. 오히려 지금 필요한 것은 점수를 둘러싼 논쟁이 아니라, 국가대표 AI가 지향해야 할 목적을 다시 묻는 일이다.

 

 

시험 점수는 기술의 단면일 뿐이다

 

수능 평가는 잘 정의된 문제를 얼마나 정확히 풀었는지를 측정한다. 이는 모델의 계산 능력, 패턴 인식 능력, 일정 수준의 추론 능력을 가늠하는 데는 도움이 된다. 그러나 그 점수가 보여주는 것은 기술의 극히 일부다.

 

국가가 AI에 기대하는 역할은 시험 문제를 빠르고 정확하게 푸는 것이 아니다. 국가가 마주한 문제들은 대부분 문제 정의 자체가 어렵고, 제약 조건이 복잡하며, 정답이 하나로 정해져 있지 않다. 이런 문제를 다루는 데 필요한 역량은 시험 점수와는 성격이 다르다.

 

국가적 문제는 ‘정답 맞히기’ 문제가 아니다

 

정책 결정, 국방, 재난 대응, 에너지, 의료 같은 영역에서 중요한 것은 정답을 맞히는 능력이 아니라 판단의 질이다. 무엇이 진짜 문제인지 정의하고, 불완전한 정보 속에서 선택지를 비교하며, 실패의 비용을 고려해 결정을 내려야 한다.

 

수능 문제처럼 틀리면 다시 풀 수 있는 환경은 현실에 존재하지 않는다. 국가적 의사결정에서의 한 번의 판단은 되돌릴 수 없는 결과를 낳기도 한다. 이런 환경에서 AI가 해야 할 역할은 고득점이 아니라, 인간의 판단을 보조하고 위험을 줄이는 것이다.

 

 

점수가 가려버리는 중요한 질문

 

LLM의 수능 점수가 강조될수록 중요한 질문은 뒤로 밀린다. 이 모델은 어떤 상황에서 신뢰할 수 있는가, 어떤 가정 위에서 답을 내놓는가, 어디까지가 가능하고 어디부터가 한계인가 같은 질문들이다.

 

점수는 직관적이지만, 그만큼 위험하다. 점수는 복잡한 능력을 하나의 숫자로 단순화한다. 그리고 그 숫자는 마치 문제 해결 능력 전체를 대표하는 것처럼 오해되기 쉽다. 이것이 바로 점수의 착시다.

 

국가대표 AI가 지향해야 할 진짜 목적

 

국가대표 AI가 지향해야 할 첫 번째 목적은 문제 정의를 돕는 능력이다. 무엇을 알고 있고 무엇을 모르는지 정리하고, 어떤 정보가 더 필요한지 드러내는 역할이다. 이는 정답을 내놓는 것보다 훨씬 중요한 기여다.

 

두 번째 목적은 현실 제약을 고려한 의사결정 지원이다. 시간, 비용, 위험을 함께 고려하며 여러 선택지를 비교하고, 각 선택이 가져올 결과를 가상적으로 검토할 수 있도록 돕는 것이다.

 

세 번째는 검증과 설명 가능성이다. 왜 그런 판단을 했는지, 어떤 가정과 데이터에 기반했는지를 설명할 수 있어야 한다. 이는 국가적 책임이 수반되는 영역에서 필수적인 조건이다.

 

 

시험에서 이기는 AI가 아니라, 현실에서 실패를 줄이는 AI

 

국가대표 AI는 시험장에서 이기는 존재가 아니라, 현실에서 실패를 줄이는 존재여야 한다. 수능 점수는 참고 자료일 수는 있지만, 목표가 될 수는 없다. 점수를 높이는 데 최적화된 AI와 국가 문제를 다루는 데 적합한 AI는 전혀 다른 방향을 향한다.

 

지금 우리가 던져야 할 질문은 분명하다.

 

“몇 점을 받았는가”가 아니라, “이 AI는 국가가 마주한 불확실한 문제를 다루는 데 어떤 도움을 주는가”다.

 

이 질문을 회피한 채 점수만 이야기한다면, 국가대표 AI라는 이름은 공허한 수사가 된다. 목적을 다시 묻는 것, 바로 거기서부터 논의는 다시 시작되어야 한다.

 

국가대표 AI는 지금, 과연 어디로 가고 있는가?

위로 스크롤