데이터 중심 사고의 한계

아인스 칼럼

데이터 중심 사고의 한계

데이터와 모델을 넘어, 목적과 시스템 설계로

AI 전략은 오랫동안 데이터에서 출발해왔다. 더 많은 데이터, 더 큰 모델, 더 강력한 인프라. 데이터가 IT(정보기술)를 만나 정보화 시대를 열었고, 데이터가 신경망(NN)을 만나 AI 시대를 열었다.

이 접근은 분명 성과를 냈다. 그러나 에이전트 AI와 피지컬 AI 단계에 들어선 지금, 우리는 다시 질문해야 한다. 데이터 중심 사고만으로 다음 단계로 나아갈 수 있는가.

데이터는 현실이 아니다

데이터는 현실 그 자체가 아니다. 데이터는 특정 관점과 측정 체계 안에서 추출된 현실의 표현이다. 무엇을 변수로 정의했는지, 무엇을 생략했는지, 어떤 시간과 공간 단위를 선택했는지에 따라 전혀 다른 세계가 구성된다.

데이터 중심 사고는 현상을 충분히 모으면 본질에 도달할 수 있다고 믿는다. 그러나 상관관계의 정교함이 곧 인과의 이해를 보장하지는 않는다. 예측 정확도가 높아졌다고 해서 목적 적합성이 확보되는 것도 아니다. 현상은 축적되지만, 목적과 제약은 자동으로 정의되지 않는다.

온톨로지: 구조를 세우려는 시도

이 한계를 인식한 일부 AI 전문가들은 온톨로지를 에이전트 AI의 핵심으로 본다. 특히 팔란티어(Palantir)를 벤치마킹 대상으로 언급하기도 한다.

팔란티어의 접근은 데이터를 먼저 쌓는 것이 아니라, 객체와 관계를 정의하는 온톨로지 구조를 세우는 데서 출발한다. 이는 데이터 중심에서 구조 중심으로 이동하려는 시도다.

그러나 온톨로지도 중립적이지 않다. 어떤 개념을 정의하고, 어떤 관계를 허용하며, 무엇을 배제할 것인가는 목적과 관점을 반영한다.

월드모델과 시뮬레이션의 한계

월드모델은 세계를 표현한 모델이다. 그러나 동일한 현실도 목적과 관점에 따라 전혀 다른 모델로 구성된다. 보상 함수의 설계는 곧 가치 판단이다.

최근에는 시뮬레이션이 데이터 부족 문제를 해결할 수 있을 것처럼 이야기된다. Sim-to-Real 전략은 분명 강력한 도구다. 그러나 시뮬레이션 데이터는 현실 데이터가 아니라 모델이 생성한 데이터다.

모델이 틀리면, 시뮬레이션은 정교한 착각을 만들어낸다. 시뮬레이션은 데이터 대체 수단이 아니라 가정 검증 도구다. 신뢰성 있는 모델과 명확한 목적이 있을 때만 의미가 있다.

PINN: 데이터와 물리의 결합

최근에는 PINN(Physics-Informed Neural Networks)을 대안으로 제시하는 경우도 많다. 데이터 학습에 물리 방정식을 직접 결합해 데이터 부족 문제를 보완하자는 접근이다.

이는 데이터 중심 학습의 한계를 보완하려는 중요한 시도다. 그러나 PINN 역시 물리 법칙이 명확한 영역에서 유효하다. 정책, 사회 시스템, 복합 전장 환경처럼 지배 방정식이 명확하지 않은 영역에서는 여전히 목적 정의와 제약 설계가 더 중요하다. PINN은 도구다. 목적을 대신 정의해주지 않는다.

MoE의 두 얼굴

AI 기술은 Mixture of Experts(MoE)와 같은 모델 아키텍처를 통해 효율과 확장성을 확보했다. 그러나 모델 구조의 MoE가 시스템 차원의 MoE, 즉 Measure of Effectiveness를 보장하지는 않는다.

에이전트 AI와 피지컬 AI 단계에서는 정확도보다 목적 적합성이 중요하다. 무엇을 최적화하는지 정의하지 않으면, 최적화는 방향을 잃는다.

데이터 과학을 넘어 시스템 과학으로

에이전트 AI는 행동한다. 피지컬 AI는 현실 세계에서 결과를 만든다. 이 단계에서는 데이터 과학 위에 시스템 과학과 시스템 엔지니어링이 결합되어야 한다.

요구사항 정의, 제약 조건 명시, 기능 분해, 아키텍처 설계, 검증과 확인(V&V), 안전 설계, 책임 구조가 전략의 중심이 되어야 한다.

데이터는 재료이고, 모델은 계산 장치다. 온톨로지는 구조를 정의할 수 있고, 월드모델은 환경을 표현할 수 있으며, 시뮬레이션과 PINN은 학습을 보완할 수 있다. 그러나 방향과 책임은 시스템 설계에서 나온다.

국민 행복과 국가 발전을 위한 AI

AI 발전의 병목은 데이터 부족이 아니라 사고의 틀에 있다. 데이터 중심 사고는 현상을 축적하지만 목적을 정의하지 않는다. 모델 중심 사고는 계산을 고도화하지만 책임을 설계하지 않는다. 시뮬레이션과 PINN은 도구를 확장하지만 전략을 대신해주지 않는다.

이제 전략은 바뀌어야 한다. 데이터에서 구조로, 모델에서 시스템으로, 성능에서 효과로. 그래야만 대통령이 제시한 ‘국민 행복과 국가 발전에 기여하는 AI’가 가능하다. 기술적 성능이 아니라 목적의 명확성, 효과의 검증, 그리고 책임 있는 설계 위에서 작동하는 AI.

AI 패권은 데이터의 양이 아니라, 국가가 어떤 가치를 중심에 두고 시스템을 설계하느냐에서 갈린다. 지금이 바로 그 전환을 시작해야 할 골든타임이다.