아인스 칼럼
피지컬 AI 시리즈 2탄
학습된 판단은 왜 위험해지는가
피지컬 AI가 구조를 잃어버린 순간
피지컬 AI(Physical AI, PAI) 논의에서 가장 자주 등장하는 문장은 이것이다.
“충분히 학습되면, 판단은 자연스럽게 안전해질 것이다.”
직관적으로는 그럴듯하다. 더 많은 데이터, 더 많은 시뮬레이션, 더 긴 학습 시간. 인간도 경험을 통해 판단이 좋아지니, 기계도 마찬가지일 것처럼 보인다. 실제로 강화학습 기반 PAI는 제한된 환경에서 놀라운 성능을 보여준다.
문제는 이 가정이 물리계에서는 성립하지 않는다는 점이다.
학습은 판단을 만들지만, 구조를 만들지는 않는다
강화학습이 만드는 것은 정책(policy)이다. 어떤 상태에서 어떤 행동을 선택할지에 대한 함수다. 이 정책은 보상 함수에 의해 형성되고, 반복 학습을 통해 점점 정교해진다.
하지만 여기서 빠져 있는 것이 있다. 그 정책이 전체 시스템을 어떤 상태 공간으로 이끄는지에 대한 구조적 설명이다. 개별 행동은 좋아 보일 수 있다. 보상도 잘 받는다.
그러나 그 행동들의 조합이 시스템 차원에서 어떤 상태 전이를 만들고, 어떤 상태를 영구적으로 배제하거나 고착시키는지는 정책 자체로는 드러나지 않는다.
이 순간, 판단은 있지만 구조는 사라진다.
물리계는 “한 번의 판단”을 허용하지 않는다
디지털 환경에서는 잘못된 판단이 곧바로 실패로 끝난다. 리셋하고 다시 학습하면 된다. 하지만 물리계는 다르다. 한 번의 판단이 시스템을 회복 불가능한 상태로 몰아넣을 수 있다.
문제는 이 위험이 극단적 상황에서만 발생하지 않는다는 점이다. 오히려 정상적으로 보이는 판단의 연쇄 속에서 나타난다.
시스템이 더 이상 진행할 수 없는 상태에 빠지는 경우, 혹은 계속 움직이지만 목적 상태에는 도달하지 못하는 경우. 이 두 상황은 각각 교착상태(deadlock)와 공전상태(livelock)로 알려져 있다.
중요한 것은 이것들이 개별 행동의 문제가 아니라, 전체 시스템 구조의 문제라는 점이다.
왜 학습은 deadlock과 livelock를 피하지 못하는가
강화학습은 국소적 보상에 최적화된다. 특정 상태에서 더 나은 행동을 선택하는 데는 탁월하지만, 전체 상태 공간의 형상을 인식하지는 못한다.
Deadlock은 학습 관점에서 단순한 실패 상태다. 보상이 낮아질 뿐이다. 하지만 물리계에서는 시스템 정지, 임무 실패, 사고로 이어질 수 있다.
Livelock은 더 교묘하다. 시스템은 계속 움직인다. 보상도 완전히 나쁘지 않다. 하지만 목표 상태에는 도달하지 못한다. 학습은 이를 문제로 인식하지 못한 채, “열심히 맴도는” 정책을 강화할 수 있다.
이 두 현상은 학습의 부족이 아니라, 학습이 다루지 않는 영역에서 발생한다.
성능이 좋아질수록 위험은 더 보이지 않는다
역설적이게도, PAI의 성능이 좋아질수록 이 문제는 더 감춰진다. 데모는 성공적이고, 실패는 드물며, 시스템은 대부분 정상적으로 보인다.
그러나 바로 그 이유 때문에 위험은 더 커진다. 드물게 발생하는 구조적 실패는 실험에서는 잘 드러나지 않고, 실제 운용 환경에서야 모습을 드러낸다. 이때 우리는 뒤늦게 깨닫는다.
“잘 학습된 판단”과 “책임질 수 있는 판단”은 다르다는 사실을.
판단을 맡기기 전에 물어야 할 질문
그래서 피지컬 AI에서 가장 먼저 던져야 할 질문은 이것이다. 이 판단은 시스템을 멈추게 만들지 않는가. 이 판단은 목적 없는 반복에 빠지지 않는가.
그리고 이 질문에 사전에 답할 수 있는가. 이 질문에 답하지 못한 판단은, 아무리 똑똑해 보여도 물리계에 맡길 수 없다. 이것은 기술적 보수성이 아니라, 자율성을 부여하기 위한 최소한의 조건이다.
다음 글에서는 이 질문을 기존 제어공학은 어떻게 다뤄왔는지, 그리고 왜 피지컬 AI가 그 언어를 다시 불러와야 하는지를 살펴본다.
– 3탄에서 계속