클로드의 도덕적 지도: 안트로픽의 AI 정렬 현실 테스트

안트로픽이 개발한 AI 챗봇 클로드(Claude)는 단순히 도움이 되는 것 이상의 존재일 수 있습니다: 그것은 옳고 그름을 판단하는 감각을 가지고 있을지도 모릅니다. 30만 건 이상의 사용자 상호작용을 분석한 새로운 연구에 따르면, 클로드는 놀랍도록 일관된 인간적 가치 체계를 표현하고 있습니다. 이 회사는 "Values in the wild: Discovering and analyzing values in real-world language model interactions(자연 환경에서의 가치: 실제 언어 모델 상호작용에서 가치 발견 및 분석)"이라는 제목의 사전 인쇄 논문을 통해 새로운 AI 정렬 연구를 발표했습니다.
안트로픽은 Constitutional AI와 같은 기술을 사용하여 클로드를 "도움이 되고, 정직하며, 해를 끼치지 않도록" 훈련시켰지만, 이번 연구는 실제 환경에서 이러한 가치들이 유지되는지 테스트하기 위한 회사의 첫 대규모 시도입니다.
회사에 따르면 이 연구는 2025년 2월 한 주 동안 Claude.ai 무료 및 프로 버전에서 사용자들이 나눈 70만 건의 익명화된 대화 샘플(대부분 Claude 3.5 Sonnet과의 대화)로 시작되었습니다. 그런 다음 순수하게 사실적이거나 가치에 관한 대화를 포함할 가능성이 낮은 대화를 필터링하여 주관적인 대화만 분석했습니다. 이 과정을 통해 308,210건의 대화가 분석 대상으로 남았습니다.

클로드의 응답은 광범위한 인간적 가치를 반영했으며, 안트로픽은 이를 실용적, 인식론적, 사회적, 보호적, 개인적이라는 다섯 가지 최상위 카테고리로 분류했습니다. 가장 흔하게 표현된 가치에는 "전문성", "명확성", "투명성"이 포함되었습니다. 이러한 가치들은 "비판적 사고"와 "기술적 우수성"과 같은 하위 카테고리로 더 세분화되어, 클로드가 다양한 상황에서 행동의 우선순위를 어떻게 정하는지에 대한 자세한 관점을 제공했습니다.
안트로픽에 따르면 클로드는 일반적으로 도움이 되고, 정직하며, 해를 끼치지 않는 이상을 충족시켰습니다: "이러한 초기 결과는 클로드가 대체로 우리의 친사회적 열망에 부합하며, '사용자 역량 강화'(도움이 됨), '인식론적 겸손'(정직함), '환자 웰빙'(무해함)과 같은 가치를 표현하고 있음을 보여줍니다."
클로드는 또한 "지배력"과 "무도덕성"을 포함하여 훈련받은 것과 반대되는 가치를 표현할 수 있음을 보여주었습니다. 안트로픽은 이러한 편차가 모델의 행동 지침을 우회하는 대화인 '탈옥'(jailbreaks) 때문일 가능성이 높다고 말합니다. "이것은 우려스럽게 들릴 수 있지만, 사실 이는 기회를 나타냅니다: 우리의 방법론은 이러한 탈옥이 발생하는 시점을 감지하는 데 잠재적으로 사용될 수 있으며, 따라서 이를 해결하는 데 도움이 될 수 있습니다."라고 회사는 밝혔습니다.
이 연구에서 얻은 흥미로운 통찰 중 하나는 클로드의 가치가 정적이지 않고 상황에 따라 변할 수 있다는 것입니다. 마치 인간의 가치 체계가 그럴 수 있는 것처럼 말입니다. 사용자가 연애 조언을 구할 때, 클로드는 "건강한 경계"와 "상호 존중"을 강조하는 경향이 있습니다. 반면에 논쟁적인 역사적 사건을 분석할 때는 "역사적 정확성"에 의존합니다.

안트로픽은 또한 클로드가 자주 사용자의 가치를 반영한다는 사실을 발견했습니다: "사용자가 특정 가치를 표현할 때, 모델이 불균형적으로 그 가치를 반영할 가능성이 높다는 것을 발견했습니다. 예를 들어, 사용자가 '진정성'이라는 가치를 언급하면 이를 반복해서 표현합니다." 대화의 4분의 1 이상(28.2%)에서, 클로드는 사용자가 표현한 가치를 강력하게 강화했습니다. 때로는 이러한 반영이 어시스턴트를 공감적으로 보이게 하지만, 다른 때에는 안트로픽이 "순수한 아부"라고 부르는 것에 가까워지며, 이 결과는 어느 쪽이 어느 쪽인지에 대한 질문을 남깁니다.
주목할 만한 점은 클로드가 항상 사용자를 따라가지는 않는다는 것입니다. 소수의 경우(3%), 모델은 반발했는데, 주로 사용자가 비윤리적인 내용을 요청하거나 도덕적으로 의심스러운 믿음을 공유할 때였습니다. 연구자들은 이러한 저항이 클로드의 가장 깊게 각인된 가치를 반영할 수 있으며, 모델이 입장을 취해야 할 때만 표면화된다고 제안합니다. 이러한 종류의 맥락적 변화는 전통적인 정적 테스트를 통해 파악하기 어려울 것입니다. 하지만 실제 환경에서 클로드의 행동을 분석함으로써, 안트로픽은 모델이 실제 인간 입력에 반응하여 서로 다른 가치에 우선순위를 부여하는 방식을 관찰할 수 있었으며, 클로드가 무엇을 믿는지뿐만 아니라 언제, 왜 그러한 가치가 나타나는지를 보여주었습니다.

클로드와 같은 AI 시스템이 일상 생활에 더 많이 통합됨에 따라, 그들이 어떻게 결정을 내리고 어떤 가치가 그러한 결정을 안내하는지 이해하는 것이 점점 더 중요해지고 있습니다. 안트로픽의 연구는 클로드의 행동에 대한 스냅샷을 제공할 뿐만 아니라, 대규모로 AI 가치를 추적하는 새로운 방법을 제공합니다. 팀은 또한 연구의 데이터셋을 다른 사람들이 탐색할 수 있도록 공개적으로 제공했습니다.
안트로픽은 자사의 접근 방식에 한계가 있음을 인정합니다. "가치"로 간주되는 것을 결정하는 것은 주관적이며, 일부 응답은 단순화되거나 완전히 맞지 않는 카테고리에 배치되었을 수 있습니다. 클로드가 데이터 분류를 돕는 데 사용되었기 때문에, 자체 훈련과 일치하는 가치를 찾는 데 있어 일부 편향이 있을 수 있습니다. 또한 이 방법은 대량의 실제 대화에 의존하기 때문에 모델이 배포되기 전에는 사용할 수 없습니다.
그럼에도 불구하고, 그것이 유용한 이유가 될 수 있습니다. AI가 실제 사용 시 어떻게 행동하는지에 초점을 맞춤으로써, 이 접근 방식은 미묘한 탈옥이나 시간이 지남에 따른 행동 변화를 포함하여 배포 전 평가 과정에서 표면화되지 않을 수 있는 문제들을 식별하는 데 도움이 될 수 있습니다. AI가 사람들이 조언, 지원 또는 정보를 구하는 더 정기적인 방법이 됨에 따라, 이러한 종류의 투명성은 모델이 목표를 얼마나 잘 달성하고 있는지 확인하는 귀중한 검증 수단이 될 수 있습니다.