기원전 440년경 중국에 살았던 양자라는 사람이 이런 말을 했다. “귀는 소리의 울림을 원한다. 귀에 소리를 들려주지 않으면 청각의 발달을 억누른다. 눈은 아름다움과 색깔을 보기를 원한다. 눈에 이것들을 보여주지 않으면 시각의 발달을 억누른다. (후략)” 읽고 놀랐다. 뇌과학적으로 완벽하게 타당한 내용이기 때문이다. 실제로 멀쩡한 눈과 귀를 가지고 태어나도 유아기에 충분한 시각 자극과 청각 자극을 경험하지 못하면, 보지 못하고 듣지 못하게 된다. 경험을 통해 시각 정보와 청각 정보를 처리할 수 있는 구조로 뇌 속 신경망이 다듬어져야 하기 때문이다.

일러스트_김상민 화백

매일의 경험이 주는 피드백을 통해 뇌는 어제 다르고 오늘 다르며 변해간다. 그런 작은 변화들이 이어지다보면 어느 틈에 다른 음악을 듣고, 다른 말과 행동을 하며 살아가게 된다. 이런 변화를 다수의 사회 구성원들이 공유하면 문화가 변한다. 학창시절에 좋아했던 연예인의 사진을 보고 촌스러움에 깜짝 놀라는 것도 이런 이유 때문일 것이다. 

■ 협력과 경쟁의 강화학습

경험에 따라 유연하게 변하는 성질은 신경계의 핵심적인 특징 중 하나이지만, 변화의 방향이 무작위적인 것은 아니다. 긍정적인 피드백을 최대화할 수 있는 행동은 숙련시키고, 부정적인 피드백을 받았던 행동은 줄이는 방향으로 변해간다. 이를 강화학습이라고 한다. 강화학습은 인공지능과 관련해서 자주 언급되는 분야인 기계학습의 한 부분이다. 

알파고는 하나의 행위자에게 강화학습을 시켜서 바둑을 두게 만든 경우다. 하지만 한 환경에서 여러 행위자를 학습시키는 상황도 고려해볼 수 있다. 이렇게 하면 자신의 이해를 최대화하려는 개별 행위자가 다른 행위자들과 어떻게 협력하고 경쟁하는지 살펴볼 수 있다. 어떤 조건에서 어떤 행동이 더 많이 나타나는지 살펴봄으로써 인간의 도덕성에 대한 통찰도 얻을 수 있다.

최근의 한 강화학습 연구에서는 여러 행위자가 사회적인 딜레마 상황에서 어떻게 행동하는지를 살펴보았다. 첫 번째 실험에서는 두 행위자가 각자 최대한 많은 사과를 먹어야 했다. 각 행위자는 매회 사과를 모을 수도 있고, 상대 행위자를 빔으로 쏠 수 있었다. 상대가 쏜 빔을 피할 수도 있지만, 못 피하고 두 번 맞으면 일정 시간 동안 사과를 먹을 수 없었다. 행위자가 먹어서 사라진 사과는 일정 시간이 지나면 다시 자라났다. 각자 노력하거나 경쟁자를 없애는 두 가지 전략이 가능한 상황인 셈이다. 연구자들은 사과가 천천히 자라고(환경이 풍족하지 못하고) 빔에 맞은 뒤 회복이 더딜 때(경쟁의 효과가 클 때), 상대방을 빔으로 공격하는 행동이 늘어난다는 사실을 발견했다. 먹고살기 각박한 상황에서 아귀다툼이 일어나는 것은 사람이나 인공지능이나 마찬가지인 모양이다. 

두 번째 실험에서는 두 늑대가 각자 더 많은 사냥감을 얻어야 했다. 하지만 혼자 사냥할 때보다, 두 늑대 모두 사냥감으로부터 제한 반경 이내에 있을 때 더 큰 보상을 얻을 수 있었다. 각자 노력하거나 협력함으로써 성과를 높이는 두 가지 전략이 가능한 셈이다. 이 경우, 협력을 통한 보상이 클수록, 제한 반경이 커서 협력이 쉬울수록, 각자 행동하는 비율이 줄고 협력이 늘었다. 경쟁과 협력 중 어느 전략이 더 유리한 환경인가에 따라서 인공지능의 사회적인 행동도 달라진 셈이다. 이는 사회가 경쟁과 협력 중 어느 쪽을 더 포상하는지에 따라 사회 분위기가 달라질 수 있음을 시사한다.

연구자들은 개인의 특성이 사회적인 행동 전략에 어떤 영향을 주는지도 살펴보았다. 실험 결과, 전략을 개선할 때 상대 행위자와의 경험을 더 풍부하게 반영할 수 있는 개인일수록 사과 모으기 게임에서는 덜 공격적이고, 늑대 사냥 게임에서는 더 협력적인 행동을 보였다. 이는 사과 모으기 게임에서 상대방의 빔 공격을 피하거나, 늑대 사냥 게임에서 상대와 협력하는 방법을 더 잘 습득할 수 있기 때문으로 풀이된다. 실제로 늑대 사냥 게임에서는 다른 늑대를 찾은 뒤에 함께 움직이거나, 사냥감을 찾은 뒤에 다른 늑대를 기다리는 등 서로 다른 협력 방식이 있을 수 있어서 상호 간에 이를 조율하는 과정이 필요하다.

이 결과는 경쟁적인 상대로부터 어떻게 자신을 지키고, 어떻게 협력할지 구체적인 방법을 습득하는 것이, 경쟁을 줄이고 협력을 유도하는 데 중요함을 암시한다. 실제로 지나친 경쟁에 부정적인 측면이 많고 협력이 좋다고 머리로는 알지만, 자신을 지키면서도 협력할 수 있는 방법을 알지 못하면 선뜻 협력하려는 마음이 나지 않는다. 억지로 상대를 믿으려고 했다가 상대의 배신에 낭패를 당하기도 한다. 개인의 도덕성과 사회 세태만 탓할 것이 아니라 바람직한 협력을 위한 현실적인 모델도 제시되어야 하는 것이다.

■ 우리는 서로의 원인이자 결과

여러 인공지능 행위자의 강화학습에서는 학습 환경과 상대 행위자의 행동에 따라 피드백이 달라진다. 우리가 살아가는 사회에서는 이 피드백을 사람이 준다. 예를 들어 길을 가르쳐 주었다가 “도를 믿으십니까?” 부류의 사람들 때문에 기분이 나빠진 경험은 나의 다음 행동에 영향을 준다. 비슷한 경험을 공유하는 이들이 많아지면서 최근에는 진짜 길을 물어보기도 어려워졌다. 서로에게 친절하기 힘든 세상에서 살게 된 것이다. 반면에 친절을 악용한 것에 대한 부정적인 피드백은 부족했던지, “도를 믿으십니까?”는 여전히 성행하고 있다.

사람을 대하는 한 사람의 태도가 이후 만 사람을 대하는 태도에 영향을 미치고, 한 사람을 대하는 태도에서 만 사람을 대하는 태도가 드러난다. 그래서 모든 사람은 한 사람인 동시에 만 사람이다. 거대한 현대 사회에서는 개인이 작고 무력하게 느껴지곤 한다. 하지만 내가 주는 피드백, 상대가 주는 피드백의 영향은 결코 작지 않다.

<송민령 카이스트 바이오 및 뇌공학과 박사과정>

Related Posts Plugin for WordPress, 

Blogger...
Posted by KHross

댓글을 달아 주세요