모든 기술이 그렇지만, 처음 등장할 때는 큰 기대를 받는다. 모든 문제를 해결할 수 있을 것 같았다. 그래서 많은 관심과 연구비가 집중된다. 그러나 시간이 지 나면서 기술의 본질을 이해하게 되고, 더불어 그 기술의 한계도 알려지게 된다. CNN이 딥러닝이라는 유행어를 만들면서 인공지능에 관심을 끌어올린 것도 벌써 10년이 되어간다. 그동안 딥러닝에 대한 이해가 깊어지고, 활용하는 영역도 넓어졌지만, 여러 한계와 약점도 밝혀졌다. 그 약점들은 기계 학습이 갖는 근원적인 것부터 엔지니어링 노력 부족에 이르기까지 다양하다. 이 약점들이 곧 해결될 것이라는 기대도 있지만, 쉽지 않을 것이라는 우려도 있다. 이 장에서 딥러닝과 기계학습의 한계부터 인공지능의 본질적 한계까지 살펴보자.
많은 데이터와 컴퓨팅을 요구하는 딥러닝
기계 학습은 기본적으로 통계적 학습 및 추론 방법이다. 그 성능은 데이터의 양과 질이 결정한다. 훈련 데이터가 많으면 많을수록 좋은 성능을 보인다. 기계 학습에서 필요로 하는 데이터의 양은 모델 파라미터의 수가 증가함에 따라 기하급수적으로 증가한다. 파라미터의 수에 비하여 데이터가 적으면 학습에 사용한 데 이터에서는 잘 작동하지만, 새로 보는 데이터에는 잘 작동하지 않는다. 우리가 기계 학습을 통해서 인공지능 시스템을 만드는 이유는 새로운 문제에서 해결책을 얻고자 하는 것인데 이것은 치명적인 약점이다. 더구나 '심층이란 단어에서 유추할 수 있듯이 심층 신경망은 많은 수의 노드와 연결로 구성된다. 즉 파라미터의 수가 매우 크다. 따라서 심층 신경망을 훈련시키기 위해서는 방대한 데이터를 확보해야 한다. 이는 딥러닝 기법의 확산에 큰 장애요인이다. 또 훈련데이터는 정확해야 한다. 특히 지도 학습에 사용되는 입력과 출력 쌍의 훈련 데이터는 철저히 점검하여 정확도를 높여야 한다. 정확하지 않은 데이터로 훈련시킨다면 그 결과를 보장할 수 없다. 쓰레기 같은 데이터가 입력되면 쓰레기 같은 결과가 나오는 것은 당연한 이치다. 데이터를 모으고, 빠진 정보를 채워 넣고, 잘못된 데이터를 수정하는 등 데이터 준비 작업에는 많은 노력이 필요하다. 더구나 이 과정은 자동화가 쉽지 않다. 딥러닝에서 다루는 심층 신경망은 매우 복잡하고 방대한 데이터로부터 학습한다. 최근 발표된 GPT-3 자연어 모델은 1,750억 개의 연결선으로 구성되어 있다. 5,000억 개 단어, 700기가바이트의 문장이 훈련 데이터로 사용되었다. 이렇게 큰 신경망을 훈련시키는 데에는 강력한 컴퓨터 능력이 필요하다. 이 훈련을 V100이라는 GPU 한 개로 훈련시키면 200년이 걸린다는 계산이 나왔다. 지구 온난화를 딥러닝이 촉진하다는 비판이 빈말이 아니다. 자동차, 공장 등 인공지능을 필요로 하는 현장에서 직접 학습하고 학습결과를 운용해야 할 필요성이 커지고 있다. 또 노트북이나 스마트폰에서도 기계 학습을 수행하고, 그 결과를 실시간으로 운용할 수 있다면 인공지능이 빠르게 확산될 것이다. 현장의 기기에서 학습하고 활용하는 것을 에지 컴퓨팅이라고 한다. 이를 위 해 신경망 계산을 가속화하는 반도체 칩의 개발 경쟁이 치열하다. 학습 효율을 높여서 적은 데이터로 효율적으로 훈련하는 방법에 대한 관심도 높아졌고 적은 컴퓨 팅 자원으로 딥러닝을 수행하려는 녹색 인공지능의 연구도 시작되었으나 아직 성과는 미미하다. 많은 데이터와 컴퓨팅이 필요한 현재의 딥러닝 기법은 개선되어야 한다. 고양이 모습을 이해하기 위해 수백만 장의 고양이 사진과 며칠에 걸친 계산이 필요하 다는 것은 난센스다. 새로운 돌파구가 필요하다.
데이터에는 편견이 있다.
데이터에는 편견이 있을 가능성이 항상 있다. 편견이 존재하는 사회에서 획득한 데이터에는 그 사회의 편견이 그대로 따라온다. 데이터에 내재된 편견은 학습을 통해서 알고리즘으로 전이된다. 개발자가 의도했든 그렇지 않은, 데이터의 편견은 알고리즘과 인공지능 시스템의 편견으로 이어져 불공정한 결과를 가져온다. 많은 기계 학습 인공지능이 인종차별을 하고 있다. 구글의 영상 분류 프로그램이 흑인 여성을 고릴라라고 분류했다. 사용했던 훈련 데이터가 백인 남자 중심 0 로 되어 있었기 때문이다. 또한 얼굴인식기가 흑인 얼굴을 탐지하지 못했고, 재범 가능성을 예측하는 알고리즘이 흑인에 대한 선입견을 갖고 차별한다는 것이 알려졌다. 이로 인해 이 예측 시스템 사용에 대한 적법성 논란이 불거졌었다. 얼굴인식 알고리즘 시장은 공항, 회의장, 소매점, 법 집행 분야에서 급격히 성장하고 있으나 얼굴인식의 무분별한, 또 나쁜 용도로 사용되는 것에 대하여 우려의 목소리가 많다. 인식 알고리즘의 정확성에 대하여도 의심하고 있다. 더구나 흑인 여성에 대한 인식률은 매우 낮다는 보고가 있다. 이 기술이 개인의 프라이버시를 침해하고 자유를 억압하는 나쁜 기술로 인식되어 사용을 금지하거나 자제하는 분위기다. 직업에 대한 편견이 인공지능에게 그대로 전이되는 경우도 있다. '그 남자는 간호사다' 라는 영어 문장을 성 구분이 없는 터키어로 번역했다가 다시 영어로 되돌려보니 '그녀는 간호사다'라는 문장이 도출되었다. 간호사는 여성 직업이라는 편견이 작용한 것이다. 또 다른 예로, 인공지능 스피커의 이름은 모두 여성 이름이고, 목소리는 여성 목소리다. 상사는 남자이고 비서는 여성이라는 선입견의 결과다. 같은 말을 해도 남성 목소리와 여성 목소리에 다른 반응을 보이기도 한다. 세상에 편견이 존재하는 한 기계 학습의 편견을 극복하기는 어렵다. 데이터에 내재된 편견을 자동으로 배제할 수 없기 때문이다. 데이터와 훈련 결과를 일일 이 점검해야 하는데 쉽지 않은 일이다. 채용심사를 대신하는 알고리즘이 인종이나 성 차별을 하지 않는다는 것을 어떻게 보장할 수 있을까? 알고리즘이 어떻게 작 동하는지를 투명하게 보여주는 것만이 현실적인 대안책이다. 의사결정 과정을 설명하려면 연관관계뿐만 아니라 인과관계, 계층 관계 등 다양한 세상의 모델이 필요하다. 그러나 기계 학습 시스템이 배우는 것은 단지 연 관관계뿐이다. 기계 학습 인공지능에게 “왜?”라고 물으면 대답하지 못한다. 인과관계를 이해하지 못하기 때문이다. 하지만 사람의 의사결정 과정은 인과관계 즉 "왜?" 의 연속이라는 것이 rudea Peaut의 주장이다. 그의 주장을 빌려오자. 창세기에서 하나님이 “먹지 말라는 사과를 왜 먹었냐?" 라고 물으니 아담이 자신의 의사 결정 과정을 "왜?"를 통해서 보여주었다. 왜냐하면 당신이 정해준 여자인 이브가 권해서”라고 설명한다. 이는 인과관계를 말하는 것이다. 이브도 “왜냐하면 뱀이 나를 속여서”라며 인과관계를 설명한다. 심층 신경망 모델은 인과관계를 이해하지 못하기 때문에 의사결정 과정을 사람의 언어로 설명하지 못하는 것이 당연하다. 또 심층 신경망은 만약 ~이라면 같은 가정 상황에서의 판단도 처리하지 못한다. 만약 ~이라면 같은 가정 상황에서의 판단은 사람들이 일상적으로 하는 것이다. 예로, '젊은이들이 결혼을 하지 않으면 우리 사회는 어떻게 될까?' 라는 문제를 생각해보자. 여기에 대한 대답은 데이터 기반으로 도출하기 쉽지 않다. 관련 사례가 없거나 있다 하더라도 기계 학습에 사용할 만큼 충분하지 않기 때문이다. 사람이 이런 가정법 질문에 답을 할 수 있는 것은 가상의 세상 모델을 만들어 이용할 수 있기 때문이다. 나름대로 이론을 만들어서 그 이론을 바탕으로 추론을 거쳐 답을 도출한다. 그 이론이 맞고 틀리고는 다른 차원의 문제다. 인간이 이해하는 수준으로 의사결정 과정을 설명하려면 의사결정자가 보는 '세상을 공유해야 한다. 세상의 모텔은 3차원 물리적 관계, 계층구조, 인과관계 등 다양한 지식들로 구성된다. 사람은 오랜 진화를 통해 세상 모델을 물려받았으며, 출생 직후 더욱 강 인한 모델을 형성하는 것으로 알려졌다. 또 이러한 세상 모델을 인지작용에서 매우 강력하게 사용한다. 우리 눈은 보이는 것을 보는 것이 아니라 생각하는 것을 보는 것이라고도 할 수 있다.
딥러닝은 악의적 공격에 취약하다.
딥러닝으로 학습된 심층 신경망의 결론은 작은 변화에도 잘 부서진다. 잘 인식하던 영상에 사람이 인지하지 못할 정도의 조그마한 변형이라도 가해지면 엉뚱 | 한 결과를 낸다. 그림을 보자. (1)의 영상에 매우 작은 흑백의 노이즈를 고르게 분산시켰다. 이런 노이즈를 학계에서는 '소금과 후추의 노이즈' 라고 한다. 사람이 인식하지 못할 정도의 작은 노이즈다. 하지만 노이즈를 추가하자 갑자기 인식에 실패했다. 2)에서는 잘 인식하던 영상의 배경에 스터커를 붙였더니 인식에 실패했다. 배경이 조금 바뀐다고 물체 인식 결과도 바뀐다면 문제가 심각하다. (3)에서는 교통표지판을 조금 변형했다. 사람은 그래도 잘 인식하지만 심층 신경망은 인식 하지 못했다. 정지신호를 빠른 속도로 진행하라는 것으로 잘못 인식했다. 이러한 취약점은 자율주행차의 안전성에 커다란 문제를 일으킬 수 있다. 테러리스트들에 게 쉽게 악용될 여지가 있다. 자연어 이해에서도 작은 변화에 부서지는 사례가 발견되었다. 영어 문장에서 단어를 거의 같은 의미의 단어로 바꾸었을 뿐인데, 문장 의 감성 평가가 완전히 달라졌다. 이런 사례가 지적된 건 벌써 수년 전이었지만, 발생 원인이 무엇이고, 어떨 때 발생하는지 여전히 불분명하다. 이를 어떻게 회피할 수 있을지에 대한 문제에도 아직 답이 없다. 취약성은 딥러닝의 오류가 아니라 딥러닝의 특성이다. 훈련 결과는 예측성이 높지만 부서지기 쉬운 것이다. 인간이 이해할 수 없는 특성들이 훈련데이터 집합에 광범위하게 존재하고 이 특성이 훈련되는 것이라 생각된다. 이런 특성을 이용한 확률적 판단이 중첩되었을 때, 사람의 판단과 상이한 결론에 도달하는 것으로 이해할 수 있다. 최근 소트웨어의 안전성과 보안을 연구하는 연구자들이 본격적으로 분석하기 시작했다.