현재 딥러닝의 활동 무대는 점점 넓어지고 있어서 나도 그 전체 양상을 파악하기는 어렵다. 뿐만 아니라 매일같이 새로운 기술이 등장하고 있다고 해도 과언이 아닌 상태다. 그러다 보니 딥러닝의 미래를 점치기는 힘들지만, 크게 보아 '언어'와 '음성' 그리고 이미지가 중요한 응용 분야가 되리라는 것은 틀림없 어 보인다. 이 세 가지 부분의 입력과 출력이 인간의 지능 발전에서 대단히 중요하기 때문이다. 아예 지능 자체를 '언어', '음성', '이미지를 자유롭게 다를 수 있는 상태나 능력이라고 할 수도 있다. 당연히 이 세 가지의 입력과 출력은 경제나 비즈니스적인 관점에서도 매우 중요하다. 그리고 이들을 딥러닝 이외의 방법론으로 해결하기 는, 적어도 지금으로서는 상당히 어렵다. 그럼 순서대로 한번 살펴보자. 먼저 딥러닝의 언어 인식 실력을 말해보자. 구글이 예전부터 '구글 번역' 이란 이름으로 다양한 언어 간의 번역 서비스를 제공해온 사실은 알고 있을 것이다. 이 구글 번역에 2016년 11월부터 딥러닝이 적용되기 시작했다. 일본어에는 없는 정보(백이 누구의 것인지)가 자동으로 부여되고 있다. 딥러닝이 적용된 구글 번역 화면이다. 일본어로는 '父母ry I her , 아버지는 어머니가 백을 깜빡했다며 화를 냈다)”라고만 돼 있을 뿐 그 백이 누구 것인지 는 분명히 나타나 있지 않다. 그런데 영어 번역문에서는 'My father got angry that my mother forgot her bag' 이라며 백에 관한 정보가 러닝에 의해 적절히 부여 돼 있는 것을 볼 수 있다. 기존의 구글 번역에도 기계학습 기술이 적용돼 있기는 했지만 이런 식의 번역은 불가능했다. 그러던 것이 딥러닝을 적용한 최근 모텔에서는 같은 문장 속 다른 단어와의 연결을 바탕으로 문맥을 학습한 뒤 문장 전체를 봤을 때 각각의 단어를 어떻게 옮기면 좋을지 결정하는 방식으로 바뀌었다. 이로써 각 언어 사이에 구조적으로 존재하는 정보의 불균일성을 감쪽같이 커버 함과 동시에, 기존 방식보다 정확도가 높은 번역문을 골라낼 수 있게 됐다. 현재 딥러닝을 통한 번역 품질은 상당 수준에 올라 있다. 구어체 문장이 아니라면 조만간 실용화가 가능한 수준으로 올라올지도 모른다. 다음으로는 딥러닝의 음성 인식' 실력을 한번 확인해보자. 현재 영어, 중국어 같은 언어권에서는 스마트폰 음성 입력을 사용하는 것이 상당히 일반화되어 있다. 그런데 일본어는 스마트폰의 프릭(flick)입력 방식이 50개의 히라가나 문자를 입력하기에 적합해서 그런지, 음성 입력을 이용하는 사람이 그다지 많지 않은 것 같다. 하지만 음성 입력의 정확성 자체는 이미 상당한 수준이다. 음성 인식에 딥러닝 기법을 도입한 구글은 음성 인식의 오인식을이 불과 1년 사 이에 23퍼센트에서 8퍼센트로 낮아졌다고 발표했다(2015년 5월 현재). 또 2016년 11월 반도체 업체인 엔비디아NVIDIA가 발표한 기사 에 따르면 마이크로소프트의 연구이 오인식률을 5.9퍼센트까지 떨어뜨렸다고 한다. 실제로 나도 종종 스마트폰으로 음성 인식을 시도해보곤 하는데 정확성이 점점 향상되고 있는 것을 체감하고 있다. 이 수치는 앞으로도 계속 개선될 것이다. 그렇지만 음성 인식에 어떤 획기적인 변화가 일어나려면 뒤에서 설명할 '멀티모달Multimodal(다 양한, 다중모드) 적인 발전을 거쳐 인공지능이 문맥을 이해할 수 있는 수준이 되어야 할 것 같다는 것이 개인적인 생각이다. 마지막으로 딥러닝의 이미지 인식 실력을 살펴보자. 이미지 인식은 딥러닝의 꽃이라고도 할 수 있는 분야다. 컵이나 고릴라 이미지를 알아맞히는 것쯤은 이제 식은 죽 먹기고, 지금은 그런 수 준을 넘어서 고양이나 꽃의 종류까지 맞힐 수 있다. 또 이미지 인식뿐 아니라 이미지를 입력해서 다시 이미지로 출력할 수도 있다. 이미지를 집어넣어 다시 이미지로 출력한다니 그게 무슨 의 미가 있느냐고 생각하는 사람도 있을 것이다. 그런데 가령 흑백 이미지를 입력했더니 자동으로 컬러 이미지가 출력된다면 어떨까? 실제 이런 연구가 많이 이루어지면서, 옛날 흑백 사진 이나 흑백 영화에 색을 입힌 사례를 많이 볼 수 있다. 또 선만 그려진 그림에 색을 입히는 기술도 이미 웹서비스 중인 상태다. 조만간 만화가들이 작업할 때 색을 칠할 필요가 없어질지도 모른다. 다른 기계학습 기술에는 없고 딥러닝에는 있는 특징. 그것은 바로 입출력을 상당히 자유롭게 설계할 수 있다는 점이다. 이를 테면 음성을 입력한 뒤 이 음성에 걸맞은 이미지를 출력할 수도 있고, 이미지를 입력한 다음 적절한 설명문을 출력할 수도 있다. 이런 방식을 '멀티모달' 이라고 한다. 아직 최첨단 인공지능에서도 입출력 루트는 제한적이지만, 만약 입력출력의 루트를 이미지, 글자, 음성에서 각각 자유롭게 선택할 수 있게 되고 또 그것이 정확하기까지 하다면 많은 사람들은 이것을 지능으로 인정할 수밖에 없을 것이다.