마이크로소프트, 사람처럼 사진설명을 달아주는 AI 개발

먼저 아래 사진을 보자. 만약 이 사진에 설명(캡션)을 단다면 뭐라고 달까? 아마 “공을 잡는 야구선수” 정도면 크게 벗어나지 않을 것이다. 사진에 등장한 사람이 입은 옷을 보고 그가 야구선수라는 것을 추론하고, 야구장갑을 낀 팔을 공을 향해 쭉 뻗고 있다는 것을 보면 그가 공을 잡으려 한다는 사실을 쉽게 인지한다.

그러나 컴퓨터는 다르다. 컴퓨터는 사진을 이해하는 것이 아니다. 컴퓨터가 사람처럼 사진설명을 달도록 하는 것은 매우 어려운 일이다. 흔한 예로 컴퓨터는 개와 고양이를 구분하는 것도 매우 힘들어한다. 현대의 AI는 무수한 데이터 학습을 통해 개와 고양이를 일정부분 구분할 수 있지만, 아직 완벽하진 않다.

이 가운데 마이크로소프트는 20일 “이미지 캡셔닝 기술(사진설명을 다는 기술)을 인간 수준으로 고도화했다”고 선언했다. 사실 위에서 “공을 잡는 야구선수”는 마이크로소프트의 AI가 단 사진설명이다.

이 AI 엔진은 아래 사진에 “들판 속 보리 확대 사진” “서핑 보드를 들고 있는 남성”이라고 사진설명을 달았다.

왜 자동으로 사진설명을 다는 기술이 필요할까? 이 기술이 가장 유용한 사람은 시각장애인이다. 일반적으로 시각장애인은 TTS(Text To Speech) 기술을 활용해 화면의 글자들을 듣는다. 그러나 문서에 이미지가 나오면 시각장애인은 이해할 수가 없다. TTS가 이미지를 읽어주지는 않기 때문이다. 사진설명이 달려있는 그림이라면 다행이지만, 사진설명이 없다면 시각장애인은 그 문서를 완전히 이해할 수 없다. 반면 사진설명이 없던 이미지에 AI가 자동으로 정확한 사진설명을 달아준다면 시각장애인과 일반인의 정보습득 격차는 훨씬 줄어들 수 있다.

사진설명 기술이 유용한 또하나는 검색엔진이다. 현재 우리가 검색창 키워드를 입력하고 엔터를 누르면 검색엔진은 이미지의 제목이나 설명, 태그와 같은 메타데이터에서 검색한다. 이 때문에 이런 메타데이터가 달려있지 않은 이미지는 검색이 되기 어렵다. 자동으로 사진설명이 달린다는 것은 검색할 수 있는 메타데이터가 자동으로 생성된다는 의미이기 때문에 검색엔진에는 매우 유용한 기술이 될 수 있다.

마이크로소프트에 따르면, 이러한 기술 향상을 그림책과 유사하게 시각적 어휘(visual vocabulary)를 사용했다고 한다. 먼저 단순 어휘들이 태깅된 이미지를 학습했다. ‘사과’라는 태그가 달린 사과 이미지와 같은 것들이다. 이후 각각의 태그는 이미지의 특정 개체에 매핑해 사전교육을 시켰고, 정밀교정을 거쳐 문장 작성법을 학습하도록 했다고 한다.

회사 측은 이 방식이 완성된 문장을 사용하는 훈련 보다 더욱 효과적인 결과를 만들어냈다고 전했다. 이를 통해 새로운 개체가 포함되어 있는 사진들도 시각적 어휘를 사용해 보다 정확한 사진설명이 가능해졌다고 설명했다.

업그레이드된 이미지 캡셔닝 기술은 현재 애저 코그니티브 서비스(컴퓨터 비전)을 통해 사용 가능하다. 올해 말에는 워드, 아웃룩, 파워포인트 등에서도 사용 가능하다. 또 시각장애인에게 주변 환경, 인물, 사물, 글자, 이미지 등을 설명해 주는 모바일 애플리케이션인 ‘시각 AI(Seeing AI)’와도 통합된다.

마이크로소프트 AI 플랫폼 그룹 소프트웨어 엔지니어링 매니저 사킵 사이크(Saquib Shaikh)는 “모두가 알트 텍스트 기능을 문서, 웹, 소셜미디어 등의 이미지에 적용한다면, 시각장애인도 콘텐츠를 더욱 쉽게 이해하고 사람들과의 대화에 참여할 수 있을 것”이라고 말했다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network