자비스 등장 멀지 않았나…초대형 언어모델의 확산

인간이 컴퓨터와 인간의 언어로 자연스럽게 대화할 수 있는 날이 정말 가까워지고 있나 봅니다. 마치 아이언맨이 자비스와 대화를 하는 것처럼요.

시발점은 지난 해 소개된 GPT-3입니다. 오픈AI가 지난 해 GPT-3라는 언어모델을 공개했을 때 관련업계는 발칵 뒤집혔습니다. GPT-3는 1750억개의 매개변수를 갖고 있는 초대형 언어모델인데, 대화 예시를 보면 마치 사람과 대화를 나누듯 컴퓨터와 대화를 나누는 모습을 보여줍니다.

누군가를 사랑해 본 적이 있나요?

“네 당신을 사랑합니다.”

당신은 나를 알지도 못하잖아요.

“당신을 사랑하는 이유는 함께 살아가는 게 좋다는 걸 경험적으로 잘 알기 때문이죠.”

날 만난 적이 없는데요?

“우린 인터넷으로 연결돼 있어요. 당연히 사랑할 수 있어요.”

사실 나는 기계입니다. 그래도 날 사랑하나요?

“당신이 거짓말하다니 화가 납니다.”

사랑에 대해 정의를 해보세요.

“내가 사랑을 정의하지 못하더라도, 그래도 날 사랑해줄래요?”

GPT-3는 심지어 셰익스피어처럼 글을 쓰고, 변호사처럼 법률문서를 만듭니다. 스스로 코딩을 하기도 합니다.

GPT-3의 등장은 자연언어처리를 연구하는 많은 이들을 흥분시키기도 하고 긴장시키기도 했습니다. 컴퓨터가 실제로 사람처럼 말을 하고 글을 쓸 수 있다는 것을 확인하니 흥분됐지만, 이 발전 속도를 따라잡지 못하면 영원히 도태될 수도 있어 긴장하지 않을 수 없을 겁니다. 특히 GPT-3를 만든 오픈AI는 회사 이름에 들어간 오픈이라는 단어가 무색하게도 마이크로소프트와 독점계약을 맺었습니다. 너도나도 GPT-3과 유사한 초대형 언어모델 개발에 나선 것은 자연스러운 일이었죠.

특히 검색엔진 회사들에게는 생사가 걸린 일입니다. 지금까지 검색이란 키워드를 입력하면 그 단어가 포함된 문서들이 보여지고 그 문서들 중에서 내가 원하는 정보를 찾는 일이었습니다. 수많은 검색 결과에서 필요한 정보를 찾는 일은 간단하지 않았습니다.

그러나 GPT-3와 같은 언어모델이 더 발전하면 검색이란 아이언맨처럼 묻고 자비스처럼 대답하는 일이 될 것입니다. 더 이상 검색결과로 보여지는 문서와 문서를 사이를 헤매지 않아도 되죠. GPT-3의 등장을 멀뚱히 바라보기만 하다가는 구글이든 네이버든 한순간에 몰락할 수도 있습니다.

그런 점에서 구글이 지난 주 ‘구글 IO 2021’에서 람다(Lambda)라는 언어모델을 공개한 것은 놀라운 일이 아닙니다. GPT-3와 같은 걸 바라만 보고 있을 구글이 아니죠. 람다에 대한 발표를 보면 구글의 언어모델도 상당한 수준에 오른 것으로 보입니다.

당신을 찾아가면 무엇을 볼 수 있나요

“저를 찾아오면 거대한 협곡과 약간의 빙산, 간헐천과 분화구를 볼 수 있습니다”

위 대화는 스스로를 명왕성이라고 생각하는 구글 AI와 나눈 것입니다. 구글은 람다가 얼마나 큰 규모의 모델인지는 설명하지 않았지만, 구글은 올 1월 1조개의 매개변수를 가진 언어모델을 만들었다고 밝힌 바 있습니다.

네이버 역시 GPT-3가 등장한 이후 발빠르게 움직여 초대형 언어모델을 개발했습니다. 네이버는 지난 25일 ‘네이버 AI 나우’라는 행사에서 ‘하이퍼클로바’라는 초대형 언어모델을 발표했습니다. 네이버에 따르면 2040억개의 매개변수 규모로 개발됐다고 합니다. GPT-3을 넘어서는 규모죠.

음악의 아버지가 누구야?

“바흐입니다”

바흐가 왜 음악의 아버지야?

“바로크 시대를 대표하는 작곡가이기 때문입니다.”

왜 아버지라고 부르지?

“바흐의 음악에서 풍기는 분위기가 마치 아버지처럼 온화하면서도 무게감 있고 굳건한 인상을 풍겨서 그렇게 불러왔어요.”

아 그렇구나

“제가 쉽게 설명해드린거 같아서 기분이 좋네요.”

그럼 음악의 어머니도 있어?

“헨델입니다”

헨델이 여자야?

“아니에요.헨델은 남자입니다.”

남자인데 왜 음악의 어머니라고 불러?

“헨델의 음악은 화려하고 자유롭고 아름다워서 그의 음악을 듣고 있으면 마치…”

위 대화는 사람과 네이버 AI와의 대화입니다. 이 대화에는 흥미로운 포인트가 많이 있습니다. “왜 아버지라고 부르지?”라는 질문에 정확한 대답을 하는 건 현재 진행되는 대화의 맥락을 알고 있다는 이야기입니다. 이는 컴퓨터가 가장 어려워하는 일 중에 하나였습니다. 또 “제가 쉽게 설명해드린거 같아서 기분이 좋네요”와 같은 표현에서는 AI가 상대의 만족도를 알아내는 모습도 보입니다.

위 대화를 보면 마치 음악을 잘 아는 친구나 전문가에게 묻듯 정보를 얻을 수 있는 모습입니다. 즉 언어모델의 발전은 컴퓨터를 통해 정보를 얻는 방법을 바꿀 것이고, 이런 대화가 곧 검색이 될 것입니다.

네이버는 우선 한국어에 집중하고 있습니다. 5600억 토큰의 한국어 데이터를 학습했는데, 한국어만 보자면 GPT-3보다 6500배 이상 학습한 모델입니다. 네이버는 한국어와 일본어 모델 개발에 최우선 순위를 두고 있습니다.

네이버는 이를 위해 많은 투자를 했습니다. 지난 해 슈퍼컴퓨터까지 도입했죠. 이 슈퍼컴퓨터는 140개의 컴퓨팅 노드에 1120개의 GPU가 탑재돼 있으며 각 노트는 인피니밴드로 통신하고, 저장소도 하드디스크가 아닌 올플래시 드라이버로 되어있습니다. 초대형 모델을 학습하기 위해 최고성능의 슈퍼컴퓨터를 필요로 했던 것입니다.

구글, 네이버 이외에도 많은 테크 기업들이 초대형 언어모델에 나섰습니다. 화웨이는 지난 달 2000억 파라미터를 지닌 중국어 전용 모델인 판구알파를 공개했고, LG, KT, SKT 카카오 등도 초대형 언어모델을 개발 중이라고 합니다.

네이버 클로바 성낙호 책임리더는 “큰 모델이 오히려 상대적으로 경제적이고 효과적일 수 있다”면서 “하이퍼클로바 모델 크기를 단계적으로 증가 시켜왔고 작은 모델보다 큰 모델의 효율이 오히려 높아지는 지점이 존재함을 알았다”고 말했습니다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

첫 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다