AWS "기업의 데이터 전략 구축을 위한 3요소"

스와미 시바수브라마니안 AWS 데이터&머신러닝 부사장 기조연설

컴퓨팅입력 :2022/12/01 08:25

[라스베이거스(미국)=김우용 기자] "창의성에 대한 신경 과학을 기업 조직에 적용하는 것은 쉽지 않다. 새로운 아이디어를 데이터에서 뽑아내려면 동적 데이터 전략을 구축해야 하고, 이것이 새로운 고객 경험으로 이어져야 한다. 조직에서 새로운 아이디어가 형성되고 번창할 수 있는 적합한 구조와 기술이 필요하다. 이런 데이터 전략 수립은 벅찬 작업이다."

아마존웹서비스(AWS)의 데이터 및 머신러닝 담당 부사장인 스와미 시바수브라마니안 부사장이 30일(현지시간) 미국 라스베이거스에서 열린 'AWS 리인벤트 2022' 셋째날 기조연설에서 한 말이다. 

그는 기조연설에서 기업의 데이터 전략 수립을 위한 세가지 축을 제시하고, 각 기둥을 어떻게 구축할 수 있는지 설명했다. 세 기둥은 '미래를 보장하는 데이터 기반 구축', '결합된 조직을 엮는 솔루션', '데이터 민주화' 등이다.

그에 따르면, 기업이 활용해야 하는 데이터는 곳곳에서 생성된다. 흩어져 있는 데이터 생성 지점에서 조직 내 중앙화된 데이터 저장소까지, 그리고 데이터 저장소에서 실제 분석 도구와 인공지능(AI) 애플리케이션까지 일련의 파이프라인이 구축돼야 한다.

스와미 시바수브라마니안 AWS 부사장

생성 장소에서 저장소에 이르는 길은 여러 갈래일 수 있고, 각 경로에서 움직이는 데이터는 형식이 다를 수 있기에 표준화해야 한다. 데이터 흐름이 끊겨도 안 된다. 저장소에 정리된 데이터라도 아무나 접근하면 안된다. 권한없는 사용자의 데이터 접근은 보안 위협 요소가 된다. 분석가, 데이터과학자, 인공지능 연구자 등이 데이터를 활용하고자 할 때 쉽고 안전한 도구를 제공할 수 있어야 한다.

이처럼 데이터를 정리하고 접근 가능한 위치에 저장하는 작업에 상당한 시간과 노력이 필요하다.

스와미 시바수브라마니안 부사장은 "복잡한 파이프라인을 구축해 데이터가 바른 위치로 이동하도록 하고, 자격있는 개인이 비즈니스 전반에서 데이터에 안전하게 접근할 수 있는 매케니즘을 설정해야 한다"며 "마지막으로 데이터를 분석하거나 활용하기 쉬운 상태로 만들어야 한다"고 설명했다.

그는 "이런 모든 요소가 조화를 이뤄 결합돼야 아이디어의 불꽃이 일어날 수 있다'며 "신경과학 이론을 기업의 데이터 과학에 적용하고, 그 데이터의 가치를 극대화하는데 필요한 프로세스를 제공하기 위한 긴 길이 있다"고 덧붙였다.

■ 미래를 보장하는 데이터 기반 구축

첫째로 미래를 보장하는 데이터 기반 구축이란 향후 변화를 수용할 수 있도록, 기술 부채를 발생시키지 않는 기반을 구축하는 것이다.

시바수브라마니안 부사장은 "구축된 데이터 전략이 없으면 조직은 경쟁 우위를 확보하는 데 필요한 결정을 내릴 수가 없다"며 "미래에 대한 데이터 기반에는 네 가지 핵심 요소가 있어야 한다"고 말했다.

데이터 기반의 4요소는 '모든 워크로드에 적합한 도구', '대규모 성능', '데이터 관리의 수작업 제거', '데이터 저장소의 가용성과 보안' 등이다.

'모든 워크로드에 적합한 도구'란 비즈니스 성장과 변화에 따라 데이터 유형도 변화하고 사용 사례도 바뀌는데, 이에 적응할 수 있는 적정 도구가 필요하다. AWS는 비정형 데이터를 위한 다이나모DB와 도큐먼트DB, 정형 데이터를 위한 아마존 오로라, 빅데이터 플랫폼인 '아마존 EMR', SQL 쿼리 조회 엔진 '아마존 아테나', 클라우드 데이터웨어하우스(DW) '아마존 레드시프트', 머신러닝 및 딥러닝 모델을 생성하는 도구 '아마존 세이지메이커' 등 다양한 데이터 관련 도구를 제공한다. 데이터 접근 권한을 관리하는 'AWS 레이크포메이션', 데이터 거버넌스 도구 '아마존 데이터존' 등으로 조직 내 활용을 원활히 할 수 있다.

이중 데이터 조회와 분석을 위한 환경으로 아파치 스파크 사용 사례가 많다. AWS는 아파치 스파크를 자사 데이터 서비스에서 더 빠르고 쉽게 사용할 수 있는 방법 두가지를 올해 행사에서 소개했다. 이날 AWS는 아마존 아테나로 아파치 스파크로 쿼리를 던질 수 있는 '아마존 아테나용 아파치 스파크'를 공개했다.

시바수브라마니안 부사장은 "새 기능을 통해 아파치 스파크에서 대화형 분석 실행을 1초 만에 바로 할 수 있다"며 '아파치 스파크용 아마존 아테나를 사용하면 다른 서버리스 스파크 제품보다 최대 75배 빠르게 스파크 워크로드를 가동할 수 있고, 아테나 콘솔이나 아테나 API를 통해 간소화된 노트북 환경으로 스파크 애플리케이션을 구축할 수도 있다"고 설명했다.

전날 공개된 'AWS 레드시프트-아파치 스파크 제로ETL 통합'은 아파치 스파크에서 DW 데이터를 기존 커넥터 사용 대비 10배 빠른 실행 속도를 제공한다.

대규모 고성능 서비스에 대해선 DB, DW, 데이터레이크 등에 대한 내용을 말했다. 그는 "데이터 저장소의 불가피한 급증을 처리하고, 데이터를 빠르게 분석하고 시각화하려면 업계 최고의 성능이 필요하다"며 "용량 요구 사항에 영향을 미치지 않으면서 비용을 관리할 수도 있어야 한다"고 말했다.

마이SQL, 포스트그레SQL 등 오픈소스 관계형 데이터베이스(RDBMS) 서비스인 아마존 오로라는 상용 DB 대비 10분의 1 비용으로 대규모로 확장 가능한 고성능 DB를 제공한다. NoSQL인 다이나모DB, 도큐먼트DB 등도 많이 쓰인다.

그러나 도큐먼트DB 이용자들은 성능에 영향을 미치지 않는 대규모 확장에 대한 방안을 원했다. 이에 올해 행사에서 '아마존 도큐먼트DB 엘라스틱 클러스터'를 정식 출시했다. 아마존 도큐먼트DB 엘라스틱 클러스터는 가동 중지나 성능 저하 없이 수분 내 페타바이트급 스토리지로 자동 확장가능하다.

적절한 도구를 도입했다면 반복적인 수작업을 덜어냄으로써 데이터 기반을 더 효율화할 수 있다. 머신러닝 기반 자동화가 그 해법이다.

머신러닝으로 데이터 활용을 자동화하려면 기계학습 용도로 잘 정리된 데이터가 필요하다. 그러나 기업에서 확보하는 데이터 80%가 이미지나 손글씨 같은 비정형 데이터기에 이를 구조화된 데이터로 바꾸는 작업이 필요하다. 데이터 프렙, 데이터 라벨링 등의 작업이 여기 해당된다.

AWS는 세이지메이커의 데이터 준비와 라벨링 작업을 자동화할 수 있는 방안을 올해 선보였다. 또 세이지메이커에서 지리공간 데이터를 바로 활용할 수 있는 '세이지메이커 지오스페이셜ML 지원'이 발표됐다. 시바수브라마니안 부사장은 "지리 공간 데이터는 아주 방대하고 구조화돼 있지 않아 예측을 시작하기 전 데이터 준비에만 엄청난 시간이 필요하다"며 "데이터 분석과 시각화 도구도 제한적이어서 데이터 간의 관계성을 파악하기 힘들다"고 설명했다.

그는 "세이지메이커 지오스페이셜ML 지원 기능을 통해 클릭 몇번으로 여러 데이터 소스에서 세이저메이커로 지리 공간 데이터를 가져올 수 있다"며 "데이터를 준비하기 위해서 특별히 구축된 작업을 통해 대규모 데이터 세트를 효율적으로 처리하고 보강할 수 있으며, 내장된 시각화 도구를 통해 대화형 앱으로 데이터를 분석하고 모델 예측을 탐색할 수 있다"고 밝혔다.

미래를 보장하는 데이터 기반의 마지막 요소인 가용성과 보안에 대해선, 적절한 보호 장치를 마련해야 한다는 점을 강조했다. 기본적으로 AWS의 스토리지 서비스와 데이터 제품군은 99.999999999%의 가용성을 보장하며, AWS 레이크포메이션으로 데이터 접근 권한을 관리할 수 있다.

기존에 DW는 일부 사용자만 활용하고, 특정 시간에만 사용했기 때문에 민감한 시스템이 아니었다. 그러나 이제 다양한 사용자가 수시로 접근하고, 항상 최신 상태에서 데이터를 활용하는 '실시간성'이 더해져 DW도 미션크리티컬 시스템으로 격상됐다. 이에 AWS는 레드시프트의 고가용성을 보장하는 '아마존 레드시프트 멀티AZ'를 선보였다. 레드시프트 멀티AZ는 여러 가용성존에서 액티브-액티브 형태의 DW 분석 환경을 구성하게 해준다.

데이터 관련 보안의 헛점 중 하나인 '포스트그레SQL 확장'에 대한 보안 강화 방안도 선보였다. 포스트그레SQL의 장점으로 꼽히는 다양한 '익스텐션'은 기존 파일시스템에 대한 최상위 권한 접근을 제공하기 때문에 자칫 보안취약점으로 변모할 여지도 갖는다. AWS는 포스트그레SQL에 인증된 익스텐션을 사용하게 하는 오픈소스 프로젝트 '트러스티드 랭귀지 익스텐션 포 포스트그레SQL'를 이날 공개했다.

시바수브라마니안 부사장은 "개발자는 RDS나 오로라에서 포스트그레SQL 익스텐션을 안전하게 활용할 수 있게 된다"며 "익스텐션을 AWS 인증을 기다리지 않고 사용 사례에 필요한 데이터베이스에 기능을 추가할 수 있다"고 설명했다. 이어 "또한 다양한 개발언어를 지원하며, 핵심 DB에 대한 의도치 않은 보안 영향을 걱정하지 않고 신속하게 혁신을 시작할 수 있게 된다"고 강조했다.

AWS 클라우드 내 고객 데이터에 대한 악의적 접근으로부터 보호하기 위한 방안도 소개됐다. AWS는 고객의 서비스 계층에 대한 계정의 비정상적 활동을 AI로 탐지해 방어하는 'AWS 가드듀티'를 제공하고 있는데, 이같은 위협 탐지 서비스의 범위를 DB 영역으로 확장했다. '아마존 가드듀티 RDS 프로텍션'은 머신러닝을 활용해 아마존 오로라에 저장된 데이터에 대한 엑세스 공격 등의 잠재적인 위협을 식별한다.

■ '결합된 조직을 엮는 솔루션' 데이터 연결

데이터를 저장하고 활용하게 하기 좋은 환경으로 기반을 닦는 것만큼이나 데이터의 연결, 흐름의 품질을 관리하는 것도 중요한 일이다.

시바수브라마니안 부사장은 "데이터 경로부터 데이터 거버넌스 도구에 이르기까지 조직 전체의 결합된 조직을 엮는데 도움을 주는 일련의 솔루션이 필요하다"며 " 시간이 지남에 따라 성장을 가능하게 하는 품질 도구가 있어야 하고, 통제된 협력 시스템에서 활용돼야 한다"고 설명했다.

데이터레이크는 다양한 데이터 생성소에서 데이터를 가져오는데, AWS 글루는 이같은 목적을 수행하는 데이터 통합 서비스다. 데이터를 정해진 규칙에 맞춰 가져와야 활용할 수 있는데, 품질 관리를 위한 모니터링은 잦은 오류 때문에 매우 힘든 일로 여겨진다. AWS는 데이터 품질을 간단하고 자동으로 관리할 수 있는 방안으로 'AWS 글루 데이터 퀄리티' 기능을 공개했다.

AWS 글루 데이터 퀄리티 기능은 데이터레이크로 가는 데이터의 품질을 자동으로 검증하고, 수준 이하의 데이터를 걸러낸다. 엔지니어는 몇 시간 내에 측정 데이터 세트에 대한 자동 규칙을 생성해 데이터의 최신성과 정확성을 높일 수 있다. 이는 통상 수일씩 걸리던 일이다.

조직 내 구성원의 데이터 접근을 원활히 지원하려면 데이터 거버넌스 시스템을 구축해야 한다. 시바수브라마니안 부사장은 "데이터 거버넌스는 과거에 데이터를 사일로에 가두는 방어 수단이었지만, 현재는 올바른 거버넌스 전략을 통해 적절한 사람이 필요할 때 언제 어디서나 데이터에 접근하고 잘 정의된 보호책을 통해 더 빠르게 움직이고 혁신하는 데 도움을 주는 것으로 여겨진다"고 말했다.

데이터 거버넌스 수립은 매우 복잡한 일이다. 거대한 조직에서 다양한 역할을 가진 사람이 각자 필요에 따라 데이터를 원하게 되므로, 그 규칙과 권한을 설정하는데 오랜 시간이 필요하다. AWS 레이크포메이션은 이런 데이터레이크의 거버넌스 구축을 단순화하는 서비스다. 여기에 더해 올해 행사에서 '레드시프트 데이터 공유용 중앙화된 접근 제어' 기능이 소개됐다. 이 기능을 사용하면 중앙 관리자가 조직 전체의 레드시프트 데이터 접근을 통제할 수 있다.

또, 머신러닝 환경의 데이터 거버넌스 관리를 위해 '아마존 세이지메이커 ML 거버넌스'도 나왔다. 세이지메이커에 롤매니저, 모델카드, 모델대시보드 등의 거버넌스 관리 기능을 추가함으로써 수분 안에 특정 사용자의 데이터 접근권한을 설정하고(롤매니저), 머신러닝 모델의 수명주기 전반에 걸쳐 신뢰할 수 있는 정보와 문서를 유지하며(모델 카드), 모델의 성능을 모니터링(모델 대시보드)할 수 있다.

또, 전날 발표된 'AWS 데이터존'은 데이터레이크뿐 아니라 전체 데이터 환경에 대한 거버넌스를 구축하게 한다. AI 모델을 통해 적절한 사용자에게 적절한 데이터 카탈로그를 쉽게 제공하게 한다.

AWS 데이터존에서 데이터 카탈로그의 메타데이터를 자동 관리하는 예시

이어 시바수브라마니안 부사장은 전날 공개된 '제로 ETL' 비전 투자를 다시한번 강조했다.

그는 "보통 사일로 간의 데이터를 연결하려면 아주 복잡한 ETL 파이프라인이 필요하고, 데이터에 대해 다른 질문을 하거나 다른 머신러닝 모델을 구축할 때마다 또 다른 파이프라인을 만들어야만 한다"며 "데이터 통합은 더 원활해야하고, 이를 더 쉽게 만들기 위해 AWS는 데이터 파이프라인을 다시는 수동으로 구축할 필요가 없는 제로 ETL 미래에 투자하고 있다"고 강조했다.

전날 아마존 레드시프트와 아마존 아테나 간 ETL 없는 통합이 출시됐고, 레드시프트와 아파치 스파크 간 ETL 업는 통합이 출시됐다. 여기에 더해 레드시프트가 S3의 데이터를 자동으로 복사하는 '아마존 레드시프트 S3 자동복사' 기능이 출시됐다.

시바수브라마니안 부사장은 "이 업데이트를 통해서 고객은 지속적인 수집을 위해 간단한 데이터 파이프라인을 쉽게 만들고 유지 관리할 수 있다"며 "사용자 지정 솔루션에 의존하거나 타사 서비스를 관리하지 않고 S3에 새 파일이 형성되면 수집 규칙이 자동으로 트리거돼 레드시프트로 데이터를 복사해 가져온다"고 설명했다.

아마존 앱플로우에서 제공되는 커넥터

AWS는 이에 더해 다양한 써드파티의 데이터 원천에서 데이터를 가져올 수 있는 커넥터 도구인 '아마존 앱플로'에서 50개 이상의 커넥터를 제공한다. 페이스북 애드, 구글애널리틱스, 인스타그램애드, 구글애드, 링크드인애드 등의 데이터 커넥터를 사용할 수 있고, 스노우플레이크, 서비스나우, SAP, 세일즈포스, 슬랙 등 SaaS 애플리케이션 데이터를 가져오는 커넥터도 이용가능하다. 아마존 세이지메이커의 데이터랭글러도 40개 이상의 데이터 소스에 접근할 수 있다.

■ '사람을 키우고, 누구나 쉽게 쓰도록' 데이터 민주화

데이터를 다양하게 활용할 수 있도록 기반과 품질을 갖췄다 해도 그를 쓰는 사람이 없다면 무용지물이다. 전문적인 데이터 분석가나 데이터 과학자의 인력 규모는 정해져 있고 쉽게 늘어나기 힘든데, 일반 현업 담당자와 주요 경영진도 적극적으로 데이터를 활용할 수 있게 하는 교육 프로그램이 데이터 민주화와 연결된다.

시바수브라마니안 부사장은 "더 많은 직원이 데이터를 이해하고 또 통찰력을 얻을 수 있도록 지원할 때만 데이터를 통한 혁신이 가능하다"며 "점점 늘어나는 데이터와 머신러닝 역할을 채울 수 있는 인재가 필요하므로, 현재 직원에게 더 많은 전문성 개발 프로그램을 제공하고 비 기술 직원이 데이터로 더 많은 작업을 할 수 있도록 지원해야 한다"고 강조했다.

그는 "미국에서 매년 5만4천명의 데이터 사이언스 전공 졸업생을 배출하지만, 2029년까지 데이터 사이언스 관련 일자리는 100만명으로 늘어날 것"이라며 "그 빈 틈을 메우려면 개발자를 양성하는 교육자를 훈련해야 한다"고 말했다.

AWS는 머신러닝 유니버시티를 운영하고 있다. 이 머신러닝 유니버시티에 '교육자 훈련' 과정이 제공되게 됐다. 미국 내 22개 지역 대학교에서 이 과정을 활용해 데이터과학 교육자 25명을 처음으로 배출했고, 미국 전역에서 350명의 교육자를 양성할 계획이다. AWS는 한편으로 저소득층의 데이터과학 전공자에게 학비를 지원하는 장학금을 제공하고 있다.

AWS 머신러닝 유니버시티는 교육자 훈련 프로그램을 제공한다.

한편으로 비 기술직 근로자가 데이터를 활용하게 하는 노코드 및 로우코드 기술도 데이터 민주화의 방안으로 거론된다. AWS의 비즈니스인텔리전스(BI) 서비스인 '퀵사이트'는 로우코드 플랫폼으로 발전하고 있는데, 올해 행사에서 자연어로 데이터를 조회하고 요약된 분석 파일을 받아볼 수 있는 '퀵사이트 큐'가 공개됐다. 코드 없이 다양한 머신러닝 모델을 구축하는 세이지메이커 캔버스도 강조됐다.

관련기사

시바수브라마니안 부사장은 "미래를 대비한 기반을 구축하고, 연결된 조직을 구축하며, 조직 전반에 걸친 데이터 민주화를 이루게 되면, 데이터로 더 많은 작업을 수행할 수 있을 것"이라며 "하지만 이런 전략에서 궁극적으로 불꽃을 만드는 것은 각 개인이라는 것"이라고 밝혔다.

그는 "데이터 기반 문화를 통해 직원들이 그들의 목적을 달성할 수 있도록 지원하는 것은 조직 리더의 책임"이라고 덧붙였다.