많은 학습 데이터 확보와 데이터의 질적 개선에 따라 증가하는 AI 정확도 - Andrew Ng
서울--(뉴스와이어)--인공지능(AI) 솔루션 전문 업체 디에스랩글로벌의 자동화 MLOps 플랫폼 ‘DS2.ai’의 서버 설치형(On-Premise) 서비스가 9월 8일부터 제공된다.
클라우드 스토리지에 데이터를 올려야 하는 서비스형 소프트웨어(SaaS) 서비스의 경우, 데이터 보안 등의 이유로 서비스를 이용하기 어려운 기업들이 많았다. DS2.ai의 서버 설치형 서비스는 사내 서버에 설치해 사용할 수 있어서 폐쇄망에 따른 데이터 반출 문제나, 데이터 보안 문제를 해결할 수 있을 것으로 보인다.
◇데이터 중심(Data Centric)의 MLOps
디에스랩글로벌의 서버 설치형 DS2.ai 서비스는 데이터 중심(Data-centric)의 MLOps 플랫폼이다.
인공지능 학계 권위자인 미국 스탠퍼드대 앤드류 응(Andrew Ng) 교수는 모델 중심(Model-centric)보다 데이터 중심(Data-centric)적 관점에서 인공지능에 접근해야 한다고 말한다. 이는 인공지능 모델의 학습은 결국 방법론일 뿐, 학습되는 데이터 자체의 품질이 중요하다는 뜻이다. 실제로 데이터를 많이 확보할수록 노이즈 데이터의 필터링이 쉬우며, 이를 통한 모델 정확도의 개선 효과가 더 크다고 설명한다.
이런 관점에서 접근한 DS2.ai는 인공지능 학습용 데이터 세트를 쉽게 구축하도록 돕는 무제한 오토라벨링 기능을 포함해 개발된 모델의 운영 과정에서 수집한 데이터를 꾸준히 검수·보완해 높은 품질의 데이터를 확보, 인공지능을 개선할 수 있는 재학습 환경까지 데이터 중심(Data-centric)의 머신러닝 파이프라인을 구축한다.
기존 데이터 및 MLOps팀의 단순·반복적 업무를 DS2.ai의 자동화 서비스로 수행하면서, 전문가들은 모델 관리보다 데이터 개선 자체에 집중해 더 효율적인 프로세스로 개선된 결과물을 얻는 방식이다.
◇무제한 오토라벨링부터 데이터 검수 및 보완을 통한 모델 개선까지
먼저 DS2.ai는 서버 설치형 서비스 고객사에게 무제한 오토라벨링을 제공한다. 학습용 데이터 세트를 구축하는 데이터 라벨링은 인공지능 개발 단계의 중요한 첫 단추다. 작업자가 수동 라벨링한 최소한의 데이터만 있다면, 오토라벨링과 검수 및 보완 작업을 통해 많은 분량의 데이터를 신속·간편하게 라벨링할 수 있다.
물체 인식, 카테고리 분류 등 대표적인 데이터 라벨링 작업을 위한 오토라벨링을 지원하며, 바로 사용할 수 있는 General AI 인공지능을 활용하면 수동 라벨링 없이도 오토라벨링을 수행할 수 있다. 이 밖에도 △편리한 라벨링 작업을 위해 자동으로 라벨링 영역을 잡아주는 Magic Tool △이미지 각 픽셀을 클래스 단위로 묶어 구분하는 Semantic Segmentation △인간의 골격을 기준점으로 다양한 움직임과 동작을 구분해 인식하는 Skeleton 툴 등을 제공한다.
학습 데이터 세트로 인공지능을 개발하는 방법도 필요에 따라 선택할 수 있다.
먼저 데이터 업로드만으로 인공지능의 알고리즘 선정부터 100여개의 스플릿된 하이퍼 파라미터 기반 인공지능을 자동으로 개발해 모델 검증까지 신속하게 할 수 있는 AutoML 기능을 제공한다. 작업자 역량에 따라 데이터 기반의 인공지능 학습 코드를 자동 생성해주는 Magic Code를 활용하면 알고리즘 선정 및 학습 코드 작성 시간을 절약할 수 있고, 생성된 학습 코드의 하이퍼 파라미터 최적화 작업만을 수행해 학습을 시작할 수 있다.
Custom Training은 작업자의 설정 범위가 가장 넓은 개발 방식으로, 인공지능 학습을 위한 멀티 GPU 클러스터링이 가능한 Jupyter 환경을 자동 세팅하고 Jupyter 환경에서 바로 학습 코드를 작성해 개발할 수 있는 기능이다. 이러한 자동화 기능을 활용해 전문가의 효율이 극대화할 수 있을 것으로 보인다.
또 개발된 인공지능은 모델 추출하기를 통해 직접 모델을 연동, 서비스를 개발할 수 있다. DS2.ai의 SKYHUB AI를 활용하면 추론 서버를 자동 구성해 바로 인공지능을 배포할 수 있다. SKYHUB AI는 Tensor RT, FastAPI, Redis 등 추론 가속을 위한 기술이 기본 세팅된 백엔드 서버 환경을 자동으로 구축해 인공지능을 한 번의 클릭만으로 배포할 수 있다. 아울러 모니터링 기능을 함께 제공해 MLOps 환경을 구성할 수 있고, 운영하는 인공지능의 추론 결과 데이터를 축적해 인공지능 재학습도 제공한다.
진정한 의미의 데이터 중심(Data-centric) 머신러닝 파이프라인을 DS2.ai 하나로 해결할 수 있는 것이다.
이외에도 데이터 중복 제거·치환 등 기본적인 전처리 기능, GPU 모니터링 기능 등 DS2.ai의 활용도를 높여줄 다양한 기능을 함께 제공된다.
디에스랩글로벌 여승기 대표는 “최근 인공지능 개발 트렌드는 Andrew Ng 교수의 Data-Centric AI 기법에 주목하고 있다. 지금까지 데이터화하지 못한 정보를 시간·비용을 들여 디지털로 전환하고, 디지털로 전환된 한정된 데이터만을 바탕으로 인공지능 개발 코드를 극한으로 튜닝하는 Model-Centric AI 기법은 결국 그 한계점이 명확하기 때문이다. 반면, Data-Centric AI 기법은 한정된 데이터로 빠르게 인공지능을 개발한 뒤 추론 데이터를 수집해 다시 활용한다는 점에서 디지털 전환 비용 없이 인공지능에 특화한 데이터를 꾸준히 수집할 수 있는 게 장점”이라며 “현재 인공지능 도입의 막대한 비용은 정보를 수집하고 디지털 전환해 데이터화 과정과 인공지능에 최적화하지 않은 데이터를 전처리해 정형화하는 과정이 상당한 비중을 차지하고 있다. DS2.ai를 통해 인공지능 도입 장벽을 낮추고, 글로벌 레벨의 지속 가능한 데이터와 인공지능을 제공하는 Data-Centric AI 기법의 선두 주자가 될 것”이라고 말했다.
DS2.ai의 다양한 서비스는 디에스랩글로벌 홈페이지에서 상세한 내용을 확인할 수 있다.
디에스랩글로벌 개요
디에스랩글로벌은 인공지능 자동화 솔루션을 개발하고 공급하는 인공지능 전문 기업이다. 누구나 데이터를 활용할 수 있도록 인공지능 기술을 자동화하고 있다. 2018년 12월 개인 사업자 ‘넥트아이티’로 시작해 자체 개발한 데이터 환경 자동 구축 솔루션 ‘SKYHUB’를 공급, 1억6000만원의 매출을 기록했다. 2020년 1월 법인 사업자 ‘주식회사 디에스랩글로벌’로 법인 전환해 2020년 약 11억원의 매출을 기록했다.