AI for 딥서치

딥서치 애널리틱스는 의사 결정 과정에서 손쉽게 자료를 수집하고, 분석하고, 관리할 수 있도록 지원합니다. 이 과정은 단지 분석하고자 하는 주제와 관련된 몇 번의 키워드 입력만으로도 충분합니다.

위의 서비스를 가능케 하는 딥서치에 적용된 인공지능(AI)기술에 대해 얘기해보자. 이번 글은 본격적인 얘기에 앞서 앞으로의 업로드 될 글의 순서와 대략적인 내용을 요약 정리하는 것이 목적이다. 추후 글이 업로드 되면 본 문서도 업데이트 될 예정이다.


딥서치는 공시, IR, 증권사 리포트, 뉴스 등 1억건 이상의 문서를 갖고 있다. 이 문서/텍스트 정보를 분석하기 위해 머신러닝 및 자연어 처리(NLP) 기술을 다각도로 활용하고 있다.

1. 어떤 데이터로 학습하나요?

딥서치가 보유한 문서 자료는 label이 붙어 있지 않은 형태다. 여기서 말한 label은 주어진 task에 따라 달라진다. 예를 들어 ‘해당 뉴스의 극성(감성)이 
긍정/부정 중 어떤 것인가?’ 라는 task에서는 (뉴스-긍정)의 형식으로 label이 붙게 된다. 
이 label을 붙이는, 학습 데이터를 구축하는 과정은 굉장한 시간과 비용이 든다. 따라서 딥서치에서는 이를 해결하기 위해 transfer learning, active learning 기법을 활용하고 있다.

2. 문서를 어떻게 분류할까요?

문서 분류 기술을 통해 특정 문서가 어떤 극성을 가지고 있는지를 판별하는 극성 분석을 수행할 수 있다. 산업 분석에서도 활용할 수 있는데, 해당 문서(뉴스)가 어떤 산업과 관련된 것인지 분류할 수 있다. 이를 위해 Convolutional Neural Networks for Sentence Classification(2014)에서 소개된 방법 및 BiLSTM, BERT 등을 사용하고 있다.

3. 유사 기업은 어떻게 뽑을까요?

기업에서 발표하는 사업보고서를 기반으로 유사 기업을 추출하고 있다. Doc2Vec을 통해 각각의 문서(기업)을 벡터 공간에 표현하고 가장 거리가 가까운 기업을 찾아 유사 기업으로 정의하게 된다.

Leave a Reply