박상언. (2021). 딥러닝 중심의 자연어 처리 기술 현황 분석. 한국빅데이터학회 학회지, 6(1), 63-81.
논문요약
- 자연어 처리는 기계학습, 딥러닝 기술의 발전과 적용으로 빠르게 향상, 활용 분야도 넓어지는 중
- 자연어 처리의 전반적 이해를 위해 활발히 연구되고 있는 자연어 처리의 주요 분야와 기계학습, 딥러닝 중심의 주요 기술 현황
- 자연어 처리 주요 분야를 언어 모델, 문서 분류, 문서 생성, 문서 요약, 질의응답, 기계번역으로 나누어 정리
- 각 분야의 뛰어난 성능을 보이는 모형들과, 주요 딥러닝 모형에 대해 정리
자연어 처리 기술 현황
- NLP(Natural Language Processing) : 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일 의미 → 최근에는 머신러닝 혹은 딥러닝을 이용하여 자연어 문서를 처리하는 기술 포괄
딥러닝 기반 자연어 처리 주요 분야
- 언어모델(Language Model)
- 문서에 주어진 앞부분의 단어들의 시퀀스를 이용해 다음 단어 예측 수행
- Transformer에 기반한 BERT, GPT로 사전 학습을 수행함으로써 언어의 구조, 문맥을 학습한 후 파인튜닝을 통해 다양한 자연어처리 어플로 활용
- 현재 GPT-3이 가장 뛰어난 성능을 보이는 알고리즘, SOTA(State of the art)로 알려져 있음
- 문서 분류(Text Classification)
- 주어진 문서에 대해 미리 정의된 클래스로 분류하는 작업
- 감성 분석, 스팸 메일 분류, 뉴스 기사 분류 등 다양한 응용 분야가 있음
- CNN, RNN, DBN 등의 다양한 딥러닝 기법들이 개발되고 사용됨
- 최근 SOTA는 BERT에 기반한 DocBERT
- 문서 생성(Text Generation)