Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM
, 55(4), 77-84.
Probabilistic Topic models의 키포인트
- LDA는 토픽을 발견하는 기술로 생성적 확률 모델군에 속함.
- 구조화되지 않은 대규모 문서 컬렉션에 퍼져 있는 메인 주제를 발견하기 위한 알고리즘
- 토픽 모델은 발견된 테마에 따라 컬렉션을 구성할 수 있다.
- 토픽 모델링 알고리즘은 방대한 문서 컬렉션에 적용할 수 있으며, Web API에서 찾을 수 있는 스트리밍 컬렉션을 분석할 수 있다.
- 다양한 종류의 데이터에 적용할 수 있다. 다른 응용 프로그램 중에서 유전자 데이터, 이미지 및 소셜 네트워크에서 패턴을 찾는 데도 사용됨.
LDA(Latent Dirichlet Allocation)의 기본 아이디어
-
LDA는 문서가 여러 토픽을 표시한다는 가정으로 시작한다.
(토픽이 구별될 필요가 없으며, 여러 토픽에서 단어가 발생할 수 있다는 뜻)
-
토픽은 고정 어휘에 대한 분포로 정의하고, 문서보다 토픽이 먼저 생성된다고 가정한다.
(사람들이 글을 쓸 때, 문헌에 어떤 주제가 들어갈 지 대략 생각하고, 주제를 선정해 주제에 포함될 단어를 선정하고 그 단어를 문헌에 추가한다고 가정)
2단계 프로세스를 통해 단어 생성
- 주제에 대한 분포에서 무작위로 주제 선택