Probabilistic Topic Models(2012) | Notion

Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM , 55(4), 77-84.

Probabilistic Topic models의 키포인트

LDA는 토픽을 발견하는 기술로 생성적 확률 모델군에 속함.
구조화되지 않은 대규모 문서 컬렉션에 퍼져 있는 메인 주제를 발견하기 위한 알고리즘
토픽 모델은 발견된 테마에 따라 컬렉션을 구성할 수 있다.
토픽 모델링 알고리즘은 방대한 문서 컬렉션에 적용할 수 있으며, Web API에서 찾을 수 있는 스트리밍 컬렉션을 분석할 수 있다.
다양한 종류의 데이터에 적용할 수 있다. 다른 응용 프로그램 중에서 유전자 데이터, 이미지 및 소셜 네트워크에서 패턴을 찾는 데도 사용됨.

LDA(Latent Dirichlet Allocation)의 기본 아이디어

LDA는 문서가 여러 토픽을 표시한다는 가정으로 시작한다.

(토픽이 구별될 필요가 없으며, 여러 토픽에서 단어가 발생할 수 있다는 뜻)

토픽은 고정 어휘에 대한 분포로 정의하고, 문서보다 토픽이 먼저 생성된다고 가정한다.

(사람들이 글을 쓸 때, 문헌에 어떤 주제가 들어갈 지 대략 생각하고, 주제를 선정해 주제에 포함될 단어를 선정하고 그 단어를 문헌에 추가한다고 가정)

토픽 = 주어진 용어 집합이 발생할 확률

2단계 프로세스를 통해 단어 생성

주제에 대한 분포에서 무작위로 주제 선택