텍스트
-
[텍스트] LSA(Latent Semantic Analysis, 잠재 의미 분석) 논문리뷰텍스트 2023. 10. 6. 16:03
LSA(Latent Semantic Analysis)란? 문서와 단어가 벡터로 표현될 때 잠재 의미 공간(Latent Semantic Space)을 정의함으로써 텍스트에서 의미를 추출하는 방법 Basic 전체 문서 d개, 이 문서들에 있는 모든 단어 t개가 있을 때, 아래와 같은 행렬을 만들 수 있음 $$X \in R^{t \times d}$$ - 각 셀에는 각 문서에서 각 단어가 등장한 횟수가 들어있으며, 자주 등장하는 단어의 중요도는 낮추고, 드물게 등장하는 단어의 중요도는 높이기 위해 transformation 과정을 거침 - 자주 사용되는 term frequency transformation 방법에는 TF-IDF와 log-entropy 방법이 있는데, 여기서 TF, log는 local weight..
-
[텍스트] 토픽 모델링 - 잠재 디리클레 할당 (LDA)텍스트 2022. 7. 8. 22:56
LDA(Latent Dirichlet Allocation) 문서가 생성되는 과정을 확률모형으로 모델링하는 분석 기법 LDA에서 하는 것 토픽의 단어분포 추출 (각 토픽이 어떤 단어들로 구성되었는지) & 문서의 토픽분포 추출 (문서가 어떤 토픽으로 이루어졌는지) Topics: 위 그림에서 노란색 토픽에 gene이라는 단어가 등장할 확률이 0.04, dna는 0.02, genetic은 0.01이다. 노란색 토픽은 대략 ‘유전자’ 관련 주제라는 걸 알 수 있다. Documents: 문서를 보면 파란색, 빨간색 토픽에 해당하는 단어보다는 노란색 토픽에 해당하는 단어들이 많다. 따라서 위 문서의 메인 주제는 노란색 토픽(유전자 관련)일 가능성이 크다. LDA에서 가정하는 문서 생성 과정 토픽에 대한 단어 분포(φ..
-
[텍스트] DTM, TF-IDF텍스트 2022. 7. 8. 22:40
DTM 문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것 TF-IDF 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법 TF : term frequency 특정 문서에서의 특정 단어의 등장 횟수. DF : document frequency 특정 단어가 등장한 문서의 수. IDF : inverse document frequency 일반 역수를 사용하면 분자 (전체 문서의 개수)가 늘어짐에 따라 분모 (등장 문장의 수)는 그를 따라가지 못하므로, 그 값이 기하급수적으로 커져 결국 단어들의 중요성을 하향평준화 시켜 비교가 어려워지므로 역수에 로그를 ..