# 토픽 모델링(Topic Modeling)

* 토픽 모델링은 문서 집합에서 주제를 찾아내기 위한 기술
* 토픽 모델링은 '특정 주제에 관한 문서에서는 특정 단어가 자주 등장할 것이다'라는 직관을 기반
* 예를 들어, 주제가 '개'인 문서에서는 개의 품종, 개의 특성을 나타내는 단어가 다른 문서에 비해 많이 등장
* 주로 사용되는 토픽 모델링 방법은 잠재 의미 분석과 잠재 디리클레 할당 기법이 있음

## 잠재 의미 분석(Latent Semantic Analysis)

* 잠재 의미 분석(LSA)은 주로 문서 색인의 의미 검색에 사용
* 잠재 의미 인덱싱(Latent Semantic Indexing, LSI)로도 알려져 있음
* LSA의 목표는 문서와 단어의 기반이 되는 잠재적인 토픽을 발견하는 것
* 잠재적인 토픽은 문서에 있는 단어들의 분포를 주도한다고 가정

* LSA 방법
  + 문서 모음에서 생성한 문서-단어 행렬(Document Term Matrix)에서 단어-토픽 행렬(Term-Topic Matrix)과 토픽-중요도 행렬(Topic-Importance Matrix), 그리고 토픽-문서 행렬(Topic-Document Matrix)로 분해

## 잠재 디리클레 할당(Latent Dirichlet Allocation)

* 잠재 디레클레 할당(LDA)은 대표적인 토픽 모델링  알고리즘 중 하나

* 잠재 디레클레 할당 방법
  1. 사용자가 토픽이 개수를 지정해 알고리즘에 전달
  2. 모든 단어들을 토픽 중 하나에 할당
  3. 모든 문서의 모든 단어에 대해 단어 w가 가정에 의거, $p(t|d)$, $p(w|t)$에 따라 토픽을 재할당, 이를 반복, 이 때 가정은 자신만이 잘못된 토픽에 할당되어 있고 다른 모든 단어는 올바른 토픽에 할당된다는 것을 의미    

* $p(t|d)$ - 문서 d의 단어들 중 토픽 t에 해당하는 비율
* 해당 문서의 자주 등장하는 다른 단어의 토픽이 해당 단어의 토픽이 될 가능성이 높음을 의미    

* $p(w|t)$- 단어 w를 가지고 있는 모든 문서들 중  토픽 t가 할당된 비율
* 다른 문서에서 단어 w에 많이 할당된 토픽이 해당 단어의 토픽이 될 가능성이 높음을 의미

## Data 불러오기

In [10]:
# 드라이브 마운트
from google.colab import drive
import os
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Google Drive Mount
# Lilux 명령어 Unzip을 사용하여 압축해제

# !Unzip '/count/drive/Mydrive/'

In [None]:
# anther method
"""
import gdown

url = 'https://drive.google.com/uc?id=12i__-vU7n0Gq58zMbEA5vqSqX2AHLpol'
output = 'EnvBERT_dataset.zip'
gdown.download(url, output, quiet=False)

!Unzip 'EnvBERT_dataset.zip'
"""

In [11]:
!pip install openpyxl



In [11]:
!pip uninstall xlrd

Found existing installation: xlrd 1.2.0
Uninstalling xlrd-1.2.0:
  Would remove:
    /usr/local/bin/runxlrd.py
    /usr/local/lib/python3.10/dist-packages/xlrd-1.2.0.dist-info/*
    /usr/local/lib/python3.10/dist-packages/xlrd/*
Proceed (Y/n)? y
  Successfully uninstalled xlrd-1.2.0


In [12]:
# openpyxl 모듈을 설치하기 위해 pip 명령어 실행
!pip install openpyxl

# pandas 모듈 임포트
import pandas as pd

# 'openpyxl' 엔진을 사용하여 엑셀 파일 읽기
train = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/dupi_project/두피관리.xlsx', engine='openpyxl')
train.head()




Unnamed: 0,text
0,두피 부위가 계속 가렵고 비듬이 떨어져서 걱정이네요. 두피지루성피부염 증상이랑 비슷...
1,두피에 각질이 생기고 가렵고 막 뭐가 나는게 두피지루성피부염 같은데요.. 샴푸를 제...
2,다리털 녹이는 제품은 모공 막힌다고 알거 있는데 매직약도 두피에 닿으면 두피가 막히나요?
3,제가 두피가 약한 편이라 다운펌하고 일주일정도 뒤가 되면 두피가 심하게 벗겨지는데 ...
4,탈크성분 두피에 바르면 안좋은점이 있을까요? 탈모부분 또는 가르마 비어져 있는 부분...


In [13]:
# [text] Column만 이용
# 중복 값 제거 및 NA 값 제거

Data = train[['text']]
data = Data.drop_duplicates().dropna()

len(data)

734

In [14]:
data

Unnamed: 0,text
0,두피 부위가 계속 가렵고 비듬이 떨어져서 걱정이네요. 두피지루성피부염 증상이랑 비슷...
1,두피에 각질이 생기고 가렵고 막 뭐가 나는게 두피지루성피부염 같은데요.. 샴푸를 제...
2,다리털 녹이는 제품은 모공 막힌다고 알거 있는데 매직약도 두피에 닿으면 두피가 막히나요?
3,제가 두피가 약한 편이라 다운펌하고 일주일정도 뒤가 되면 두피가 심하게 벗겨지는데 ...
4,탈크성분 두피에 바르면 안좋은점이 있을까요? 탈모부분 또는 가르마 비어져 있는 부분...
...,...
1785,요즘들어 머리가 자주 가려운데 비듬까지 생겨서 관리하기가 너무 힘들어요ㅠㅠ 주변에서...
1786,붙임머리 장기간 하고 두피가 약해져 있는상태로 미용실에서 두피케어를 받았는데 뾰루지...
1787,잎으로 물을 우려 두피에 사용할 수 있는 천연 두피케어제품을 파는 곳이었어요. 인터...
1788,진짜 두피에 비듬이 완전달라붙어잇는거같고 예전엔원형탈모도잇엇고 두피에뾰루지도자주나는...


## Data 전처리

In [15]:
# List로 변환

data_ = data.text.values.tolist()

data_[:5]

['두피 부위가 계속 가렵고 비듬이 떨어져서 걱정이네요. 두피지루성피부염 증상이랑 비슷한 것 같아서 괜히 불안한 마음만 듭니다. 두피지루성피부염이 심하면, 탈모로 이어질 수 있다고 하던데 두피지루성피부염 증상 특징을 좀 알 수 있을까요?',
 '두피에 각질이 생기고 가렵고 막 뭐가 나는게 두피지루성피부염 같은데요.. 샴푸를 제대로 안헹궈서 생긴다는 말도 있고 머리를 안말리고 자서 그런다는 말도 있고.. 컨디션이 저하해서 그런거라는 말도 있고.. 두피지루성피부염 왜생기는건가요?',
 '다리털 녹이는 제품은 모공 막힌다고 알거 있는데 매직약도 두피에 닿으면 두피가 막히나요?',
 '제가 두피가 약한 편이라 다운펌하고 일주일정도 뒤가 되면 두피가 심하게 벗겨지는데 두피보호제나 약산성 샴푸등 참고하면 좋은 제품이 뭐가 있을까요?',
 '탈크성분 두피에 바르면 안좋은점이 있을까요? 탈모부분 또는 가르마 비어져 있는 부분에 블랙, 짙은 브라운 아이섀도우를 브러쉬로 바르는데\xa0샴푸할때마다 꽤 많은 회색물이 나와서 질문드려요.섀도우 뿐만 아니라 헤어쿠션에 탈크성분이 들어가 있는데\xa0탈크없는 탤크프리 섀도우로 두피에 바르면 그나마 좀 괜찮을까요?석면없는 탈크는 안전하다고는 하지만 석면없다는 인증서를 내세우는 화장품브랜드는 드물어서요.ㅠ탈크가 피부자체에 스크래치를 낼수도 있다고 들었는데 두피에도 마찬가지로 안좋겠죠?']

In [24]:
# 정규표현식을 사용해 한글 및 숫자만 추출
import re

regex = []

for i in range(len(data)):
  text = re.sub('[^0-9ㄱ-힣]', ' ', str(data_[i]))
  text = re.sub('\+', ' ', text)
  regex.append(text)

In [25]:
regex[:5]

['두피 부위가 계속 가렵고 비듬이 떨어져서 걱정이네요  두피지루성피부염 증상이랑 비슷한 것 같아서 괜히 불안한 마음만 듭니다  두피지루성피부염이 심하면  탈모로 이어질 수 있다고 하던데 두피지루성피부염 증상 특징을 좀 알 수 있을까요 ',
 '두피에 각질이 생기고 가렵고 막 뭐가 나는게 두피지루성피부염 같은데요   샴푸를 제대로 안헹궈서 생긴다는 말도 있고 머리를 안말리고 자서 그런다는 말도 있고   컨디션이 저하해서 그런거라는 말도 있고   두피지루성피부염 왜생기는건가요 ',
 '다리털 녹이는 제품은 모공 막힌다고 알거 있는데 매직약도 두피에 닿으면 두피가 막히나요 ',
 '제가 두피가 약한 편이라 다운펌하고 일주일정도 뒤가 되면 두피가 심하게 벗겨지는데 두피보호제나 약산성 샴푸등 참고하면 좋은 제품이 뭐가 있을까요 ',
 '탈크성분 두피에 바르면 안좋은점이 있을까요  탈모부분 또는 가르마 비어져 있는 부분에 블랙  짙은 브라운 아이섀도우를 브러쉬로 바르는데 샴푸할때마다 꽤 많은 회색물이 나와서 질문드려요 섀도우 뿐만 아니라 헤어쿠션에 탈크성분이 들어가 있는데 탈크없는 탤크프리 섀도우로 두피에 바르면 그나마 좀 괜찮을까요 석면없는 탈크는 안전하다고는 하지만 석면없다는 인증서를 내세우는 화장품브랜드는 드물어서요 ㅠ탈크가 피부자체에 스크래치를 낼수도 있다고 들었는데 두피에도 마찬가지로 안좋겠죠 ']

### 명사 추출

In [26]:
# 명사 추출하기 위해 konlpy 설치가 필요
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m71.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m41.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [27]:
# 형태소 분석기 Okt 불러오기
from konlpy.tag import Okt

okt = Okt()

In [28]:
# okt를 이용해 명사추출
# 약 10분 소요

noun = []

for j in range(len(regex)):
  noun.append(okt.nouns(regex[j]))
  print(str(j) + "번째 수행중")

0번째 수행중
1번째 수행중
2번째 수행중
3번째 수행중
4번째 수행중
5번째 수행중
6번째 수행중
7번째 수행중
8번째 수행중
9번째 수행중
10번째 수행중
11번째 수행중
12번째 수행중
13번째 수행중
14번째 수행중
15번째 수행중
16번째 수행중
17번째 수행중
18번째 수행중
19번째 수행중
20번째 수행중
21번째 수행중
22번째 수행중
23번째 수행중
24번째 수행중
25번째 수행중
26번째 수행중
27번째 수행중
28번째 수행중
29번째 수행중
30번째 수행중
31번째 수행중
32번째 수행중
33번째 수행중
34번째 수행중
35번째 수행중
36번째 수행중
37번째 수행중
38번째 수행중
39번째 수행중
40번째 수행중
41번째 수행중
42번째 수행중
43번째 수행중
44번째 수행중
45번째 수행중
46번째 수행중
47번째 수행중
48번째 수행중
49번째 수행중
50번째 수행중
51번째 수행중
52번째 수행중
53번째 수행중
54번째 수행중
55번째 수행중
56번째 수행중
57번째 수행중
58번째 수행중
59번째 수행중
60번째 수행중
61번째 수행중
62번째 수행중
63번째 수행중
64번째 수행중
65번째 수행중
66번째 수행중
67번째 수행중
68번째 수행중
69번째 수행중
70번째 수행중
71번째 수행중
72번째 수행중
73번째 수행중
74번째 수행중
75번째 수행중
76번째 수행중
77번째 수행중
78번째 수행중
79번째 수행중
80번째 수행중
81번째 수행중
82번째 수행중
83번째 수행중
84번째 수행중
85번째 수행중
86번째 수행중
87번째 수행중
88번째 수행중
89번째 수행중
90번째 수행중
91번째 수행중
92번째 수행중
93번째 수행중
94번째 수행중
95번째 수행중
96번째 수행중
97번째 수행중
98번째 수행중
99번째 수행중
100번째 수행중
101번째 수행중
102번째 수행중
103번째 수행중
104번째 수행중
105번째 수행중
106번째 수행중
107번째 수행중
108번째 수행중
109번째 수행중
110번째 수행중


In [29]:
# Worldcloud 할 때는 리스트 안에 리스트 구조 [[]] 이것을 하나의 리스트로 만들어 주었음
# 하지만 LDA의 받는 인자는 [[a, b, c],[d, e, f]]로 구성 --> 문서별로 단어를 구분하기 위함

# nouns = sum(noun, [])

# nouns[:5]

noun[:2]

[['두피',
  '부위',
  '계속',
  '가렵',
  '비듬',
  '걱정',
  '요',
  '두피',
  '지루',
  '피부염',
  '증상',
  '것',
  '마음',
  '듭니',
  '두피',
  '지루',
  '피부염',
  '탈모',
  '수',
  '두피',
  '지루',
  '피부염',
  '증상',
  '특징',
  '좀',
  '알',
  '수'],
 ['두피',
  '각질',
  '생기',
  '가렵',
  '막',
  '뭐',
  '두피',
  '지루',
  '피부염',
  '샴푸',
  '제대로',
  '안헹궈',
  '말',
  '머리',
  '자서',
  '말',
  '컨디션',
  '저하',
  '거',
  '말',
  '두피',
  '지루',
  '피부염',
  '왜',
  '가요']]

3.4 LDA 사전 제작

In [30]:
# LDA가 들어가 있는 gensim 모델 불러오기
# colab에서는 기본적으로 깔려있음

import gensim

# warning 문구 삭제

import warnings
warnings.filterwarnings('ignore')

In [31]:
# 사전 만들기

id2word = gensim.corpora.Dictionary(noun)

In [34]:
# from pandas.core.series import Frequency
# 복사해두는 습관을 잊지말자
texts = noun

# Term Document Frequency 만들기
# 단어를 숫자로 변환하고 카운트까지 알려준다.
# 예를 들어 (0, 1), (1, 5), (2, 3)  ---> 첫 문자는 1번, 두번째 문자는 5번, 세번째 문자는 3번 나왔다는 의미

corpus = [id2word.doc2bow(text) for text in texts]
corpus = []

# corpus = []
# for text in texts:
#   result = id2word.doc2bow(text)
#   corpus.append()    4개의 문장을 위의 한문장으로 줄인

# 확인

print(corpus[:1])

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 4), (5, 1), (6, 1), (7, 1), (8, 1), (9, 2), (10, 1), (11, 1), (12, 1), (13, 2), (14, 3), (15, 1), (16, 1), (17, 3)]]


% List comprehension이란

In [35]:
# 위와 아래가 같은 결과를 표출

corpus = [id2word.doc2bow(text) for text in texts]

# ---------------------------------------------------------------

corpus2 = []

for text in texts:
  corpus2.append(id2word.doc2bow(text))

In [36]:
# 직접 결과를 통해 비교
corpus[:1]

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 4),
  (5, 1),
  (6, 1),
  (7, 1),
  (8, 1),
  (9, 2),
  (10, 1),
  (11, 1),
  (12, 1),
  (13, 2),
  (14, 3),
  (15, 1),
  (16, 1),
  (17, 3)]]

In [37]:
corpus[:2]

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 4),
  (5, 1),
  (6, 1),
  (7, 1),
  (8, 1),
  (9, 2),
  (10, 1),
  (11, 1),
  (12, 1),
  (13, 2),
  (14, 3),
  (15, 1),
  (16, 1),
  (17, 3)],
 [(0, 1),
  (4, 3),
  (14, 2),
  (17, 2),
  (18, 1),
  (19, 1),
  (20, 1),
  (21, 1),
  (22, 3),
  (23, 1),
  (24, 1),
  (25, 1),
  (26, 1),
  (27, 1),
  (28, 1),
  (29, 1),
  (30, 1),
  (31, 1),
  (32, 1)]]

## LDA 토픽 모델 구축

In [None]:
# 가장 먼저 Topic의 개수를 몇 개로 할 것인지 지정

number = 5

In [40]:
# 지금까지 만든 데이터들을 통해 LDA 모델 구축

# model = gensim.models.ldamodel.LdaModel(
#     corpus = corpus,
#     id2word= id2word,
#     num_topics = number,
#     random_state = 1025
# )

model = gensim.models.ldamodel.LdaModel(
     corpus = corpus,
     id2word= id2word,
     num_topics = 10,
     random_state = 1025,
     passes = 10,
     iterations = 100 )

In [41]:
model.show_topics(formatted= False)

[(0,
  [('두피', 0.10639969),
   ('샴푸', 0.031934127),
   ('여드름', 0.024549529),
   ('탈모', 0.023756903),
   ('머리', 0.016636368),
   ('제', 0.0119127445),
   ('사용', 0.0111754425),
   ('것', 0.010276396),
   ('좀', 0.010271994),
   ('지루', 0.009586138)]),
 (1,
  [('두피', 0.09152142),
   ('염색', 0.032822516),
   ('관리', 0.019786997),
   ('추천', 0.014689232),
   ('좀', 0.012404631),
   ('기', 0.012266175),
   ('요', 0.0118476525),
   ('제', 0.010887947),
   ('샴푸', 0.009781748),
   ('것', 0.008535654)]),
 (2,
  [('두피', 0.11789887),
   ('머리', 0.042356063),
   ('샴푸', 0.035876945),
   ('비듬', 0.021853743),
   ('하루', 0.014751502),
   ('좀', 0.013825898),
   ('제', 0.013784525),
   ('피부', 0.011480933),
   ('요', 0.010656262),
   ('때', 0.010335896)]),
 (3,
  [('피케', 0.1497372),
   ('탈모', 0.021593967),
   ('미용실', 0.015869906),
   ('두피', 0.013901912),
   ('건선', 0.009356872),
   ('영향', 0.0071453922),
   ('검사', 0.007145318),
   ('백선', 0.0071451995),
   ('매번', 0.007108104),
   ('좁쌀', 0.007102975)]),
 (4,
  [('두피', 0.09322

# LDA 시각화 - LDAvis

In [42]:
# LDA를 쓰는 가장 큰 이유 --> 파워풀한 시각화
# colab에서 2.1.2 버전이 가장 잘 작동

!pip install pyLDAvis==2.1.2

Collecting pyLDAvis==2.1.2
  Downloading pyLDAvis-2.1.2.tar.gz (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting funcy (from pyLDAvis==2.1.2)
  Downloading funcy-2.0-py2.py3-none-any.whl (30 kB)
Building wheels for collected packages: pyLDAvis
  Building wheel for pyLDAvis (setup.py) ... [?25l[?25hdone
  Created wheel for pyLDAvis: filename=pyLDAvis-2.1.2-py2.py3-none-any.whl size=97718 sha256=909d8e619650ce79f97556f537e4733d714e2943884674c97020ef7e093c683d
  Stored in directory: /root/.cache/pip/wheels/d9/93/d6/16c95da19c32f037fd75135ea152d0df37254c25cd1a8b4b6c
Successfully built pyLDAvis
Installing collected packages: funcy, pyLDAvis
Successfully installed funcy-2.0 pyLDAvis-2.1.2


In [47]:
# LDAvis 불러오기 및 prepare 함수를 통해 구축
import pyLDAvis.gensim

vis = pyLDAvis.gensim.prepare(model, corpus, id2word)

In [44]:
# html 파일을 output으로 내서 저장할 수 있음

pyLDAvis.save_html(vis, 'result.html')

# 한 글자 명사 지우기

In [51]:
# filtered noun 변수 선언

fill_noun = noun.copy()

In [52]:
# 한글자 삭제

for index,word in enumerate(fill_noun):
  for i, w in enumerate(word):
    if len(w) < 2:
      fill_noun[index].pop(i)

In [53]:
fill_noun[:5]

[['두피',
  '부위',
  '계속',
  '가렵',
  '비듬',
  '걱정',
  '두피',
  '지루',
  '피부염',
  '증상',
  '마음',
  '듭니',
  '두피',
  '지루',
  '피부염',
  '탈모',
  '두피',
  '지루',
  '피부염',
  '증상',
  '특징'],
 ['두피',
  '각질',
  '생기',
  '가렵',
  '두피',
  '지루',
  '피부염',
  '샴푸',
  '제대로',
  '안헹궈',
  '머리',
  '자서',
  '컨디션',
  '저하',
  '두피',
  '지루',
  '피부염',
  '가요'],
 ['다리', '제품', '모공', '매직', '약도', '두피', '두피'],
 ['두피',
  '편이',
  '다운펌',
  '일주일',
  '정도',
  '두피',
  '두피',
  '보호',
  '제나',
  '산성',
  '샴푸',
  '참고',
  '제품'],
 ['탈크',
  '성분',
  '두피',
  '탈모',
  '부분',
  '가르마',
  '부분',
  '블랙',
  '브라운',
  '아이섀도우',
  '브러쉬',
  '샴푸',
  '회색',
  '물이',
  '질문',
  '섀도우',
  '헤어',
  '쿠션',
  '탈크',
  '성분',
  '탈크',
  '탤크',
  '프리',
  '섀도우',
  '두피',
  '석면',
  '탈크',
  '석면',
  '인증서',
  '화장품',
  '브랜드',
  '탈크',
  '피부',
  '자체',
  '스크래치',
  '수도',
  '두피',
  '마찬가지']]

# LDA 다시 진행

NameError: ignored