In [None]:
# 불피요한 warnings 이 길게 출력되는 막기 위한 코드이다.
import warnings
warnings.filterwarnings("ignore")

In [None]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy, 시각화를 위한 seaborn, matplotlib 을 불러온다.
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
!pip install Koreanize-matplotlib

In [None]:
import koreanize_matplotlib

# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'

pd.Series([1, 3, 5, -7, 9]).plot(title="한글", figsize=(6, 1))

In [None]:
#corpus: 말뭉치 >> CountVectorizer()
# DTM(Document-Term Matrix) 문서단어행렬 (빈도)
# 5*3   (3*5)   5*5 lda >>> 가중치
#dtm >> tf-df(Term-frequency-Inverse Document Frequency)
#단어가 너무 많이 등장하면 의미가 없음 예: 은,는..)

#vector화: 숫자로 변경
#embedding(희소행렬 대부분이 0인 행렬)>> 밀집 행렬(dense)

#통계와 머신러닝의 차이? 통계:조건부확률/빈도수/ VS 머신러닝: 일반화(기존 데이터 훈련->새로운 데이터 예측)

In [None]:
corpus = ["코로나 거리두기와 코로나 상생지원금 문의입니다.",
          "지하철 운행시간과 지하철 요금 문의입니다.",
          "지하철 승강장 문의입니다.",
          "택시 승강장 문의입니다."]
corpus

In [None]:
# fit, transform, fit_transfrom의 차이점

'''
# fit, transform, fit_transfrom의 차이점
* fit(): 원시 문서에 있는 모든 토큰의 어휘 사전을 배운다.
* transform(): 문서를 문서 용어 매트릭스로 변환합니다. transform 이후엔 매트릭스로 변환되어 숫자형태로 변경된다.
* fit_transform(): 어휘 사전을 배우고 문서 용어 매트릭스를 반환한다. fit 다음에 변환이 오는 것과 동일하지만 더 효율적으로 구현된다.
'''

In [None]:
#단어의 빈도를 Count하여 Vector로 생성
from sklearn.feature_extraction.text import CountVectorizer

cvect=CountVectorizer()
cvect.fit(corpus)
dtm=cvect.transform(corpus) #문서단어 행렬 생성
dtm

In [None]:
dtm.toarray() #각 단어의 빈도수를 기록(문장 순서대로 X/ 부여 인덱스 확인 필요 )

In [None]:
cvect.vocabulary_  ## 각 단어의 인덱스가 어떻게 부여되었는지

In [None]:
# vectorizer.get_feature_names_out() : 벡터 형태로 반환
vocab=cvect.get_feature_names_out()
vocab

In [None]:
#dtm
df_dtm=pd.DataFrame(dtm.toarray(),columns=vocab)
df_dtm

In [None]:
#데이터프레임으로 변환
df_dtm.sum().to_frame()

In [None]:
#가로, 세로 변환
df_dtm.sum().to_frame().T

In [None]:
'''
# N-grams

* 토큰을 몇 개 사용할 것인지를 구분합니다. 지정한 n개의 숫자 만큼의 토큰을 묶어서 사용한다.
* 예를 들어 (1, 1) 이라면 1개의 토큰을 (2, 3)이라면 2~3개의 토큰을 사용한다.
* analyzer 설정에 따라 단어단위, 캐릭터 단위에 따라 사용할 수 있다.

* 기본값 = (1, 1)
* ngram_range(min_n, max_n)
* min_n <= n <= max_n
```
(1, 1) 은 1 <= n <= 1
(1, 2) 은 1 <= n <= 2
(2, 2) 은 2 <= n <= 2
'''

In [None]:
cvect=CountVectorizer(ngram_range=(1,2))
#transform(): 문서를 문서 용어 매트릭스로 변환되어 숫자형태로 변경된다.
#문서단어 행렬 생성
dtm=cvect.fit_transform(corpus)
dtm.toarray()

In [None]:
cvect.vocabulary_

In [None]:
vocab=cvect.get_feature_names_out()
df_dtm=pd.DataFrame(dtm.toarray(),columns=vocab)
df_dtm

In [None]:
df_dtm.sum().to_frame().T

In [None]:
'''
# min_df

* 기본값=1
* min_df는 문서 빈도(문서의 %에 있음)가 지정된 임계값보다 엄격하게 낮은 용어를 무시한다.
* 예를 들어, min_df=0.66은 용어가 어휘의 일부로 간주되려면 문서의 66%에 나타나야 한다.
* 때때로 min_df가 어휘 크기를 제한하는 데 사용된다.
* 예를들어 min_df를 0.1, 0.2로 설정한다면 10%, 20%에 나타나는 용어만 학습한다.
'''

In [None]:
'''
# max_df

* 기본값=**1**
* max_df=int : 빈도수를 의미한다.
* max_df=float : 비율을 의미한다.
* 어휘를 작성할 때 주어진 임계값보다 문서 빈도가 엄격히 높은 용어는 무시한다.
* 빈번하게 등장하는 불용어 등을 제거하기에 편리하다.
* 예를 들어 코로나 관련 기사를 분석하면 90%에 '코로나'라는 용어가 등장할 수 있는데, 이 경우 max_df=0.89 로 비율을 설정하여 너무 빈번하게 등장하는 단어를 제외할 수 있다.
'''

In [None]:
#max_features:갯수만큼의 단어만 추출
cvect=CountVectorizer(ngram_range=(1,3),min_df=0.2,max_df=5,max_features=10)
dtm=cvect.fit_transform(corpus)
dtm.toarray()

In [None]:
vocab=cvect.get_feature_names_out()
df_dtm=pd.DataFrame(dtm.toarray(),columns=vocab)
df_dtm

In [None]:
# 불용어 stop_words
stop_words=['코로나','문의입니다']

#max_features:갯수만큼의 단어만 추출
cvect=CountVectorizer(ngram_range=(1,3),min_df=0.2,max_df=5,max_features=10,stop_words=stop_words)
dtm=cvect.fit_transform(corpus)
dtm.toarray()

In [None]:
vocab=cvect.get_feature_names_out()
df_dtm=pd.DataFrame(dtm.toarray(),columns=vocab)
df_dtm

In [None]:
#analyzer: 학습단위
#기본값: word
#cha,char_wb: 글자

#불용어
stop_words=['코로나','문의입니다']

#max_features:갯수만큼의 단어만 추출
cvect=CountVectorizer(analyzer='char',ngram_range=(1,3),min_df=0.2,max_df=5,max_features=10,stop_words=stop_words)
dtm=cvect.fit_transform(corpus)
dtm.toarray()

In [None]:
vocab=cvect.get_feature_names_out()
df_dtm=pd.DataFrame(dtm.toarray(),columns=vocab)
df_dtm

###TF-IDF
- 각 단어들마다 중요한 정도를 가중치로 주는 방법
- 작을수록 중요한 단어

- tf: 특정 문서 d에서의 특정 단어 t의 등장 횟수
- df: 특정 단어 t가 등장한 문서의 수
- idf: df의 역수 -> log(n/1+df(t))
    - log 사용 이유? 스케일 조정, 특정 단어의 가중치 격차 조정
    - +1 ? 분모 0이 되는 것을 방지




In [None]:
#tf-idf
from sklearn.feature_extraction.text import TfidfVectorizer

tfidfvect=TfidfVectorizer()
tfidfvect.fit(corpus)

dtm=tfidfvect.transform(corpus)
dtm
dtm.toarray()

In [None]:
vocab=tfidfvect.get_feature_names_out()
df_dtm=pd.DataFrame(dtm.toarray(),columns=vocab)
df_dtm

In [None]:
print('단어 수:',len(vocab))

In [None]:
display(df_dtm.style.background_gradient())

In [None]:
tfidfvect.idf_
#하나의 문서에만 나타나는 토큰은 idf 가중치가 높다
#df: 특정 단어가 나타나는 문서의 수로 크면 가중치 낮음

In [None]:
idf=tfidfvect.idf_

In [None]:
vocab=tfidfvect.get_feature_names_out()
vocab

In [None]:
zip(vocab,idf)

In [None]:
idf_dict=dict(zip(vocab,idf))
idf_dict

In [None]:
pd.Series(idf_dict).plot.barh()

In [None]:
#템플릿

tfidfvect=TfidfVectorizer(analyzer='word',ngram_range=(1,2),max_df=1.0,min_df=1)
dtm=tfidfvect.fit_transform(corpus)
vocab=tfidfvect.get_feature_names_out()
df_dtm=pd.DataFrame(dtm.toarray(),columns=vocab)
print('단어수:',len(vocab))
print(vocab)
display(df_dtm.style.background_gradient())