# 텍스트 처리
- 어근 추출
- 불용어 처리
- 사전 만들기
- DTM 만들기

In [None]:
import pandas as pd

In [None]:
corpus = ['''러시아와 우크라이나 사태가 격화되고 있는 가운데 
러시아 억만장자들의 재산이 실시간으로 증발하고 있다!''',
'러시아에 대한 서방국가들의 제재로 러시아 억만장자들의 사업이 큰 타격을 입고 있다',
'러시아의 침공 이후 일주일 사이 무려 830억 달러의 재산이 감소했다고 전했다']

In [None]:
!pip install konlpy



# 문서를 그대로 분석하는 경우

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
dtm_a = cv.fit_transform(corpus).toarray()
dtm_a # document term matrix

array([[0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1,
        1, 1, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0,
        1, 0, 0, 1, 0, 0, 1],
       [1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0,
        0, 1, 1, 0, 0, 1, 0]])

In [None]:
print(cv.vocabulary_)

{'러시아와': 8, '우크라이나': 17, '사태가': 13, '격화되고': 3, '있는': 21, '가운데': 1, '러시아': 6, '억만장자들의': 16, '재산이': 23, '실시간으로': 15, '증발하고': 26, '있다': 22, '러시아에': 7, '대한': 5, '서방국가들의': 14, '제재로': 25, '사업이': 11, '타격을': 28, '입고': 20, '러시아의': 9, '침공': 27, '이후': 18, '일주일': 19, '사이': 12, '무려': 10, '830억': 0, '달러의': 4, '감소했다고': 2, '전했다': 24}


In [None]:
cv.get_feature_names_out()

array(['830억', '가운데', '감소했다고', '격화되고', '달러의', '대한', '러시아', '러시아에', '러시아와',
       '러시아의', '무려', '사업이', '사이', '사태가', '서방국가들의', '실시간으로', '억만장자들의',
       '우크라이나', '이후', '일주일', '입고', '있는', '있다', '재산이', '전했다', '제재로',
       '증발하고', '침공', '타격을'], dtype=object)

In [None]:
pd.DataFrame(cv.get_feature_names_out())

Unnamed: 0,0
0,830억
1,가운데
2,감소했다고
3,격화되고
4,달러의
5,대한
6,러시아
7,러시아에
8,러시아와
9,러시아의


# 텍스트 전처리
- 어근 추출
- 특수기호, 숫자 제외
- 불용어 처리

In [None]:
from konlpy.tag import Okt
import re
def text_preprocessing(text_list):
    
    stopwords = ['을', '를', '이', '가', '은', '는', '와', '과', '들', 
                '에', '고','의','로','으로','하고','하는','하여','이고', '있다', '했다', 
                 '이다','null']
    tokenizer = Okt() #형태소 분석기 
    # stopwords = []
    token_list = []
    # txt.lower() ?
    for text in text_list:
        txt = re.sub('[^가-힣a-z]', ' ', text) #한글과 영어 소문자만 남기고 다른 글자 모두 제거
        token = tokenizer.morphs(txt) #형태소 분석
        token = [t for t in token if t not in stopwords ] #형태소 분석 결과 중 stopwords에 해당하지 않는 것만 추출
        token_list.append(token)
        
    return token_list, tokenizer

#형태소 분석기를 따로 저장한 이유는 후에 test 데이터 전처리를 진행할 때 필요하기 때문


In [None]:
text_a, _ = text_preprocessing(corpus) 
text_a

[['러시아', '우크라이나', '사태', '격화되', '있는', '가운데', '러시아', '억만장자', '재산', '실시간', '증발'],
 ['러시아', '대한', '서방국가', '제재', '러시아', '억만장자', '사업', '큰', '타격', '입고'],
 ['러시아', '침공', '이후', '일주일', '사이', '무려', '억', '달러', '재산', '감소', '했다고', '전']]

In [None]:
# 단어들을 다시 합쳐서 문장으로 만드는 함수
def merge_words(text):
  text_new = []
  for txt in text:
    text_new.append(' '.join(txt))
  return text_new

In [None]:
simple_a = merge_words(text_a)
simple_a

['러시아 우크라이나 사태 격화되 있는 가운데 러시아 억만장자 재산 실시간 증발',
 '러시아 대한 서방국가 제재 러시아 억만장자 사업 큰 타격 입고',
 '러시아 침공 이후 일주일 사이 무려 억 달러 재산 감소 했다고 전']

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
dtm_a = cv.fit_transform(simple_a).toarray()
print(cv.vocabulary_)

{'러시아': 5, '우크라이나': 13, '사태': 9, '격화되': 2, '있는': 17, '가운데': 0, '억만장자': 12, '재산': 18, '실시간': 11, '증발': 20, '대한': 4, '서방국가': 10, '제재': 19, '사업': 7, '타격': 22, '입고': 16, '침공': 21, '이후': 14, '일주일': 15, '사이': 8, '무려': 6, '달러': 3, '감소': 1, '했다고': 23}


In [None]:
dtm_a

array([[1, 0, 1, 0, 0, 2, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0,
        0, 0],
       [0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0,
        1, 0],
       [0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1,
        0, 1]])

In [None]:
df_vocabs = pd.DataFrame(cv.get_feature_names_out())

In [None]:
X = dtm_a
y = [1,0,0]
# train_test_split()

In [None]:
# dtm에서 중복된 단어 수를 고려하여 단어 목록을 새로 만드는 함수
def get_words(dtm, df):
  out1 = []
  for dt in dtm:
    out2 = []
    for i in range(len(dt)):
      n = dt[i]
      if n == 0: continue
      while n > 0:
        out2.append(df.loc[i][0])
        n -= 1
    out1.append(out2)
  return out1

In [None]:
get_words(dtm_a, df_vocabs)

[['가운데', '격화되', '러시아', '러시아', '사태', '실시간', '억만장자', '우크라이나', '있는', '재산', '증발'],
 ['대한', '러시아', '러시아', '사업', '서방국가', '억만장자', '입고', '제재', '타격'],
 ['감소', '달러', '러시아', '무려', '사이', '이후', '일주일', '재산', '침공', '했다고']]

# 새로운 텍스트에 대한 dtm 만들기와 단어수 확인 방법

In [None]:
b = ["러시아와 이후에 협력을 하는 서방국가들의 달러를 얼마나 러시아에 줘야 되나",
     '달러를 많이 수출하여 협력하여 달러 수입을 늘린다']

In [None]:
text_b, _ = text_preprocessing(b)
text_b

[['러시아', '이후', '협력', '서방국가', '달러', '얼마나', '러시아', '줘야', '되나'],
 ['달러', '많이', '수출', '협력', '달러', '수입', '늘린다']]

In [None]:
dtm_b = cv.transform(merge_words(text_b)).toarray()
dtm_b

array([[0, 0, 0, 1, 0, 2, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0],
       [0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0]])

In [None]:
# 단어 수를 고려하여 단어들을 추출
# 최초에 만든 사전에 없던 단어는 처리가 안된다 (협력, 얼마나, 되나, 수출 등)
get_words(dtm_b, df_vocabs)

[['달러', '러시아', '러시아', '서방국가', '이후'], ['달러', '달러']]