# 텍스트 처리
- 어근 추출
- 불용어 처리
- 사전 만들기
- DTM 만들기

- colab에서 실행

In [None]:
import pandas as pd

In [None]:
corpus = ['''러시아와 우크라이나 사태가 격화되고 있는 가운데
러시아 억만장자들의 재산이 실시간으로 증발하고 있다!''',
'러시아에 대한 서방국가들의 제재로 러시아 억만장자들의 사업이 큰 타격을 입고 있다',
'러시아의 침공 이후 일주일 사이 무려 830억 달러의 재산이 감소했다고 전했다']

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m80.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m43.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


# Bag of Word(BoW)분석
- 문서에 등장하는 단어의 발생빈도를 사용

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
dtm_a = cv.fit_transform(corpus).toarray()
dtm_a # document term matrix

array([[0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1,
        1, 1, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0,
        1, 0, 0, 1, 0, 0, 1],
       [1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0,
        0, 1, 1, 0, 0, 1, 0]])

In [None]:
print(cv.vocabulary_)

{'러시아와': 8, '우크라이나': 17, '사태가': 13, '격화되고': 3, '있는': 21, '가운데': 1, '러시아': 6, '억만장자들의': 16, '재산이': 23, '실시간으로': 15, '증발하고': 26, '있다': 22, '러시아에': 7, '대한': 5, '서방국가들의': 14, '제재로': 25, '사업이': 11, '타격을': 28, '입고': 20, '러시아의': 9, '침공': 27, '이후': 18, '일주일': 19, '사이': 12, '무려': 10, '830억': 0, '달러의': 4, '감소했다고': 2, '전했다': 24}


In [None]:
# PC 에서는 get_feature_names() 함수 사용

pd.DataFrame(cv.get_feature_names_out()).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
0,830억,가운데,감소했다고,격화되고,달러의,대한,러시아,러시아에,러시아와,러시아의,...,일주일,입고,있는,있다,재산이,전했다,제재로,증발하고,침공,타격을


# 텍스트 전처리
- 어근 추출
- 특수기호, 숫자 제외
- 불용어 처리

In [None]:
from konlpy.tag import Okt
import re
def text_preprocessing(text_list):

    stopwords = ['을', '를', '이', '가', '은', '는', '와', '과', '들',
                '에', '고','의','로','으로','하고','하는','하여','이고', '있다', '했다',
                 '이다','null']
    tokenizer = Okt() #형태소 분석기

    token_list = []
    # txt.lower()
    for text in text_list:
        txt = re.sub('[^가-힣a-z]', ' ', text) #한글과 영어 소문자만 남기고 다른 글자 모두 제거
        token = tokenizer.morphs(txt) #형태소 분석
        token = [t for t in token if t not in stopwords ] #형태소 분석 결과 중 stopwords에 해당하지 않는 것만 추출
        token_list.append(token)

    return token_list, tokenizer

#형태소 분석기를 따로 저장한 이유는 후에 test 데이터 전처리를 진행할 때 필요하기 때문


In [None]:
text_a, _ = text_preprocessing(corpus)
text_a

[['러시아', '우크라이나', '사태', '격화되', '있는', '가운데', '러시아', '억만장자', '재산', '실시간', '증발'],
 ['러시아', '대한', '서방국가', '제재', '러시아', '억만장자', '사업', '큰', '타격', '입고'],
 ['러시아', '침공', '이후', '일주일', '사이', '무려', '억', '달러', '재산', '감소', '했다고', '전']]

In [None]:
# 단어들을 다시 합쳐서 문장으로 만드는 함수
def merge_words(text):
  text_new = []
  for txt in text:
    text_new.append(' '.join(txt))
  return text_new

In [None]:
simple_a = merge_words(text_a)
simple_a

['러시아 우크라이나 사태 격화되 있는 가운데 러시아 억만장자 재산 실시간 증발',
 '러시아 대한 서방국가 제재 러시아 억만장자 사업 큰 타격 입고',
 '러시아 침공 이후 일주일 사이 무려 억 달러 재산 감소 했다고 전']

In [None]:
# from sklearn.feature_extraction.text import CountVectorizer
# cv = CountVectorizer()
dtm_a = cv.fit_transform(simple_a).toarray()
print(cv.vocabulary_)

{'러시아': 5, '우크라이나': 13, '사태': 9, '격화되': 2, '있는': 17, '가운데': 0, '억만장자': 12, '재산': 18, '실시간': 11, '증발': 20, '대한': 4, '서방국가': 10, '제재': 19, '사업': 7, '타격': 22, '입고': 16, '침공': 21, '이후': 14, '일주일': 15, '사이': 8, '무려': 6, '달러': 3, '감소': 1, '했다고': 23}


In [None]:
dtm_a

array([[1, 0, 1, 0, 0, 2, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0,
        0, 0],
       [0, 0, 0, 0, 1, 2, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0,
        1, 0],
       [0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1,
        0, 1]])

In [None]:
df_vocabs = pd.DataFrame(cv.get_feature_names_out())

In [None]:
df_vocabs

Unnamed: 0,0
0,가운데
1,감소
2,격화되
3,달러
4,대한
5,러시아
6,무려
7,사업
8,사이
9,사태


# 네이버영화평점

- 감성분석
- 네이버 영화평점 데이터(https://github.com/e9t/nsmc)
- TfIdfVectorizer() 사용
- 로지스틱 회귀 사용

In [None]:
# 네이버 영화 평점 데이터 다운로드
!curl https://raw.githubusercontent.com/StillWork/data/master/ratings_train.txt \
    -o ratings_train.txt

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 14.0M  100 14.0M    0     0  15.0M      0 --:--:-- --:--:-- --:--:-- 15.0M


In [None]:
!curl https://raw.githubusercontent.com/StillWork/data/master/ratings_test.txt \
    -o ratings_test.txt

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 4827k  100 4827k    0     0  3952k      0  0:00:01  0:00:01 --:--:-- 3953k


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

# 데이터 로드
df_train = pd.read_csv('ratings_train.txt', delimiter='\t', keep_default_na=False)
df_test = pd.read_csv('ratings_test.txt', delimiter='\t', keep_default_na=False)

df_train.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [None]:
df_train.shape, df_test.shape

((150000, 3), (50000, 3))

In [None]:
df_train

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [None]:
text_train = df_train['document']
y_train = df_train['label']
text_test = df_test['document']
y_test = df_test['label']

In [None]:
okt = Okt()
def okt_tokenizer(text):
    return okt.morphs(text)

In [None]:
cv = TfidfVectorizer(tokenizer=okt_tokenizer, min_df=100)
lr = LogisticRegression()

x_train = cv.fit_transform(text_train)
x_test = cv.transform(text_test)
result = lr.fit(x_train,y_train)



In [None]:
len(cv.vocabulary_)

2191

In [None]:
feature_names = cv.get_feature_names_out()
print(feature_names[100:200])

['~!!' '~^^' '~~' '~~~' '~~~~' '♡' '♥' '♥♥' 'ㄱ' 'ㄷㄷ' 'ㅅ' 'ㅅㅂ' 'ㅇ' 'ㅇㅇ'
 'ㅉㅉ' 'ㅉㅉㅉ' 'ㅋ' 'ㅋㅋ' 'ㅋㅋㅋ' 'ㅋㅋㅋㅋ' 'ㅋㅋㅋㅋㅋ' 'ㅋㅋㅋㅋㅋㅋ' 'ㅋㅋㅋㅋㅋㅋㅋ' 'ㅎ' 'ㅎㅎ'
 'ㅎㅎㅎ' 'ㅜ' 'ㅜㅜ' 'ㅠ' 'ㅠㅜ' 'ㅠㅠ' 'ㅠㅠㅠ' 'ㅠㅠㅠㅠ' 'ㅡ' 'ㅡㅡ' '가' '가고' '가끔' '가는'
 '가는줄' '가면' '가볍게' '가본' '가서' '가수' '가슴' '가요' '가장' '가족' '가족영화' '가지' '가진' '가치'
 '각본' '간' '간다' '간만' '갈' '갈등' '갈수록' '감' '감각' '감독' '감동' '감명' '감사합니다' '감상'
 '감성' '감안' '감정' '감탄' '감흥' '감히' '갑' '갑니다' '갑자기' '값' '강' '강추' '같고' '같네요'
 '같다' '같습니다' '같아' '같아서' '같아요' '같은' '같은데' '같음' '같이' '개' '개그' '개념' '개도' '개막'
 '개봉' '개뿔' '개성' '개연' '개인']


In [None]:
print("훈련 데이터 점수 : ", result.score(x_train, y_train))
print("테스트 데이터 점수 : ", result.score(x_test, y_test))

훈련 데이터 점수 :  0.8298733333333334
테스트 데이터 점수 :  0.8181
