In [10]:
import nltk
## 표제어 추출
## 단어 기본형 변환
## cooking cook, cooks, cookie, cookbooks 등등으로 변환이 될 수 있다.
## 여기서 표제어를 추출하고자 한다.
from nltk.stem import WordNetLemmatizer # WordNet 데이터베이스를 사용하여 단어의 기본 형태를 추출하는 표제어 추출기

lemm = WordNetLemmatizer()

In [54]:
print(lemm.lemmatize('takings'))
print(lemm.lemmatize('takess'))
print(lemm.lemmatize('taken'))
print(lemm.lemmatize('takers'))
print(lemm.lemmatize('takes'))

taking
take
takenss
taker
take


In [9]:
## 품사 태깅
## 토큰화 같은 경우는 정규화 과정을 통해서 나온 결과를 형태소 정리한 내용
## 형태소라는 건 의미를 가지고 있는 작은 말의 단위, 더 나누게 되면 본래 뜻을 잃을 수 있다.
## 형태소를 형, 태, 소로 각각 나누면 의미가 사라진다.
## 형태소까지 가지 않더라도, 텍스트마이닝에서 품사라는 것을 사용해서 좀 더 의미를 잃지 않고 학습시킬 수 있다.

## 명사, 대명사, 동사, 형용사...
## 명사는 어떤 식으로 사용하는지, 동사는 어떤 식으로 사용하는지 명칭

from nltk.tokenize import word_tokenize
tk = word_tokenize('Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning. The adjective "deep" refers to the use of multiple layers in the network. Methods used can be either supervised, semi-supervised or unsupervised.[2]')
print(nltk.pos_tag(tk))

[('Deep', 'JJ'), ('learning', 'NN'), ('is', 'VBZ'), ('the', 'DT'), ('subset', 'NN'), ('of', 'IN'), ('machine', 'NN'), ('learning', 'VBG'), ('methods', 'NNS'), ('based', 'VBN'), ('on', 'IN'), ('artificial', 'JJ'), ('neural', 'JJ'), ('networks', 'NNS'), ('with', 'IN'), ('representation', 'NN'), ('learning', 'NN'), ('.', '.'), ('The', 'DT'), ('adjective', 'JJ'), ('``', '``'), ('deep', 'JJ'), ("''", "''"), ('refers', 'NNS'), ('to', 'TO'), ('the', 'DT'), ('use', 'NN'), ('of', 'IN'), ('multiple', 'JJ'), ('layers', 'NNS'), ('in', 'IN'), ('the', 'DT'), ('network', 'NN'), ('.', '.'), ('Methods', 'NNS'), ('used', 'VBD'), ('can', 'MD'), ('be', 'VB'), ('either', 'RB'), ('supervised', 'VBN'), (',', ','), ('semi-supervised', 'JJ'), ('or', 'CC'), ('unsupervised', 'JJ'), ('.', '.'), ('[', '$'), ('2', 'CD'), (']', 'NN')]


In [11]:
wt_tag = ['JJ']
jj_tag = [word for word, tag in nltk.pos_tag(tk) if tag in wt_tag]

In [12]:
jj_tag

['Deep',
 'artificial',
 'neural',
 'adjective',
 'deep',
 'multiple',
 'semi-supervised',
 'unsupervised']

## 한글 형태소 분석, 품사 태깅 가능

In [14]:
## KoNLPy(kkma, twitter, mecab, okt, hannaum)
## 품사 태깅 등, 전처리 패키지가 다양하다.
## https://konlpy.org/ko/latest/

from konlpy.tag import Okt

In [55]:
# 패키지를 불러오기!
k = Okt()

# Okt
# morphase(pharse) : 텍스트를 형태소 단위로 분리
# nouns(phrase) : 명사만 분리해서 보여준다.
# pos(phrase) : 태깅해서 보여준다.

data = '''### Bow (Bag of Words) 말뭉치에 한계가 있어서 -> TF-IDF의 방식을 사용한다.

- 의문 제기 : 카운트 벡터는 빈도가 높을수록 중요한 단어 아닌가?  
- 모든 문서에 동일하게 특정 키워드가 계속 나오면 이게 과연 중요한 건가?  
- 여러분, 여러분 여러분, 단순하게 카운팅으로 봐서 빈도가 높으면 다 중요한가?  
  
- 단어가 더 많은 문서에 나타날수록 오히려 그 단어는 별로 중요하지 않다.  
- TF-IDF(Term Frequency - Inverse Document Frequency) 단어빈도 - 역문서빈도
'''

In [56]:
data

'### Bow (Bag of Words) 말뭉치에 한계가 있어서 -> TF-IDF의 방식을 사용한다.\n\n- 의문 제기 : 카운트 벡터는 빈도가 높을수록 중요한 단어 아닌가?  \n- 모든 문서에 동일하게 특정 키워드가 계속 나오면 이게 과연 중요한 건가?  \n- 여러분, 여러분 여러분, 단순하게 카운팅으로 봐서 빈도가 높으면 다 중요한가?  \n  \n- 단어가 더 많은 문서에 나타날수록 오히려 그 단어는 별로 중요하지 않다.  \n- TF-IDF(Term Frequency - Inverse Document Frequency) 단어빈도 - 역문서빈도\n'

In [57]:
print(k.nouns(data))

['말뭉치', '한계', '의', '방식', '사용', '의문', '제기', '카운트', '벡터', '빈도', '단어', '모든', '문서', '특정', '키', '워드', '계속', '이', '과연', '건가', '여러분', '여러분', '여러분', '카운팅', '빈도', '단어', '더', '문서', '오히려', '그', '단어', '별로', '단어', '빈도', '역', '문서', '빈도']


In [58]:
print(k.pos(data))

[('###', 'Punctuation'), ('Bow', 'Alpha'), ('(', 'Punctuation'), ('Bag', 'Alpha'), ('of', 'Alpha'), ('Words', 'Alpha'), (')', 'Punctuation'), ('말뭉치', 'Noun'), ('에', 'Josa'), ('한계', 'Noun'), ('가', 'Josa'), ('있어서', 'Adjective'), ('->', 'Punctuation'), ('TF', 'Alpha'), ('-', 'Punctuation'), ('IDF', 'Alpha'), ('의', 'Noun'), ('방식', 'Noun'), ('을', 'Josa'), ('사용', 'Noun'), ('한', 'Josa'), ('다', 'Adverb'), ('.', 'Punctuation'), ('\n\n', 'Foreign'), ('-', 'Punctuation'), ('의문', 'Noun'), ('제기', 'Noun'), (':', 'Punctuation'), ('카운트', 'Noun'), ('벡터', 'Noun'), ('는', 'Josa'), ('빈도', 'Noun'), ('가', 'Josa'), ('높을수록', 'Adjective'), ('중요한', 'Adjective'), ('단어', 'Noun'), ('아닌가', 'Adjective'), ('?', 'Punctuation'), ('-', 'Punctuation'), ('모든', 'Noun'), ('문서', 'Noun'), ('에', 'Josa'), ('동일하게', 'Adjective'), ('특정', 'Noun'), ('키', 'Noun'), ('워드', 'Noun'), ('가', 'Josa'), ('계속', 'Noun'), ('나오면', 'Verb'), ('이', 'Noun'), ('게', 'Josa'), ('과연', 'Noun'), ('중요한', 'Adjective'), ('건가', 'Noun'), ('?', 'Punctuation'), ('-

In [23]:
import pandas as pd
movie_df = pd.read_csv('movie_rv.csv')
movie_df

Unnamed: 0.1,Unnamed: 0,id,document,label
0,0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,2,10265843,너무재밓었다그래서보는것을추천한다,0
3,3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...,...
149995,149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,149996,8549745,평점이 너무 낮아서...,1
149997,149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [24]:
# na값 확인
movie_df['document'] = movie_df['document'].fillna(0)
movie_df['document'] = movie_df['document'].astype(str)

In [25]:
movie_df_sample = movie_df.iloc[:50000]

In [26]:
movie_df_sample

Unnamed: 0.1,Unnamed: 0,id,document,label
0,0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,2,10265843,너무재밓었다그래서보는것을추천한다,0
3,3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...,...
49995,49995,9928869,"""이게 소위 스페인식 Neo-realism 이란 건가? - 물론, """"아동 판타지""...",1
49996,49996,4489208,보지마셈 저 믿으세요 보지마셈,0
49997,49997,1606591,최고졸작,0
49998,49998,8506407,재밌고 좋았음 10자 쓰라고?!,1


## 수치로 어떻게 나타내나? -> 문서에 대한 카운트 기반으로 생각할 수 있다.  
- CountVectorizer 패키지를 사용하면 쉽게 벡터화해서 데이터를 전처리할 수 있다.  
- { '원데이':3, '클래스':2 }

In [27]:
from sklearn.feature_extraction.text import CountVectorizer

In [37]:
# 예시 리스트
corpus = [
    'This is the first corpus',
    'This corpus is the second corpus',
    'And this corpus is the third one',
    'Is this the first corpus?'
]

cv = CountVectorizer()
# 위의 리스트들을 행렬화해야한다.
# 행렬화를 하기 위해서는 fit_transform을 사용한다.

# 문서를 벡터로 변환
X = cv.fit_transform(corpus)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것', cv.get_feature_names_out())
print('----')
print('내가 원하는 매트릭스를 보고 싶다!\n', X.toarray()) # 숫자의 의미는 단어의 빈도수를 의미한다.

corpus 사용한 피처는 무엇인지 확인하는 것 ['and' 'corpus' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
----
내가 원하는 매트릭스를 보고 싶다!
 [[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 1 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


- ['and' 'corpus' 'first' 'is' 'one' 'second' 'the' 'third' 'this']  
- corpus의 리스트[0] ~ [3] 리뷰에 카운팅을 계산해서 -> 행렬 변환이 된다.

In [29]:
X

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 22 stored elements in Compressed Sparse Row format>

In [38]:
## 한국어로 진행
corpus_ko = [
    '오늘 날씨는 매우 좋습니다',
    '내일 날씨는 매우 좋을까요?',
    '내일은 비가 올 것 같습니다',
    '모두 내일은 우산을 준비하세요',
    'BDA는 이제 곧 9기를 모집합니다',
    '우리는 열심히 공부합니다',
    '우리는 내일도 내일또 공부합니다'
]

In [39]:
# CountVectorizer
cv = CountVectorizer()

# 문서를 벡터로 변환
X = cv.fit_transform(corpus_ko)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것', cv.get_feature_names_out())
print('----')
print('내가 원하는 매트릭스를 보고 싶다!\n', X.toarray()) # 숫자의 의미는 단어의 빈도수를 의미한다.
# 이 경우 내일이라는 단어가 3번 나왔다. (내일, 내일도, 내일은, 내일또) -> 이것이 의미있는 차원인가? 전처리가 필요하다.

corpus 사용한 피처는 무엇인지 확인하는 것 ['9기를' 'bda는' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일또' '내일은' '매우' '모두'
 '모집합니다' '비가' '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 매트릭스를 보고 싶다!
 [[0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
 [0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
 [1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]


In [40]:
# 불용어 추가하기!
stop_words = ['bda는']

In [41]:
# CountVectorizer
cv = CountVectorizer(stop_words = stop_words)

# 문서를 벡터로 변환
X = cv.fit_transform(corpus_ko)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것', cv.get_feature_names_out())
print('----')
print('내가 원하는 매트릭스를 보고 싶다!\n', X.toarray()) # 숫자의 의미는 단어의 빈도수를 의미한다.
# 'bda는'이라는 단어가 사라졌다.

corpus 사용한 피처는 무엇인지 확인하는 것 ['9기를' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일또' '내일은' '매우' '모두' '모집합니다' '비가'
 '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 매트릭스를 보고 싶다!
 [[0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
 [0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
 [0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]


In [42]:
X
#
## 7x20
## 7 : 개의 문서 즉, 7개의 문장들을 의미한다.
# corpus_ko = [
    #    '오늘 날씨는 매우 좋습니다',
    #    '내일 날씨는 매우 좋을까요?',
    #    '내일은 비가 올 것 같습니다',
    #    '모두 내일은 우산을 준비하세요',
    #    'BDA는 이제 곧 9기를 모집합니다',
    #    '우리는 열심히 공부합니다',
    #    '우리는 내일도 내일또 공부합니다'
    # ]
    
## 20 : 고유 단어수로 벡터화된 특징 수
    # ['9기를' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일또' '내일은' '매우' '모두' '모집합니다' '비가'
     # '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
     
## 행렬에서 0이 아닌 요소의 수를 세어서 반환 7 x 20 = 140

## 25 : 0이 아닌 요소가 25개, 나머지는 모두 0이다.
    #  [[0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
    #  [0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
    #  [0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
    #  [0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
    #  [1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
    #  [0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
    #  [0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]
    
## 희소한지의 비율 0의 비율

<7x20 sparse matrix of type '<class 'numpy.int64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [43]:
140-25

115

In [44]:
# 0의 희소에 대한 비율 계산
115/140

0.8214285714285714