In [48]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/movie_rv.csv')

## 텍스트 전처리
- Python 문법으로 진행한 것은 > 데이터 정제하는 과정, 특수문자/기타 공백 제거
- 정제 작업을 한 후에 한글/영어에 따라 전처리 진행
- nltk 패키지로 학습
- 토큰화 : 주어진 텍스트 단위를 나누는 작업
    - 문장 토큰화
    - 단어 토큰화 : 일반적인 토큰화작업

- 정규화: go goes (주어에 따라 달라지는) 이런 것들을 하나로 정규화시켜서 통일해야 한다.
    - 어간 추출, 표제어 추출
    
- 품사 태깅 : 명사, 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용한다.

In [49]:
import nltk

In [50]:
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('average_perception_tagger')

[nltk_data] Downloading package punkt to /Users/kimsinwoo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     /Users/kimsinwoo/nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/kimsinwoo/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/kimsinwoo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Error loading average_perception_tagger: Package
[nltk_data]     'average_perception_tagger' not found in index


False

### 문장 토큰화

In [51]:
from nltk.tokenize import sent_tokenize # 문장 토큰을 쉽게 할 수 있다.

In [52]:
sp1 = 'Machine Learning is a field of artificial intelligence where computers learn from data to discover patterns and perform tasks without being explicitly programmed. It enables computers to learn and improve from experience automatically. In general, the process of machine learning involves'

In [53]:
# 주어진 문장 단위로 토큰
print(sent_tokenize(sp1))

['Machine Learning is a field of artificial intelligence where computers learn from data to discover patterns and perform tasks without being explicitly programmed.', 'It enables computers to learn and improve from experience automatically.', 'In general, the process of machine learning involves']


In [54]:
from nltk.tokenize import word_tokenize

In [55]:
print(word_tokenize(sp1))

['Machine', 'Learning', 'is', 'a', 'field', 'of', 'artificial', 'intelligence', 'where', 'computers', 'learn', 'from', 'data', 'to', 'discover', 'patterns', 'and', 'perform', 'tasks', 'without', 'being', 'explicitly', 'programmed', '.', 'It', 'enables', 'computers', 'to', 'learn', 'and', 'improve', 'from', 'experience', 'automatically', '.', 'In', 'general', ',', 'the', 'process', 'of', 'machine', 'learning', 'involves']


- 느낌표, 기타 분리등 다양하게 분리할 수 있는 패키지

In [56]:
from nltk.tokenize import WordPunctTokenizer #특수문자 제거도

In [57]:
print(WordPunctTokenizer().tokenize(sp1))

['Machine', 'Learning', 'is', 'a', 'field', 'of', 'artificial', 'intelligence', 'where', 'computers', 'learn', 'from', 'data', 'to', 'discover', 'patterns', 'and', 'perform', 'tasks', 'without', 'being', 'explicitly', 'programmed', '.', 'It', 'enables', 'computers', 'to', 'learn', 'and', 'improve', 'from', 'experience', 'automatically', '.', 'In', 'general', ',', 'the', 'process', 'of', 'machine', 'learning', 'involves']


### 정규표현식 토크나이즈

In [58]:
from nltk.tokenize import RegexpTokenizer

In [59]:
tokenizer = RegexpTokenizer('[\W"]+') # 정규표현식 제거 가능

In [60]:
#print(tokenizer.tokenize(sp1))

### 노이즈또는 불용어 제거하기
- 정규표현식으로 제거할 수 없는 패턴들이 있다.
- 특수문자와는 다르게 분석에 의미가 없는 단어들을 말한다.

In [61]:
from nltk.corpus import stopwords # 불용어 가져오는 패키지

In [62]:
en_stops = set(stopwords.words('english'))

In [63]:
en_stops

{'a',
 'about',
 'above',
 'after',
 'again',
 'against',
 'ain',
 'all',
 'am',
 'an',
 'and',
 'any',
 'are',
 'aren',
 "aren't",
 'as',
 'at',
 'be',
 'because',
 'been',
 'before',
 'being',
 'below',
 'between',
 'both',
 'but',
 'by',
 'can',
 'couldn',
 "couldn't",
 'd',
 'did',
 'didn',
 "didn't",
 'do',
 'does',
 'doesn',
 "doesn't",
 'doing',
 'don',
 "don't",
 'down',
 'during',
 'each',
 'few',
 'for',
 'from',
 'further',
 'had',
 'hadn',
 "hadn't",
 'has',
 'hasn',
 "hasn't",
 'have',
 'haven',
 "haven't",
 'having',
 'he',
 'her',
 'here',
 'hers',
 'herself',
 'him',
 'himself',
 'his',
 'how',
 'i',
 'if',
 'in',
 'into',
 'is',
 'isn',
 "isn't",
 'it',
 "it's",
 'its',
 'itself',
 'just',
 'll',
 'm',
 'ma',
 'me',
 'mightn',
 "mightn't",
 'more',
 'most',
 'mustn',
 "mustn't",
 'my',
 'myself',
 'needn',
 "needn't",
 'no',
 'nor',
 'not',
 'now',
 'o',
 'of',
 'off',
 'on',
 'once',
 'only',
 'or',
 'other',
 'our',
 'ours',
 'ourselves',
 'out',
 'over',
 'own',
 'r

In [64]:
tokenizer = RegexpTokenizer('[\W"]+')
tokens = tokenizer.tokenize(sp1.lower()) # 소문자로 변경

In [65]:
res = [word for word in tokens if word not in en_stops]

In [66]:
res

[' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 '. ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 '. ',
 ' ',
 ', ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ']

### 정규화 작업
- 동사 변환 되는 것
- 흔희 어간(stem) 변하지 않는 부분인 어간을 추출한다는 개념
- 간다, 갔다, 작다, 작으니, 작고,작아서 .. 작다의 개념에서 파생
- 포터 스테머 정규화하는 패키지

In [70]:
from nltk.stem import PorterStemmer # 정규화하는 패키지

stem = PorterStemmer()
print(stem.stem('go'),stem.stem('going'),stem.stem('goes'))

go go goe


In [71]:
tokens = word_tokenize(sp1)

#불용어 한 것처럼 반복문으로 진행
res1 = [stem.stem(token) for token in tokens]

In [72]:
res1

['machin',
 'learn',
 'is',
 'a',
 'field',
 'of',
 'artifici',
 'intellig',
 'where',
 'comput',
 'learn',
 'from',
 'data',
 'to',
 'discov',
 'pattern',
 'and',
 'perform',
 'task',
 'without',
 'be',
 'explicitli',
 'program',
 '.',
 'it',
 'enabl',
 'comput',
 'to',
 'learn',
 'and',
 'improv',
 'from',
 'experi',
 'automat',
 '.',
 'in',
 'gener',
 ',',
 'the',
 'process',
 'of',
 'machin',
 'learn',
 'involv']

- 랭카스터 스테마
- 결과는 포터 스테마랑은 다름

In [73]:
from nltk.stem import LancasterStemmer

In [74]:
lstem = LancasterStemmer()

In [76]:
print(lstem.stem('go'),lstem.stem('going'), lstem.stem('goes'))

go going goe


### 표제어 추출 Lemmatization
- 표제어 추출의 경우는 주어진 단어를 기본형으로 변환하는 것

In [77]:
from nltk.stem import WordNetLemmatizer

In [78]:
lemma = WordNetLemmatizer()

In [80]:
print(lemma.lemmatize('go'))
print(lemma.lemmatize('going'))
print(lemma.lemmatize('goes'))

print(lemma.lemmatize('going', pos = 'v')) #품사를 지정하여 뽑을 수 있다.

go
going
go
go


### 품사 태깅
- 새공책
- '새', '공책' / '공', '책'
- 품사를 태깅을 해서 본래 의미가 사라지지 않게 의미있는 형태소로 만드는 것