In [1]:
# 구글 드라이브 연결 - 마운트
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# 1. 텍스트 전처리의 개념
- 자연어 처리(NLP) = ***전처리*** + 변환 + 분석수행
- 전처리 = 일반적으로 공통적인 과정을 거침
## 1.1 전처리가 필요한 이유
  - 문자(text) = 문자열 표시 -> ***'기호의 순차순열'*** -> 문자 단위로 저장
  - 하나의 문장을 이해할 때는 사용된 **단어들의 순차**로 이해
  => 단어를 이해,순서에 따라 의미를 이해
  - 컴퓨터에게 어떤 문장을 이해시키고 싶은 경우 -> 하나의 문자열로 이루어진 문장 혹은 문서를 단어 단위로 나눈 후에 이 단어들의 리스트로 변환

## 1.2 전처리의 단계
  - 전처리는 '주어진 텍스트에서 노이즈와 같이이 불필요한 제거, 문자을 표준 단위로 분리, 각 단어의 품사까지 파악하는 것'
  - 단계:  
    1. 정재(Cleaning) : 주어진 텍스트에서 불필요한 노이즈를 제거. 토큰화 이전, 이후에도 간간히 지속적으로 진행
    2. 토큰화(Tokenization) : 주어진 텍스트를 원하는 단위(토큰)로 나누는 작업. 문장 토큰화, 단어 토큰화
    3. 정규화 : 같은 의미를 가진 동일한 단어임에도 불구하고 다른 형태로 쓰여진 단어들을 통일시켜 표준단어를 만듦( go, goes -> go), 어간추출과 표제어 추출이 있음
    4. 품사 태깅 : 단어를 문법적인 기능에 따라 분류, 문맥 파악을 필요로 함

# 2. 토큰화



In [2]:
import nltk
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to /root/nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

## 2.1 문장 토큰화
- 여러 줄의 문장으로 이루어진 텍스트를 문장 단위로 토큰화

In [3]:
para = "Hello everyone. It's good to see you. Let's start our Text mining class!"

from nltk.tokenize import sent_tokenize

#. 주어진 텍스트를 문장 단위로 토큰화. 주로, . ! ? 사용
print(sent_tokenize(para))

['Hello everyone.', "It's good to see you.", "Let's start our Text mining class!"]


In [4]:
# 한국어도 잘 되는 모습
para_kor = '안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트마이닝 클래스를 시작해봅시다!'
print(sent_tokenize(para_kor))

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트마이닝 클래스를 시작해봅시다!']


## 2.2 단어토큰화
- 일반적인 토큰화, 단어 단위로 분리
- word_tokenize와 WordPunctTokenizer는 다른 알고리즘
- 한국어 단어 토큰화는 잘 안됨(최소 의미 단위가 형태소이기때문)

In [5]:
from nltk.tokenize import word_tokenize

  # 주어진 택스트를 word 단위로 tokenize함
print(word_tokenize(para))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'Text', 'mining', 'class', '!']


In [6]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(para))

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'Text', 'mining', 'class', '!']


In [7]:
print(WordPunctTokenizer().tokenize(para_kor))

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']


## 2.3 정규표현식을 이용한 토큰화
- NLTK가 제공하는 함수를 사용하면 토큰화가 간편, 단 원하는대로 세밀하게 토큰화 어려움
- 정규표현식을 사용
- regex, regexp
- 문자열에 대해 원하는 검색 패턴을 지정하는 방법

- [abc] : [ ]사이에 있는 문자abc와 매칭

In [8]:
import re
re.findall("[abc]", "How are you, boy?")

['a', 'b']

- [0123456789] == [0-9]
- [a-zA-Z] == a~z, A~Z
- [\w] == 알파벳 + 숫자 + _, 나머진 공백처리
- []+ : 1회이상 반복, []{a,b} : a이상 b이하 반복

In [9]:
re.findall("[0123456789]","3a7b5c9d")

['3', '7', '5', '9']

In [10]:
re.findall("[\w]","3a 7b_' .^&5c9d")

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

In [11]:
re.findall("[_]+","a_b, c__d,e___f")

['_', '__', '___']

In [12]:
re.findall("[\w]+", "how are you, boy?")

['how', 'are', 'you', 'boy']

In [13]:
re.findall("[o]{2,4}","oh, hoow are yooooou, boooooooy?")

['oo', 'oooo', 'oooo', 'ooo']

- RegexpTokenizer

In [14]:
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\w']+")

print(tokenizer.tokenize("Sorry, i can't go there"))

['Sorry', 'i', "can't", 'go', 'there']


In [15]:
tokenizer = RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Sorry, i can't go there"))

['Sorry', 'i', 'can', 't', 'go', 'there']


In [16]:
tokenizer = RegexpTokenizer("[\w']{3,}")
text1 ="Sorry, i can't go there"
print(tokenizer.tokenize(text1.lower()))

['sorry', "can't", 'there']


## 2.4 노이즈와 불용어 제거
- 정규표현식으로 특수문자같은 불필요한 문자나 노이즈 제거가능
- 불용어 : 사용하는 단어, 분석에 별 의미 없는 단어
- 빈도가 너무 적거나, 반대로 너무 많은 경우 ex) ㅋㅋㅋㅋㅋㅋㅋㅋㅋ
- 길이가 너무 짧은 단어들 - 정규표현식으로 제거
- 불용어 사전 생성 & 사전 참조하여 불용어 삭제

In [17]:
from nltk.corpus import stopwords
english_stops = set(stopwords.words('english')) # 반복되지 않도록 set

text1 = "Sorry, I couldn't go to movie yesterday"

tokenizer = RegexpTokenizer("[\w']+")
tokens = tokenizer.tokenize(text1.lower())

result = [word for word in tokens if word not in english_stops]
print(result)

['sorry', 'go', 'movie', 'yesterday']


In [18]:
print(english_stops)

{"mustn't", 'only', 'not', 'again', 'couldn', 'so', 'some', 'myself', 'at', 'd', 'its', 'was', 'above', 'm', "you'll", 'itself', "she's", 'how', 'few', "won't", 'she', 'weren', 'any', "hasn't", 'hadn', 'y', 'all', "haven't", "should've", 'ain', 'shan', 'down', 'isn', 'were', 'these', 'over', 'can', 'should', 'didn', 'off', 'then', 'a', 'more', 'our', 'below', 'but', 'wouldn', 'this', 'if', 'them', 'mustn', 'does', 'further', 'won', 'to', "didn't", 'aren', 'him', 'themselves', 'until', 'for', "doesn't", 'being', 'each', 's', 'where', 'we', 'wasn', "weren't", 'theirs', 're', 'by', 'he', "it's", 'through', "isn't", 'it', 'hasn', 'because', 'what', 'needn', 'on', "couldn't", 'or', 'than', 'me', 'which', 'don', 'under', 'there', "hadn't", 'hers', 'have', 'my', 've', 'had', "mightn't", 'those', "shouldn't", 'when', 'll', 'did', 'the', 'between', 'into', 'in', 'you', 'they', 'their', 'do', 'no', 'be', "you've", 'ourselves', 'and', 'himself', 'herself', 'yours', 'very', 'her', 'your', 'before'

In [19]:
my_stopword = ['i','go','to']

result = [word for word in tokens if word not in my_stopword]
print(result)

['sorry', "couldn't", 'movie', 'yesterday']


# 3. 정규화

- 정규화 :같은 의미를 가진 동일한 단어면서, 다른 형태로 쓰여진 단어들을 통일해 표준단어로 만드는 작업
- ex) go, goes, 먹다, 먹었다 -> go, 먹다
- 어간 추출과 표제어 추출로 나뉜다.

## 3.1 어간추출
- ***어간추출*** : "**어형**이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 작업"
- 단어 정리
  - 어형 : 단어의 형태
  - ***어간(stem)*** : 어형변화에서 변화하지 않는 부분
  => 어간 : ***용언***의 바뀌지 않는 부분, 어미 : 바뀌는 부분
  - 용언 : 서술하는 동사 & 형용사
  - 어형변화 : 동일한 어간을 가지고, 동일한 품사를 유지하면서 ***그 어미를 여러가지로 변화시켜 그에 따라 문법적 기능도 변화하는 현상***
  - 어형변화는 시간의 경과에 따라 바뀌는 통시적 어형변화, 문법적 현상에 따른 공시적 어형변화
  
- 영어는 우리나라말과 원리와 구조가 다르므로 어간추출이 다르다.
- 영어의 경우 복수형을 단수형으로 바꾸는 작업
- Porter & Lancaster stemmer가 존재

### 스테머 알고리즘
- 단어가 변형되는 규칙을 이용해 원형을 찾음 -> 항상 올바른 결과는 아님
- 포터 스테머는 모든 단어가 같은 규칙에 따라 변환
- Lancaster는 포터와 유사하지만 조금 다르다

In [20]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem("cook"))
print(stemmer.stem("cookery"))
print(stemmer.stem('cookbooks'))

cook
cookeri
cookbook


In [21]:
para= "Hello everyone. It's good to see you. Let's start our text mining class!"
tokens = word_tokenize(para)
print(tokens)
result = [stemmer.stem(token) for token in tokens]
print(result)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'text', 'mine', 'class', '!']


In [22]:
# Lancaster
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('cooking'))
print(stemmer.stem('cookery'))
print(stemmer.stem('cookbooks'))

cook
cookery
cookbook


## 3.2 표제어 추출
- 표제어 추출(Lemmatization)은 Lemma변환, lemma는 우리말로 '단어의 기본형'으로 번역, 즉 주어진 단어를 기본형으로 바꾼다는 뜻
- 어간추출과 표제어 추출과의 차이
  - 어간 추출 : 언어학적인 관점
  - 표제어 추출 : 사전에 나오는 독립적 의미(의미적 관점)

- WordNet을 사용
- 품사를 잘 파악해야함

In [24]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos = 'v'))
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbook'))

cooking
cook
cookery
cookbook
