<a href="https://colab.research.google.com/github/SojeongShin/NLP_2023/blob/Notion/2_1_%E1%84%90%E1%85%A6%E1%86%A8%E1%84%89%E1%85%B3%E1%84%90%E1%85%B3_%E1%84%8C%E1%85%A5%E1%86%AB%E1%84%8E%E1%85%A5%E1%84%85%E1%85%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2주차(2-1) 텍스트 전처리

202001581 신소정 (실행 shift + enter)

## 1. 토큰화(Tokenization)

#### NLTK (https://www.nltk.org/) 설치

In [1]:
# 필요한 nltk library download
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('tagsets')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.


True

### 1.1 문장 토큰화(sentence tokenize)

In [2]:
para = "Hello everyone. It's good to see you. Let's start our NLP class!"

In [3]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(para)) #주어진 text를 sentence 단위로 tokenize함. 주로 . ! ? 등을 이용

['Hello everyone.', "It's good to see you.", "Let's start our NLP class!"]


### 1.2 단어 토큰화 (word tokenize)

In [4]:
from nltk.tokenize import word_tokenize
print(word_tokenize(para)) #주어진 text를 word 단위로 tokenize함

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'NLP', 'class', '!']


In [5]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(para))

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'NLP', 'class', '!']


# 2. 정제(Cleaning)

### 2.1 노이즈와 불용어 제거

In [6]:
from nltk.corpus import stopwords #일반적으로 분석대상이 아닌 단어들
english_stops = set(stopwords.words('english')) #반복이 되지 않도록 set으로 변환

In [7]:
print('불용어 개수 :', len(english_stops))
print('불용어 10개 출력 :', stopwords.words('english')[:10])

불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [8]:
print(english_stops) #nltk가 제공하는 영어 stopword를 확인

{'were', 'it', 'needn', 'how', 'just', 'and', 'she', 'then', 'hadn', "mightn't", 'does', "shouldn't", "you're", 'itself', 'theirs', 'mustn', 'has', "couldn't", 'not', 'your', 'their', "hadn't", 'll', 'into', 'over', 'an', "you'd", 'on', 'themselves', 'we', 'during', 'a', 'be', "hasn't", "that'll", 's', 'nor', 'are', "isn't", 'o', "shan't", 'ourselves', 've', 'its', 'our', "should've", 'they', 'yours', 'hers', 'those', 'further', 'can', 'having', 'so', 'been', 'in', 'of', 'when', 'about', 'isn', "mustn't", 'above', 'his', 'again', 'or', 'couldn', 'my', 'but', 'doesn', 'whom', "needn't", 'against', 'no', 'wouldn', 'am', 'up', 'until', 'him', "you'll", 'with', 'same', 'if', 'what', 'herself', 'had', 'at', 'very', 'did', 'shan', 'me', 'below', 'haven', 'to', 'once', 'by', 'before', 'own', 'himself', 'them', 'down', 'here', "it's", 'yourselves', 'between', "doesn't", 'you', 'is', 'there', 'through', 'because', 'such', 'will', "don't", 'where', 'other', 'have', 'too', 'that', 'doing', 't', '

In [9]:
text1 = "Sorry, I couldn't go to movie yesterday."
tokens = word_tokenize(text1.lower()) #word_tokenize로 토큰화
print(tokens)

['sorry', ',', 'i', 'could', "n't", 'go', 'to', 'movie', 'yesterday', '.']


In [10]:
result = [word for word in tokens if word not in english_stops] #stopwords를 제외한 단어들만으로 list를 생성
print(result)

['sorry', ',', 'could', "n't", 'go', 'movie', 'yesterday', '.']


In [11]:
#자신만의 stopwords를 만들고 이용
#한글처리에서도 유용하게 사용할 수 있음
my_stopword = ['i', 'go', 'to'] # 나만의 stopword를 리스트로 정의
result = [word for word in tokens if word not in my_stopword]
print(result)

['sorry', ',', 'could', "n't", 'movie', 'yesterday', '.']


# 3. 정규화(Normalization)
## 3.1 어간 추출(Stemming)

In [12]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookeri cookbook


In [13]:
from nltk.tokenize import word_tokenize

para = "Hello everyone. It's good to see you. Let's start our Natural Langage Processing class!"
tokens = word_tokenize(para) #토큰화 실행
print(tokens)
result = [stemmer.stem(token) for token in tokens] #모든 토큰에 대해 스테밍 실행
print(result)

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'Natural', 'Langage', 'Processing', 'class', '!']
['hello', 'everyon', '.', 'it', "'s", 'good', 'to', 'see', 'you', '.', 'let', "'s", 'start', 'our', 'natur', 'langag', 'process', 'class', '!']


In [14]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks'))

cook cookery cookbook


## 3.2 표제어 추출(Lemmatization)

In [15]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

In [16]:
#comparison of lemmatizing and stemming
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print('stemming result:', stemmer.stem('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes', pos='v'))

stemming result: believ
lemmatizing result: belief
lemmatizing result: believe


In [17]:
print(lemmatizer.lemmatize('cooking'))
print(lemmatizer.lemmatize('cooking', pos='v')) #품사를 지정
print(lemmatizer.lemmatize('cookery'))
print(lemmatizer.lemmatize('cookbooks'))

cooking
cook
cookery
cookbook


# [[[실습 2-1-1]]] 어간 추출(Stemming)과 표제어 추출(Lemmatization)의 차이점은?


*   어간 추출과 표제어 추출의 차이점을 보일 수 있는 예시를 들고, 둘의 차이점이 무엇인지 분석해 보시오.

[참고]
```
print('stemming result:', stemmer.stem('believes'))
print('lemmatizing result:', lemmatizer.lemmatize('believes'))
```





In [21]:
# 실습 코드 작성
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print('stemming result:', stemmer.stem('flying'))
print('lemmatizing result:', lemmatizer.lemmatize('flying'))
print('lemmatizing result:', lemmatizer.lemmatize('flying', pos='v'))

stemming result: fli
lemmatizing result: flying
lemmatizing result: fly


위와 같이 어간 추출(Stemming)은 주어진 단어의 어간을 파악하기에 사전에 등재 되지 않은 단어가 나올 수 있는 반면에, 표제어 추출(Lemmatization)은 단어의 기본형을 파악하여 사전에 있는 단어만 나온다. 또한 표제어 추출은 옵션 설정을 통해 품사도 정해 출력가능하다.

# 4. 품사 태깅(Part-of-Speech Tagging)

## 4.1 NLTK를 이용한 품사 태깅

In [22]:
import nltk
from nltk.tokenize import word_tokenize

tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our NLP class!")
print(nltk.pos_tag(tokens))

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('NLP', 'NNP'), ('class', 'NN'), ('!', '.')]


In [23]:
nltk.help.upenn_tagset('CC')

CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet


In [24]:
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]
print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'class']


## 4.2 한글 형태소 분석과 품사 태깅

In [30]:
sentence = '''절망의 반대가 희망은 아니다.
어두운 밤하늘에 별이 빛나듯
희망은 절망 속에 싹트는 거지
만약에 우리가 희망함이 적다면
그 누가 세상을 비출어줄까.
정희성, 희망 공부'''

In [31]:
tokens = word_tokenize(sentence)
print(tokens)
print(nltk.pos_tag(tokens))

['절망의', '반대가', '희망은', '아니다', '.', '어두운', '밤하늘에', '별이', '빛나듯', '희망은', '절망', '속에', '싹트는', '거지', '만약에', '우리가', '희망함이', '적다면', '그', '누가', '세상을', '비출어줄까', '.', '정희성', ',', '희망', '공부']
[('절망의', 'JJ'), ('반대가', 'NNP'), ('희망은', 'NNP'), ('아니다', 'NNP'), ('.', '.'), ('어두운', 'VB'), ('밤하늘에', 'JJ'), ('별이', 'NNP'), ('빛나듯', 'NNP'), ('희망은', 'NNP'), ('절망', 'NNP'), ('속에', 'NNP'), ('싹트는', 'NNP'), ('거지', 'NNP'), ('만약에', 'NNP'), ('우리가', 'NNP'), ('희망함이', 'NNP'), ('적다면', 'NNP'), ('그', 'NNP'), ('누가', 'NNP'), ('세상을', 'NNP'), ('비출어줄까', 'NNP'), ('.', '.'), ('정희성', 'NN'), (',', ','), ('희망', 'NNP'), ('공부', 'NNP')]


### KoNLPy 설치

https://konlpy.org/ko/latest/install/

In [26]:
! pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m42.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m34.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [43]:
from konlpy.tag import Okt
t = Okt()

In [44]:
print('형태소:', t.morphs(sentence))
print()
print('명사:', t.nouns(sentence))
print()
print('품사 태깅 결과:', t.pos(sentence))

형태소: ['절망', '의', '반대', '가', '희망', '은', '아니다', '.', '\n', '어', '두운', '밤하늘', '에', '별', '이', '빛나듯', '\n', '희망', '은', '절망', '속', '에', '싹트는', '거지', '\n', '만약', '에', '우리', '가', '희망', '함', '이', '적다면', '\n', '그', '누가', '세상', '을', '비출어줄까', '.', '\n', '정희성', ',', '희망', '공부']

명사: ['절망', '반대', '희망', '어', '두운', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '우리', '희망', '함', '그', '누가', '세상', '정희성', '희망', '공부']

품사 태깅 결과: [('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation'), ('\n', 'Foreign'), ('어', 'Noun'), ('두운', 'Noun'), ('밤하늘', 'Noun'), ('에', 'Josa'), ('별', 'Noun'), ('이', 'Josa'), ('빛나듯', 'Verb'), ('\n', 'Foreign'), ('희망', 'Noun'), ('은', 'Josa'), ('절망', 'Noun'), ('속', 'Noun'), ('에', 'Josa'), ('싹트는', 'Verb'), ('거지', 'Noun'), ('\n', 'Foreign'), ('만약', 'Noun'), ('에', 'Josa'), ('우리', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('함', 'Noun'), ('이', 'Josa'), ('적다면', 'Verb'), ('\n', 'Foreign'), ('그', 'Noun'), ('누가', 'Noun'), ('세상

# [[[실습2-1-2]]] 형태소 분석기 비교: Okt vs Komoran
* Okt 자리에 Komoran을 입력해 보세요.


```
from konlpy.tag import Komoran
t = Komoran()
```
그리고, Okt와 Komoran의 결과를 비교해 보세요.



In [45]:
# 실습 코드 작성

from konlpy.tag import Komoran
t = Komoran()

print('형태소:', t.morphs(sentence))
print()
print('명사:', t.nouns(sentence))
print()
print('품사 태깅 결과:', t.pos(sentence))

형태소: ['절망', '의', '반대', '가', '희망', '은', '아니', '다', '.', '어둡', 'ㄴ', '밤하늘', '에', '별', '이', '빛나', '듯', '희망', '은', '절망', '속', '에', '싹트', '는', '거지', '만약', '에', '우리', '가', '희망', '하', 'ㅁ', '이', '적', '다면', '그', '누구', '가', '세상', '을', '비추', 'ㄹ', '어', '주', 'ㄹ까', '.', '정희성', ',', '희망', '공부']

명사: ['절망', '반대', '희망', '밤하늘', '별', '희망', '절망', '속', '거지', '만약', '희망', '세상', '정희성', '희망', '공부']

품사 태깅 결과: [('절망', 'NNG'), ('의', 'JKG'), ('반대', 'NNG'), ('가', 'JKS'), ('희망', 'NNG'), ('은', 'JX'), ('아니', 'VCN'), ('다', 'EF'), ('.', 'SF'), ('어둡', 'VA'), ('ㄴ', 'ETM'), ('밤하늘', 'NNP'), ('에', 'JKB'), ('별', 'NNG'), ('이', 'JKS'), ('빛나', 'VV'), ('듯', 'EC'), ('희망', 'NNG'), ('은', 'JX'), ('절망', 'NNG'), ('속', 'NNG'), ('에', 'JKB'), ('싹트', 'VV'), ('는', 'ETM'), ('거지', 'NNG'), ('만약', 'NNG'), ('에', 'JKB'), ('우리', 'NP'), ('가', 'JKS'), ('희망', 'NNG'), ('하', 'XSV'), ('ㅁ', 'ETN'), ('이', 'JKS'), ('적', 'VA'), ('다면', 'EC'), ('그', 'MM'), ('누구', 'NP'), ('가', 'JKS'), ('세상', 'NNG'), ('을', 'JKO'), ('비추', 'VV'), ('ㄹ', 'ETM'), ('어', 'EC'), ('주', 

두 형태소 분석기 모두 올바른 띄어쓰기와 맞춤법이 지켜졌을 때 좋은 성능을 보인다. 하지만 Komoran은 Okt에 비해 형태소를 더 자세하고 정확하게 분석한다. '어두운'이 주어졌을 때, Komoran은 '어둡'(어둡다의 어근) + 'ㄴ'으로 분류하지만 Okt는 '어'+'두운'으로 분석한다. 또한 Komoran이 Okt보다 처리속도가 조금 더 빠르다.