# NLP(Natural Language Processing) 자연어 처리란

## 자연어
- 사람이 사용하는 고유한 언어
- 인공언어의 반대 의미
    - 인공언어: 특정 목적을 위해 인위적으로 만든 언어
    - ex) 프로그래밍 언어

## 자연어 처리
- 사람이 사용하는 자연어를 컴퓨터가 사용할 수 있도록 처리하는 과정.
- 자연어 처리 응용분야
    - 번역 시스템
    - 문서요약
    - 감성분석
    - 대화형 시스템(챗봇)
    - 정보 검색 시스템
    - 텍스트 마이닝
    - 음성인식

# 텍스트 분석 수행 프로세스

1. 텍스트 전처리 
    - 클렌징(cleansing)
        - 특수문자, 기호 필요없는 문자 제거
        - 대소문자 변경
    - stop word(분석에 필요 없는 토큰) 제거
    - 텍스트 토큰화
        - 분석의 최소단위로 나누는 작업
        - 보통 단어단위나 글자단위로 나눈다.
    - 어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업
2. Feature vectorization   
    - 문자열 비정형 데이터인 텍스트를 숫자타입의 정형데이터로 만드는 작업
    - BOW와 Word2Vec
3. 머신러닝 모델 수립, 학습, 예측, 평가

# NLTK 
- Natural Language ToolKit
- https://www.nltk.org/
- 자연어 처리를 위한 파이썬 패키지

## NLTK 설치
- nltk 패키지 설치
pip 설치
```
pip install nltk
```
conda 설처
```
conda install nltk
```

- NLTK 추가 패키지 설치
```python
import nltk
nltk.download() # 설치 GUI 프로그램 실행
nltk.download('패키지명')
```

In [4]:
!conda install -y nltk

Collecting package metadata (current_repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: /Users/com/opt/anaconda3

  added / updated specs:
    - nltk


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    ca-certificates-2019.8.28  |                0         133 KB
    certifi-2019.9.11          |           py37_0         154 KB
    conda-4.8.0                |           py37_1         2.8 MB
    openssl-1.1.1d             |       h1de35cc_2         2.2 MB
    ------------------------------------------------------------
                                           Total:         5.3 MB

The following packages will be SUPERSEDED by a higher-priority channel:

  ca-certificates                                  anaconda --> pkgs/main
  certifi                                       conda-forge --> pkgs/main
  conda                                         con

In [5]:
import nltk

## NLTK 주요기능
- ### 말뭉치(corpus) 제공
    - **말뭉치**: 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료를 말한다.
    - 예제용 말뭉치 데이터를 제공한다.
corpus라는 단어는 기억해둘 필요가 있다.
- ### 텍스트 정규화를 위한 기능 제공
    - 토큰 생성
    - 여러 언어의 Stop word(불용어) 제공
    - 형태소 분석
        - 형태소
            - 의미가 있는 가장 작은 말의 단위
        - 형태소 분석
            - 말뭉치에서 의미있는(분석시 필요한) 형태소들만 추출하는 것           
        - 어간추출(Stemming)
        - 원형복원(Lemmatization)
        - 품사부착(POS tagging - Part Of Speech)
- ### 분석기능을 제공해 주는 클래스 제공
    - Text
    - FreqDist

In [None]:
!conda install -y -c anaconda nltk

# NLTK 텍스트 정규화 기본 문법

## 텍스트 토큰화
- 분석을 위해 문장을 작은 단위로 나누는 작업.
- **토큰(Token)**
    - 나뉜 문자열의 단위를 말한다. 
    - 정하기에 따라 문장, 단어일 수도 있고 문자일 수도 있다. 
- **Tokenizer**
    - 문장을 token으로 나눠주는 함수
    - NLTK 주요 tokenizer
        - **sent_tokenize()** : 문장단위로 나눠준다.
        - **word_tokenize()** : 단어단위로 나눠준다.
        - **regexp_tokenize()** : 토큰의 단위를 정규표현식으로 지정
        - 반환타입 : 토큰하나 하나를 원소로 하는 list

In [6]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


In [9]:
text_sample = """Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested."""

In [7]:
import nltk

In [None]:
# nltk.download('punkt')

In [10]:
# sent_tokenize() : 문장단위로 토큰화. 기준: '.'
sentence_tokens = nltk.sent_tokenize(text_sample)

In [11]:
len(sentence_tokens)

5

In [12]:
sentence_tokens

['Beautiful is better than ugly.',
 'Explicit is better than implicit.',
 'Simple is better than complex.',
 'Complex is better than complicated.',
 'Flat is better than nested.']

In [14]:
# 단어단위로 토큰화 : 기준: 공백
word_tokens = nltk.word_tokenize(text_sample)
len(word_tokens)

30

In [15]:
word_tokens

['Beautiful',
 'is',
 'better',
 'than',
 'ugly',
 '.',
 'Explicit',
 'is',
 'better',
 'than',
 'implicit',
 '.',
 'Simple',
 'is',
 'better',
 'than',
 'complex',
 '.',
 'Complex',
 'is',
 'better',
 'than',
 'complicated',
 '.',
 'Flat',
 'is',
 'better',
 'than',
 'nested',
 '.']

In [16]:
# regexp_tokenize() - 토큰단위를 정규표현식으로 지정.
t = "a1b2c3d"
nltk.regexp_tokenize(t, r'\d')

['1', '2', '3']

In [20]:
# \w : 글자, 숫자, _
reg_tokens = nltk.regexp_tokenize(text_sample, '\w+') #r'\w') 
len(reg_tokens)

25

In [21]:
reg_tokens

['Beautiful',
 'is',
 'better',
 'than',
 'ugly',
 'Explicit',
 'is',
 'better',
 'than',
 'implicit',
 'Simple',
 'is',
 'better',
 'than',
 'complex',
 'Complex',
 'is',
 'better',
 'than',
 'complicated',
 'Flat',
 'is',
 'better',
 'than',
 'nested']

## Stopword (불용어)
- 문장내에서는 자주 사용되지만 분석시 필요없는 단어들을 말함.
    - ex) 조사, 접미사, 접속사, 대명사 등
- Stopword 단어들을 List로 묶어서 관리한다.
    - nltk의 미리 정의된 리스트를 이용하거나 직접 정의할 수 있음.    

In [25]:
from nltk.corpus import stopwords

In [26]:
# nltk가 지원하는 stopword 언어 조회
print(stopwords.fileids())

['arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish']


In [29]:
sw = stopwords.words('english')
type(sw)

list

In [30]:
sw

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

### 문장별 토큰화 함수 구현
- 문장별 토큰화 시키는 함수 구현
- 쉼표,마침표등 구두점(punctuation)은 공백처리한다.
- stopword를 제외한다.

In [32]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [42]:
import re
def tokenize_text(document):
    stop_words = stopwords.words('english')
    #1. 텍스트 클린징 - 소문자로 변환, 특수문자 제거.
    document = document.lower()
    # 특수문자를 공백으로 변환
    pattern = '[{}]'.format(string.punctuation)
    sentence_token = nltk.sent_tokenize(document)
    sent_list = [] # 결과를 담을 리스트
    for sentence in sentence_token:
        sentence = re.sub(pattern, ' ', sentence) #특수문자들을 공백으로 전환
        word_token = nltk.word_tokenize(sentence)
        # stopword를 제거
        word_token = [word for word in word_token if word not in stop_words]
        sent_list.append(word_token)
        
    return sent_list

In [43]:
tokenize_text(text_sample)

[['beautiful', 'better', 'ugly'],
 ['explicit', 'better', 'implicit'],
 ['simple', 'better', 'complex'],
 ['complex', 'better', 'complicated'],
 ['flat', 'better', 'nested']]

In [36]:
'[{}]'.format(string.punctuation)

'[!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]'

In [None]:
tokenize_text(text_sample)

## 형태소 분석
- 형태소
    - 일정한 의미가 있는 가장 작은 말의 단위
- 형태소 분석  
    - 말뭉치에서 의미있는(분석에 필요한) 형태소들만 추출하는 것
    - 보통 단어로 부터 어근, 접두사, 접미사, 품사등 언어적 속성을 파악하여 처리한다. 
- 형태소 분석을 위한 기법
    - 어간추출(Stemming)
    - 원형(기본형) 복원 (Lemmatization)
    - 품사부착 (POS tagging - Part Of Speech)

### 어간추출(Stemming)
- 어간: 활용어에서 변하지 않는 부분
    - painted, paint, painting => 어간: paint
- 어간 추출 
    - 단어에서 어미를 제거하고 어간을 추출하는 작업
- nltk의 주요 어간 추출 알고리즘
    - Porter Stemmer
    - Lancaster Stemmer
    - Snowball Stemmer
- 메소드
    - `stemmer객체.stem(단어)`
- Stemming은 규칙기반으로 어간을 찾기 때문에 철자가 훼손된 어근 단어를 추출하는 경우도 있다.    

In [45]:
from nltk.stem import PorterStemmer, LancasterStemmer, SnowballStemmer

In [53]:
words = ["works", "working", "worked", "painting", "painted", "happy", "happier", "happiest"]

In [54]:
porter_stem = PorterStemmer()
[porter_stem.stem(word) for word in words]

['work', 'work', 'work', 'paint', 'paint', 'happi', 'happier', 'happiest']

In [55]:
l_stem = LancasterStemmer()
[l_stem.stem(word) for word in words]

['work', 'work', 'work', 'paint', 'paint', 'happy', 'happy', 'happiest']

In [56]:
sb_stem = SnowballStemmer("english")
[sb_stem.stem(word) for word in words]

['work', 'work', 'work', 'paint', 'paint', 'happi', 'happier', 'happiest']

### 원형(기본형)복원(Lemmatization)
- 단어의 기본형을 반환한다.
    - ex) am, is, are => be
- 단어의 품사를 지정하면 정확한 결과를 얻을 수 있다. 
- `WordNetLemmatizer객체.lemmatize(단어 [, pos=품사])`

> 어간추출과 원형복원은 문법적 또는 의미적으로 변한 단어의 원형을 찾는 역할은 동일하다.<br>
> **원형복원**은 품사와 같은 문법적요소와 문장내에서의 의미적인 부분을 감안해 찾기 때문에 어간추출 방식보다 더 정교하다. 

In [57]:
from nltk.stem import WordNetLemmatizer

In [58]:
lemm = WordNetLemmatizer()

In [60]:
words = ['is', 'am', 'are', 'had', 'has', 'have']
# [lemm.lemmatize(word) for word in words]
[lemm.lemmatize(word, pos='v') for word in words]

['be', 'be', 'be', 'have', 'have', 'have']

In [62]:
lemm.lemmatize('meeting', pos='v')

'meet'

In [63]:
lemm.lemmatize('meeting', pos='n')

'meeting'

### 품사부착-POS Tagging(Part-Of-Speech Tagging)
- 형태소에 품사를 붙이는 작업.
    - 품사의 구분이나 표현은 언어, 학자마다 다르다. 
- NLTK는 펜 트리뱅크 태그세트(Penn Treebank Tagset) 이용
    - NN: 명사
    - NNP: 고유명사
    - JJ: 형용사
    - VB: 동사
    - VBP : 동사 현재형
    - `nltk.help.upenn_tagset(['키워드'])` 
- `pos_tag(단어)`    
    - 단어와 품사를 튜플로 묶은 리스트를 반환

In [64]:
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

In [65]:
nltk.help.upenn_tagset('NN')

NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...


In [66]:
from nltk.tag import pos_tag

In [67]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/com/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [69]:
pos_tag(['dog', 'car','have','Korea','student', '곰', '가자', '간다'])

[('dog', 'NN'),
 ('car', 'NN'),
 ('have', 'VBP'),
 ('Korea', 'NNP'),
 ('student', 'NN'),
 ('곰', 'NNP'),
 ('가자', 'NNP'),
 ('간다', 'NN')]

In [70]:
pos_list = pos_tag(['dog','car','have','Korea','student','is','go'])
pos_list

[('dog', 'NN'),
 ('car', 'NN'),
 ('have', 'VBP'),
 ('Korea', 'NNP'),
 ('student', 'NN'),
 ('is', 'VBZ'),
 ('go', 'VB')]

In [71]:
nouns = ['NN', 'NNP', 'NNS',' NNPS']
[word for word, pos in pos_list if pos in nouns]

['dog', 'car', 'Korea', 'student']

## 텍스트 전처리 프로세스
- 클렌징(cleansing)
    - 특수문자, 기호 필요없는 문자 제거
    - 대소문자 변경
- stop word(분석에 필요 없는 토큰) 제거
- 텍스트 토큰화
    - 분석의 최소단위로 나누는 작업
    - 보통 단어단위나 글자단위로 나눈다.
- 어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업

In [78]:
# 원형복원 - stemming
from nltk.stem import PorterStemmer

def tokenize_text2(document):
    stop_words = stopwords.words('english')
    #1. 텍스트 클린징 - 소문자로 변환, 특수문자 제거.
    document = document.lower()
    # 특수문자를 공백으로 변환
    pattern = '[{}]'.format(string.punctuation)
    sentence_token = nltk.sent_tokenize(document)
    sent_list = [] # 결과를 담을 리스트
    
    stemmer = PorterStemmer()
    for sentence in sentence_token:
        sentence = re.sub(pattern, ' ', sentence) #특수문자들을 공백으로 전환
        word_token = nltk.word_tokenize(sentence)
        # stopword를 제거
        word_token = [word for word in word_token if word not in stop_words]
        
        # stemming
        word_token = [stemmer.stem(word) for word in word_token]
        
        sent_list.append(word_token)
        
    return sent_list

In [79]:
tokenize_text2(text_sample)

[['beauti', 'better', 'ugli'],
 ['explicit', 'better', 'implicit'],
 ['simpl', 'better', 'complex'],
 ['complex', 'better', 'complic'],
 ['flat', 'better', 'nest']]

In [84]:
with open('news.txt', 'rt', encoding='cp949') as f:
    news_text = f.read()

In [85]:
news_text[:100]

'Sitting in his parents’ hair salon, Min-Kyu is buried in his computer game.\nWearing his gray soccer '

In [86]:
# ' "
news_words = tokenize_text2(news_text)
news_words[:5]

[['sit',
  'parent',
  '’',
  'hair',
  'salon',
  'min',
  'kyu',
  'buri',
  'comput',
  'game'],
 ['wear',
  'gray',
  'soccer',
  'kit',
  'boot',
  'constantli',
  'click',
  'tile',
  'floor',
  '11',
  'year',
  'old',
  'lost',
  'parallel',
  'univers',
  'far',
  'distract',
  'nois',
  'electr',
  'clipper',
  'faint',
  'smell',
  'hairspray'],
 ['seem',
  'happen',
  'often',
  'part',
  'world',
  'new',
  'malden',
  'suburban',
  'southwest',
  'london',
  'ear',
  'prick',
  'name',
  '“',
  'mr'],
 ['son', '”', 'mention'],
 ['mr',
  'son',
  'affection',
  'known',
  'actual',
  'son',
  'heung',
  'min',
  'south',
  'korean',
  'tottenham',
  'footbal',
  'star',
  'nation',
  'hero']]

In [87]:
len(news_words)

104

# 분석을 위한 클래스들
## Text클래스
- 문서 분석에 유용한 여러 메소드 제공
- **토큰 리스트**을 입력해 객체생성 후 제공되는 메소드를 이용해 분석한다.
- 주요 메소드
    - count(토큰'): Text 내에서 매개변수로 전달한 토큰의 개수 반환
    - plot(rank:int): 단어의 빈도수를 선그래프로 시각화
    - dispersion_plot([토큰리스트]): 리스트의 토큰들이 문서내 나타난 위치 시각화

## FreqDist
- document에서 사용된 토큰(단어)의 사용빈도 데이터를 가지는 클래스
    - 토큰(단어)를 key, 개수를 value로 가지는 딕셔너리 형태
- 생성
    - Text 객체의 vocab() 메소드로 조회한다.
    - 생성자(Initializer)에 토큰 List를 직접 넣어 생성가능
- 주요 메소드
    - N(): 총 단어수
    - get(단어) 또는 FreqDist['단어'] : 특정 단어의 출연 빈도수
    - freq(단어): 총 단어수 대비 특정단어의 출연비율
    - most_common() : 빈도수 순서로 정렬하여 리스트로 반환

## scikit-learn의 CountVectorizer를 이용해 TDM 만들기

## news에 적용