# NLP(Natural Language Processing) 자연어 처리란

## 자연어
- 사람이 사용하는 고유한 언어
- 인공언어의 반대 의미
    - 인공언어: 특정 목적을 위해 인위적으로 만든 언어
    - ex) 프로그래밍 언어

## 자연어 처리
- 사람이 사용하는 자연어를 컴퓨터가 사용할 수 있도록 처리하는 과정.
- 자연어 처리 응용분야
    - 번역 시스템
    - 문서요약
    - 감성분석
    - 대화형 시스템(챗봇)
    - 정보 검색 시스템
    - 텍스트 마이닝
    - 음성인식

# 텍스트 분석 수행 프로세스

1. 텍스트 전처리 
    - 클렌징(cleansing)
        - 특수문자, 기호 필요없는 문자 제거
        - 대소문자 변경
    - stop word(분석에 필요 없는 토큰) 제거
    - 텍스트 토큰화
        - 분석의 최소단위로 나누는 작업
        - 보통 단어단위나 글자단위로 나눈다.
    - 어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업 --> 알파벳만 지원 , 한글은 지원안함. 한글지원은 ??알파이? 이용한다.
2. Feature vectorization   
    - 문자열 비정형 데이터인 텍스트를 숫자타입의 정형데이터로 만드는 작업
    - BOW와 Word2Vec
3. 머신러닝 모델 수립, 학습, 예측, 평가

# NLTK 
- Natural Language ToolKit
- https://www.nltk.org/
- 자연어 처리를 위한 파이썬 패키지

## NLTK 설치
- nltk 패키지 설치
pip 설치
```
pip install nltk
```
conda 설치
```
conda install -y nltk
```

- NLTK 추가 패키지 설치
```python
import nltk
nltk.download() # 설치 GUI 프로그램 실행
nltk.download('패키지명')
```

In [1]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

## NLTK 주요기능
- ### 말뭉치(corpus) 제공
    - **말뭉치**: 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료를 말한다.
    - 예제용 말뭉치 데이터를 제공한다.
- ### 텍스트 정규화를 위한 기능 제공
    - 토큰 생성
    - 여러 언어의 Stop word(불용어) 제공
    - 형태소 분석
        - 형태소 --> 보통 어간 
            - 의미가 있는 가장 작은 말의 단위
        - 형태소 분석
            - 말뭉치에서 의미있는(분석시 필요한) 형태소들만 추출하는 것           
        - 어간추출(Stemming)
        - 원형복원(Lemmatization)
        - 품사부착(POS tagging - Part Of Speech)
- ### 분석기능을 제공해 주는 클래스 제공
    - Text
    - FreqDist

# NLTK 텍스트 정규화 기본 문법

## 텍스트 토큰화
- 분석을 위해 문서(document)를 작은 단위로 나누는 작업.
- **토큰(Token)**
    - 나뉜 문자열의 단위를 말한다. 
    - 정하기에 따라 문장, 단어일 수도 있고 문자일 수도 있다. 
- **Tokenizer**
    - 문장을 token으로 나눠주는 함수
    - NLTK 주요 tokenizer
        - **sent_tokenize()** : 문장단위로 나눠준다.
        - **word_tokenize()** : 단어단위로 나눠준다.
        - **regexp_tokenize()** : 토큰의 단위를 정규표현식으로 지정
        - 반환타입 : 토큰하나 하나를 원소로 하는 list

In [2]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


In [3]:
txt = '''
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
'''

In [11]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/master90/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [21]:
# 문장단위로 토큰화 하기 
sent_list = nltk.sent_tokenize(txt) # 매개변수에 토큰화할 대상 문서(문자열)를 넣어준다. 
print(len(sent_list)), type(sent_list)
sent_list

19


['\nBeautiful is better than ugly.',
 'Explicit is better than implicit.',
 'Simple is better than complex.',
 'Complex is better than complicated.',
 'Flat is better than nested.',
 'Sparse is better than dense.',
 'Readability counts.',
 "Special cases aren't special enough to break the rules.",
 'Although practicality beats purity.',
 'Errors should never pass silently.',
 'Unless explicitly silenced.',
 'In the face of ambiguity, refuse the temptation to guess.',
 'There should be one-- and preferably only one --obvious way to do it.',
 "Although that way may not be obvious at first unless you're Dutch.",
 'Now is better than never.',
 'Although never is often better than *right* now.',
 "If the implementation is hard to explain, it's a bad idea.",
 'If the implementation is easy to explain, it may be a good idea.',
 "Namespaces are one honking great idea -- let's do more of those!"]

In [17]:
# 단어단위 토큰화(공백기준)
word_list = nltk.word_tokenize(txt)
print(type(word_list), len(word_list))
word_list # 부호 기호들도 들어와있따. 
# 전처리 한 후에 사용하면 좋음 

<class 'list'> 167


['Beautiful',
 'is',
 'better',
 'than',
 'ugly',
 '.',
 'Explicit',
 'is',
 'better',
 'than',
 'implicit',
 '.',
 'Simple',
 'is',
 'better',
 'than',
 'complex',
 '.',
 'Complex',
 'is',
 'better',
 'than',
 'complicated',
 '.',
 'Flat',
 'is',
 'better',
 'than',
 'nested',
 '.',
 'Sparse',
 'is',
 'better',
 'than',
 'dense',
 '.',
 'Readability',
 'counts',
 '.',
 'Special',
 'cases',
 'are',
 "n't",
 'special',
 'enough',
 'to',
 'break',
 'the',
 'rules',
 '.',
 'Although',
 'practicality',
 'beats',
 'purity',
 '.',
 'Errors',
 'should',
 'never',
 'pass',
 'silently',
 '.',
 'Unless',
 'explicitly',
 'silenced',
 '.',
 'In',
 'the',
 'face',
 'of',
 'ambiguity',
 ',',
 'refuse',
 'the',
 'temptation',
 'to',
 'guess',
 '.',
 'There',
 'should',
 'be',
 'one',
 '--',
 'and',
 'preferably',
 'only',
 'one',
 '--',
 'obvious',
 'way',
 'to',
 'do',
 'it',
 '.',
 'Although',
 'that',
 'way',
 'may',
 'not',
 'be',
 'obvious',
 'at',
 'first',
 'unless',
 'you',
 "'re",
 'Dutch',


In [20]:
# 토큰의 형식(패턴)을 정규표현식으로 지정 
reg_list = nltk.regexp_tokenize(txt, '\w+') # 토큰의 패턴을 지정 
print(len(reg_list))
reg_list
# 전처리할때 작업함, 단 패턴을 잘 줘야 한다. 

140


['Beautiful',
 'is',
 'better',
 'than',
 'ugly',
 'Explicit',
 'is',
 'better',
 'than',
 'implicit',
 'Simple',
 'is',
 'better',
 'than',
 'complex',
 'Complex',
 'is',
 'better',
 'than',
 'complicated',
 'Flat',
 'is',
 'better',
 'than',
 'nested',
 'Sparse',
 'is',
 'better',
 'than',
 'dense',
 'Readability',
 'counts',
 'Special',
 'cases',
 'aren',
 't',
 'special',
 'enough',
 'to',
 'break',
 'the',
 'rules',
 'Although',
 'practicality',
 'beats',
 'purity',
 'Errors',
 'should',
 'never',
 'pass',
 'silently',
 'Unless',
 'explicitly',
 'silenced',
 'In',
 'the',
 'face',
 'of',
 'ambiguity',
 'refuse',
 'the',
 'temptation',
 'to',
 'guess',
 'There',
 'should',
 'be',
 'one',
 'and',
 'preferably',
 'only',
 'one',
 'obvious',
 'way',
 'to',
 'do',
 'it',
 'Although',
 'that',
 'way',
 'may',
 'not',
 'be',
 'obvious',
 'at',
 'first',
 'unless',
 'you',
 're',
 'Dutch',
 'Now',
 'is',
 'better',
 'than',
 'never',
 'Although',
 'never',
 'is',
 'often',
 'better',
 'th

- \w : 0-9a-zA-Z가-힣_ 
- + :1 글자이상 

## Stopword (불용어)
- 문장내에서는 많이 사용되지만 문장의 전체 맥락과는 상관없는 단어들.
    - ex) 조사, 접미사, 접속사, 대명사 등
- Stopword 단어들을 List로 묶어서 관리한다.
    - nltk가 언어별로 Stop word 제공.
    - 실제 분석대상에 맞는 Stop word 를 만들어서 사용한다. 

In [28]:
from nltk.corpus import stopwords 
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/master90/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [29]:
print(stopwords.fileids())

['arabic', 'azerbaijani', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'turkish']


In [31]:
# 언어별 불용어 사전 로딩해보자 
sw_arabic = stopwords.words('arabic')
print(len(sw_arabic), type(sw_arabic))
print(sw_arabic)

248 <class 'list'>
['إذ', 'إذا', 'إذما', 'إذن', 'أف', 'أقل', 'أكثر', 'ألا', 'إلا', 'التي', 'الذي', 'الذين', 'اللاتي', 'اللائي', 'اللتان', 'اللتيا', 'اللتين', 'اللذان', 'اللذين', 'اللواتي', 'إلى', 'إليك', 'إليكم', 'إليكما', 'إليكن', 'أم', 'أما', 'أما', 'إما', 'أن', 'إن', 'إنا', 'أنا', 'أنت', 'أنتم', 'أنتما', 'أنتن', 'إنما', 'إنه', 'أنى', 'أنى', 'آه', 'آها', 'أو', 'أولاء', 'أولئك', 'أوه', 'آي', 'أي', 'أيها', 'إي', 'أين', 'أين', 'أينما', 'إيه', 'بخ', 'بس', 'بعد', 'بعض', 'بك', 'بكم', 'بكم', 'بكما', 'بكن', 'بل', 'بلى', 'بما', 'بماذا', 'بمن', 'بنا', 'به', 'بها', 'بهم', 'بهما', 'بهن', 'بي', 'بين', 'بيد', 'تلك', 'تلكم', 'تلكما', 'ته', 'تي', 'تين', 'تينك', 'ثم', 'ثمة', 'حاشا', 'حبذا', 'حتى', 'حيث', 'حيثما', 'حين', 'خلا', 'دون', 'ذا', 'ذات', 'ذاك', 'ذان', 'ذانك', 'ذلك', 'ذلكم', 'ذلكما', 'ذلكن', 'ذه', 'ذو', 'ذوا', 'ذواتا', 'ذواتي', 'ذي', 'ذين', 'ذينك', 'ريث', 'سوف', 'سوى', 'شتان', 'عدا', 'عسى', 'عل', 'على', 'عليك', 'عليه', 'عما', 'عن', 'عند', 'غير', 'فإذا', 'فإن', 'فلا', 'فمن', 'في', 'فيم', 'فيما

In [35]:
sw = stopwords.words('english')
print(len(sw), type(sw)) 
print(sw)

179 <class 'list'>
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'sam

### tokenize_text()  함수 구현
- 문장별 토큰화 시키는 함수 구현
- 쉼표,마침표등 구두점(punctuation)은 공백처리한다.
- stopword를 제외한다.

In [37]:
print(txt)


Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!



In [54]:
# tokenize_text 함수 생성 
def tokenize_text(doc):
    '''
    하나의 문서를 받아서 토큰화 해서 반환하는 함수이다.
    문장별로 단어리스트를 2차원 배열 형태로 반환한다
    구두점이나 특수문자, 숫자, 불용어(stopword)들은 모두 제거한다. 
    모두 소문자로 구성한다. 
    
    [매개변수]
        - doc : 변환대상 문서를 매개변수로 받는다. 
    [반환값]
        - list : 2차원 형태의 리스트로 반환한다. (문장, 단어)
    '''
    
    # 1. 받는 문장을 소문자로 변환한다. 
    text = doc.lower()
    
    # 2. 문장단위로 토큰화 진행 
    sent_tokens = nltk.sent_tokenize(text) # 마침표, 느낌표 (문장의끝을 알려주는 기호를 기준으로) 문장이 나눠지기 때문에 진행 후 특수문자 제거한다. 
    
    # 3. 불용어stopword 리스트 생성
    sw = stopwords.words('english')
    sw.extend(['although','unless']) # 불용어 추가 
    
    result_list = [] # 최종결과 담을 리스트
    
    # 4. 문장별로 단어단위 토큰화 
    for sent in sent_tokens : 
            # 문장 단위 토큰화 작업, 불용어 제거, 특수문자/숫자 제거 
            tmp_words = nltk.regexp_tokenize(sent, '[a-zA-Z가-힣]+')
            word_list = [w for w in tmp_words if w not in sw]
            result_list.append(word_list)
    
    return result_list

In [55]:
from pprint import pprint
tokens = tokenize_text(txt)
pprint(tokens)

[['beautiful', 'better', 'ugly'],
 ['explicit', 'better', 'implicit'],
 ['simple', 'better', 'complex'],
 ['complex', 'better', 'complicated'],
 ['flat', 'better', 'nested'],
 ['sparse', 'better', 'dense'],
 ['readability', 'counts'],
 ['special', 'cases', 'special', 'enough', 'break', 'rules'],
 ['practicality', 'beats', 'purity'],
 ['errors', 'never', 'pass', 'silently'],
 ['explicitly', 'silenced'],
 ['face', 'ambiguity', 'refuse', 'temptation', 'guess'],
 ['one', 'preferably', 'one', 'obvious', 'way'],
 ['way', 'may', 'obvious', 'first', 'dutch'],
 ['better', 'never'],
 ['never', 'often', 'better', 'right'],
 ['implementation', 'hard', 'explain', 'bad', 'idea'],
 ['implementation', 'easy', 'explain', 'may', 'good', 'idea'],
 ['namespaces', 'one', 'honking', 'great', 'idea', 'let']]


- 결과
```
[['beautiful', 'better', 'ugly'],
 ['explicit', 'better', 'implicit'],
 ['simple', 'better', 'complex'],
 ['complex', 'better', 'complicated'],
 ['flat', 'better', 'nested'],
 ['sparse', 'better', 'dense'],
 ['readability', 'counts'],
 ['special', 'cases', 'special', 'enough', 'break', 'rules'],
 ['although', 'practicality', 'beats', 'purity'],
 ['errors', 'never', 'pass', 'silently'],
 ['unless', 'explicitly', 'silenced'],
 ['face', 'ambiguity', 'refuse', 'temptation', 'guess'],
 ['one', 'preferably', 'one', 'obvious', 'way'],
 ['although', 'way', 'may', 'obvious', 'first', 'unless', 'dutch'],
 ['better', 'never'],
 ['although', 'never', 'often', 'better', 'right'],
 ['implementation', 'hard', 'explain', 'bad', 'idea'],
 ['implementation', 'easy', 'explain', 'may', 'good', 'idea']]
```

## 형태소 분석
- 형태소
    - 일정한 의미가 있는 가장 작은 말의 단위
- 형태소 분석  
    - 말뭉치에서 의미있는(분석에 필요한) 형태소들만 추출하는 것
    - 보통 단어로 부터 어근, 접두사, 접미사, 품사등 언어적 속성을 파악하여 처리한다. 
- 형태소 분석을 위한 기법
    - 어간추출(Stemming)
    - 원형(기본형) 복원 (Lemmatization)
    - 품사부착 (POS tagging - Part Of Speech)

### 어간추출(Stemming)
- 어간: 활용어에서 변하지 않는 부분
    - painted, paint, painting => 어간: paint
    - 보다, 보니, 보고=>어간 보-
- 어간 추출 
    - 단어에서 어미를 제거하고 어간을 추출하는 작업
- 목적
    - 같은 의미를 가지는 단어의 여러가지 활용이 있을 경우 다른 단어로 카운트 되는 문제점을 해결한다.
        - flower, flowers 가 두개의 단어로 카운트 되는 것을 flower로 통일한다.        
- nltk의 주요 어간 추출 알고리즘
    - Porter Stemmer
    - Lancaster Stemmer
    - Snowball Stemmer
- 메소드
    - `stemmer객체.stem(단어)`
- stemming의 문제
    - 완벽하지 않다는 것이 문제이다.        
        - ex) new와 news는 다른 단어 인데 둘다 new로 처리한다.
    - 처리후 눈으로 직접 확인해야 한다.

In [56]:
from nltk import PorterStemmer, LancasterStemmer, SnowballStemmer

In [62]:
# Stemming은 단어들을 모두 소문자로 변환한 뒤 처리 하기 때문에 대소문자 섞여서도 상관없다. 

words = [
    'Working', 'Works','Worked',
    'Painting','Paints','Painted',
    'happy','happier','happiest'
]

In [63]:
# 1. stemmer 객체 생성 
# 2. stem(단어)을 호출해서 단어별로 어간추출 작업을 진행

In [64]:
ps = PorterStemmer()
ps.stem('Working')

'work'

In [71]:
print([ps.stem(word) for word in words])

['work', 'work', 'work', 'paint', 'paint', 'paint', 'happi', 'happier', 'happiest']


In [69]:
ls = LancasterStemmer()
print([ls.stem(word) for word in words])

['work', 'work', 'work', 'paint', 'paint', 'paint', 'happy', 'happy', 'happiest']


In [70]:
sbs = SnowballStemmer('english') # 스노우볼은 언어를 지정해줘야 한다. 
print([sbs.stem(word) for word in words])

['work', 'work', 'work', 'paint', 'paint', 'paint', 'happi', 'happier', 'happiest']


### 원형(기본형)복원(Lemmatization)
- 단어의 기본형을 반환한다.
    - ex) am, is, are => be
- 단어의 품사를 지정하면 정확한 결과를 얻을 수 있다. 
- `WordNetLemmatizer객체.lemmatize(단어 [, pos=품사])`

> 어간추출과 원형복원은 문법적 또는 의미적으로 변한 단어의 원형을 찾는 역할은 동일하다.<br>
> **원형복원**은 품사와 같은 문법적요소와 문장내에서의 의미적인 부분을 감안해 찾기 때문에 어간추출 방식보다 더 정교하다. 


- 소문자로 바꿔서 진행해야 한다. 

In [74]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/master90/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [76]:
words = ['is', 'are', 'am', 'has','had','have']

lemm = WordNetLemmatizer()
lemm.lemmatize('are', pos = 'v') # pos : 품자를 지정한다. 

'be'

In [77]:
print([lemm.lemmatize(word, pos = 'v') for word in words])

['be', 'be', 'be', 'have', 'have', 'have']


In [81]:
word2 = ['happy','haapier','happiest'] # 형용사는 a 
print([lemm.lemmatize(word, pos = 'a') for word in word2])

['happy', 'haapier', 'happy']


In [83]:
sbs.stem('meeting'), sbs.stem('meet') 
# meeting을 회의 명사로 쓰고 싶고, meet을 만나다 동사로 쓰고 싶은데 
# 스노우로 하면 meet으로 나온다 

('meet', 'meet')

In [85]:
lemm.lemmatize('meeting'), lemm.lemmatize('meet')

('meeting', 'meet')

In [87]:
lemm.lemmatize('meeting', pos= 'v'), lemm.lemmatize('meeting', pos='n')
# 품사를 지정하면 그에 따라 출력된다. 

('meet', 'meeting')

### 품사부착-POS Tagging(Part-Of-Speech Tagging)
- 형태소에 품사를 붙이는 작업.
    - 품사의 구분이나 표현은 언어, 학자마다 다르다. 
- NLTK는 펜 트리뱅크 태그세트(Penn Treebank Tagset) 이용
    - 명사 : N으로 시작 (NN-일반명사, NNP-고유명사)
    - 형용사 : J로 사직(JJ, JJR-비교급, JJS-최상급)
    - 동사: V로 시작 (VB-동사, VBP-현재형 동사)
    - 부사: R로 시작 (RB-부사)
    - `nltk.help.upenn_tagset(['키워드'])` : 도움말
- `pos_tag(단어_리스트)`    
    - 단어와 품사를 튜플로 묶은 리스트를 반환

## 텍스트 전처리 프로세스
- 클렌징(cleansing)
    - 특수문자, 기호 필요없는 문자 제거
    - 대소문자 변경
- stop word(분석에 필요 없는 토큰) 제거
- 텍스트 토큰화
    - 분석의 최소단위로 나누는 작업
    - 보통 단어단위나 글자단위로 나눈다.
- 어근 추출(Stemming/Lemmatization)을 통한 텍스트 정규화 작업

## TODO 
- tokenize_text에 stemming 추가

In [None]:
tokenize_text2(text_sample)

- 결과
```
[['beautiful', 'good', 'ugly'],
 ['explicit', 'well', 'implicit'],
 ['simple', 'well', 'complex'],
 ['complex', 'well', 'complicate'],
 ['flat', 'well', 'nest'],
 ['sparse', 'well', 'dense'],
 ['readability', 'count'],
 ['special', 'case', 'special', 'enough', 'break', 'rule'],
 ['practicality', 'beat', 'purity'],
 ['error', 'never', 'pass', 'silently'],
 ['explicitly', 'silence'],
 ['face', 'ambiguity', 'refuse', 'temptation', 'guess'],
 ['preferably', 'obvious', 'way'],
 ['way', 'obvious', 'first', 'dutch'],
 ['well', 'never'],
 ['never', 'often', 'good', 'right'],
 ['implementation', 'hard', 'explain', 'bad', 'idea'],
 ['implementation', 'easy', 'explain', 'good', 'idea']]
```

## news.txt

# 분석을 위한 클래스들
## Text클래스
- 문서 분석에 유용한 여러 메소드 제공
- **토큰 리스트**을 입력해 객체생성 후 제공되는 메소드를 이용해 분석한다.
- ### 생성
    - Text(토큰리스트, [name=이름])
- ### 주요 메소드
    - count(단어)
        - 매개변수로 전달한 단어의 빈도수
    - plot(N)
        - 빈도수 상위 N개 단어를 선그래프로 시각화
    - dispersion_plot(단어리스트)
        - 매개변수로 전달한 단어들이 전체 말뭉치의 어느 부분에 나오는지 시각화

## FreqDist
- document에서 사용된 토큰(단어)의 사용빈도 데이터를 가지는 클래스
    - 토큰(단어)를 key, 개수를 value로 가지는 딕셔너리 형태
- 생성
    - Text 객체의 vocab() 메소드로 조회한다.
    - 생성자(Initializer)에 토큰 List를 직접 넣어 생성가능
- 주요 메소드
    - B(): 출연한 고유 단어의 개수
        - [Apple, Apple] -> 1
    - N(): 총 단어수 
        - [Apple, Apple] -> 2
    - get(단어) 또는 FreqDist['단어'] : 특정 단어의 출연 빈도수
    - freq(단어): 총 단어수 대비 특정단어의 출연비율
    - most_common() : 빈도수 순서로 정렬하여 리스트로 반환

## wordcloud

## scikit-learn의 CountVectorizer를 이용해 TDM 만들기

- ### TDM
    - Term-Document-Matrix
    - 문서안에서 문서를 구성하는 단어들이 몇번 나왔는지를 표현하는 행렬
- TDM 행렬 반환
    - 행: 문서
    - 컬럼: 고유단어
    - Value: 개수
- 학습: fit(raw document)
    - raw document - 문장을 원소로 가지는 1차원 배열형태 문서
    - 전체 문장들(corpus)에서 고유단어들을 찾아낸뒤 index를 붙인다.
- 변환: transform(raw document)
    - 문장별(원소) 단어 count
- CountVectorizer 주요 속성, 메소드
    - cv.vocabulary_
        - 단어-index 반환(딕셔너리)
    - get_feature_names()
        - index순서대로 단어들 반환

## news.txt
- news.txt를 읽고 TDM 생성 후 csv파일로 저장