# 텍스트 마이닝
    - 비정형 데이터부터 인사이트 추출을 위해 수집된 데이터를 정제하고 범주화
    - 텍스트 수집(크롤링,스크래핑) -> 텍스트 정제(정규표현식,텍스트 전처리) -> 텍스트 마이닝(빈도분석,연관어 분석)-> 인사이트 도출 

## 형태소 분석
 - 오늘 나는 친구와 함께 영화를 볼 계획이다 -> 오늘/ 나/ 는/ 친구/ 와 / 함께/ 영화/를 / 볼/계획/이다/.
 - 필요하다고 생각되어지는 태그만 추출해서 사용한다. -> ('오늘','Noun'),('는','Josa')...('.''Punctuation')
### 형태소 분석기
 - 영어 : NLTK 라이브러리
 - 한국어 : Konlpy 라이브러리
    - Hannanum : 정제된 언어가 아니면 분석 품질 저하, 띄어쓰기 없는 문장 취약
    - Okt : 어근화 가능, 다른 분석기에 비해 비정제 언어도 비교적 나쁘지 않은편 (가장 많이 쓰임)
    - Komoran: 오탈자 분석 잘되고 로딩시간 길다, 띄어쓰기 없는 문장 취약
    - Kkma : 문장이 늘어날수록 시간이 급격히 증가
    - mecab : mac에서만 사용 가능 (속도 제일 빠르다..)

 - 모든 라이브러리가 동일하게 제공하는 함수
   - ___.morphs(text) : 형태소 단위로 분리
   - ___.nouns(text) : 명사만 추출
   - ___.pos(text) : 품사 태깅
 - okt 만 제공하는 함수
   - 문장 정규화 : okt.morphs(text, norm=True)
   - 어간 추출 : okt.morphs(text, stem=True)
   - 동시사용 : okt.morphs(text, norm=True, stem=True)
 

In [14]:
from konlpy.tag import Okt
okt= Okt()

okt.morphs('설치 잘 됐겠지?')

['설치', '잘', '됐겠지', '?']

In [15]:
from konlpy.tag import Hannanum
hannanum =Hannanum()
hannanum.morphs('네가 한나눔이냐?')

['너', '가', '한나눔이냐', '?']

In [16]:
from konlpy.tag import Komoran
komoran = Komoran()
komoran.morphs('코모란은 모란의 코인가.')

['코', '모란', '은', '모란', '의', '코', '이', 'ㄴ가', '.']

In [17]:
from konlpy.tag import Kkma
kkma = Kkma()
kkma.morphs('꼬꼬마,코코마 둘중 무엇인가요.')

['꼬꼬마', ',', '코', '코마', '둘', '중', '무엇', '이', 'ㄴ가요', '.']

In [22]:
text = '나는 지금 집에 매우매우 가고 싶다.'

In [23]:
okt.morphs(text)
okt.pos(text)

[('나', 'Noun'),
 ('는', 'Josa'),
 ('지금', 'Noun'),
 ('집', 'Noun'),
 ('에', 'Josa'),
 ('매우', 'Noun'),
 ('매우', 'Noun'),
 ('가고', 'Verb'),
 ('싶다', 'Verb'),
 ('.', 'Punctuation')]

In [27]:
text1 = '나는 진짜 지금 집에 너무 가고 싶은뎈ㅋㅋㅋㅋㅋ'

In [35]:
okt.pos(text1)

[('나', 'Noun'),
 ('는', 'Josa'),
 ('진짜', 'Noun'),
 ('지금', 'Noun'),
 ('집', 'Noun'),
 ('에', 'Josa'),
 ('너무', 'Adverb'),
 ('가고', 'Verb'),
 ('싶은뎈', 'Noun'),
 ('ㅋㅋㅋㅋㅋ', 'KoreanParticle')]

In [28]:
okt.morphs(text1, stem=True)

['나', '는', '진짜', '지금', '집', '에', '너무', '가다', '싶은뎈', 'ㅋㅋㅋㅋㅋ']

In [29]:
okt.morphs(text1, norm=True)

['나', '는', '진짜', '지금', '집', '에', '너무', '가고', '싶은데', 'ㅋㅋㅋ']

In [30]:
okt.morphs(text1, stem=True, norm=True)

['나', '는', '진짜', '지금', '집', '에', '너무', '가다', '싶다', 'ㅋㅋㅋ']

## 불용어 제거하기
    - 자주 사용되지만 특별한 의미 부여가 어려운 단어들을 제거
    - 일반적으로 불용어 사전은 리스트 형태를 만들어 사용

### 실습예제
    - 불용어 사전이 있다고 가정했을 때 불용어를 제거하는 define 함수를 만들어보자
    - 불용어가 제거되고, 형용사와 동사만 추출할 수 있는 define 함수를 만들어보자
        -> 태그이름 형용사 : 'Adjective' 동사 : 'Verb' 명사: 'Noun'

In [31]:
def extract_nouns(string):
    nouns = okt.nouns(string)
    return nouns
    

In [34]:
extract_nouns(text1)

['나', '진짜', '지금', '집', '싶은뎈']

In [49]:
stopwords = ['우리','나라','만세']

In [50]:
def extract_tags(string):
    result_list =[]
    
    result = okt.pos(string, stem=True, norm=True)
    for word,tag in result:
        if tag in['Verb','Adjective','Noun']:
            if word not in stopwords:
                result_list.append(word)
            result_list.append(word)   
    return result_list
    

In [43]:
text = '동해물과 백두산이 마르고 닳도록.'
text1 = '하느님이 보우하사 우리 나라 만세~'
text2 = '무궁화 삼천리 화려강산'
text3 = '대한사람 대한으로 우리 나라 만세'

In [54]:
extract_tags(text1)

['하느님', '하느님', '보우', '보우', '하사', '하사', '우리', '나라', '만세']

### 영어 형태소 분석
    - 형태소 분석 : nltk.word_tokenize(text)
    - tokenizer로 토큰화된 리스트를 인풋 데이터로 넣어주어야한다.
    - split_text = nltk.word_tokenize(text)
    - nltk.pos_tag(split_text)

In [52]:
### !pip install nltk



In [62]:
import nltk
from nltk import pos_tag
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('stopwords')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [92]:
stopwords = nltk.corpus.stopwords.words('english')

In [93]:
text = 'Type anywords what you wants blah blah blah Maybe Today class will end early'

In [86]:
split_text = nltk.word_tokenize(text)
split_text

['Type',
 'anywords',
 'what',
 'you',
 'wants',
 'blah',
 'blah',
 'blah',
 'Maybe',
 'Today',
 'class',
 'will',
 'end',
 'early']

In [87]:
nltk.pos_tag(split_text)

[('Type', 'NN'),
 ('anywords', 'NNS'),
 ('what', 'WP'),
 ('you', 'PRP'),
 ('wants', 'VBZ'),
 ('blah', 'JJ'),
 ('blah', 'NN'),
 ('blah', 'NN'),
 ('Maybe', 'RB'),
 ('Today', 'NNP'),
 ('class', 'NN'),
 ('will', 'MD'),
 ('end', 'VB'),
 ('early', 'JJ')]

In [88]:
text.lower()

'type anywords what you wants blah blah blah maybe today class will end early'

### 실습예제
 - 불용어 사전이 있다고 할 때 불용어를 제거할 수 있는 define 함수를 만들어보자
 - 불용어가 제거되고 형용사만 추출할 수 있는 define 함수를 만들어보자

In [96]:
def extract_entag(string):
    result_lists = []
    string = nltk.word_tokenize(string)
    result = nltk.pos_tag(string)
    for word, tag in result:
        if tag in ['JJ','JJR','JJS']:
            result_lists.append(word)
            if word.lower() not in stopwords:
                result_lists.append(word)
    return result_lists
        

In [102]:
a = extract_entag(text)
a

['blah', 'blah', 'early', 'early']

### 피클 라이브러리 
    - 데이터를 데이터프레임의 형태로 저장하기 곤란할때, 데이터를 타입 그대로 저장해주는 파이썬 내장 라이브러리
        * import pickle
        * 저장하기 : with open('파일이름.pkl',"wb") as f:pickle.dump(저장할변수,f)
        * 불러오기 : with open('불러올 파일 이름.pkl','rb') as f : 저장변수 = pickle.load(f)

In [100]:
import pickle

In [103]:
with open('save.pkl','wb') as f:pickle.dump(a, f)

In [105]:
with open('save.pkl', 'rb') as f : data = pickle.load(f) 

In [106]:
data

['blah', 'blah', 'early', 'early']