# Tokenization 토큰화
- 단어(화이트 스페이스), 형태소, 글자, 초성/중성/종성 

- python3 -m pip install -user "package name" (JPype1-1.2.0-cp38-cp38-win_amd64 설치법)
- !pip install eunjeon (미캡설치법)

In [1]:
from konlpy.tag import Komoran, Hannanum, Mecab, Okt, Kkma 
from eunjeon import Mecab

import re
import pickle

In [2]:
kkma = Kkma()
mecab = Mecab()
okt = Okt()
han = Hannanum()
komoran = Komoran()

In [3]:
text = '난 고칠 수 없는 병에 걸렸어 내가 죽어도 내 돈을 돌려줘 내 프로파간다에 목을 걸었어'

In [4]:
mecab = Mecab()
mecab.pos(text)

[('난', 'NP+JX'),
 ('고칠', 'VV+ETM'),
 ('수', 'NNB'),
 ('없', 'VA'),
 ('는', 'ETM'),
 ('병', 'NNG'),
 ('에', 'JKB'),
 ('걸렸', 'VV+EP'),
 ('어', 'EF'),
 ('내', 'NP'),
 ('가', 'JKS'),
 ('죽', 'VV'),
 ('어도', 'EC'),
 ('내', 'NP+JKG'),
 ('돈', 'NNG'),
 ('을', 'JKO'),
 ('돌려줘', 'VV+EF'),
 ('내', 'NP+JKG'),
 ('프로파간다', 'NNG'),
 ('에', 'JKB'),
 ('목', 'NNG'),
 ('을', 'JKO'),
 ('걸', 'VV'),
 ('었', 'EP'),
 ('어', 'EC')]

## 1. 형태소 분석기의 비교 
- morph 형태소 분석기 

In [5]:
text = '아기다리고기다리던데이트'

In [6]:
kkma = Kkma()
kkma.pos(text)

[('아', 'VV'),
 ('아', 'ECS'),
 ('기다리', 'VV'),
 ('고', 'ECE'),
 ('기다리', 'VV'),
 ('던데', 'ECD'),
 ('이', 'NNG'),
 ('트', 'VV')]

In [7]:
komoran = Komoran()
komoran.pos(text)

[('아', 'IC'),
 ('기다리', 'VV'),
 ('고', 'EC'),
 ('기다리', 'VV'),
 ('던', 'ETM'),
 ('데이트', 'NNP')]

In [8]:
mecan = Mecab()
mecab.pos(text)

[('아기', 'NNG'),
 ('다리', 'VV'),
 ('고', 'EC'),
 ('기다리', 'VV'),
 ('던', 'ETM'),
 ('데이트', 'NNG')]

In [9]:
okt = Okt()
okt.pos(text)
print( okt.pos(text) )
print( okt.morphs(text) )

[('아기', 'Noun'), ('다리', 'Noun'), ('고', 'Josa'), ('기다리던', 'Verb'), ('데이트', 'Noun')]
['아기', '다리', '고', '기다리던', '데이트']


## 한글을 제외한 모든 텍스트를 제거하는 함수 제조 

In [10]:
def CleanText(text): 
    ret = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", "", text)
    return ret

## 불용어 처리를 위한 매개변수 생성 

In [11]:
SW = set()

In [12]:
with open('C:/Users/scien/Desktop/forLecture/korean_stopwords-ko.txt', 'r', encoding='utf8') as f:
    for word in f:
        SW.add(word.replace('\n', ''))

In [13]:
lyrics = input()

흑흑


In [14]:
pure_lyrics = CleanText(lyrics)

In [15]:
preProcessedText = [word for word in mecab.morphs(pure_lyrics) if word not in SW and len(word)>1]

In [16]:
print(preProcessedText)

['흑흑']


### 네이버기사 활용하기 

In [17]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/naver_news_content.pk','rb') as f:
    rawData = pickle.load(f)

In [18]:
cleaned_text = []

for data in rawData:
    ret = CleanText(data)
    cleaned_text.append(ret)

In [19]:
cleaned_text

[' 본문 내용  플레이어   플레이어   오류를 우회하기 위한 함수 추가  정 총리 일 중대본 회의서 인천시 옹진 전남 장흥 사례 언급하며 참여 방역 강조김병기 기자         정세균 국무총리가 일 세종로 정부서울청사에서 열린 코로나 중앙재난안전대책본부 회의를 주재하고 있다             국무총리실  정세균 국무총리는 국내에서 코로나 첫 확진자가 발생한 지 년째 접어드는 일 정부서울청사에서 열린 코로나 중앙재난안전대책본부 회의에서 지난 년은 하루도 빠짐없이 도전과 응전의 연속이었다고 소회를 밝혔다정 총리는 특히 지난 년간 전국 모든 지역이 예외 없이 코로나의 공격을 받았지만 지역감염 사례가 단 한 명도 나오지 않은 곳이 있다면서 인천시 옹진군과 전남 장흥군을 언급하면서 참여 방역의 중요성을 강조했다우선 정 총리는 지금까지 만명이 넘게 감염되었고 명의 소중한 인명이 희생되면서 우리 사회는 큰 상처를 입었다면서 아직도 지루한 싸움이 계속되고 있어 안타까운 마음이라고 말했다하지만 정 총리는 지난 년은 위기 속에서 더 강해지는 우리의 모습을 다시 한번 확인하는 시간이기도 했다면서 마스크 부제 생활치료센터 드라이브 스루 전자출입명부 등 기발한 아이디어가 곧바로 방역현장에 도입되면서 방역을 만들어 냈고 국제사회의 찬사를 받으며 대한민국의 국격은 한층 높아졌다고 평가했다정 총리는 방역의 성공을 국민들에게 돌렸다정 총리는 위기의 순간마다 국민들께서는 연대와 협력의 정신으로 하나가 되어 주셨습니다 의료진은 헌신과 희생의 마음으로 생사의 현장을 굳건하게 지켜주었다면서 코로나 방역을 총괄하는 중대본부장으로서 국민 여러분께 진심으로 감사드린다고 밝혔다하지만 정 총리는 코로나와의 싸움이 장기전으로 흐르면서 민생의 고통이 점점 커지고 있다면서  국민의 일상은 뒤틀리고 자영업자는 생계에 위협을 받고 일자리를 잃고 실의에 빠진 분들도 많다고 우려했다또 정 총리는 많은 아이들이 학습과 돌봄 공백으로 힘들어하고 있다면서 답답함이 우울과 분노로 이어지는 일도 빈번해지고 있고 코로나

In [20]:
preProcessedText01 = []
for text in cleaned_text:
    tmp = preProcessedText = [word for word in komoran.morphs(text) if word not in SW and len(word) > 1 ]
    preProcessedText01.append(tmp)

In [21]:
print(preProcessedText01)

[['본문', '내용', '플레이어', '플레이어', '오류', '우회', '위하', '함수', '추가', '총리', '중대', '회의', '인천시', '옹진', '전남', '장흥', '사례', '언급', '참여', '방역', '강조', '김병기', '기자', '정세균', '국무총리', '세종로', '정부서울청사', '열리', '코로나', '중앙재난안전대책본부', '회의', '주재', '국무총리실', '정세균', '국무총리', '국내', '코로나', '확진', '발생', '접어들', '정부서울청사', '열리', '코로나', '중앙재난안전대책본부', '회의', '지나', '하루', '빠짐없이', '도전', '연속', '다고', '소회', '밝히', '총리', '특히', '지나', '전국', '모든', '지역', '예외', '없이', '코로나', '공격', '지역', '감염', '사례', '나오', '다면서', '인천시', '옹진군', '전남', '장흥군', '언급', '면서', '참여', '방역', '중요', '강조', '총리', '지금', '감염', '소중', '인명', '희생', '면서', '사회', '상처', '다면서', '아직', '지루', '싸움', '계속', '안타깝', '마음', '라고', '총리', '지나', '위기', '강하', '모습', '다시', '확인', '다면서', '마스크', '부제', '생활', '치료', '센터', '드라이브 스루', '출입', '명부', '기발', '아이디어', '곧바로', '방역', '현장', '도입', '면서', '방역', '만들', '국제', '사회', '찬사', '으며', '대한민국', '한층', '다고', '평가', '총리', '방역', '성공', '국민', '돌리', '총리', '위기', '순간', '마다', '국민', '께서', '연대', '협력', '정신', '의료진', '헌신', '희생', '마음', '생사', '현장', '굳건', '지키', '다면서', '코로나', '방역', '총괄', '중대', 

### 단어화한 데이터를 파일에 저장 

In [22]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/preProcessedText01','wb') as f:
    pickle.dump(preProcessedText01,f)

In [23]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/preProcessedText01', 'rb') as f:
    tmp = pickle.load(f)

In [24]:
print(tmp)

[['본문', '내용', '플레이어', '플레이어', '오류', '우회', '위하', '함수', '추가', '총리', '중대', '회의', '인천시', '옹진', '전남', '장흥', '사례', '언급', '참여', '방역', '강조', '김병기', '기자', '정세균', '국무총리', '세종로', '정부서울청사', '열리', '코로나', '중앙재난안전대책본부', '회의', '주재', '국무총리실', '정세균', '국무총리', '국내', '코로나', '확진', '발생', '접어들', '정부서울청사', '열리', '코로나', '중앙재난안전대책본부', '회의', '지나', '하루', '빠짐없이', '도전', '연속', '다고', '소회', '밝히', '총리', '특히', '지나', '전국', '모든', '지역', '예외', '없이', '코로나', '공격', '지역', '감염', '사례', '나오', '다면서', '인천시', '옹진군', '전남', '장흥군', '언급', '면서', '참여', '방역', '중요', '강조', '총리', '지금', '감염', '소중', '인명', '희생', '면서', '사회', '상처', '다면서', '아직', '지루', '싸움', '계속', '안타깝', '마음', '라고', '총리', '지나', '위기', '강하', '모습', '다시', '확인', '다면서', '마스크', '부제', '생활', '치료', '센터', '드라이브 스루', '출입', '명부', '기발', '아이디어', '곧바로', '방역', '현장', '도입', '면서', '방역', '만들', '국제', '사회', '찬사', '으며', '대한민국', '한층', '다고', '평가', '총리', '방역', '성공', '국민', '돌리', '총리', '위기', '순간', '마다', '국민', '께서', '연대', '협력', '정신', '의료진', '헌신', '희생', '마음', '생사', '현장', '굳건', '지키', '다면서', '코로나', '방역', '총괄', '중대', 

### 네이버기사 활용하기 

In [17]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/naver_news_content.pk','rb') as f:
    rawData = pickle.load(f)

In [18]:
cleaned_text = []

for data in rawData:
    ret = CleanText(data)
    cleaned_text.append(ret)

#### 형태소 분석 + 불용어 처리

In [29]:
print(mecab.morphs(text))

['본문', '내용', '플레이어', '플레이어', '오류', '를', '우회', '하', '기', '위한', '함수', '추가', '일', '부터', '실외', '겨울', '스포츠', '시설', '등', '추가', '업종', '에', '지원일', '서울', '성북구', '돈암', '시장', '전광판', '에', '소', '상공', '인', '버팀목', '자금', '신청', '안내', '광고', '가', '송출', '되', '고', '있', '다', '뉴스', '민경석', '기자', '서울', '뉴스', '문대현', '기자', '소', '상공', '인', '버팀목', '자금', '차', '재난', '지원금', '지급', '일', '째', '날인', '일', '오전', '까지', '총', '만', '명', '의', '소상', '공인', '이', '신청', '을', '완료', '한', '것', '으로', '집계', '됐', '다', '중소', '벤처', '기업', '부', '에', '따르', '면', '이날', '오전', '시', '기준', '총', '만', '명', '의', '소상', '공인', '이', '버팀목', '자금', '신청', '을', '완료', '했으며', '이', '들', '에게', '총', '조억', '원', '이', '지급', '됐', '다', '차', '신속', '지급', '대상자', '만', '명', '중', '현재', '까지', '신청', '률', '은', '만', '명', '다', '앞서', '정부', '는', '지난해', '월일', '소', '상공', '인', '버팀목', '자금', '지원', '계획', '발표', '당시', '설', '연휴', '전', '까지', '대상', '자의', '에게', '지원', '하', '겠', '다', '라고', '목표', '를', '제시', '했', '는데', '설', '연휴', '를', '여', '일', '앞둔', '시점', '에서', '목표', '를', '달성', '한', '셈', '이', '다', 

In [60]:
preProcessedText01 = []
for text in cleaned_text:
    tmp = preProcessedText = [word for word in komoran.morphs(text) if word not in SW and len(word) > 1]
    preProcessedText01.append(tmp)

In [61]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/preProcessedText01','wb') as f:
    pickle.dump(preProcessedText01,f)

In [62]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/preProcessedText01','rb') as f:
    preProcessedText01 = pickle.load(f)

#### 명사만 추출하고 불용어 처리
- nouns: 명사추출

In [28]:
print(mecab.nouns(text))

['본문', '내용', '플레이어', '플레이어', '오류', '우회', '함수', '추가', '일', '실외', '겨울', '스포츠', '시설', '등', '추가', '업종', '지원일', '서울', '성북구', '돈암', '시장', '전광판', '상공', '버팀목', '자금', '신청', '안내', '광고', '송출', '뉴스', '민경석', '기자', '서울', '뉴스', '문대현', '기자', '상공', '버팀목', '자금', '차', '재난', '지원금', '지급', '일', '날인', '오전', '만', '명', '소상', '공인', '신청', '완료', '것', '집계', '중소', '벤처', '기업', '부', '이날', '오전', '시', '기준', '만', '명', '소상', '공인', '버팀목', '자금', '신청', '완료', '이', '조억', '원', '지급', '차', '신속', '지급', '대상자', '만', '명', '중', '현재', '신청', '만', '명', '정부', '지난해', '월일', '상공', '버팀목', '자금', '지원', '계획', '발표', '당시', '설', '연휴', '전', '대상', '자의', '지원', '목표', '제시', '설', '연휴', '일', '시점', '목표', '달성', '셈', '버팀목', '자금', '코로나', '차', '확산', '집합', '금지', '영업', '제한', '매출', '감소', '소상', '공인', '집합', '금지', '업종', '만', '원', '영업', '제한', '업종', '경우', '만', '원', '일반', '업종', '만', '원', '지급', '일반', '업종', '연', '매출', '억', '원', '조건', '충족', '중기', '부', '버팀목', '자금', '원활', '신청', '지급', '일', '사업자', '등록', '번호', '끝', '자리', '기준', '홀짝', '적용', '지급', '신청', '현재', '홀', '짝수', '구분', '누

In [32]:
preProcessedTextNoun = []
for text in cleaned_text:
    tmp = [word for word in komoran.nouns(text) if word not in SW and len(word) > 1 ]
    preProcessedTextNoun.append(tmp)

In [42]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/preProcessedTextNoun','wb') as f:
    pickle.dump(preProcessedTextNoun,f)

In [43]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/preProcessedTextNoun','rb') as f:
    preProcessedTextNoun = pickle.load(f)

#### 단어로 토큰화 시킨 후 불용어 처리 

In [31]:
print(text.split())

['본문', '내용', '플레이어', '플레이어', '오류를', '우회하기', '위한', '함수', '추가', '일부터', '실외겨울스포츠시설', '등', '추가', '업종에', '지원일', '서울', '성북구', '돈암시장', '전광판에', '소상공인', '버팀목자금', '신청', '안내', '광고가', '송출되고', '있다', '뉴스', '민경석', '기자서울뉴스', '문대현', '기자', '소상공인', '버팀목자금차', '재난지원금', '지급', '일째', '날인', '일', '오전까지', '총', '만명의', '소상공인이', '신청을', '완료한', '것으로', '집계됐다', '중소벤처기업부에', '따르면', '이날', '오전', '시', '기준', '총', '만명의', '소상공인이', '버팀목자금', '신청을', '완료했으며', '이들에게', '총', '조억원이', '지급됐다', '차', '신속지급', '대상자', '만명', '중', '현재까지', '신청률은', '만명다앞서', '정부는', '지난해', '월일', '소상공인', '버팀목자금', '지원', '계획', '발표', '당시', '설', '연휴', '전까지', '대상자의', '에게', '지원하겠다라고', '목표를', '제시했는데', '설', '연휴를', '여', '일', '앞둔', '시점에서', '목표를', '달성한', '셈이다버팀목자금은', '코로나', '차', '확산으로', '집합금지영업제한을', '받았거나', '매출이', '감소한', '소상공인에게', '집합금지업종은', '만원', '영업제한업종의', '경우', '만원', '일반업종은', '만원씩을', '지급한다', '단', '일반업종은', '연', '매출이', '억원', '이하라는', '조건을', '충족해야', '한다앞서', '중기부는', '버팀목자금의', '원활한', '신청', '및', '지급을', '위해', '일', '사업자등록번호', '끝자리를', '기준으로', '홀짝제를', '적용해', '지급', '신청을', '받았지만', '현재는

In [34]:
preProcessedTextword = []
for text in cleaned_text:
    tmp = [word for word in text.split() if word not in SW and len(word) > 1 ]
    preProcessedTextword.append(tmp)

In [67]:
preProcessedText02 = []
for text in cleaned_text:
    for word in text.split():
        if word not in SW and len(word) > 1:
            preProcessedText02.append(word)

In [48]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/preProcessedTextword','wb') as f:
    pickle.dump(preProcessedTextword, f)

In [49]:
with open('C:/Users/scien/Desktop/forLecture/형태소 분석 파일/preProcessedTextword','rb') as f:
    preProcessedTextword = pickle.load(f)

In [51]:
print(preProcessedTextword)

[['본문', '내용', '플레이어', '플레이어', '오류를', '우회하기', '위한', '함수', '추가', '총리', '중대본', '회의서', '인천시', '옹진', '전남', '장흥', '사례', '언급하며', '참여', '방역', '강조김병기', '기자', '정세균', '국무총리가', '세종로', '정부서울청사에서', '열린', '코로나', '중앙재난안전대책본부', '회의를', '주재하고', '국무총리실', '정세균', '국무총리는', '국내에서', '코로나', '확진자가', '발생한', '년째', '접어드는', '정부서울청사에서', '열린', '코로나', '중앙재난안전대책본부', '회의에서', '지난', '년은', '하루도', '빠짐없이', '도전과', '응전의', '연속이었다고', '소회를', '밝혔다정', '총리는', '특히', '지난', '년간', '전국', '모든', '지역이', '예외', '없이', '코로나의', '공격을', '받았지만', '지역감염', '사례가', '명도', '나오지', '않은', '곳이', '있다면서', '인천시', '옹진군과', '전남', '장흥군을', '언급하면서', '참여', '방역의', '중요성을', '강조했다우선', '총리는', '지금까지', '만명이', '넘게', '감염되었고', '명의', '소중한', '인명이', '희생되면서', '사회는', '상처를', '입었다면서', '아직도', '지루한', '싸움이', '계속되고', '있어', '안타까운', '마음이라고', '말했다하지만', '총리는', '지난', '년은', '위기', '속에서', '강해지는', '우리의', '모습을', '다시', '한번', '확인하는', '시간이기도', '했다면서', '마스크', '부제', '생활치료센터', '드라이브', '스루', '전자출입명부', '기발한', '아이디어가', '곧바로', '방역현장에', '도입되면서', '방역을', '만들어', '냈고', '국제사회의', '찬사를', '받으며', '대한민국의', '국격은', '한층', '