## 텍스트 마이닝이란?


* **비정형 데이터**를 분석하여 유용한 정보와 숨겨져 있는 의미 있는 정보를 찾아내는 분석 방법
    - 데이터베이스에 정형화되어 있음 -> 문서 안에 비정형화된 형태로 있음
    
    
* 텍스트 마이닝(Text Mining)
     - 텍스트 문서로부터 의미 있는 정보를 추출하고 분석하는 기술
     - 비정형 텍스트 데이터를 정형화하는 과정이 요구됨
     - 자연어 처리(NLP) 기술에 기반을 두고 데이터를 가공하는 기술
         - 자연어 처리? 컴퓨터가 사람의 언어를 인식할 수 있도록 하는 기술
         
        
* 텍스트 마이닝 프로세스
1. 데이터 수집: 데이터 다운로드, API, 웹 스크래핑 등
2. 데이터 전처리: 자연어 처리, 불용어 처리 등
3. 데이터 분석 및 시각화: 단어 빈도분석, 연관어 분석, 시각화


### '형태소 분석'과 '품사 태깅'


* 형태소 분석
    - 형태소: 뜻을 가진 가장 작은 단위
    - 형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것
    
    
* 품사 태깅
    - 형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일

## 자연어 처리하기


* **KoNLPy** 설치 (코엔엘파이)
    - 한국어 정보처리를 위한 파이썬 패키지
    - `pip install konlpy`

1. Hannanum

    - Wrapper for JHannanum
    - JHannanum is a morphological analyzer and POS tagger written in Java, and developed by the Sematic Web Research Center(SWRC) at KAIST since 1999.

In [4]:
from konlpy.tag import Hannanum

hannanum = Hannanum()

print(hannanum.analyze(u'롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print()
print(hannanum.morphs(u'롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print()
print(hannanum.nouns(u'다람쥐 헌 쳇바퀴에 타고파'))
print()
print(hannanum.pos(u'웃으면 더 행복합니다!'))

[[[('롯데마트', 'ncn'), ('의', 'jcm')], [('롯데마트의', 'ncn')], [('롯데마트', 'nqq'), ('의', 'jcm')], [('롯데마트의', 'nqq')]], [[('흑마늘', 'ncn')], [('흑마늘', 'nqq')]], [[('양념', 'ncn')]], [[('치킨', 'ncn'), ('이', 'jcc')], [('치킨', 'ncn'), ('이', 'jcs')], [('치킨', 'ncn'), ('이', 'ncn')]], [[('논란', 'ncpa'), ('이', 'jcc')], [('논란', 'ncpa'), ('이', 'jcs')], [('논란', 'ncpa'), ('이', 'ncn')]], [[('되', 'nbu'), ('고', 'jcj')], [('되', 'nbu'), ('이', 'jp'), ('고', 'ecc')], [('되', 'nbu'), ('이', 'jp'), ('고', 'ecs')], [('되', 'nbu'), ('이', 'jp'), ('고', 'ecx')], [('되', 'paa'), ('고', 'ecc')], [('되', 'paa'), ('고', 'ecs')], [('되', 'paa'), ('고', 'ecx')], [('되', 'pvg'), ('고', 'ecc')], [('되', 'pvg'), ('고', 'ecs')], [('되', 'pvg'), ('고', 'ecx')], [('되', 'px'), ('고', 'ecc')], [('되', 'px'), ('고', 'ecs')], [('되', 'px'), ('고', 'ecx')]], [[('있', 'paa'), ('다', 'ef')], [('있', 'px'), ('다', 'ef')]], [[('.', 'sf')], [('.', 'sy')]]]

['롯데마트', '의', '흑마늘', '양념', '치킨', '이', '논란', '이', '되', '고', '있', '다', '.']

['다람쥐', '쳇바퀴', '타고파']

[('웃', 'P'), ('으면', 'E'

2. Kkma

    * Wrapper for Kkma
    * Kkma is a morphological analyzer and natural language processing system written in Java, developed by the Intelligent Data Systems(IDS) Laboratory at SNU.

In [5]:
from konlpy.tag import Kkma

kkma = Kkma()

print(kkma.morphs(u'공부를 하면할수록 모르는게 많다는 것을 알게 됩니다.'))
print()
print(kkma.nouns(u'대학에서 DB, 통계학, 이산수학 등을 배웠지만...'))
print()
print(kkma.pos(u'다 까먹어버렸네요?ㅋㅋ'))
print()
print(kkma.sentences(u'그래도 계속 공부합니다. 재밌으니까!'))

['공부', '를', '하', '면', '하', 'ㄹ수록', '모르', '는', '것', '이', '많', '다는', '것', '을', '알', '게', '되', 'ㅂ니다', '.']

['대학', '통계학', '이산', '이산수학', '수학', '등']

[('다', 'MAG'), ('까먹', 'VV'), ('어', 'ECD'), ('버리', 'VXV'), ('었', 'EPT'), ('네요', 'EFN'), ('?', 'SF'), ('ㅋㅋ', 'EMO')]

['그래도 계속 공부합니다.', '재밌으니까!']


3. Komoran

    * Wrapper for KOMORAN
    * KOMORAN is a relatively new open source Korean morphological analyler written in Java, developed by Shineware, since 2013.

In [8]:
# cat /tmp/dic.txt  # Place a file in a location of your choice

from konlpy.tag import Komoran

komoran = Komoran(userdic='/tmp/dic.txt')

print(komoran.morphs(u'우왕 코모란도 오픈소스가 되었어요'))
print()
print(komoran.nouns(u'오픈소스에 관심 많은 멋진 개발자님들!'))
print()
print(komoran.pos(u'혹시 바람과 함께 사라지다 봤어?'))

['우왕', '코', '모란', '도', '오픈', '소스', '가', '되', '었', '어요']

['오픈', '소스', '관심', '개발자']

[('혹시', 'MAG'), ('바람과 함께 사라지다', 'NNP'), ('보', 'VV'), ('았', 'EP'), ('어', 'EF'), ('?', 'SF')]


4. Mecab

    * Mecab() is not supported on Windows.
    * Wrapper for MeCab-ko morphological analyzer
    * MeCab, originally a Japanese morphological analyzer and POS tagger developed by the Graduate School of Informatics in Kyoto University, was modified to MeCab-ko by the Eunjeon Project to adapt to the Korean language.

In [None]:
# MeCab installation needed
# from konlpy.tag import Mecab

# mecab = Mecab()

# print(mecab.morphs(u'영등포구청역에 있는 맛집 좀 알려주세요.'))
# print()
# print(mecab.nouns(u'우리나라에는 무릎 치료를 잘하는 정형외과가 없는가!'))
# print()
# print(mecab.pos(u'자연주의 쇼핑몰은 어떤 곳인가?'))

5. Okt

    * Twitter() has changed to Okt() since v0.5.0.
    * Wrapper for Open Korean Text
    * Open Korean Text is an open source Korean tokenizer written in Scala, developed by Will Hohyon Ryu.

In [13]:
from konlpy.tag import Okt

okt = Okt()

print(okt.morphs(u'단독입찰보다 복수입찰의 경우'))
print()
print(okt.nouns(u'유일하게 항공기 체계 종합개발 경험을 갖고 있는 KAI는'))
print()
print(okt.phrases(u'날카로운 분석과 신뢰감 있는 진행으로'))
print()
print(okt.pos(u'이것도 되나욬ㅋㅋ'))
print()
print(okt.pos(u'이것도 되나욬ㅋㅋ', norm=True))
print()
print(okt.pos(u'이것도 되나욬ㅋㅋ', norm=True, stem=True))

['단독', '입찰', '보다', '복수', '입찰', '의', '경우']

['항공기', '체계', '종합', '개발', '경험']

['날카로운 분석', '날카로운 분석과 신뢰감', '날카로운 분석과 신뢰감 있는 진행', '분석', '신뢰', '진행']

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나욬', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나요', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]


### JAVA_HOME 설정


* 환경 변수에 Java가 설치 경로 등록
    - jdk를 다운로드 받은 경우
    - 설치했던 여러 개의 Java 중 우리가 지금 받은 버전을 사용하면 된다고 알려줄 경우
    

* 윈도우 탐색키 창을 열어서
    - 내 PC -> 오른쪽 마우스 -> 속성 -> 고급 시스템 설정 -> 환경 변수
    - (또는) 윈도우키 + R -> sysdm.cpl 입력 -> 고급 탭 클릭
    - 새로 만들기 -> 변수 이름 : JAVA_HOME / 변수 값: 디렉터리 찾아보기 -> C:\Program Files\Java\jdk-15.0.2

---

## 한글 자연어 처리 기초


* KoNLPy?
    - 한나눔(Hannanum), 꼬꼬마(Kkma), Komoran, Okt 등의 형태소 분석기를 파이썬에서 사용할 수 있도록 함

In [14]:
! pip install konlpy

In [15]:
from konlpy.tag import Hannanum
hannanum = Hannanum()

In [16]:
from konlpy.tag import Kkma
kkma = Kkma()

In [17]:
from konlpy.tag import Komoran
komoran = Komoran()

In [18]:
from konlpy.tag import Okt
okt = Okt()

### 성능 비교하기

![image.png](attachment:image.png)

In [19]:
# 성능 확인해보기

test_sent = "아버지가방에들어가신다"
print('Hannanum :', hannanum.pos(test_sent))
print('Kkma :', kkma.pos(test_sent))
print('Komoran :', komoran.pos(test_sent))
print('Okt :', okt.pos(test_sent))

Hannanum : [('아버지가방에들어가', 'N'), ('이', 'J'), ('시ㄴ다', 'E')]
Kkma : [('아버지', 'NNG'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]
Komoran : [('아버지', 'NNG'), ('가방', 'NNP'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EC')]
Okt : [('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]


### 성능 비교하기 2 : 시간

![image.png](attachment:image.png)

In [20]:
import time

test_sent = "아버지가방에들어가신다"
start = time.time()
print('Hannanum :', hannanum.pos(test_sent))
print('time :', time.time() - start)

start = time.time()
print('Kkma :', kkma.pos(test_sent))
print('time :', time.time() - start)

start = time.time()
print('Komoran :', komoran.pos(test_sent))
print('time :', time.time() - start)

start = time.time()
print('Okt :', okt.pos(test_sent))
print('time :', time.time() - start)

Hannanum : [('아버지가방에들어가', 'N'), ('이', 'J'), ('시ㄴ다', 'E')]
time : 0.0029921531677246094
Kkma : [('아버지', 'NNG'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]
time : 0.030257225036621094
Komoran : [('아버지', 'NNG'), ('가방', 'NNP'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EC')]
time : 0.001783609390258789
Okt : [('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]
time : 0.01595759391784668
