# 1. 띄어쓰기 교정

## py-hanspell

네이버 맞춤법 검사기를 이용한 파이썬용 한글 맞춤법 검사 라이브러리

띄어 쓰기 교정을 포함한 여러 맞춤법 오류를 교정해줌

`1` 패키지 설치

1. [링크](https://github.com/ssut/py-hanspell)로 넘어가 code를 다운로드 한다.

2. 다운로드한 파일을 현재 작업폴더로 옮긴 후 압축 해제

3. 그리고 알맞게 경로 이동 후 다름과 같은 명령어 실행

```python
!python setup.py install
```

`2` 맞춤법 교정

* 패키지가 만들어진지 조금 오래 돼서 다음과 같은 오류가 발생한다....

In [5]:
from hanspell import spell_checker

text = "아버지가방에들어가신다나는오늘코딩을했다"

hanspell_sent = spell_checker.check(text)
print(hanspell_sent.checked)

KeyError: 'result'

## extra. 이외 교정 도구

* [soyspacing](https://github.com/lovit/soynlp) : 형태소 분석, 품사 판별, 띄어쓰기 교정 모듈 등을 제공하는 soynlp의 띄어쓰기 교정 모듈입니다. 이 띄어쓰기 교정 모듈은 대량의 코퍼스에서 띄어쓰기 패턴을 학습한 모델을 생성 한 후, 학습한 모델을 통해 패턴대로 띄어쓰기를 교정합니다.

* [PyKoSpacinb](https://github.com/haven-jeon/PyKoSpacing) : 전희원님이 개발한 띄어쓰기 교정기입니다. 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥러닝 모델로 뛰어난 성능을 가지고 있습니다.

***

# 2. 형태소 분석

단어의 어근과 접사를 분리하는 작업

## KoNLPy

`-` 한국어 자연어 처리를 위한 파이썬 패키지

`-` [공식문서](https://konlpy.org/ko/v0.6.0/#)

`1` 패키지 설치

```python
!pip install --upgrade pip
!pip install konlpy
```

* [추가설치사항 참고](https://www.codeit.kr/tutorials/43/KoNLPy-%EC%84%A4%EC%B9%98%ED%95%98%EA%B8%B0-Windows)

* 복잡함, 설치 다 끝내구 주피터 한번 껐다가 켜야함

`2` 패키지 로드

In [1]:
import konlpy

총 5개의 형태소 분석 모듈이 존재

* Kkma
* Komoran
* Okt
* Hannanum
* Mecab(이 모듈은 Windows를 지원하지 않음)

`3` 형태소 분석기 생성

In [2]:
from konlpy.tag import Kkma, Komoran, Okt, Hannanum

kkma = Kkma()
komoran = Komoran()
okt = Okt()
hannanum = Hannanum()

`4` 형태소 분석 결과 확인

In [3]:
text = "아버지가 방에 들어가신다 나는 오늘 코딩을 했다"

print("Kkma: ", kkma.morphs(text))
print("Komoran: ", komoran.morphs(text))
print("Okt: ", okt.morphs(text))
print("Hannanum: ", hannanum.morphs(text))

Kkma:  ['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다', '나', '는', '오늘', '코딩', '을', '하', '었', '다']
Komoran:  ['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다', '나', '는', '오늘', '코', '딩', '을', '하', '았', '다']
Okt:  ['아버지', '가', '방', '에', '들어가신다', '나', '는', '오늘', '코딩', '을', '했다']
Hannanum:  ['아버지', '가', '방', '에', '들', '어', '가', '시ㄴ다', '나', '는', '오늘', '코딩', '을', '하', '었다']


## 이외 형태소 분석기들

* [soynlp](https://github.com/lovit/soynlp) : soynlp에서는 L tokenizer, MaxScoreTokenizer와 같은 형태소 분석기도 제공하고 있습니다. 형태소 분석기 외에도 명사 추출기 등 한국어 자연어 분석을 위한 다양한 기능이 있습니다.

* [Khaiii](https://tech.kakao.com/2018/12/13/khaiii/) : 2018년에 카카오가 공개한 오픈소스 한국어 형태소 분석기입니다.

* [Google sentencepiece](https://github.com/google/sentencepiece) : 2018년에 구글에서 공개한 형태소 분석 패키지 입니다.

***

# 3. 양질의 데이터 확보하기

* 한국어는 영어, 중국어, 스페인어 등과 같은 다른 언어에 비해 한국어를 구사하는 사람이 많지 않아 리소스 자체가 적다.

* 사용하는 사람이 적기 때문에 당연하게도 해당 언어로 된 좋은 데이터가 많이 만들어지지 않는다.

* 그래도 여러 기업에서 제공하는 양질의 한국어 데이터 셋이 존재한다. 

## KorQuAD

2018년에 LG CNS에서 구축하여 공개한 한국어 질의응답 데이터셋

현재 약 10만 건의 데이터가 있으며, 버전이 업데이트 될 때마다 질의 응답 쌍이 계속 추가되고 있음

* [KorQuAD](https://korquad.github.io/) 데이터 바로가기

## 네이버 영화리뷰

대표적인 감성 지수에 대한 데이터

* [네이버 영화 리뷰](https://github.com/e9t/nsmc/) 데이터 바로가기

## 한국어 위키 백과

자연어 데이터를 쉽게 다운로드 받을 수 있도록 하지 않음

따라서 크롤링을 수행해야함. 다음 시간에는 크롤링을 학습하여 자동화까지 구축해보자!