<a href="https://colab.research.google.com/github/GyeeunJeong/nlp_with_pytorch_examples/blob/master/CH04_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4. 전처리

## 4.1.1 코퍼스(corpus)
* 단일언어 코퍼스(monolingual) : 한 가지 언어로 구성
* 이중언어 코퍼스(bilingual) : 두 개의 언어로 구성
* 다중언어 코퍼스 (multilingual)
* 병렬 코퍼스 (parallel) : 언어 간에 쌍으로 구성

## 4.1.2 전처리 과정 개요
1. 코퍼스 수집
    - robots.txt로 크롤링 허용 여부 확인
2. 정제(normalization)
    - 전각문자제거, 대소문자제거 등. 정규표현식 사용.
3. 문장 단위 분절
4. 분절
5. 병렬 코퍼스 정렬(생략가능)
6. 서브워드 분절

## 4.4 문장 단위 분절

In [0]:
import sys, fileinput, re
from nltk.tokenize import sent_tokenize

In [9]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

### 4.4.1 문장 단위 분절 예제

In [11]:
ex_sen = '자연어처리는 인공지능의 한 줄기 입니다. 시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다. 문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것입니다.'

if __name__ == "__main__":
  #for line in fileinput.input():
  line = ex_sen
  if line.strip() != "":
    line = re.sub(r'([a-z])\.([A-Z])', r'\1. \2', line.strip())
    sentences = sent_tokenize(line.strip())

    for s in sentences:
      if s!= "":
        sys.stdout.write(s+"\n")

자연어처리는 인공지능의 한 줄기 입니다.
시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다.
문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것입니다.


### 4.4.2 문장 합치기 및 분절 예제

In [25]:
ex_sen2 = """자연어처리는 인공지능의 한 줄기 입니다. 시퀀스 투 시퀀스의 등장 이후로 \n
딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다. 문장을 \n
받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 \n
있게 된 것입니다."""


if __name__ == "__main__":
  buf = []
  #for line in fileinput.input():
  for line in ex_sen2.splitlines():
    if line.strip() != "":
      buf += [line.strip()]
      sentences = sent_tokenize(" ".join(buf))

      if len(sentences)>1:
        buf = sentences[-1:]
        sys.stdout.write('\n'.join(sentences[:-1])+'\n')

  sys.stdout.write(' '.join(buf) + '\n')

자연어처리는 인공지능의 한 줄기 입니다.
시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다.
문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것입니다.


## 4.5.2 영어 분절


In [27]:
nltk.download('perluniprops')

[nltk_data] Downloading package perluniprops to /root/nltk_data...
[nltk_data]   Unzipping misc/perluniprops.zip.


True

In [0]:
from nltk.tokenize.moses import MosesTokenizer

In [31]:
nltk.download('nonbreaking_prefixes')

[nltk_data] Downloading package nonbreaking_prefixes to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping corpora/nonbreaking_prefixes.zip.


True

In [34]:
ex_sen3 = """Natural language processing is one of biggest streams in artificial intelligence, and it becomes very popular after seq2seq's invention"""

t = MosesTokenizer()

if __name__ == '__main__':
  #for line in fileinput.input():
  for line in ex_sen3.splitlines():
    if line.strip() != '':
      tokens = t.tokenize(line.strip(), escape=False)

      sys.stdout.write(' '.join(tokens)+'\n')

    else:
      sys.stdout.write('\n')

Natural language processing is one of biggest streams in artificial intelligence , and it becomes very popular after seq2seq 's invention


## 4.6 병렬 코퍼스 정렬
1. 소스언어, 타깃언어 사이의 단어사전 준비
  - 단어 사전  
    1) 각 언어에 대해 코퍼스 수집 및 정제  
    2) 각 언어에 대해 단어 임베딩 벡터 구함  
    3) MUSE로 단어 레벨 번역기 훈련 -> 단어 사전 생성
2. 단어사전, Champollion을 통해 기존 수집된 다중 언어 코퍼스 정렬
3. 각 언어 정제(Tokenization, Detokenization)
4. Champollion으로 병렬 코퍼스 생성

# 4.9 토치텍스트
* 전처리 라이브러리 실습
* x      -  y    -  활용분야
1. 코퍼스  클래스   텍스트 분류, 감성 분석
2. 코퍼스  -        언어모델
3. 코퍼스  코퍼스   기계번역, 요약, 질의응답