# 문장 단위 분절
- 한 라인에 한 문장이 있어야 한다. 그러나
- 여러 문장이 한 라인에 있거나, 한 문장이 여러 라인에 걸쳐 있는 경우에는 문장 단위 분절이 필요하다
- NLTK에서 제공하는 분절 모듈을 이용하기를 권한다.
- 이경우에도 완벽하게 처리하지 못하여 일부 추가적인 전/후처리가 필요할 수 있다.

In [1]:
import sys, fileinput, re
from nltk.tokenize import sent_tokenize

In [2]:
sent = "자연어처리는 인공지능의 한 줄기 입니다. 시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다. 문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것 입니다. 이에따라 이전까지 큰 변화가 없었던 자연어처리 분야의 연구는 폭발적으로 늘어나기 시작하여, 곧 기계번역 시스템은 신경망에 의해 정복 당하였습니다. 또한, attention 기법의 고도화로 전이학습이 발전하면서, QA 문제도 사람보다 정확한 수준이 되었습니다."

In [6]:
line = re.sub(r'([a-z])\.([A-Z])', r'\1. \2', sent.strip())
line

'자연어처리는 인공지능의 한 줄기 입니다. 시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다. 문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것 입니다. 이에따라 이전까지 큰 변화가 없었던 자연어처리 분야의 연구는 폭발적으로 늘어나기 시작하여, 곧 기계번역 시스템은 신경망에 의해 정복 당하였습니다. 또한, attention 기법의 고도화로 전이학습이 발전하면서, QA 문제도 사람보다 정확한 수준이 되었습니다.'

In [7]:
sentences = sent_tokenize(line.strip())
sentences

['자연어처리는 인공지능의 한 줄기 입니다.',
 '시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다.',
 '문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것 입니다.',
 '이에따라 이전까지 큰 변화가 없었던 자연어처리 분야의 연구는 폭발적으로 늘어나기 시작하여, 곧 기계번역 시스템은 신경망에 의해 정복 당하였습니다.',
 '또한, attention 기법의 고도화로 전이학습이 발전하면서, QA 문제도 사람보다 정확한 수준이 되었습니다.']

In [10]:
for s in sentences:
    if s != "":
        sys.stdout.write(s + '\n')

자연어처리는 인공지능의 한 줄기 입니다.
시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다.
문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것 입니다.
이에따라 이전까지 큰 변화가 없었던 자연어처리 분야의 연구는 폭발적으로 늘어나기 시작하여, 곧 기계번역 시스템은 신경망에 의해 정복 당하였습니다.
또한, attention 기법의 고도화로 전이학습이 발전하면서, QA 문제도 사람보다 정확한 수준이 되었습니다.


## 문장 합치기 및 분절 예제


In [21]:
sent2 = "자연어처리는 인공지능의 한 줄기 입니다. 시퀀스 투 시퀀스의 등장 이후로\n딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다. 문장을\n받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수\n있게 된 것 입니다." 

In [22]:
buf = []
if sent2.strip() != '':
    buf += [sent2.strip()]
    sentences = sent_tokenize(" ".join(buf))

    if len(sentences) > 1:
        buf = sentences[-1:]

        sys.stdout.write('\n'.join(sentences[:-1])+'\n')



자연어처리는 인공지능의 한 줄기 입니다.
시퀀스 투 시퀀스의 등장 이후로
딥러닝을 활용한 자연어처리는 새로운 전기를 맞이하게 되었습니다.
