In [1]:
!pip install nltk

Collecting nltk
  Downloading nltk-3.6.7-py3-none-any.whl (1.5 MB)
Collecting click
  Downloading click-8.0.3-py3-none-any.whl (97 kB)
Collecting tqdm
  Using cached tqdm-4.62.3-py2.py3-none-any.whl (76 kB)
Collecting joblib
  Using cached joblib-1.1.0-py2.py3-none-any.whl (306 kB)
Collecting regex>=2021.8.3
  Downloading regex-2022.1.18-cp37-cp37m-win_amd64.whl (272 kB)
Installing collected packages: tqdm, regex, joblib, click, nltk
Successfully installed click-8.0.3 joblib-1.1.0 nltk-3.6.7 regex-2022.1.18 tqdm-4.62.3


In [2]:
import nltk

In [3]:
nltk.download()

# punkt 토큰화
# wordnet 표제어 추출
# stopwords 불용어 처리

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [4]:
!pip install konlpy

Collecting konlpy
  Using cached konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-win_amd64.whl (361 kB)
Collecting lxml>=4.1.0
  Using cached lxml-4.7.1-cp37-cp37m-win_amd64.whl (3.7 MB)
Collecting numpy>=1.6
  Downloading numpy-1.21.5-cp37-cp37m-win_amd64.whl (14.0 MB)
Installing collected packages: numpy, lxml, JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0 lxml-4.7.1 numpy-1.21.5


In [5]:
import konlpy
from konlpy.tag import Kkma

### 토큰화 (Tokenization)

### 문장 토큰화

In [6]:
from nltk.tokenize import sent_tokenize

In [8]:
text = "I am a boy. My name is Sungsu. My age is 28."

In [9]:
print(sent_tokenize(text))

['I am a boy.', 'My name is Sungsu.', 'My age is 28.']


### 단어 토큰화

In [10]:
from nltk.tokenize import word_tokenize

In [11]:
print(word_tokenize(text))

['I', 'am', 'a', 'boy', '.', 'My', 'name', 'is', 'Sungsu', '.', 'My', 'age', 'is', '28', '.']


### 한국어에서 토큰화의 어려운점
- 띄어쓰기가 영어보다 잘 지켜지지 않는다.
- 형태소 분석 필요 (접사, 어미, 조사, 명사, 형용사, 대명사, 부사 등)

In [13]:
text2 = "안녕하세요. 나는 정성수입니다. 나이는 28세입니다."

In [12]:
kkma = Kkma()

In [14]:
# 문장분리
kkma.sentences(text2)

['안녕하세요.', '나는 정 성수입니다.', '나이는 28세입니다.']

In [15]:
# 명사분리
kkma.nouns(text2)

['안녕', '나', '정', '정성수', '성수', '나이', '28', '28세', '세']

In [16]:
# 형태소 토큰화
kkma.morphs(text2)

['안녕',
 '하',
 '세요',
 '.',
 '나',
 '는',
 '정',
 '성수',
 '이',
 'ㅂ니다',
 '.',
 '나이',
 '는',
 '28',
 '세',
 '이',
 'ㅂ니다',
 '.']

In [17]:
# 품사 태깅
kkma.pos(text2)

[('안녕', 'NNG'),
 ('하', 'XSV'),
 ('세요', 'EFN'),
 ('.', 'SF'),
 ('나', 'NP'),
 ('는', 'JX'),
 ('정', 'NNG'),
 ('성수', 'NNG'),
 ('이', 'VCP'),
 ('ㅂ니다', 'EFN'),
 ('.', 'SF'),
 ('나이', 'NNG'),
 ('는', 'JX'),
 ('28', 'NR'),
 ('세', 'NNM'),
 ('이', 'VCP'),
 ('ㅂ니다', 'EFN'),
 ('.', 'SF')]

품사 : http://kkma.snu.ac.kr/documents/?doc=postag

### 정제(Cleaning)와 정규화(Nomalization)
- 대/소문자 통합
- 불필요한 단어의 제거 : 빈도수가 적은 단어, 길이가 짧은 단어
- 규칙에 기반한 표기가 다른 단어들의 통합
- 정규 표현식 (Regular Expression) 활용

In [21]:
import re

text = "안녕하십니까. 정성수입니다. ==> 반갑습니다."

# 정규표현식을 이용하여 특수문자, 기호 삭제
# ㄱ-ㅎㅏ-ㅣ가-힣a-zA-Z : 한글, 영문자, 공백을 제외한 문자
sw = re.compile("[^ㄱ-ㅎㅏ-ㅣ가-힣a-zA-Z ]")

sw.sub("",text)

'안녕하십니까 정성수입니다  반갑습니다'

### 불용어(stopword)
- 일반적인 한국어 불용어 리스트 : https://www.ranks.nl/stopwords/korean , https://bab2min.tistory.com/544

In [22]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [26]:
'고기를' not in stop_words

True

In [27]:
example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = ['하면', '안', '돼', '.', '라고', '다', '게', '예컨대', '을']

# 단어를 분리
wt = word_tokenize(example)

result = []
for i in wt:
    if i not in stop_words:
        result.append(i)
        
print(result)

['고기를', '아무렇게나', '구우려고', '고기라고', '같은', '아니거든', '삼겹살을', '구울', '때는', '중요한', '있지']


### 정규 표현식을 이용한 텍스트 처리

## 정규 표현식 (Regular Expression)

<table>
<thead>
<tr>
<th>특수 문자</th>
<th>설명</th>
</tr>
</thead>
<tbody>
<tr>
<td>.</td>
<td>한 개의 임의의 문자를 나타냄. (줄바꿈 문자인 \n는 제외)</td>
</tr>
<tr>
<td>?</td>
<td>앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있음. (문자가 0개 또는 1개)</td>
</tr>
<tr>
<td>*</td>
<td>앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있음. (문자가 0개 이상)</td>
</tr>
<tr>
<td>+</td>
<td>앞의 문자가 최소 한 개 이상 존재. (문자가 1개 이상)</td>
</tr>
<tr>
<td>^</td>
<td>뒤의 문자로 문자열이 시작.</td>
</tr>
<tr>
<td>$</td>
<td>앞의 문자로 문자열이 종료.</td>
</tr>
<tr>
<td>{숫자}</td>
<td>숫자만큼 반복.</td>
</tr>
<tr>
<td>{숫자1, 숫자2}</td>
<td>숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체.</td>
</tr>
<tr>
<td>{숫자,}</td>
<td>숫자 이상만큼 반복합니다.</td>
</tr>
<tr>
<td>[ ]</td>
<td>대괄호 안의 문자들 중 한 개의 문자와 매치. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미. [a-zA-Z]는 알파벳 전체를 의미</td>
</tr>
<tr>
<td>[^문자]</td>
<td>해당 문자를 제외한 문자를 매치.</td>
</tr>
<tr>
<td>l</td>
<td>AlB와 같이 쓰이며 A 또는 B의 의미</td>
</tr>
</tbody>
</table>


<h3 id="2"><strong>역 슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙</strong></h3>

<table>
<thead>
<tr>
<th>문자 규칙</th>
<th>설명</th>
</tr>
</thead>
<tbody>
<tr>
<td>\\</td>
<td>역 슬래쉬 문자 자체를 의미</td>
</tr>
<tr>
<td>\d</td>
<td>모든 숫자를 의미합니다. [0-9]와 의미가 동일.</td>
</tr>
<tr>
<td>\D</td>
<td>숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일.</td>
</tr>
<tr>
<td>\s</td>
<td>공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일.</td>
</tr>
<tr>
<td>\S</td>
<td>공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일.</td>
</tr>
<tr>
<td>\w</td>
<td>문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일.</td>
</tr>
<tr>
<td>\W</td>
<td>문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일.</td>
</tr>
</tbody>
</table>

<h3 ><strong>정규표현식 모듈 함수</strong></h3>

<table>
<thead>
<tr>
<th>모듈 함수</th>
<th>설명</th>
</tr>
</thead>
<tbody>
<tr>
<td>re.compile()</td>
<td>정규표현식을 컴파일하는 함수, 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리</td>
</tr>
<tr>
<td>re.search()</td>
<td>문자열 전체에 대해서 정규표현식과 매치되는지를 검색.</td>
</tr>
<tr>
<td>re.match()</td>
<td>문자열의 처음이 정규표현식과 매치되는지를 검색.</td>
</tr>
<tr>
<td>re.split()</td>
<td>정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴.</td>
</tr>
<tr>
<td>re.findall()</td>
<td>문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴. 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴.</td>
</tr>
<tr>
<td>re.finditer()</td>
<td>문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴.</td>
</tr>
<tr>
<td>re.sub()</td>
<td>문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체.</td>
</tr>
</tbody>
</table>

In [28]:
text = """100 John    PROF
          101 James   STUD
          102 Mac   STUD"""

re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [30]:
# 숫자만 추출
re.findall('\d+', text)

['100', '101', '102']

In [34]:
# 문자만 추출
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

In [36]:
# 문자만 추출
re.findall('[A-Z][A-Z]+', text)

['PROF', 'STUD', 'STUD']