## 자연어 데이터의 전처리
- Normalization : 다 다르게 받아들이는걸 같게끔 통합 / 띄어쓰기 / 등..
- 형태소 분석: 토큰화(분석하고자 하는 단위-토큰) / 품사태깅(각 단어에 품사를 붙이는 절차)
- Tokenizing
- stopword 제거
- vectorization(텍스트 벡터화)

# tensorflow(정수인코딩, 패딩)

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [2]:
preprocessed_sentences = [['pop', 'jazz'],
                          ['pop', 'hip hop', 'jazz'],
                          ['pop', 'ratin', 'jazz'],
                          ['knew', 'R&B'],
                          ['R&B', 'classic', 'ratin', 'R&B'],
                          ['ratin', 'R&B'],
                          ['pop', 'classic', 'blues'],
                          ['pop', 'classic', 'blues'],
                          ['pop', 'classic', 'R&B'],
                          ['rock', 'rock', 'ratin', 'R&B',
                           'k-pop', 'pop', 'crazy'],
                          ['pop', 'j-pop', 'ratin', 'rap']]

In [4]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded_text = tokenizer.texts_to_sequences(preprocessed_sentences)
encoded_text

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

In [5]:
encoded_text_pad = pad_sequences(encoded_text) # 가장 최대 길이 맞춰서 0을 앞에  채워줌 / padding = 'post' 추가하면 뒤쪽에다가 채워줌 / maxkeb = 5 >> 최대길이 5로(용량 줄일 수 o)
encoded_text_pad 

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

In [None]:
# 영어

# 영어

## nltk = natural language toolkit

In [7]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [8]:
from nltk.tokenize import word_tokenize
text = 'Think like a man of action and act like man of thought'
print(word_tokenize(text)) # 토큰 단위로

['Think', 'like', 'a', 'man', 'of', 'action', 'and', 'act', 'like', 'man', 'of', 'thought']


In [9]:
from nltk.tokenize import sent_tokenize
text = 'Courage is very important. Like a muscle, it is strengthened by use.' 
print(sent_tokenize(text)) # 문장단위로

['Courage is very important.', 'Like a muscle, it is strengthened by use.']


## spacy

In [11]:
import spacy
nlp = spacy.load('en_core_web_sm')
text = 'Without data you’re just another person with an opinion.'
doc = nlp(text)

tokenized_spacy = [token.text for token in doc]
print(tokenized_spacy)

['Without', 'data', 'you', '’re', 'just', 'another', 'person', 'with', 'an', 'opinion', '.']


In [12]:
text = 'Courage is very important. Like a muscle, it is strengthened by use.'
doc = nlp(text)
tokenized_sent = [sent.text for sent in doc.sents]
print(tokenized_sent)

['Courage is very important.', 'Like a muscle, it is strengthened by use.']


# 한국어

## konlpy(okt)

In [13]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m55.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp38-cp38-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.6/465.6 KB[0m [31m39.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [14]:
text = '문제는 지능적인 기계가 감정을 가질 수 있는가가 아니라, 기계가 감정 없이 지능적일 수 있는가이다.'

In [15]:
from konlpy.tag import Okt
okt = Okt() # Open Korean Text
print(okt.morphs(text)) # 형태소로 나눈다.

['문제', '는', '지능', '적', '인', '기계', '가', '감정', '을', '가질', '수', '있는가가', '아니라', ',', '기계', '가', '감정', '없이', '지능', '적', '일', '수', '있는가이다', '.']


In [16]:
print(okt.morphs(text, stem = True)) # 형태소롤 나눈다. -> 어간으로 변경

['문제', '는', '지능', '적', '인', '기계', '가', '감정', '을', '가지다', '수', '있다', '아니다', ',', '기계', '가', '감정', '없이', '지능', '적', '일', '수', '있다', '.']


In [17]:
print(okt.nouns(text)) # 명사 추출

['문제', '지능', '기계', '감정', '수', '기계', '감정', '지능', '일', '수']


In [18]:
print(okt.phrases(text)) # 어절 단위로 추출

['문제', '기계', '감정', '지능적일', '지능적일 수']


## konlpy(kkma)

In [21]:
from konlpy.tag import Kkma
kkma = Kkma()
print(kkma.morphs(text)) # 형태소로 나눈다.

['문제', '는', '지능', '적', '이', 'ㄴ', '기계', '가', '감정', '을', '가지', 'ㄹ', '수', '있', '는', '가가', '아니', '라', ',', '기계', '가', '감정', '없이', '지능', '적', '이', 'ㄹ', '수', '있', '는', '가이', '이', '다', '.']


- 형태소 분석기에 따라서 결과가 다르다! 용도에 따라, 문제에 따라 판단해서 써야 한다!
- 우리는 okt 기준으로 많이 할거긴 함.

In [22]:
print(kkma.nouns(text)) # 명사 추출

['문제', '지능', '기계', '감정', '수', '가가', '가이']


In [23]:
print(kkma.pos(text)) # 품사태깅

[('문제', 'NNG'), ('는', 'JX'), ('지능', 'NNG'), ('적', 'XSN'), ('이', 'VCP'), ('ㄴ', 'ETD'), ('기계', 'NNG'), ('가', 'JKS'), ('감정', 'NNG'), ('을', 'JKO'), ('가지', 'VV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETD'), ('가가', 'NNG'), ('아니', 'VCN'), ('라', 'ECD'), (',', 'SP'), ('기계', 'NNG'), ('가', 'JKS'), ('감정', 'NNG'), ('없이', 'MAG'), ('지능', 'NNG'), ('적', 'XSN'), ('이', 'VCP'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETD'), ('가이', 'NNG'), ('이', 'VCP'), ('다', 'EFN'), ('.', 'SF')]


In [24]:
print(kkma.pos(text, join = True)) # 품사태깅2

['문제/NNG', '는/JX', '지능/NNG', '적/XSN', '이/VCP', 'ㄴ/ETD', '기계/NNG', '가/JKS', '감정/NNG', '을/JKO', '가지/VV', 'ㄹ/ETD', '수/NNB', '있/VV', '는/ETD', '가가/NNG', '아니/VCN', '라/ECD', ',/SP', '기계/NNG', '가/JKS', '감정/NNG', '없이/MAG', '지능/NNG', '적/XSN', '이/VCP', 'ㄹ/ETD', '수/NNB', '있/VV', '는/ETD', '가이/NNG', '이/VCP', '다/EFN', './SF']


# 불용어(stopword) 제거

In [27]:
okt = Okt() # 형태소 분석기 가져오기
text = '완전한 인공지능의 개발은 인류의 종말을 의미할 수 있다.'
stopwords = ['의', '은', '을', '할', '수']

tokens = okt.morphs(text)
remove_stopwords = [token for token in tokens if not token in stopwords]

print('불용어 제거 전:', tokens)
print('불용어 제거 후:', remove_stopwords)

불용어 제거 전: ['완전한', '인공', '지능', '의', '개발', '은', '인류', '의', '종말', '을', '의미', '할', '수', '있다', '.']
불용어 제거 후: ['완전한', '인공', '지능', '개발', '인류', '종말', '의미', '있다', '.']


# 정규표현식

## regex

### regex(.)
- '.' 의 의미는 어떤 임의의 문자열을 의미
- abc, adc, azc, aqc -> regex(a.c) 하면 앞에 있는 애들을 다 찾을 수 있다.

In [30]:
import re
r = re.compile('a.c') # 이런 조건으로 내가 찾겠다! 이 정규표현식을 하나의 객체로 만듦. 객체화.
print(r.search('ccc'))
print(r.search('azc'))
print(r.search('azzc'))

None
<re.Match object; span=(0, 3), match='azc'>
None


In [32]:
r = re.compile('a..c')
print(r.search('azzc'))

<re.Match object; span=(0, 4), match='azzc'>


### regex(?)
- ? : 있을 수도 있고, 없을 수도 있을 때(. 은 무조건 있는거)

In [33]:
r = re.compile('ab?c') # b가 있을 수도 있고, 없을 수도 있고
print(r.search('abc'))
print(r.search('ac'))
print(r.search('abzc'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 2), match='ac'>
None


### regex(*)
- '*' 앞에 문자열이 0개 이상인 경우

In [35]:
r = re.compile('ab*c') # b가 a와 c 사이 (0~무한개)인 경우
print(r.search('abc'))
print(r.search('ac'))
print(r.search('abbbbbbbbbbbbbbbbbbbbb'))
print(r.search('abbbbbbbbbbbbbbbbbbbbbc'))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 2), match='ac'>
None
<re.Match object; span=(0, 23), match='abbbbbbbbbbbbbbbbbbbbbc'>


### regex(+)
- '*' 와 유사
- 최소 1개 이상인 경우

In [36]:
r = re.compile('ab+c')
print(r.search('abc'))
print(r.search('ac')) # b가 최소 한번은 들어가야 됨
print(r.search('abbbbbbbbbbbbbbbbbbbbbc'))

<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 23), match='abbbbbbbbbbbbbbbbbbbbbc'>


### regex(^)
- 시작하는 문자열

In [37]:
r = re.compile('^ab') # ab로 시작하는 문자열

print(r.search('abccccc'))
print(r.search('accccccccc'))
print(r.search('abccccczzdadcccc'))

<re.Match object; span=(0, 2), match='ab'>
None
<re.Match object; span=(0, 2), match='ab'>


### regex({숫자})
- 문자열 앞에 숫자만큼 반복된 경우

In [38]:
r = re.compile('ab{2}c') # a와 c 사이에 b가 2번 등장한 문자열

print(r.search('ac'))
print(r.search('abc'))
print(r.search('abbc'))
print(r.search('abbbc'))

None
None
<re.Match object; span=(0, 4), match='abbc'>
None


### regex({숫자1,숫자2})
- 문자열 앞에 숫자1~숫자2만큼 반복된 경우

In [41]:
r = re.compile('ab{2,5}c') # a와 c 사이에 b가 2~5번 반복된 경우 ({2,5}) 띄어쓰기 하면 안됨!

print(r.search('abc'))
print(r.search('abbc'))
print(r.search('abbbc'))
print(r.search('abbbbbc'))
print(r.search('abbbbbbbbbbbc'))

None
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(0, 7), match='abbbbbc'>
None


In [42]:
r = re.compile('ab{2,}c') # a와 c 사이에 b가 2번 이상 반복된 경우

print(r.search('abc'))
print(r.search('abbc'))
print(r.search('abbbc'))
print(r.search('abbbbbc'))

None
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(0, 7), match='abbbbbc'>


### regex([]})
- [] 안에 들어가는 문자와 매치
- regex([a-zA-Z]) : 영어 전체
- regex([0-9]) : 숫자 전체
- regex([가-힣]) : 한글 전체 

In [44]:
r = re.compile("[abcd]") # [a-d]

print(r.search('zz'))
print(r.search('abcacaca'))
print(r.search('zzzzzzzzzzazzzzzzzz'))

None
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(10, 11), match='a'>


In [45]:
r = re.compile("[a-z]") 

print(r.search('AAA'))
print(r.search('1111'))
print(r.search('aBCCC')) # 소문자 하나라도 들어있어서 식별함

None
None
<re.Match object; span=(0, 1), match='a'>


### regex([^문자열])
- 문자열을 제외한 모든 문자

In [49]:
r = re.compile("[^abcd]") # abcd빼고 나머지

print(r.search('a'))
print(r.search('cb'))
print(r.search('bczzzz'))
print(r.search('1111'))
print(r.search('ABC'))

None
None
<re.Match object; span=(2, 3), match='z'>
<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 1), match='A'>


## regex module

### re.match() vs re.search()
- match : 문자열 첫부분부터 정규표현식이 매치하는지를 확인
- search : 전체를 확인

In [55]:
r = re.compile('abc.')
print(r.match('zzzabcd'))

None


In [57]:
print(r.search('zzzabcd'))

<re.Match object; span=(3, 7), match='abcd'>


### re.split()

In [58]:
text = '남 성 희'
re.split(' ', text)

['남', '성', '희']

In [59]:
text = '''
텍스트1
텍스트2
'''

In [60]:
text = '살라살라
'

SyntaxError: ignored

In [62]:
text = '''이름
전화번호
성별
나이
'''
re.split('\n', text) # 컴퓨터는 띄어쓰기를 \n으로 인식!

['이름', '전화번호', '성별', '나이', '']