Preprocessing
===========

#### 불용어,불필요한 수식, 특수기호, 문자, 숫자 모두 제거해서 깔끔하게 만들어주는 작업.

--------
## *영어*
#### `regex` 정규식 사용

|pattern 종류|설명|
|---------------|----------------|
|[0-9]|숫자만|
|[a-zA-Z]|영어만|
|[aeiou]|영어모음만|
|[.!,?;]|문장부호|
|[a‐zA‐Z!@#$%^&*0‐9]|영어,특수기호,숫자|
|[^a‐zA‐Z]| 영어 제외하고|
|A*|0개 이상|
|A+|1개 이상|
|A{m,n}|m개 이상 n개 이하|
|?|앞에 문자가 존재할 수도 있고, 아닐 수도 있음|

**example**

서울특별시수처리과 022214‐8107   
서울특별시 도시관리국 02 731‐0308    
서울은평경찰서 02 389‐0384   
경찰청 서울송파경찰서 02 449‐0370   
경찰청 서울송파경찰서 02 448‐0365   


**code**

    import re
    re = '02 [0-9]{3,4}-[0-9]{4}'
    lst = re.findall(regex pattern, text)




--------------------

#### `정규 표현식 모듈 함수`

|모듈 함수 종류|설명|
|---------------|----------------|
|re.compile()|정규표현식을 컴파일하는 함수|
|re.search()|문자열 전체에 대해서 정규표현식과 매치되는지를 검색|
|re.match()|문자열의 처음이 정규표현식과 매치되는지 검색|
|re.split()|정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴|
|re.findall()|문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴|
|re.sub()|문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체|

**code**

    import re
    text = """OLIVE DES OLIVE Acoustic한 감성을 바탕으로 couture적인 detail을 넣어 feminine함을 세련되고 art적인 느낌으로 표현합니다
    LOTTE"""

    pattern = '[가-힣]+'
    lst = re.findall(pattern,text)



--------------------

#### `string 자체의 메소드`

|메소드 종류|설명|
|---------------|----------------|
|str.replace(pattern,alternative)|해당 패턴과 매치되는 부분을 다른 문자열로 대체|
|str.lower()|문자열 전체에 대해서 소문자|
|str.upper()|문자열 전체에 대해서 대문자|
|str.strip()|문자열 공백 제거|
|str.split(sep='구분자')|문자열 구분자 기준으로 나누기|
|str.isalpha()|문자열이 영어로만 이루어졌으면 True 반환|
|str.isnumeric()|문자열이 숫자만 포함하고 있으면 True 반환|

**code**

    string = "I am a boy"
    string = string.replace('a','b')
    string

--------------------




In [51]:
import re
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [53]:
import re
text=" 이름 : 김철수 , 전화번호 : 010 - 1234 - 1234, 나이 : 30 ,성별 : 남"
    
re.findall("\d+",text)

['010', '1234', '1234', '30']

In [56]:
import re
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)


'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

-------------
## *한글*

위의 것들을 사용해도 되지만, 전처리 패키지 존재

### `PyKoSpacing` 패키지 


PyKoSpacing은 한국어 띄어쓰기 패키지로 *띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지*

PyKoSpacing은 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥 러닝 모델로 준수한 성능을 가지고 있다.


In [58]:
# !pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [61]:
sent = """"김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다."""

new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)


"김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


In [62]:
from pykospacing import spacing

kospacing_sent = spacing(new_sent)
print(sent)
print(kospacing_sent)

"김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
"김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


------------

### `Py-Hanspell` 패키지 

네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지

In [63]:
# !pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /private/var/folders/m3/zgkmtc792859mlg2v7cnmpy00000gn/T/pip-req-build-riotmq97
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25ldone
[?25h  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4854 sha256=1666a77e57069eb2afad27dbe994ad379a369edebe0bfc038036aadb84532001
  Stored in directory: /private/var/folders/m3/zgkmtc792859mlg2v7cnmpy00000gn/T/pip-ephem-wheel-cache-l0seqo1a/wheels/3f/a5/73/e4d2806ae141d274fdddaabf8c0ed79be9357d36bfdc99e4b4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [68]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 니가 모 어쩔건대 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지 네가 모 어쩔 건데


# Stopwords

nltk 에서 지정해놓은 불용어들 (사용하지 않는 단어들 제거하기 위함)

**code**

    nltk.download('stopwords')
    stop_words = set(stopwords.words('english'))
    string = string.apply(lambda x: ' '.join(word for word in x.split() if word not in stop_words))
                
               

In [74]:
#직접 불용어 사전 만들 수도 있음.
# stopwords = ['그','이','저','-']
# unique_Noun_words = set(Noun_words)
# for word in unique_Noun_words:
#     if word in stopwords:
#         while word in Noun_words: Noun_words.remove(word)

Tokenization
============

### 단어 토큰화 및 품사 태깅 실습 Code
> #### 영어
>> 영어의 경우, nltk 를 이용하여 토큰화가 가능합니다. 
>> NLTK 는 Penn Treebank POS Tags 를 기준으로 품사 태깅을 합니다.

In [1]:
conda update nltk

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.


Note: you may need to restart the kernel to use updated packages.


In [40]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/dagunoh/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
import nltk
from nltk.tokenize import word_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
x = word_tokenize(text)
print(x)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [5]:
from nltk.tag import pos_tag
nltk.download('averaged_perceptron_tagger')
pos_tag(x)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/dagunoh/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

---------------------------------------



### Penn Treebank

|Number|Tag|Description|
|------|---|-----------|
|1.|CC |Coordinating conjunction|
|2.|CD |Cardinal number|
|3.|DT |Determiner|
|4.|EX |Existential there|
|5.|FW |Foreign word|
|6.|IN |Preposition or subordinating conjunction|
|7.|JJ |Adjective|
|8.|JJR|Adjective, comparative|
|9.|JJS|Adjective, superlative|
|10.|LS|List item marker|
|11.|MD|Modal|
|12.|NN|Noun, singular or mass|
|13.|NNS|Noun, plural|
|14.|NNP|Proper noun, singular|
|15.|NNPS|Proper noun, plural|
|16.|PDT|Predeterminer|
|17.|POS|Possessive ending|
|18.|PRP|Personal pronoun|
|19.|PRP\\$|Possessive pronoun|
|20.|RB |Adverb|
|21.|RBR|Adverb, comparative|
|22.|RBS|Adverb, superlative|
|23.|RP	|Particle|
|24.|SYM|Symbol|
|25.|TO	|to|
|26.|UH	|Interjection|
|27.|VB	|Verb, base form|
|28.|VBD|Verb, past tense|
|29.|VBG|Verb, gerund or present participle|
|30.|VBN|Verb, past participle|
|31.|VBP|Verb, non-3rd person singular present|
|32.|VBZ|Verb, 3rd person singular present|
|33.|WDT|Wh-determiner|
|34.|WP	|Wh-pronoun|
|35.|WP$|Possessive wh-pronoun|
|36.|WRB|Wh-adverb|

### 한국어 Code

>한국어의 경우 KoNLPy를 활용하여 토큰화가 가능합니다. KoNLPy에서 제공하는 형태소 분석기는 다음과 같습니다.
- Okt (Open Korea Text)
- 매캡 (Mecab)
- 코모란 (Komoran)
- 꼬꼬마 (Kkma)
- 한나눔 (Hannanum)

### **Okt**

- `morphs` : 형태소 분석
- `pos` : 품사 태깅 (Part-of-speech tagging)
- `nouns` : 명사 추출

In [11]:
from konlpy.tag import Okt
text = "눈이 와요 눈이 와 또 눈이 와"
okt = Okt()

# 형태소 분석 결과 출력
print(okt.morphs(text))

['눈', '이', '와요', '눈', '이', '와', '또', '눈', '이', '와']


In [12]:
# 품사 태깅 결과 출력
print(okt.pos(text))

[('눈', 'Noun'), ('이', 'Josa'), ('와요', 'Verb'), ('눈', 'Noun'), ('이', 'Josa'), ('와', 'Verb'), ('또', 'Noun'), ('눈', 'Noun'), ('이', 'Josa'), ('와', 'Verb')]


In [14]:
from konlpy.tag import Okt
text = "오늘은 눈이 왔습니다. 흰 눈을 밟고 조심히 움직여보았습니다. 뽀득뽀득한 소리가 마음을 울렸어요."
okt2 = Okt()

# 형태소 분석 결과 출력
print(okt2.morphs(text))

['오늘', '은', '눈', '이', '왔습니다', '.', '흰', '눈', '을', '밟고', '조심', '히', '움직여', '보았습니다', '.', '뽀득뽀득', '한', '소리', '가', '마음', '을', '울렸어요', '.']


In [15]:
# 품사 태깅 결과 출력
print(okt2.pos(text))

[('오늘', 'Noun'), ('은', 'Josa'), ('눈', 'Noun'), ('이', 'Josa'), ('왔습니다', 'Verb'), ('.', 'Punctuation'), ('흰', 'Adjective'), ('눈', 'Noun'), ('을', 'Josa'), ('밟고', 'Verb'), ('조심', 'Noun'), ('히', 'Adverb'), ('움직여', 'Verb'), ('보았습니다', 'Verb'), ('.', 'Punctuation'), ('뽀득뽀득', 'Adverb'), ('한', 'Determiner'), ('소리', 'Noun'), ('가', 'Josa'), ('마음', 'Noun'), ('을', 'Josa'), ('울렸어요', 'Verb'), ('.', 'Punctuation')]


In [16]:
# 명사만 출력
print(okt2.nouns(text))

['오늘', '눈', '눈', '조심', '소리', '마음']


------------
### **꼬꼬마**

- `morphs` : 형태소 분석
- `pos` : 품사 태깅 (Part-of-speech tagging)
- `nouns` : 명사 추출

In [18]:
from konlpy.tag import Kkma
text = "눈이 와요 눈이 와 또 눈이 와"
kkma = Kkma()

print(kkma.morphs(text))

['눈', '이', '와요', '눈', '이', '오', '아', '또', '눈', '이', '오', '아']


In [19]:
print(kkma.pos(text))

[('눈', 'NNG'), ('이', 'JKS'), ('와요', 'NNG'), ('눈', 'NNG'), ('이', 'JKS'), ('오', 'VV'), ('아', 'ECS'), ('또', 'MAG'), ('눈', 'NNG'), ('이', 'JKS'), ('오', 'VA'), ('아', 'ECS')]


-------
#### **세종 품사 태그**

|대분류|태그|설명|
|----|---|---|
|체언|NNG|일반 명사|
|체언|NNP|고유 명사|
|체언|NNB|의존 명사|
|체언|NR |수사|
|체언|NP |대명사|
|용언|VV |동사|
|용언|VA |형용사|
|용언|VX |보조 용언|
|용언|VCP|긍정 지정사|
|용언|VCN|부정 지정사|
|관형사|MM|관형사|
|부사|MAG|일반 부사|
|부사|MAJ|접속 부사|
|감탄사|IC|감탄사|
|조사|JKS|주격 조사|
|조사|JKC|보격 조사|
|조사|JKG|관형격 조사|
|조사|JKO|목적격 조사|
|조사|JKB|부사격 조사|
|조사|JKV|호격 조사|
|조사|JKQ|인용격 조사|
|조사|JX |보조사|
|조사|JC |접속 조사|
|선어말 어미|EP|선어말 어미|
|어말 어미|EF|종결 어미|
|어말 어미|EC||연결 어미|
|어말 어미|ETN|명사형 전성 어미|
|어말 어미|ETM|관형형 전성 어미|
|접두사|XPN|체언 접두사|
|접미사|XSN|명사 파생 접미사|
|접미사|XSV|동사 파생 접미사|
|접미사|XSA|형용사 파생 접미사|
|어근|XR|어근|
|부호|SF|마침표, 물음표, 느낌표|
|부호|SP|쉼표, 가운뎃점, 콜론, 빗금|
|부호|SS|따옴표, 괄호표, 줄표|
|부호|SE|줄임표|
|부호|SO|붙임표 (물결, 숨김, 빠짐)|
|부호|SW|기타기호 (논리수학기호, 화폐기호)|
|분석 불능|NF|명사추정범주|
|분석 불능|NV|용언추정범주|
|분석 불능|NA|분석불능범주|
|한글 이외|SL|외국어|
|한글 이외|SH|한자|
|한글 이외|SN|숫자|

-------
실습 - Spam or not
======

## `데이터 불러오기`

In [30]:
import numpy as np
import pandas as pd
import urllib.request

urllib.request.urlretrieve("https://raw.githubusercontent.com/mohitgupta-omg/Kaggle-SMS-Spam-Collection-Dataset-/master/spam.csv", filename="spam.csv")
data = pd.read_csv('spam.csv', encoding='latin1')

import torch
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader

del data['Unnamed: 2']
del data['Unnamed: 3']
del data['Unnamed: 4']

data['v1'] = data['v1'].replace(['ham','spam'],[0,1])   #Ham 이 0, spam 이 1
data['text'] = data['v2']
data['isSpam'] = data['v1']
del data['v1'], data['v2']


data

Unnamed: 0,text,isSpam
0,"Go until jurong point, crazy.. Available only ...",0
1,Ok lar... Joking wif u oni...,0
2,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,U dun say so early hor... U c already then say...,0
4,"Nah I don't think he goes to usf, he lives aro...",0
...,...,...
5567,This is the 2nd time we have tried 2 contact u...,1
5568,Will Ì_ b going to esplanade fr home?,0
5569,"Pity, * was in mood for that. So...any other s...",0
5570,The guy did some bitching but I acted like i'd...,0


![Alt text](./IMAGE.png)

### `preprocessing`

In [41]:
import re

def preprocess(string: str, *args, **kwargs) -> str:
    from nltk.stem.porter import PorterStemmer #어간 추출
    from nltk.corpus import stopwords

    string = data.text
    string = string.str.replace(r'^.+@[^\.].*\.[a-z]{2,}$',
                                 'emailaddress') #이메일 한 번에 처리
    string = string.str.replace(r'^http\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(/\S*)?$',
                                  'webaddress') #웹주소 한 번에 처리
    string = string.str.replace(r'£|\$', 'moneysymb') #이런건 왜 나올까
    string = string.str.replace(r'^\(?[\d]{3}\)?[\s-]?[\d]{3}[\s-]?[\d]{4}$',
                                  'phonenumbr') #휴대폰 번호 한 번에 처리
    string = string.str.replace('[^a-zA-Z]', ' ') #영어 말고다 버려
    string= string.str.lower() #소문자
    
    ##불용어 제거
    stop_words = set(stopwords.words('english'))
    string = string.apply(lambda x: ' '.join(word for word 
                                             in x.split() if word not in stop_words))
    
    ###어간만!              
    ps = PorterStemmer()
    final_processed = string.apply(lambda x: ' '.join(ps.stem(term) for term in x.split()))
    
    print(final_processed)
    return final_processed

In [42]:
final_processed = preprocess(data.text)
final_processed[0] #check

0       go jurong point crazi avail bugi n great world...
1                                   ok lar joke wif u oni
2       free entri wkli comp win fa cup final tkt st m...
3                     u dun say earli hor u c alreadi say
4                    nah think goe usf live around though
                              ...                        
5567    nd time tri contact u u moneysymb pound prize ...
5568                                b go esplanad fr home
5569                                    piti mood suggest
5570    guy bitch act like interest buy someth els nex...
5571                                       rofl true name
Name: text, Length: 5572, dtype: object


'go jurong point crazi avail bugi n great world la e buffet cine got amor wat'

### `Tokenizing`

In [43]:
def tokenize(string: str, *args, **kwargs) -> list:
    from nltk.tokenize import word_tokenize
    document = [] 
    word_docx = []
    for mails in final_processed:
        words = word_tokenize(mails)
        word_docx.append(words)
        for i in words:
            document.append(i)  
            
    return document, word_docx

In [44]:
document, word_docx = tokenize(final_processed)
#tokenize(final_processed)[:10]
len(word_docx)

5572

In [50]:
# document, word_docx

<WordListCorpusReader in '/Users/dagunoh/nltk_data/corpora/stopwords'>