# **텍스트 전처리**

---



nltk 패키지 이용

토큰화 (Tokenization) : 주어진 텍스트를 단위(token)로 나누는 작업 ex) 나는 밥을 먹었다. -> 나는/밥을/먹었다.
- 문장 토큰화
- 단어 토큰화 : 일반적인 토큰화 작업
- 단어보다 더 작은 형태로 토큰화 : 나/는/밥/을/먹/었/다/.

정규화 : 주어에 따라 달라지는 (go goes) 것들을 하나로 정규화시켜서 통일
- 어간 추출
- 표제어 추출

품사 태깅 : 명사, 대명사, 형용사 등으로 태깅하여 원하는 분석 요구에 따라 사용

In [1]:
import pandas as pd
import numpy as np

In [4]:
import nltk

In [5]:
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('average_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package webtext to /root/nltk_data...
[nltk_data]   Unzipping corpora/webtext.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Error loading average_perceptron_tagger: Package
[nltk_data]     'average_perceptron_tagger' not found in index


False

In [2]:
df = pd.read_csv('movie_rv.csv')

In [3]:
df

Unnamed: 0.1,Unnamed: 0,id,document,label
0,0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,2,10265843,너무재밓었다그래서보는것을추천한다,0
3,3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...,...
149995,149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,149996,8549745,평점이 너무 낮아서...,1
149997,149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [6]:
sp1 = 'Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning. The adjective "deep" refers to the use of multiple layers in the network. Methods used can be either supervised, semi-supervised or unsupervised.[2]'

In [7]:
sp1

'Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning. The adjective "deep" refers to the use of multiple layers in the network. Methods used can be either supervised, semi-supervised or unsupervised.[2]'

## 문장 토큰화

In [8]:
from nltk.tokenize import sent_tokenize

In [9]:
print(sent_tokenize(sp1))

['Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning.', 'The adjective "deep" refers to the use of multiple layers in the network.', 'Methods used can be either supervised, semi-supervised or unsupervised.', '[2]']


## 단어 토큰화

In [10]:
from nltk.tokenize import word_tokenize

In [11]:
print(word_tokenize(sp1))

['Deep', 'learning', 'is', 'the', 'subset', 'of', 'machine', 'learning', 'methods', 'based', 'on', 'artificial', 'neural', 'networks', 'with', 'representation', 'learning', '.', 'The', 'adjective', '``', 'deep', "''", 'refers', 'to', 'the', 'use', 'of', 'multiple', 'layers', 'in', 'the', 'network', '.', 'Methods', 'used', 'can', 'be', 'either', 'supervised', ',', 'semi-supervised', 'or', 'unsupervised', '.', '[', '2', ']']


## 느낌표, 기타 ' 분리 등 다양하게 분리 가능한 패키지

In [12]:
from nltk.tokenize import WordPunctTokenizer

In [13]:
print(WordPunctTokenizer().tokenize(sp1))

['Deep', 'learning', 'is', 'the', 'subset', 'of', 'machine', 'learning', 'methods', 'based', 'on', 'artificial', 'neural', 'networks', 'with', 'representation', 'learning', '.', 'The', 'adjective', '"', 'deep', '"', 'refers', 'to', 'the', 'use', 'of', 'multiple', 'layers', 'in', 'the', 'network', '.', 'Methods', 'used', 'can', 'be', 'either', 'supervised', ',', 'semi', '-', 'supervised', 'or', 'unsupervised', '.[', '2', ']']


## 정규표현식 tokenize

In [14]:
from nltk.tokenize import RegexpTokenizer

In [15]:
tokenizer = RegexpTokenizer('[\w"]+')

In [16]:
print(tokenizer.tokenize(sp1))

['Deep', 'learning', 'is', 'the', 'subset', 'of', 'machine', 'learning', 'methods', 'based', 'on', 'artificial', 'neural', 'networks', 'with', 'representation', 'learning', 'The', 'adjective', '"deep"', 'refers', 'to', 'the', 'use', 'of', 'multiple', 'layers', 'in', 'the', 'network', 'Methods', 'used', 'can', 'be', 'either', 'supervised', 'semi', 'supervised', 'or', 'unsupervised', '2']


## 노이즈, 불용어 제거
- 정규표현식으로 제거할 수 없는 어떠한 패턴들
- 특수문자와는 다르게 분석에 의미가 없는 단어

In [17]:
from nltk.corpus import stopwords
en_stops = set(stopwords.words('english'))

In [18]:
en_stops

{'a',
 'about',
 'above',
 'after',
 'again',
 'against',
 'ain',
 'all',
 'am',
 'an',
 'and',
 'any',
 'are',
 'aren',
 "aren't",
 'as',
 'at',
 'be',
 'because',
 'been',
 'before',
 'being',
 'below',
 'between',
 'both',
 'but',
 'by',
 'can',
 'couldn',
 "couldn't",
 'd',
 'did',
 'didn',
 "didn't",
 'do',
 'does',
 'doesn',
 "doesn't",
 'doing',
 'don',
 "don't",
 'down',
 'during',
 'each',
 'few',
 'for',
 'from',
 'further',
 'had',
 'hadn',
 "hadn't",
 'has',
 'hasn',
 "hasn't",
 'have',
 'haven',
 "haven't",
 'having',
 'he',
 'her',
 'here',
 'hers',
 'herself',
 'him',
 'himself',
 'his',
 'how',
 'i',
 'if',
 'in',
 'into',
 'is',
 'isn',
 "isn't",
 'it',
 "it's",
 'its',
 'itself',
 'just',
 'll',
 'm',
 'ma',
 'me',
 'mightn',
 "mightn't",
 'more',
 'most',
 'mustn',
 "mustn't",
 'my',
 'myself',
 'needn',
 "needn't",
 'no',
 'nor',
 'not',
 'now',
 'o',
 'of',
 'off',
 'on',
 'once',
 'only',
 'or',
 'other',
 'our',
 'ours',
 'ourselves',
 'out',
 'over',
 'own',
 'r

In [19]:
tokenizer = RegexpTokenizer('[\w"]+')
tokens = tokenizer.tokenize(sp1.lower()) # 소문자로 변경

In [21]:
# stopwords 제외한 단어만 추출
res = [word for word in tokens if word not in en_stops]

## 정규화 작업

In [22]:
from nltk.stem import PorterStemmer

In [23]:
stem = PorterStemmer()

In [24]:
print(stem.stem('go'), stem.stem('going'), stem.stem('goes'))

go go goe


In [25]:
tokens = word_tokenize(sp1)

In [26]:
res1 = [stem.stem(token) for token in tokens]

In [27]:
res1

['deep',
 'learn',
 'is',
 'the',
 'subset',
 'of',
 'machin',
 'learn',
 'method',
 'base',
 'on',
 'artifici',
 'neural',
 'network',
 'with',
 'represent',
 'learn',
 '.',
 'the',
 'adject',
 '``',
 'deep',
 "''",
 'refer',
 'to',
 'the',
 'use',
 'of',
 'multipl',
 'layer',
 'in',
 'the',
 'network',
 '.',
 'method',
 'use',
 'can',
 'be',
 'either',
 'supervis',
 ',',
 'semi-supervis',
 'or',
 'unsupervis',
 '.',
 '[',
 '2',
 ']']

In [28]:
tokens

['Deep',
 'learning',
 'is',
 'the',
 'subset',
 'of',
 'machine',
 'learning',
 'methods',
 'based',
 'on',
 'artificial',
 'neural',
 'networks',
 'with',
 'representation',
 'learning',
 '.',
 'The',
 'adjective',
 '``',
 'deep',
 "''",
 'refers',
 'to',
 'the',
 'use',
 'of',
 'multiple',
 'layers',
 'in',
 'the',
 'network',
 '.',
 'Methods',
 'used',
 'can',
 'be',
 'either',
 'supervised',
 ',',
 'semi-supervised',
 'or',
 'unsupervised',
 '.',
 '[',
 '2',
 ']']

In [29]:
from nltk.stem import LancasterStemmer

In [30]:
lstem = LancasterStemmer()

In [31]:
print(lstem.stem('go'), lstem.stem('going'), lstem.stem('goes'))

go going goe


## 표제어 추출 Lemmatization
- 주어진 단어를 기본형으로 변환

In [32]:
from nltk.stem import WordNetLemmatizer

In [33]:
lemma = WordNetLemmatizer()

In [34]:
print(lemma.lemmatize('go'))
print(lemma.lemmatize('going'))
print(lemma.lemmatize('goes'))

go
going
go


In [35]:
# 품사 지정하여 동사로 뽑기 가능
print(lemma.lemmatize('going', pos ='v'))

go


## 품사 태깅
- 본래 의미를 사라지지 않게 의미있는 형태소로 만듦
- 명사, 대명사, 동사, 형용사, 부사, 조사 등등

In [37]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [38]:
tokens =  word_tokenize(sp1)
print(nltk.pos_tag(tokens))

[('Deep', 'JJ'), ('learning', 'NN'), ('is', 'VBZ'), ('the', 'DT'), ('subset', 'NN'), ('of', 'IN'), ('machine', 'NN'), ('learning', 'VBG'), ('methods', 'NNS'), ('based', 'VBN'), ('on', 'IN'), ('artificial', 'JJ'), ('neural', 'JJ'), ('networks', 'NNS'), ('with', 'IN'), ('representation', 'NN'), ('learning', 'NN'), ('.', '.'), ('The', 'DT'), ('adjective', 'JJ'), ('``', '``'), ('deep', 'JJ'), ("''", "''"), ('refers', 'NNS'), ('to', 'TO'), ('the', 'DT'), ('use', 'NN'), ('of', 'IN'), ('multiple', 'JJ'), ('layers', 'NNS'), ('in', 'IN'), ('the', 'DT'), ('network', 'NN'), ('.', '.'), ('Methods', 'NNS'), ('used', 'VBD'), ('can', 'MD'), ('be', 'VB'), ('either', 'RB'), ('supervised', 'VBN'), (',', ','), ('semi-supervised', 'JJ'), ('or', 'CC'), ('unsupervised', 'JJ'), ('.', '.'), ('[', '$'), ('2', 'CD'), (']', 'NN')]


In [39]:
# 필요한 것들만 추출
want_tag = ['NN']
NN_tag = [word for word, tag in nltk.pos_tag(tokens) if tag in want_tag]

## 한글 형태소 분석

In [42]:
pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m53.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m38.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [43]:
from konlpy.tag import Okt

In [44]:
k = Okt()

### Okt
- morphas(phrase) : 주어진 텍스트를 형태소 단위로 분리
- nouns(phrase) : 주어진 텍스트틀 형태소 단위로 분리, 명사만
- pos(pharase) : 주어진 텍스트를 형태소 단위로 분리, 태깅하여 보여줌

In [45]:
sentence = '''🌟빅데이터 분석 학회 BDA 8기 학회원 모집🌟

BDA (Big Data Analysis) 8기 학회원을 모집합니다!

❤️‍BDA학회원 혜택❤️‍

1. 내부, 외부 공모전 수상시 스타트업 채용 기회 제공
※학회 가입 시, 자세한 내용 공지 예정
2. 원하는 산업과 직무의 현직자 강연 및 Q&A 가능
※ 1,000명 넘는 현직 데이터 분석가 커넥션 및 1:1 멘토링은 추가 비용 발생

🔥우수학회원 전용 혜택🔥

1. Tableau 핸즈온, AWS Cloud 핸즈온 교육 기회 제공
2. (사)한국빅데이터학회 실물 수료증 발급

✅️모집대상
#전공 무관, 빅데이터에 관심있는 대학생 및 직장인
#수업을 성실히 따라갈 수 있는 의지와 열정을 가지신 분

✅️모집기간: 1월 18일~2월 12일까지 <모집 공지>오픈채팅방에 입장
※오픈채팅방에 모집폼 링크가 공유되며 12일이 지나면 오픈채팅방 입장이 제한되므로
반드시 기간 내에 입장해주시기 바랍니다!

BDA 8기 학회원 모집 공지방 1
https://open.kakao.com/o/g7PLb7Uf

BDA 8기 QnA 오픈채팅방
https://open.kakao.com/o/ghZNd7Uf
(모집 공지방에서는 채팅이 불가능하므로 질문사항이 있으시다면 이 곳에서 문의해주세요!)

✅️모집파트
※모집인원 180명 이하 시, 반 개설되지 않을 수 있음
※상세 커리큘럼 확인※
https://bit.ly/BDAcurriculum

<FAQ>

1. BDA에 관심 있으신 분은 오픈채팅방에 들어오셔서 분반설명회(OT) 들으시고 안내사항에 따라주세요. (OT : 2월 14일 진행예정)
2. 분반별 최대 신청 가능 인원은 500명입니다. (구글폼 작성시간 기준으로 선착순 500명)
3. 매 기수활동기간은 6개월입니다(휴회기간에 따라 활동기간은 변동가능)
4. 중간고사 휴회기간 : 2024/03/30 ~ 2024/04/26
기말고사 휴회기간 : 2024/05/25 ~ 2024/06/21
(변동가능성 있음)
5. 학회비 : 50000원 (투명하게 학회원들의 혜택을 위해 사용됩니다.)'''

In [46]:
print(k.nouns(sentence))

['빅데이터', '분석', '학회', '기', '학회', '모집', '기', '학회', '모집', '학회', '혜택', '내부', '외부', '공모전', '수상', '시', '스타트업', '채용', '기회', '제공', '학회', '가입', '시', '내용', '공지', '예정', '산업', '직무', '현직', '강연', '및', '가능', '명', '현직', '데이터', '분석', '커넥션', '및', '멘토링', '추가', '비용', '발생', '우수', '학회', '전용', '혜택', '핸즈온', '핸즈온', '교육', '기회', '제공', '사', '한국', '빅데이터', '학회', '실물', '수료증', '발급', '모집', '대상', '무관', '빅데이터', '관심', '대학생', '및', '직장인', '수', '의지', '열정', '분', '모집', '기간', '모집', '공지', '오픈', '채팅', '방', '입장', '오픈', '채팅', '방', '모집', '폼', '링크', '공유', '오픈', '채팅', '방', '입장', '제한', '반드시', '기간', '내', '입장', '기', '학회', '모집', '지방', '기', '오픈', '채팅', '방', '모집', '지방', '채팅', '질문', '사항', '이', '곳', '문의', '모집', '파트', '모집', '인원', '명', '이하', '시', '반', '개설', '수', '상세', '커리큘럼', '확인', '관심', '분', '오픈', '채팅', '방', '분', '설명', '회', '안내', '사항', '진행', '예정', '분', '별', '최대', '신청', '가능', '인원', '명', '구글', '폼', '성시간', '기준', '선착순', '명', '매', '활동', '기간', '개월', '휴회', '기간', '활동', '기간', '변동', '가능', '중간고사', '휴회', '기간', '기말고사', '휴회', '기간', '변동', '가능성', '학회', '비', 

In [47]:
print(k.pos(sentence))

[('🌟', 'Foreign'), ('빅데이터', 'Noun'), ('분석', 'Noun'), ('학회', 'Noun'), ('BDA', 'Alpha'), ('8', 'Number'), ('기', 'Noun'), ('학회', 'Noun'), ('원', 'Suffix'), ('모집', 'Noun'), ('🌟', 'Foreign'), ('\n\n', 'Foreign'), ('BDA', 'Alpha'), ('(', 'Punctuation'), ('Big', 'Alpha'), ('Data', 'Alpha'), ('Analysis', 'Alpha'), (')', 'Punctuation'), ('8', 'Number'), ('기', 'Noun'), ('학회', 'Noun'), ('원', 'Suffix'), ('을', 'Josa'), ('모집', 'Noun'), ('합니다', 'Verb'), ('!', 'Punctuation'), ('\n\n', 'Foreign'), ('❤️\u200d', 'Foreign'), ('BDA', 'Alpha'), ('학회', 'Noun'), ('원', 'Suffix'), ('혜택', 'Noun'), ('❤️\u200d', 'Foreign'), ('\n\n', 'Foreign'), ('1', 'Number'), ('.', 'Punctuation'), ('내부', 'Noun'), (',', 'Punctuation'), ('외부', 'Noun'), ('공모전', 'Noun'), ('수상', 'Noun'), ('시', 'Noun'), ('스타트업', 'Noun'), ('채용', 'Noun'), ('기회', 'Noun'), ('제공', 'Noun'), ('\n', 'Foreign'), ('※', 'Foreign'), ('학회', 'Noun'), ('가입', 'Noun'), ('시', 'Noun'), (',', 'Punctuation'), ('자세한', 'Adjective'), ('내용', 'Noun'), ('공지', 'Noun'), ('예정', 'No