In [None]:
# 텍스트 전처리
# : 자연어 처리를 위해 용도에 맞도록 사전에 표준화하는 작업. 

# 필요성
# : 텍스트 내 정보를 유지하고, 분석의 효율을 높임. 

# 분석하기 전에 텍스트를 분석에 적합한 형태로 변환하는 작업.
# 전처리 단계는 텍스트를 토큰화하고 자연어처리에 필요 없는 조사, 특수문자, 불용어의 제거 과정을 포함
# 전처리는 분석결과 모델 성능에 직접 영향을 미치기 때문에 전처리 단계는 매우 중요. 


## 전처리의 중요성 ##
# 80%의 시간을 전처리에 보냄

## 토큰화 ##
# 토큰화
# : 구두점으로 문서를 문장으로 분리하는 문장 토큰화
# : 단어 단위로 분리하는 단어 토큰화

# 문장 토큰화
# : 문장을 기준으로 토큰화
# : 온점, 느낌표 , 물음표 등으로 분류하면 해결 될 것으로 생각됨
# : 하지만 단순하게 분리할 경우 정확한 분리가 어려움. 
# (단순하게 온점으로 분리하게 되면 원하는 데이터를 얻기 어려울 수 있음)
# (SNS의 경우 온점을 다른 용도로 이용하는 경우가 있음.....)

# 단어 토큰화
# 단어를 기준으로 토큰화
# 영문의 경우 공백을 기준으로 분리하면 유의미한 토큰화가 가능
# 반면 한글의 경우 품사를 고려한 토큰화(=형태소분석)가 필요함. 

# 단어 토큰화 고려사항
# : 특수 문자 여부. (구두점 및 특수문자를 단순하게 제외해서는 안됨.)
# : 단어 내 띄어쓰기가 있는 경우. 

### processing (토큰 처리) ###
# 품사 태깅 (Pos tagging)
# : 각 토큰에 품사 정보를 추가
# : 분석시에 불필요한 품사를 제거하거나 필요한 품사를 필터링 하기 위해 사용. 


# 개체명 인식
# : 사람, 조직, 지역, 날짜, 숫자 등을 개체 유형을 식별
# : 검색 엔진 색인에 활용. 

# 원형 복원
# : 각 토큰의 원형 복원을 함으로써 토큰을 표준화. 불필요한 데이터 중복 방지 (= 단어의 수를 줄일 수 있어 연산의 효율성을 높임)

# 어간 추출
# : 품사를 무시하고 규칙에 기반하여 어간을 추출. 

# 표제어 추출
# : 품사정보를 유지하여 표제어 추출 (사전 기반) 

# 불용어 처리 (stopwords)
# : 불필요한 토큰 제거
# : 분석 시 불필요한 품사를 제거하기도 함


# 영어 전처리 실습

In [2]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.forbes.com/sites/adrianbridgwater/2019/04/15/what-drove-the-ai-renaissance/?ss=ai-big-data#45dd5dd61f25'
response = requests.get(url)
soup = BeautifulSoup(response.text,'html.parser')

eng_news = soup.select('p') #[class="speakable-paragraph"]')
eng_text = eng_news[3].get_text()

eng_text

"And yes, she does mean everybody's job from yours to mine and onward to the role of grain farmers in Egypt, pastry chefs in Paris and dog walkers in Oregon i.e. every job. We will now be able to help direct all workers’ actions and behavior with a new degree of intelligence that comes from predictive analytics, all stemming from the AI engines we will now increasingly depend upon."

In [6]:
import nltk
# nltk.download('punkt')
from nltk.tokenize import word_tokenize

text = 'Barack aObama likes fried very much'
word_tokens = word_tokenize(text)
print(word_tokens)

['Barack', 'aObama', 'likes', 'fried', 'very', 'much']


In [7]:
import nltk
from nltk.tokenize import word_tokenize
token1 = word_tokenize(eng_text)
print(token1)

['And', 'yes', ',', 'she', 'does', 'mean', 'everybody', "'s", 'job', 'from', 'yours', 'to', 'mine', 'and', 'onward', 'to', 'the', 'role', 'of', 'grain', 'farmers', 'in', 'Egypt', ',', 'pastry', 'chefs', 'in', 'Paris', 'and', 'dog', 'walkers', 'in', 'Oregon', 'i.e', '.', 'every', 'job', '.', 'We', 'will', 'now', 'be', 'able', 'to', 'help', 'direct', 'all', 'workers', '’', 'actions', 'and', 'behavior', 'with', 'a', 'new', 'degree', 'of', 'intelligence', 'that', 'comes', 'from', 'predictive', 'analytics', ',', 'all', 'stemming', 'from', 'the', 'AI', 'engines', 'we', 'will', 'now', 'increasingly', 'depend', 'upon', '.']


In [None]:
# 알파벳이 아닌 문자를 구분하여 토큰화. 

In [8]:
import nltk
from nltk.tokenize import WordPunctTokenizer

text = 'Barack Obama likes fried chicken very much'
wordpuncttoken = WordPunctTokenizer().tokenize(text)
print(wordpuncttoken)

['Barack', 'Obama', 'likes', 'fried', 'chicken', 'very', 'much']


In [None]:
# 정규표현식 기반

In [9]:
import nltk
from nltk.tokenize import TreebankWordTokenizer

text = 'Barack Obama likes fried chicken very much'
treebankwordtoken = TreebankWordTokenizer().tokenize(text)
print(treebankwordtoken)

['Barack', 'Obama', 'likes', 'fried', 'chicken', 'very', 'much']


In [None]:
# 품사 부착

In [10]:
from nltk import pos_tag
nltk.download('averaged_perceptron_tagger')

taggedToken = pos_tag(word_tokens)
print(taggedToken)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/wonbinchoi/nltk_data...


[('Barack', 'NNP'), ('aObama', 'NN'), ('likes', 'NNS'), ('fried', 'VBD'), ('very', 'RB'), ('much', 'JJ')]


[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


In [None]:
# 개체명 인식 

In [11]:
nltk.download('words')
nltk.download('maxent_ne_chunker')

from nltk import ne_chunk
neToken = ne_chunk(taggedToken)
print(neToken)

[nltk_data] Downloading package words to
[nltk_data]     /Users/wonbinchoi/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /Users/wonbinchoi/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.


(S
  (GPE Barack/NNP)
  (ORGANIZATION aObama/NN)
  likes/NNS
  fried/VBD
  very/RB
  much/JJ)


In [None]:
# 어간 추출 (stemming)

In [13]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()

print("running -> " + ps.stem("running"))
print("beautiful -> " + ps.stem("beautiful"))
print("believes -> " + ps.stem("believes"))
print("using -> " + ps.stem("using"))
print("conversation -> " + ps.stem("conversation"))
print("organization -> " + ps.stem("organization"))
print("studies -> " + ps.stem("studies"))

running -> run
beautiful -> beauti
believes -> believ
using -> use
conversation -> convers
organization -> organ
studies -> studi


In [None]:
# 표제어 추출

In [14]:
nltk.download('wordnet')
nltk.download('omw-1.4')

from nltk.stem import WordNetLemmatizer
wl = WordNetLemmatizer()

print("running -> " + wl.lemmatize("running"))
print("beautiful -> " + wl.lemmatize("beautiful"))
print("believes -> " + wl.lemmatize("believes"))
print("using -> " + wl.lemmatize("using"))
print("conversation -> " + wl.lemmatize("conversation"))
print("organization -> " + wl.lemmatize("organization"))
print("studies -> " + wl.lemmatize("studies"))

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/wonbinchoi/nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /Users/wonbinchoi/nltk_data...


running -> running
beautiful -> beautiful
believes -> belief
using -> using
conversation -> conversation
organization -> organization
studies -> study


In [15]:
# 불용어 처리
# 처리하는 목적에 맞춰서 불용어 처리를 해주면 됨. 

In [16]:
stopPos = ['IN', 'CC', 'UH', 'TO', 'MD', 'DT', 'VBZ','VBP']

# 최빈어 조회. 최빈어를 조회하여 불용어 제거 대상을 선정
from collections import Counter
Counter(taggedToken).most_common()

stopWord = [',','be','able']

word = []
for tag in taggedToken:
    if tag[1] not in stopPos:
        if tag[0] not in stopWord:
            word.append(tag[0])
            
print(word)

['Barack', 'aObama', 'likes', 'fried', 'very', 'much']


# 한글 전처리 실습

In [17]:
# 코모란(Komoran) 토큰화
from konlpy.tag import Komoran
komoran= Komoran()
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."
komoran_tokens = komoran.morphs(kor_text)
print(komoran_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하', '고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능', '적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']


In [18]:
# 한나눔(Hannanum) 토큰화
from konlpy.tag import Hannanum
hannanum= Hannanum()
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."
hannanum_tokens = hannanum.morphs(kor_text)
print(hannanum_tokens)

['인간', '이', '컴퓨터', '와', '대화', '하고', '있', '다는', '것', '을', '깨닫', '지', '못하', '고', '인간', '과', '대화', '를', '계속', '하', 'ㄹ', '수', '있', '다면', '컴퓨터', '는', '지능적', '이', 'ㄴ', '것', '으로', '간주', '되', 'ㄹ', '수', '있', '습니다', '.']


In [19]:
# Okt 토큰화
# sns를 분석할 때는 okt를 많이 씀.

from konlpy.tag import Okt
okt= Okt()
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."
okt_tokens = okt.morphs(kor_text)
print(okt_tokens)

KeyboardInterrupt: 

In [20]:
# Kkma 토큰화
from konlpy.tag import Kkma
kkma= Kkma()
kor_text = "인간이 컴퓨터와 대화하고 있다는 것을 깨닫지 못하고 인간과 대화를 계속할 수 있다면 컴퓨터는 지능적인 것으로 간주될 수 있습니다."
kkma_tokens = kkma.morphs(kor_text)
print(kkma_tokens)

KeyboardInterrupt: 

In [21]:
# scrapy 사용하기

In [23]:
!scrapy startproject navernews_it

New Scrapy project 'navernews_it', using template directory '/Users/wonbinchoi/opt/anaconda3/lib/python3.9/site-packages/scrapy/templates/project', created in:
    /Users/wonbinchoi/workspace/lecture/7_NLP/0_통계/실습자료/navernews_it

You can start your first spider with:
    cd navernews_it
    scrapy genspider example example.com


In [24]:
cd ./navernews/navernews/spiders

/Users/wonbinchoi/workspace/lecture/7_NLP/0_통계/실습자료/navernews/navernews/spiders


In [27]:
cd

/Users/wonbinchoi
