### 2.1. 토큰화(Tokenizing)

In [None]:
# nltk 라이브러리 사용을 위한 초기 설정
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# 1. 문장 단위로 나누기 
from nltk import sent_tokenize

text = "28일 서울 외환시장에서 원·달러 환율은 오전 11시42분 현재 전 거래일(1421.5원) 보다 17.7원 오른 1438.2원에 거래중이다. 환율은 전 거래일 보다 4.0원 오른 1425.5원에 출발했다. 오전 10시 52분께 1435원을 넘어서며 연고점을 경신하더니 상승폭을 높이며 1440.1원까지 올랐다. 이는 지난 26일 기록한 장중 연고점(1435.4원)을 2거래일 만에 다시 넘어선 것이다. 장중 고가 기준으로 2009년 3월 16일(1488.0원) 이후 13년 6개월래 가장 높은 수치다."
sentences = sent_tokenize(text)

for s in sentences:
  print(s)

28일 서울 외환시장에서 원·달러 환율은 오전 11시42분 현재 전 거래일(1421.5원) 보다 17.7원 오른 1438.2원에 거래중이다.
환율은 전 거래일 보다 4.0원 오른 1425.5원에 출발했다.
오전 10시 52분께 1435원을 넘어서며 연고점을 경신하더니 상승폭을 높이며 1440.1원까지 올랐다.
이는 지난 26일 기록한 장중 연고점(1435.4원)을 2거래일 만에 다시 넘어선 것이다.
장중 고가 기준으로 2009년 3월 16일(1488.0원) 이후 13년 6개월래 가장 높은 수치다.


In [None]:
# 2-1. 공백 단위로 나누기(한글)
kr_text = "28일 서울 외환시장에서 원·달러 환율은 오전 11시42분 현재 전 거래일(1421.5원) 보다 17.7원 오른 1438.2원에 거래중이다."

# 공백 기준으로 나누기
kr_words = kr_text.split(" ")

# 결과 출력
print("한글 문장 토큰화 결과")
print(kr_words)

한글 문장 토큰화 결과
['28일', '서울', '외환시장에서', '원·달러', '환율은', '오전', '11시42분', '현재', '전', '거래일(1421.5원)', '보다', '17.7원', '오른', '1438.2원에', '거래중이다.']


In [None]:
# 2-2. 공백 단위로 나누기(영문)
en_text = 'The term "monetary policy" refers to the actions undertaken by a central bank, such as the Federal Reserve, to influence the availability and cost of money and credit to help promote national economic goals.'

en_words = en_text.split(" ")

print("영어 문장 토큰화 결과")
print(en_words)

영어 문장 토큰화 결과
['The', 'term', '"monetary', 'policy"', 'refers', 'to', 'the', 'actions', 'undertaken', 'by', 'a', 'central', 'bank,', 'such', 'as', 'the', 'Federal', 'Reserve,', 'to', 'influence', 'the', 'availability', 'and', 'cost', 'of', 'money', 'and', 'credit', 'to', 'help', 'promote', 'national', 'economic', 'goals.']


###2.2. 형태소 분석, 품사 태깅(Part-of-speech Tagging)

In [None]:
# konlpy 패키지 설치
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# konlpy의 Kkma 형태소 분석기 로드
from konlpy.tag import Kkma
kkma = Kkma()

# 분석할 텍스트
text = "대출 금리가 무섭게 오른다"
print("분석할 텍스트 :", text)

# 형태소 분석
print("형태소 분석 결과 :", kkma.morphs(text))

# 품사 태깅
print("품사 태깅 결과 :", kkma.pos(text))

분석할 텍스트 : 대출 금리가 무섭게 오른다
형태소 분석 결과 : ['대출', '금리', '가', '무섭', '게', '오르', 'ㄴ다']
품사 태깅 결과 : [('대출', 'NNG'), ('금리', 'NNG'), ('가', 'JKS'), ('무섭', 'VA'), ('게', 'ECD'), ('오르', 'VV'), ('ㄴ다', 'EFN')]


###2.3. (영어) 불용어(stopword) 제거, 어간 추출(stemming), 표제어 추출(lemmatizing)
#### - 불용어(stopword) : 문장의 의미를 파악하는데 필요 없는 단어(예: the, a, is 등)

In [None]:
!pip install konlpy
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 523 kB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.4.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (453 kB)
[K     |████████████████████████████████| 453 kB 54.8 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.0 konlpy-0.6.0
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
from konlpy.tag import Kkma

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


In [None]:
# 불용어 목록 확인
stop_word_list = set(stopwords.words('english'))
print("불용어 수 :", len(stop_word_list))
print("불용어 목록 :", stop_word_list)

불용어 수 : 179
불용어 목록 : {'into', 'too', 'own', 'nor', 'few', 'mustn', "it's", 'no', 'has', 'through', 'so', 'down', 'he', 'haven', 'hers', 'i', 'and', 'only', 'themselves', 'this', 'each', 'hasn', 's', 'not', 'have', 'more', 'll', 'being', 'by', 'as', 'be', "you've", "didn't", 'wouldn', 'from', 'there', "isn't", 'because', 'over', "shouldn't", 'having', 'was', "mightn't", 'to', 'can', 'both', 'theirs', 'yourself', 'between', 'is', 'wasn', 'been', 't', "needn't", 'our', 'yours', 'himself', 'if', 'on', 'y', 'shan', 'ma', 'against', 've', 'those', 'of', 'before', 'them', 'its', 'again', "won't", 'me', 'most', 'my', 'o', 'am', 'the', 'an', 'just', 'ourselves', 'same', 'after', 'ours', 'their', "you're", 'myself', 'during', "should've", "wouldn't", 'that', 'ain', 'won', 'or', 'at', 'for', 'they', 'in', 'are', "hadn't", "haven't", 'once', 'aren', 'your', 'itself', 'very', 'further', 're', 'did', 'were', 'isn', 'herself', 'where', 'than', 'should', 'his', 'what', 'will', 'weren', 'had', 'you', '

In [None]:
text = "The S&P 500 plummeted 2.1% to a fresh 2022 low, " \
     + "while the Dow Jones Industrial Average erased more than 450 points, " \
     + "or around 1.5%."

# 불용어 제거 전 (소문자로 변환)
tokens = word_tokenize(text.lower())
# 불용어 제거 후
tokens_wo_stopwords = []

# 불용어 제거
for t in tokens:
  if not t in stop_word_list:
    tokens_wo_stopwords.append(t)

print("불용어 제거 전 토큰 수 :", len(tokens))
print("불용어 제거 전 :", tokens)
print("불용어 제거 후 토큰 수 :", len(tokens_wo_stopwords))
print("불용어 제거 후 :", tokens_wo_stopwords)

불용어 제거 전 토큰 수 : 31
불용어 제거 전 : ['the', 's', '&', 'p', '500', 'plummeted', '2.1', '%', 'to', 'a', 'fresh', '2022', 'low', ',', 'while', 'the', 'dow', 'jones', 'industrial', 'average', 'erased', 'more', 'than', '450', 'points', ',', 'or', 'around', '1.5', '%', '.']
불용어 제거 후 토큰 수 : 22
불용어 제거 후 : ['&', 'p', '500', 'plummeted', '2.1', '%', 'fresh', '2022', 'low', ',', 'dow', 'jones', 'industrial', 'average', 'erased', '450', 'points', ',', 'around', '1.5', '%', '.']


#### - 어간 추출(stemming)

In [None]:
# 어간 추출
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['plummeted', 'fresh', 'erased', 'have', 'more', 'points', 'watching', 'was']
print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['plummeted', 'fresh', 'erased', 'have', 'more', 'points', 'watching', 'was']
포터 스테머의 어간 추출 후: ['plummet', 'fresh', 'eras', 'have', 'more', 'point', 'watch', 'wa']
랭커스터 스테머의 어간 추출 후: ['plummet', 'fresh', 'eras', 'hav', 'mor', 'point', 'watch', 'was']


#### - 표제어 추출(lemmatization)

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['plummeted', 'fresh', 'erased', 'have', 'more', 'points', 'watching', 'was']

print('표제어 추출 전 :', words)
print('표제어 추출 후 :', [lemmatizer.lemmatize(word, 'v') for word in words])

표제어 추출 전 : ['plummeted', 'fresh', 'erased', 'have', 'more', 'points', 'watching', 'was']
표제어 추출 후 : ['plummet', 'fresh', 'erase', 'have', 'more', 'point', 'watch', 'be']


### 2.4. 정규표현식(Regular Expression)
#### 문자열의 규칙을 표현하는 형식 언어로 매우 강력한 기능을 제공

In [None]:
import re

In [None]:
# 이메일 주소 추출
text = "연락처 : swhan@bok.or.kr, test@gmail.com, 010-1234-5678"
 
regex = re.compile(r'[a-zA-Z0-9._]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}')
emails = regex.findall(text)
print(emails)

['swhan@bok.or.kr', 'test@gmail.com']


In [None]:
# 휴대전화번호 추출
text = "문의는 010-1234-1234, 02-759-0000, 011-02-0000 로 부탁드립니다."
 
regex = re.compile(r'01[0|1|6|7|8|9]-\d{3,4}-\d{4}')
phonenumbers = regex.findall(text)
print(phonenumbers)

['010-1234-1234']


In [None]:
# 각주제거
text = "문장(참고1)안에 포함된 각주1)를 제거2)해 봅시다."

print("각주 제거 전 :", text)
text = re.sub(r"[1-9]*[0-9]\)", "",text)
print("각주 제거 전 :", text)

각주 제거 전 : 문장(참고1)안에 포함된 각주1)를 제거2)해 봅시다.
각주 제거 전 : 문장(참고안에 포함된 각주를 제거해 봅시다.


In [None]:
# 괄호제거
text = "문장(참고1)안에 포함된 괄호1)를 제거2)해 봅시다."

print("괄호 제거 전 :", text)
text = re.sub(r"\([\w|\d]+\)", "",text)
print("괄호 제거 전 :", text)

괄호 제거 전 : 문장(참고1)안에 포함된 괄호1)를 제거2)해 봅시다.
괄호 제거 전 : 문장안에 포함된 괄호1)를 제거2)해 봅시다.


In [None]:
# 공백 중복 제거
text = "텍스트에   포함된    중복된     공백을 제거합니다."

print("중복 제거 전 :", text)
text = re.sub(' +', ' ', text)
print("중복 제거 후 :", text)

중복 제거 전 : 텍스트에   포함된    중복된     공백을 제거합니다.
중복 제거 후 : 텍스트에 포함된 중복된 공백을 제거합니다.


In [None]:
# 다음 문장에서 금액에 해당하는 부분을 추출하려면?
text = "3일 한국거래소에 따르면 지난달 유가증권시장의 하루 평균 거래대금은 7조6956억 원으로, 지난해 같은 달의 14조614억 원에 비해 45.27% 감소했다."

regex = re.compile(r'[???]')
result = regex.findall(text)
print(result)

In [None]:
# 다음 문장에서 인용("...") 부분을 추출하려면?
text = '한화생명 지분과 관련해선 "저평가된 주가, 새 보험업 회계제도(IFRS17) 도입 영향 등 매각 여건을 면밀히 모니터링해 매각을 추진하겠다"고 예보는 보고했다.'

regex = re.compile(r'[???]')
result = regex.findall(text)
print(result)