자연어 처리
- 말뭉치(corpus, 코퍼스): 자연어 처리에서 모델을 학습시키기 위한 데이터. 자연어 연구를 위해 특정한 목적에서 표본을 추출한 집합
- 토큰(token): 자연어 처리를 위한 문서는 작은 단위로 나누어야 하는데, 이때 문서를 나누는 단위가 토큰.
  - 문자열을 토큰으로 나누는 작업을 토큰 생성(tokenizing)이라고 하며, 문자열을 토큰으로 분리하는 함수를 토큰 생성 함수라고 함
- 토큰화(tokenization): 텍스트를 문장이나 단어로 분리하는 것을 의미. 토큰화 단계를 마치면 텍스트가 단어 단위로 분리
- 불용어(stop words): 문장 내에서 많이 등장하는 단어. 분석과 관계 없으며, 자주 등장하는 빈도 때문에 성능에 영향을 줌. 불용어 예로 "a", "the", "she", "he" 등이 있음

In [1]:
!pip install nltk



In [2]:
import nltk
nltk.download('treebank')

[nltk_data] Downloading package treebank to /root/nltk_data...
[nltk_data]   Unzipping corpora/treebank.zip.


True

In [3]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [5]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m47.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m35.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [8]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

import nltk
nltk.download('stopwords')
nltk.download('punkt')

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example)

result = []

for word in word_tokens:
  if word not in stop_words:
    result.append(word)

print('불용어 제거 전 :',word_tokens)
print('불용어 제거 후 :',result)


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


- 어간 추출(stemming): 단어를 기본 형태로 만드는 작업. 특수 문자 제거, 토큰화, 불용어 제거, 띄어쓰기 처리
- 품사 태깅(part-of-speech tagging): 문장에서 품사를 식별하기 위한 태그(식별 정보)를 의미
  - Det: 한정사 (Determiner)
  - Noun: 명사
  - Verb: 동사
  - Perp: 전치사 (Preposition)
-> 품사 태깅은 NLTK를 이용할 수 있음

In [10]:
#문장 토큰화
import nltk
#nltk.download()
text=nltk.word_tokenize("Is it possible distinguishing cats and dogs")
text

['Is', 'it', 'possible', 'distinguishing', 'cats', 'and', 'dogs']

In [11]:
#품사 태깅
nltk.pos_tag(text)

[('Is', 'VBZ'),
 ('it', 'PRP'),
 ('possible', 'JJ'),
 ('distinguishing', 'VBG'),
 ('cats', 'NNS'),
 ('and', 'CC'),
 ('dogs', 'NNS')]

- nltk 품사태깅
  - VBZ: 동사, 동명사 또는 현재 분사
  - PRP: 인칭 대명사(PP)
  - JJ: 형용사
  - VBG: 동사, 동명사 또는 현재 분사
  - NNS: 명사, 복수형
  - CC: 등위 접속사

NLTK
- Natrural Language ToolKit
- 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 라이브러리
- 주요 기능: 말뭉치, 토큰 생성, 형태소 분석, 품사 태깅

In [12]:
#NLTK 라이브러리 호출 및 문장 정의
import nltk
nltk.download('punkt') #문장을 단어로 쪼개기 위한 자원 내려받기
string1 = "my favorite subject is math"
string2 = "my favorite subject is math, english, econimic and computer science"
nltk.word_tokenize(string1)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['my', 'favorite', 'subject', 'is', 'math']

In [13]:
nltk.word_tokenize(string2)

['my',
 'favorite',
 'subject',
 'is',
 'math',
 ',',
 'english',
 ',',
 'econimic',
 'and',
 'computer',
 'science']

KoNLPy
- 한국어 처리를 위한 파이썬 라이브러리
- 오픈 소스 형태소 분석기
- 꼬꼬마(Kkma), 코모란(Komoran), 한나눔(Hannanum), 트위터(Twitter), 메카브(Mecab) 분석기를 한 번에 설치하고 동일한 방법으로 사용할 수 있도록 해줌
- 주요 기능: 형태소 분석, 품사 태깅

In [None]:
#!pip install konlpy

In [14]:
#라이브러리 호출 및 문장을 형태소로 변환
from konlpy.tag import Komoran
komoran = Komoran()
print(komoran.morphs("딥러닝이 쉽나요? 어렵나요?")) #텍스트를 형태소로 변환

['딥러닝이', '쉽', '나요', '?', '어렵', '나요', '?']


In [15]:
#품사 태깅
print(komoran.pos("소파 위에 있는 것이 고양이인가요? 강아지인가요?")) #텍스트에서 품사를 태깅하여 변환

[('소파', 'NNP'), ('위', 'NNG'), ('에', 'JKB'), ('있', 'VV'), ('는', 'ETM'), ('것', 'NNB'), ('이', 'JKS'), ('고양이', 'NNG'), ('이', 'VCP'), ('ㄴ가요', 'EF'), ('?', 'SF'), ('강아지', 'NNG'), ('이', 'VCP'), ('ㄴ가요', 'EF'), ('?', 'SF')]


- 형태소: 언어를 쪼갤 때 의미를 가지는 최소 단위

Gensim
- 파이썬에서 제공하는 워드투벡터(Word2Vec) 라이브러리
- 딥러닝 라이브러리는 아니지만 효율적이고 확장 가능하기 때문에 폭넓게 사용하고 있음
- 주요 기능: 임베딩(워드투벡터), 토픽 모델링, LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)

In [16]:
!pip install -U gensim



사이킷런
- scikit-learn
- 파이썬을 이용하여 문서를 전처리할 수 있는 라이브러리를 제공
- 특성 추출 용도로 많이 사용
- 주요 기능:
  - CountVectorizer: 텍스트에서 단어의 등장 횟수를 기준으로 특성을 추출
  - Tfidfvectorizer: TF-IDF 값을 사용해서 텍스트에서 특성을 추출
  - HashingVectorizer: CountVectorizer와 방법이 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간이 감소

  - 참고: TF-IDF: Term Frequency-Inverse Document Frequency Vectorizer. 빈도(TF)는 용어가 문서에 나타나는 빈도를 측정하는 반면, 역 문서 빈도(IDF)는 말뭉치의 모든 문서에서 용어가 얼마나 중요한지를 측정함

전처리
- 토큰화, 불용어 제거, 어간 추출 등의 작업이 필요함
- 문장 -> 결측치 확인, 토큰화 -> 단어 색인 -> 불용어 제거 -> 축소된 단어 색인 -> 어간 추출

In [26]:
#결측치를 확인할 데이터 호출
import pandas as pd
df = pd.read_csv("/content/sample_data/california_housing_train.csv")
df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.40,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0
...,...,...,...,...,...,...,...,...,...
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.30,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.30,41.80,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0


In [27]:
#결측치 개수 확인
df.isnull().sum()
#isnull() 메서드: 결측치 있는지 확인
#sum() 메서드: 결측치가 몇 개인지 합산

longitude             0
latitude              0
housing_median_age    0
total_rooms           0
total_bedrooms        0
population            0
households            0
median_income         0
median_house_value    0
dtype: int64

In [28]:
#결측치 비율
df.isnull().sum()/len(df)

longitude             0.0
latitude              0.0
housing_median_age    0.0
total_rooms           0.0
total_bedrooms        0.0
population            0.0
households            0.0
median_income         0.0
median_house_value    0.0
dtype: float64

In [29]:
#결측치 삭제 처리
df = df.dropna(how="all") #모든 행이 NaN일 때만 삭제
print(df)

       longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0        -114.31     34.19                15.0       5612.0          1283.0   
1        -114.47     34.40                19.0       7650.0          1901.0   
2        -114.56     33.69                17.0        720.0           174.0   
3        -114.57     33.64                14.0       1501.0           337.0   
4        -114.57     33.57                20.0       1454.0           326.0   
...          ...       ...                 ...          ...             ...   
16995    -124.26     40.58                52.0       2217.0           394.0   
16996    -124.27     40.69                36.0       2349.0           528.0   
16997    -124.30     41.84                17.0       2677.0           531.0   
16998    -124.30     41.80                19.0       2672.0           552.0   
16999    -124.35     40.54                52.0       1820.0           300.0   

       population  households  median_income  media

In [30]:
df1 = df.dropna() #데이터에 하나라도 NaN 값이 있으면 행을 삭제
print(df1)
#NaN = Not a Number

       longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0        -114.31     34.19                15.0       5612.0          1283.0   
1        -114.47     34.40                19.0       7650.0          1901.0   
2        -114.56     33.69                17.0        720.0           174.0   
3        -114.57     33.64                14.0       1501.0           337.0   
4        -114.57     33.57                20.0       1454.0           326.0   
...          ...       ...                 ...          ...             ...   
16995    -124.26     40.58                52.0       2217.0           394.0   
16996    -124.27     40.69                36.0       2349.0           528.0   
16997    -124.30     41.84                17.0       2677.0           531.0   
16998    -124.30     41.80                19.0       2672.0           552.0   
16999    -124.35     40.54                52.0       1820.0           300.0   

       population  households  median_income  media

In [31]:
#결측치를 0으로 채우기
df2 = df.fillna(0)
print(df2)

       longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0        -114.31     34.19                15.0       5612.0          1283.0   
1        -114.47     34.40                19.0       7650.0          1901.0   
2        -114.56     33.69                17.0        720.0           174.0   
3        -114.57     33.64                14.0       1501.0           337.0   
4        -114.57     33.57                20.0       1454.0           326.0   
...          ...       ...                 ...          ...             ...   
16995    -124.26     40.58                52.0       2217.0           394.0   
16996    -124.27     40.69                36.0       2349.0           528.0   
16997    -124.30     41.84                17.0       2677.0           531.0   
16998    -124.30     41.80                19.0       2672.0           552.0   
16999    -124.35     40.54                52.0       1820.0           300.0   

       population  households  median_income  media

In [32]:
#결측치를 평균으로 채우기
df['longitude'].fillna(df['longitude'].mean(), inplace=True)
print(df)

       longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0        -114.31     34.19                15.0       5612.0          1283.0   
1        -114.47     34.40                19.0       7650.0          1901.0   
2        -114.56     33.69                17.0        720.0           174.0   
3        -114.57     33.64                14.0       1501.0           337.0   
4        -114.57     33.57                20.0       1454.0           326.0   
...          ...       ...                 ...          ...             ...   
16995    -124.26     40.58                52.0       2217.0           394.0   
16996    -124.27     40.69                36.0       2349.0           528.0   
16997    -124.30     41.84                17.0       2677.0           531.0   
16998    -124.30     41.80                19.0       2672.0           552.0   
16999    -124.35     40.54                52.0       1820.0           300.0   

       population  households  median_income  media

In [None]:
#그 외 방법
# - 데이터에 하나라도 NaN 값이 있을 때 행 전체를 삭제
# - 데이터가 거의 없는 특성(열)은 특성(열) 자체를 삭제
# - 최빈값 혹은 평균값으로 NaN 값을 대체

토큰화
- tokenization
- 주어진 텍스트를 단어/문자 단위로 자르는 것
- 문장 토큰화/ 단어 토큰화로 구분
  - 문장 토큰화: 문장을 토큰화하는 것. 마침표(.), 느낌표(!), 물음표(?) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것
  - 단어 토큰화: 띄어쓰기를 기준으로 문장을 구분

In [33]:
#문장 토큰화
from nltk import sent_tokenize
text_sample = "Natural Language Processing, or NLP, is the process of extracting the meaning, or intent, behind human language. In the field of Conversational artificial intelligence(AI), NLP allows machines and applications to understand the intent of human language inputs, and then generate appropriate responses, resulting in a natural conversation flow."
tokenized_sentences = sent_tokenize(text_sample)
print(tokenized_sentences)

['Natural Language Processing, or NLP, is the process of extracting the meaning, or intent, behind human language.', 'In the field of Conversational artificial intelligence(AI), NLP allows machines and applications to understand the intent of human language inputs, and then generate appropriate responses, resulting in a natural conversation flow.']


In [34]:
#단어 토큰화
from nltk import word_tokenize
sentences = "This book is for deep learning learners"
words = word_tokenize(sentences)
print(words)

['This', 'book', 'is', 'for', 'deep', 'learning', 'learners']


In [35]:
#아포스트로피(')가 포함된 문장에서 단어 토큰화
#NLTK에서 제공하는 WordPunctTokenizer를 이용
from nltk.tokenize import WordPunctTokenizer
sentence = "it's nothing that you don't already know except most people aren't aware of how thier inner world works."
words = WordPunctTokenizer().tokenize(sentence)
print(words)

['it', "'", 's', 'nothing', 'that', 'you', 'don', "'", 't', 'already', 'know', 'except', 'most', 'people', 'aren', "'", 't', 'aware', 'of', 'how', 'thier', 'inner', 'world', 'works', '.']


한글 토큰화 예제

In [None]:
#라이브러리 호출 및 데이터셋 준비
import csv
from konlpy.tag import Okt
from gensim.models import word2Vec

f = open(r'../data/ratings_train.txt','r', encoding='utf-8')
rdr = csv.reader(f, delimiter='\t')
rdw = list(rdr)
f.close()

In [None]:
#오픈 소스 한글 형태소 분석기 호출
twitter = Okt()

result = []

for line in rdw: #텍스트를 한 줄씩 처리
   malist = twitter.pos(line[1], norm=True, stem=True) #형태소 분석
   r = []
   for word in malist:
      if not word[1] in ["Josa","Eomi","Punctutaion"]: #조사, 어미, 문장 부호는 제외하고 처리
          r.append(word[0])
      rl = (" ".join(r)).strip() #형태소 사이에 ""공백을 넣고, 양쪽 공백은 삭제
      result.append(rl)
      print(rl)


불용어 제거
- 문장 내에서 빈번하게 발생하여 의미를 부여하기 어려운 단어들을 의미
- 자연어 처리에 있어 불용어는 효율성을 감소시키고, 처리 시간이 길어지는 단점이 있기 때문에, 반드시 제거가 필요함

In [37]:
#불용어 제거
import nltk
from nltk.corpus import stopwords
nltk.download("stopwords")
nltk.download("punkt")
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [38]:
sample_text = "One of the first things that we ask ourselves is what are the pros and cons of any task we perform."
text_tokens = word_tokenize(sample_text)

tokens_without_sw = [word for word in text_tokens if not word in stopwords.words('english')]
print("불용어 제거 미적용:", text_tokens, '\n')
print("불용어 제거 적용:", tokens_without_sw)

불용어 제거 미적용: ['One', 'of', 'the', 'first', 'things', 'that', 'we', 'ask', 'ourselves', 'is', 'what', 'are', 'the', 'pros', 'and', 'cons', 'of', 'any', 'task', 'we', 'perform', '.'] 

불용어 제거 적용: ['One', 'first', 'things', 'ask', 'pros', 'cons', 'task', 'perform', '.']


어간 추출(stemming)
- 단어 원형을 찾아 주는 것
- 단어 그 자체만 고려하기 때문에 품사가 달라도 사용 가능
- 사전에 없는 단어도 추출할 수 있음
- NLTK의 어간 추출로는 포터(porter), 랭커스터(lancaster) 알고리즘이 있음

표제어 추출(lemmatizaiton)
- 단어 원형을 찾아 주는 것
- 단어가 문장 속에서 어떤 품사로 쓰였는지 고려하기 때문에, 품사가 같아야 사용 가능
- 사전에 있는 단어만 추출할 수 있음
- 일반적으로 어간 추출보다 표제어 추출의 성능이 더 좋음
- 품사와 같은 문법 뿐만 아니라, 문장 내에서 단어 의미도 고려하기 때문에 성능이 좋음
- 어간 추출보다 시간이 더 오래 걸리는 단점이 있음

즉, 어간 추출, 표제어 추출은 둘 다 어근 추출이 목적

In [40]:
#어간 추출 -포터 알고리즘
#단어 원형이 비교적 잘 보존되어 있음
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

print(stemmer.stem('obesses'), stemmer.stem('obssesed'))
print(stemmer.stem('standardizes'), stemmer.stem('standardization'))
print(stemmer.stem('national'), stemmer.stem('nation'))
print(stemmer.stem('absentness'), stemmer.stem('absently'))
print(stemmer.stem('tribalical'), stemmer.stem('tribalicalized')) #사전에 없는 단어

obess obsses
standard standard
nation nation
absent absent
tribal tribalic


In [41]:
#어간 추출 -랭커스터 알고리즘
#포터 알고리즘과 다르게 단어 원형을 알아볼 수 없을 정도로 축소시키기 때문에 정확도가 낮음
#일반적인 상황보다는 데이터셋을 축소시켜야 하는 특정 상황에서나 유용함
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('obesses'), stemmer.stem('obssesed'))
print(stemmer.stem('standardizes'), stemmer.stem('standardization'))
print(stemmer.stem('national'), stemmer.stem('nation'))
print(stemmer.stem('absentness'), stemmer.stem('absently'))
print(stemmer.stem('tribalical'), stemmer.stem('tribalicalized')) #사전에 없는 단어

obess obsses
standard standard
nat nat
abs abs
trib trib


In [44]:
#표제어 추출
import nltk
nltk.download("wordnet")
from nltk.stem import WordNetLemmatizer
lemma = WordNetLemmatizer()

print(lemma.lemmatize('obesses'), lemma.lemmatize('obssesed'))
print(lemma.lemmatize('standardizes'), lemma.lemmatize('standardization'))
print(lemma.lemmatize('national'), lemma.lemmatize('nation'))
print(lemma.lemmatize('absentness'), lemma.lemmatize('absently'))
print(lemma.lemmatize('tribalical'), lemma.lemmatize('tribalicalized'))

obesses obssesed
standardizes standardization
national nation
absentness absently
tribalical tribalicalized


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [45]:
#품사 정보가 추가된 표제어 추출
print(lemma.lemmatize('obesses','v'), lemma.lemmatize('obssesed','a'))
print(lemma.lemmatize('standardizes','v'), lemma.lemmatize('standardization','n'))
print(lemma.lemmatize('national','a'), lemma.lemmatize('nation','n'))
print(lemma.lemmatize('absentness','n'), lemma.lemmatize('absently','r'))
print(lemma.lemmatize('tribalical','a'), lemma.lemmatize('tribalicalized','v'))

obesses obssesed
standardize standardization
national nation
absentness absently
tribalical tribalicalized
