#### 자연어 처리(eKoreaTech 강의)

#### 1) 영문 자연어 전처리

In [1]:
# nltk : 자연어 처리를 위한 파이썬 패키지

import nltk
nltk.download('punkt')     # 영문 토큰화를 위해 punkt 모듈 다운로드

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\wonta\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [2]:
en_text = "All happy families resemble one another; each unhappy family is unhappy in its own way."

In [3]:
from nltk.tokenize import word_tokenize
tokens = word_tokenize(en_text)
print(tokens)

['All', 'happy', 'families', 'resemble', 'one', 'another', ';', 'each', 'unhappy', 'family', 'is', 'unhappy', 'in', 'its', 'own', 'way', '.']


#### 불용어(stopword) 제거

In [4]:
# 패키지 다운
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\wonta\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [5]:
from nltk.corpus import stopwords
stop = stopwords.words('english')
print(stop)        # 정의되어 있는 영문 불용어를 출력하여 확인

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [6]:
# 대명사, 관사, 전치사 등의 여러 불용어가 포함되어 있는 것을 확인

In [8]:
# 불용어 제거하기
# stopword와 파이썬의 List Comprehension을 이용한 불용어 제거

tokens = [token for token in tokens if token not in stop]
print(tokens)

['All', 'happy', 'families', 'resemble', 'one', 'another', ';', 'unhappy', 'family', 'unhappy', 'way', '.']


In [9]:
# 불용어를 제외된 나머지 단어들이 출력됨.

#### List Comprehension에 대하여

In [10]:
# List Comprehension은 대괄호 사이에 for문, 조건문 등을 사용하여,
# 간결하게 List를 만들수 있게 해준다.

# 파이썬의 리스트가 특이한 점은, 리스트 안에 for문과 if 조건문을 사용할 수 있는 점이다.

# 리스트를 만드는 방법들,

a = [i for i in range(10)]
a

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [11]:
# if ~ not in ~ : "포함되어 있으면 제거를 하라" 는 뜻

#### 2글자 이하 단어 제거하기

In [13]:
# 불용어 제거 후 단어의 길이가 2글자 이하인 단어를 제거

tokens = [token for token in tokens if len(token)>=3]
print(tokens)

['All', 'happy', 'families', 'resemble', 'one', 'another', 'unhappy', 'family', 'unhappy', 'way']


#### 소문자화

In [14]:
print("소문자화 실행 전 : ", tokens)
tokens = [token.lower() for token in tokens]
print("소문자화 실행 후 : ", tokens)


소문자화 실행 전 :  ['All', 'happy', 'families', 'resemble', 'one', 'another', 'unhappy', 'family', 'unhappy', 'way']
소문자화 실행 후 :  ['all', 'happy', 'families', 'resemble', 'one', 'another', 'unhappy', 'family', 'unhappy', 'way']


#### 2) 한글 자연어 전처리

In [15]:
# 불용어 사전을 활용하여 제거 / 불용어 사전 관리 필요
# 다양한 비즈니스 도메인 혹은 업무 환경에 맞는 또는 상황에 맞는 불용어를 정의하고
# 그 불용어들을 제거하는 방식으로 전처리 진행

# 정제(Cleaning) - 특수문자 제거


import  string
print(string.punctuation)   # 정의되어 있는 특수문자 확인 - 영문과 동일함

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [17]:
# 한글 Corpus 정의

import string
import re       # re - 정규식 관련 모듈 -> 특수문자를 길이가 0인 문자로 변환(제거)

text = '행복한 가정은 모두 비슷하게 닮았지만, 불행한 가정은 저마다의 이유로 불행하다.'

Cleaned_text = re.sub('[^\w\s]', '', text)   # 단어(\w)와 공백문자(\s)를 제외(^)하고 모두 삭제
print(Cleaned_text)

행복한 가정은 모두 비슷하게 닮았지만 불행한 가정은 저마다의 이유로 불행하다


In [18]:
# 한글은 띄어쓰기를 잘하지 않더라도 의미가 잘 통하는 장점이 있다.
# 고의적으로 띄어쓰기를 하지 않은 경우, 자연어 처리를 하는 방법 필요하다.
#  ---> 띄어쓰기를 적용하는 과정부터 시작한다.

Non_Spaced_text = re.sub('[\s]', '', Cleaned_text)
print(Non_Spaced_text)

행복한가정은모두비슷하게닮았지만불행한가정은저마다의이유로불행하다


In [19]:
# 띄어쓰기를 임의로 모두 삭제

In [23]:
# PyCoSpacing 패키지를 이용한 띄어쓰기 적용 : 설치 시간 소요(5분 34초)

!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

  Running command git clone --filter=blob:none --quiet https://github.com/haven-jeon/PyKoSpacing.git 'C:\Users\wonta\AppData\Local\Temp\pip-req-build-s6jmmjrk'

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to c:\users\wonta\appdata\local\temp\pip-req-build-s6jmmjrk
  Resolved https://github.com/haven-jeon/PyKoSpacing.git to commit b32a889cbd10b006d2f4aba118f0cd5b677e2979
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting tensorflow>=2.16.2 (from pykospacing==0.5)
  Downloading tensorflow-2.17.0-cp311-cp311-win_amd64.whl.metadata (3.2 kB)
Collecting argparse>=1.1.0 (from pykospacing==0.5)
  Downloading argparse-1.4.0-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting tensorflow-intel==2.17.0 (from tensorflow>=2.16.2->pykospacing==0.5)
  Downloading tensorflow_intel-2.17.0-cp311-cp311-win_amd64.whl.metadata (5.0 kB)
Collecting tensorboard<2.18,>=2.17 (from tensorflow-intel==2.17.0->tensorflow>=2.16.2->pykospacing==0.5)
  Downloading tensorboard-2.17.1-py3-none-any.whl.metadata (1.6 kB)
Downloading argparse-1.4.0-py



[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [24]:
from pykospacing import Spacing

spacing = Spacing()
new_sent = spacing(Non_Spaced_text)

print(new_sent)

행복한 가정은 모두 비슷하게 닮았지만 불행한 가정은 저마다의 이유로 불행하다


In [25]:
# 임의로 띄어쓰기를 제거했던 문장이 다시 정확하게 띄어쓰기가 되어 있음을 확인했다. (240901)

#### 한글 토큰화

In [26]:
!pip install kss  # 문장 단위 토큰화를 위한 모듈

Collecting kss
  Downloading kss-6.0.4.tar.gz (1.1 MB)
     ---------------------------------------- 0.0/1.1 MB ? eta -:--:--
     - -------------------------------------- 0.0/1.1 MB 991.0 kB/s eta 0:00:02
     --- ------------------------------------ 0.1/1.1 MB 1.1 MB/s eta 0:00:01
     ---- ----------------------------------- 0.1/1.1 MB 1.3 MB/s eta 0:00:01
     ---- ----------------------------------- 0.1/1.1 MB 1.3 MB/s eta 0:00:01
     ---- ----------------------------------- 0.1/1.1 MB 1.3 MB/s eta 0:00:01
     ---- ----------------------------------- 0.1/1.1 MB 1.3 MB/s eta 0:00:01
     ---- ----------------------------------- 0.1/1.1 MB 1.3 MB/s eta 0:00:01
     ------ --------------------------------- 0.2/1.1 MB 476.3 kB/s eta 0:00:02
     ------ --------------------------------- 0.2/1.1 MB 476.3 kB/s eta 0:00:02
     ------- -------------------------------- 0.2/1.1 MB 461.0 kB/s eta 0:00:02
     -------- ------------------------------- 0.2/1.1 MB 497.3 kB/s eta 0:00:02
     -

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
conda-repo-cli 1.0.75 requires requests_mock, which is not installed.
conda-repo-cli 1.0.75 requires clyent==1.2.1, but you have clyent 1.2.2 which is incompatible.
conda-repo-cli 1.0.75 requires PyYAML==6.0.1, but you have pyyaml 6.0 which is incompatible.

[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [27]:
import kss

sent_tokens = kss.split_sentences(Cleaned_text)
print(sent_tokens)    # 한 문장만으로 구성된 Corpus를 이용했으므로 결과는 그대로 출력된다. (여러 문장으로 구성된 예시문으로 변경해보자.)

# 마침표 [.]를 삭제해버리면 문장 단위 토큰화가 진행되지 않는다.
# 단순히 마침표만 찾아내는 기능인가? (이해 안됨)

[Kss]: Oh! You have mecab in your environment. Kss will take this as a backend! :D



['행복한 가정은 모두 비슷하게 닮았지만 불행한 가정은 저마다의 이유로 불행하다']


#### 어절 단위 토큰화(space)


In [29]:
def tokenizer(words):
    tokens = words.split()   # 스페이스 공백 단위로 분할해서 리스트로 반환
    return tokens

tokens = tokenizer(Cleaned_text)
print(tokens)

['행복한', '가정은', '모두', '비슷하게', '닮았지만', '불행한', '가정은', '저마다의', '이유로', '불행하다']


#### 한글 불용어 제거 과정

In [31]:
# 한글 불용어 사전을 미리 작성하여 Stopword_dict.csv 로 저장함

import pandas as pd

stop = pd.read_csv('Stopword_dict.csv')
print(stop[:10])


  stopword
0      가정은
1      불행한
2     비슷하게


In [32]:
# 데이터프레임을 리스트로 변환하는 방법

print(stop['stopword'].tolist())

['가정은', '불행한', '비슷하게']


In [33]:
# 로드한 불용어 사전을 적용하며느

tokens = [token for token in tokens if token not in stop.stopword.tolist()]
print(tokens)

['행복한', '모두', '닮았지만', '저마다의', '이유로', '불행하다']


In [None]:
# 불용어 사전에 미리 정의된 리스트 항목들 (가정은, 불행한, 비슷하게)이 제외된 것을 확인 (240901)