## 2. 단어 토큰화(Word Tokenization)
## 자연어 전처리 과정들
자연어 전처리에는 다음과 같은 단계들이 있습니다.

- 토큰화: 자연어 데이터를 분석을 위한 작은 단위(토큰)로 분리합니다.
- 정제: 분석에 큰 의미가 없는 데이터들을 제거합니다.
- 정규화: 표현 방법이 다르지만 의미가 같은 단어들을 통합시킵니다.
- 정수 인코딩: 컴퓨터가 이해하기 쉽도록 자연어 데이터에 정수 인덱스를 부여합니다.

분석에 활용하기 위한 자연어 데이터를 코퍼스(Corpus)라고 합니다. 한국어로는 말뭉치.

Corpus를 분석하기 위하여 작은 단위로 나누너어야 하는데, 이러한 단위를 토큰(Token)이라고 하고, 하나의 코퍼스를 여러 개의 토큰으로 나누는 과정을 토큰화(Tokenization)라고 합니다.
## NLTK 설치
영어 자연어 처리에는 NLTK라는 패키지가 많이 사용됩니다. 데이터 사이언스 시작하기 토픽에서 아나콘다를 설치했다면 NLTK는 자동으로 설치되어 있을텐데요. 혹시, 수동으로 설치가 필요하다면 주피터 노트북 셀에 아래 커맨드를 실행해 주세요.

In [None]:
%pip install nltk



In [None]:
# nltk 패키지와 단어 토큰화에 사용될 word_tokenize() 함수
from nltk.tokenize import word_tokenize

In [None]:
# NLTK에서 제공하는 토큰화 모듈인 punkt를 다운로드 = 마침표 & 언어적 특성을 고려하여 토큰화를 할 수 있게 해주는 모듈
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## 단어 토큰화 하기
- word_tokenize()는 코퍼스를 파라미터로 넘겨서 토큰화 된 단어 리스트를 반환하는 함수

In [None]:
text = "Although it's not a happily-ever-after ending, it is very realistic."

# 단어 토큰화
tokenized_words = word_tokenize(text)

print(tokenized_words)

['Although', 'it', "'s", 'not', 'a', 'happily-ever-after', 'ending', ',', 'it', 'is', 'very', 'realistic', '.']


## 3. 단어 토큰화 실습
text.py 파일에는 영어 자연어 코퍼스가 있습니다. 이상한 나라의 앨리스 본문 중 일부인데요. 해당 코퍼스를 전처리해 보겠습니다.

In [None]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
# Codeit에서는 from text import TEXT 모듈을 사용했지만. Colab 환경에서 부르는 방법을 몰라서 파일 내용 그래도 복사해옴
corpus = """After reading the comments for this movie, I am not sure whether I should be angry, sad or sickened. Seeing comments typical of people who a)know absolutely nothing about the military or b)who base everything they think they know on movies like this or on CNN reports about Abu-Gharib makes me wonder about the state of intellectual stimulation in the world. At the time I type this the number of people in the US military: 1.4 million on Active Duty with another almost 900,000 in the Guard and Reserves for a total of roughly 2.3 million. The number of people indicted for abuses at at Abu-Gharib: Currently less than 20 That makes the total of people indicted .00083% of the total military. Even if you indict every single military member that ever stepped in to Abu-Gharib, you would not come close to making that a whole number.  The flaws in this movie would take YEARS to cover. I understand that it's supposed to be sarcastic, but in reality, the writer and director are trying to make commentary about the state of the military without an enemy to fight. In reality, the US military has been at its busiest when there are not conflicts going on. The military is the first called for disaster relief and humanitarian aid missions. When the tsunami hit Indonesia, devestating the region, the US military was the first on the scene. When the chaos of the situation overwhelmed the local governments, it was military leadership who looked at their people, the same people this movie mocks, and said make it happen. Within hours, food aid was reaching isolated villages. Within days, airfields were built, cargo aircraft started landing and a food distribution system was up and running. Hours and days, not weeks and months. Yes there are unscrupulous people in the US military. But then, there are in every walk of life, every occupation. But to see people on this website decide that 2.3 million men and women are all criminal, with nothing on their minds but thoughts of destruction or mayhem is an absolute disservice to the things that they do every day. One person on this website even went so far as to say that military members are in it for personal gain. Wow! Entry level personnel make just under $8.00 an hour assuming a 40 hour work week. Of course, many work much more than 40 hours a week and those in harm's way typically put in 16-18 hour days for months on end. That makes the pay well under minimum wage. So much for personal gain. I beg you, please make yourself familiar with the world around you. Go to a nearby base, get a visitor pass and meet some of the men and women you are so quick to disparage. You would be surprised. The military no longer accepts people in lieu of prison time. They require a minimum of a GED and prefer a high school diploma. The middle ranks are expected to get a minimum of undergraduate degrees and the upper ranks are encouraged to get advanced degrees.
"""

In [None]:
# 여기에 코드를 작성하세요
tokenized_words = word_tokenize(corpus)

# 테스트 코드
tokenized_words

코퍼스에는 아무 의미도 없거나 분석의 목적에 적합하지 않은 단어들도 포함된다. 이런 단어들은 전처리 과정에서 제거해야 하는데요. 그 과정을 정제(Cleaning)라고 한다.

자연어 데이터를 정제하는 방법은 여러가지인데요. 그 중에서도 등장 빈도, 단어 길이, 불용어 등을 기준으로 많이 사용.

## 4. 정제 (Cleaning)
자연어 데이터를 정제하는 방법은 여러가지. 그 중에서도 등장 빈도, 단어 길이, 불용어 등을 기준으로 많이 사용

## 등장 빈도가 적은 단어
코퍼스에 등장하는 빈도가 너무 적은 단어는 분석에 도움이 되지 않기 때문에 제거해야 한다. 데이터는 실습 레슨에서 사용했던 text.py 데이터를 그대로 사용


In [None]:
# Colab에서 파일을 불러오는 경
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
file_path = '/content/drive/MyDrive/Colab_Notebooks/text.py'
with open(file_path, 'r', encoding="utf8") as file:
  lines = file.readline()

for line in lines:
    print(line)

In [None]:
# Codeit에서는 from text import TEXT 모듈을 사용했지만. Colab 환경에서 부르는 방법을 몰라서 파일 내용 그래도 복사해옴
corpus = """After reading the comments for this movie, I am not sure whether I should be angry, sad or sickened. Seeing comments typical of people who a)know absolutely nothing about the military or b)who base everything they think they know on movies like this or on CNN reports about Abu-Gharib makes me wonder about the state of intellectual stimulation in the world. At the time I type this the number of people in the US military: 1.4 million on Active Duty with another almost 900,000 in the Guard and Reserves for a total of roughly 2.3 million. The number of people indicted for abuses at at Abu-Gharib: Currently less than 20 That makes the total of people indicted .00083% of the total military. Even if you indict every single military member that ever stepped in to Abu-Gharib, you would not come close to making that a whole number.  The flaws in this movie would take YEARS to cover. I understand that it's supposed to be sarcastic, but in reality, the writer and director are trying to make commentary about the state of the military without an enemy to fight. In reality, the US military has been at its busiest when there are not conflicts going on. The military is the first called for disaster relief and humanitarian aid missions. When the tsunami hit Indonesia, devestating the region, the US military was the first on the scene. When the chaos of the situation overwhelmed the local governments, it was military leadership who looked at their people, the same people this movie mocks, and said make it happen. Within hours, food aid was reaching isolated villages. Within days, airfields were built, cargo aircraft started landing and a food distribution system was up and running. Hours and days, not weeks and months. Yes there are unscrupulous people in the US military. But then, there are in every walk of life, every occupation. But to see people on this website decide that 2.3 million men and women are all criminal, with nothing on their minds but thoughts of destruction or mayhem is an absolute disservice to the things that they do every day. One person on this website even went so far as to say that military members are in it for personal gain. Wow! Entry level personnel make just under $8.00 an hour assuming a 40 hour work week. Of course, many work much more than 40 hours a week and those in harm's way typically put in 16-18 hour days for months on end. That makes the pay well under minimum wage. So much for personal gain. I beg you, please make yourself familiar with the world around you. Go to a nearby base, get a visitor pass and meet some of the men and women you are so quick to disparage. You would be surprised. The military no longer accepts people in lieu of prison time. They require a minimum of a GED and prefer a high school diploma. The middle ranks are expected to get a minimum of undergraduate degrees and the upper ranks are encouraged to get advanced degrees.
"""

In [None]:
print(corpus)

After reading the comments for this movie, I am not sure whether I should be angry, sad or sickened. Seeing comments typical of people who a)know absolutely nothing about the military or b)who base everything they think they know on movies like this or on CNN reports about Abu-Gharib makes me wonder about the state of intellectual stimulation in the world. At the time I type this the number of people in the US military: 1.4 million on Active Duty with another almost 900,000 in the Guard and Reserves for a total of roughly 2.3 million. The number of people indicted for abuses at at Abu-Gharib: Currently less than 20 That makes the total of people indicted .00083% of the total military. Even if you indict every single military member that ever stepped in to Abu-Gharib, you would not come close to making that a whole number.  The flaws in this movie would take YEARS to cover. I understand that it's supposed to be sarcastic, but in reality, the writer and director are trying to make commen

굉장히 긴 본문인데 해당 본문에서 등장 빈도가 2 이하인 단어들만 찾아봄.

In [None]:
# Counter모듈 import
from collections import Counter

빈도수 계산을 위해선 먼저 코퍼스를 단어 기준으로 토큰화 해야 하는데요. 앞에서 배운 word_tokenize() 함수로 단어 토큰화

In [None]:
# 전체 단어 토큰 리스트
tokenized_words = word_tokenize(corpus)

그리고, 어의 등장 빈도를 Counter() 함수로 계산합니다. Counter()는 파라미터로 단어 리스트를 받고, 각 단어의 등장 빈도를 딕셔너리({단어: 등장 횟수}) 형태로 반환

In [None]:
# 파이썬의 Counter 모듈을 통해 단어의 빈도수 카운트하여 단어 집합 생성
vocab = Counter(tokenized_words)

In [None]:
# vocab은 다음과 같은 형태로 저장되어 있습니다.
print(vocab)

Counter({'the': 30, '.': 28, ',': 21, 'of': 15, 'and': 14, 'to': 13, 'a': 12, 'military': 12, 'in': 12, 'people': 9, 'on': 9, 'are': 9, 'for': 7, 'this': 7, 'that': 6, 'I': 5, 'The': 5, 'you': 5, 'not': 4, 'or': 4, 'about': 4, 'US': 4, 'at': 4, 'every': 4, 'it': 4, 'make': 4, 'was': 4, 'movie': 3, 'be': 3, 'who': 3, 'they': 3, 'Abu-Gharib': 3, 'makes': 3, 'number': 3, 'million': 3, 'with': 3, 'total': 3, 'would': 3, 'an': 3, 'there': 3, 'days': 3, 'hour': 3, 'minimum': 3, 'get': 3, 'comments': 2, ')': 2, 'know': 2, 'nothing': 2, 'base': 2, 'state': 2, 'world': 2, 'time': 2, ':': 2, '2.3': 2, 'indicted': 2, 'than': 2, 'That': 2, "'s": 2, 'but': 2, 'reality': 2, 'is': 2, 'first': 2, 'aid': 2, 'When': 2, 'their': 2, 'Within': 2, 'hours': 2, 'food': 2, 'months': 2, 'But': 2, 'website': 2, 'men': 2, 'women': 2, 'so': 2, 'personal': 2, 'gain': 2, 'under': 2, '40': 2, 'work': 2, 'week': 2, 'much': 2, 'ranks': 2, 'degrees': 2, 'After': 1, 'reading': 1, 'am': 1, 'sure': 1, 'whether': 1, 'should

생성된 단어 집합에서 빈도수가 2 이하인 단어 리스트만 추출. 해당 작업에는 list comprehension 문법을 사용

In [None]:
# 빈도수가 2 이하인 단어 리스트 추출, uncommon_words -> 2개 이하로 등장한 단어들의 모음집
uncommon_words = [key for key, value in vocab.items() if value <= 2]

In [None]:
# 등장 빈도가 2 이하인 단어 리스트가 몇 개인지 확인
print('빈도수가 2 이하인 단어 수:', len(uncommon_words))

빈도수가 2 이하인 단어 수: 234


빈도수가 2 이하인 단어 수: 234개 포함. 그러면 uncommon_words에 없는 단어들만 cleaned_words에 저장하면 3회 이상 등장한 단어들만 남게 되겠죠?

위의 예시에서는 정제를 위한 기준을 등장 빈도 2회 이하로 설정, 그렇지만 코퍼스의 특징과 분석의 목적에 따라 몇 회 이하 등장하는 단어를 정제할지는 달라진다. 그래서 정제의 기준이 되는 숫자는 가장 적절한 숫자를 임의로 설정하면 됨.

In [None]:
# 등장 빈도가 3회 이상인 단어 총 306개가 cleaned_by_freq에 저장.
cleaned_by_freq = [word for word in tokenized_words if word not in uncommon_words]

print('빈도수 3 이상인 토큰 수:', len(cleaned_by_freq))

빈도수 3 이상인 토큰 수: 306


## 길이가 짧은 단어
영어 단어의 경우, 알파벳 하나 또는 두개로 구성된 단어는 코퍼스의 의미를 나타내는데 중요하지 않을 가능성이 높습니다. 그래서 이런 단어들은 제거하는 게 좋습니다.

아래는 길이가 2 이하인 단어들을 제거하는 코드입니다. 단어 토큰들을 순회하면서 단어의 길이(len(word))가 2보다 큰 단어들만 cleaned_words에 넣으면 됩니다.

In [None]:
# 등장빈도가 3회 이상인 단어중 길이가 2 이하인 단어 제거
cleaned_by_freq_len = []

for word in cleaned_by_freq:
    if len(word) > 2:
        cleaned_by_freq_len.append(word)

In [None]:
print('정제 전:', cleaned_by_freq[:10])
print('정제 후:', cleaned_by_freq_len[:10])

정제 전: ['the', 'for', 'this', 'movie', ',', 'I', 'not', 'I', 'be', ',']
정제 후: ['the', 'for', 'this', 'movie', 'not', 'people', 'who', 'about', 'the', 'military']


## 5. 정제 함수

In [None]:
from collections import Counter

# 등장 빈도 기준 정제 함수
def clean_by_freq(tokenized_words, cut_off_count):
    # 파이썬의 Counter 모듈을 통해 단어의 빈도수 카운트하여 단어 집합 생성
    vocab = Counter(tokenized_words)

    # 빈도수가 cut_off_count 이하인 단어 set 추출
    uncommon_words = {key for key, value in vocab.items() if value <= cut_off_count}

    # uncommon_words에 포함되지 않는 단어 리스트 생성
    cleaned_words = [word for word in tokenized_words if word not in uncommon_words]

    return cleaned_words

# 단어 길이 기준 정제 함수
def clean_by_len(tokenized_words, cut_off_length):
    # 길이가 cut_off_length 이하인 단어 제거
    cleaned_by_freq_len = []

    for word in tokenized_words:
        if len(word) > cut_off_length:
            cleaned_by_freq_len.append(word)

    return cleaned_by_freq_len

## 5. 정제 실습
등장 빈도와 단어의 길이를 입력받고, 입력받은 수 이하인 토큰을 정제하는 함수 clean_by_freq()와 clean_by_len()을 만들어 주세요.

- clean_by_freq()는 단어 토큰화된 코퍼스(tokenized_words)와 정제할 등장 빈도 기준(cut_off_count)을 파라미터로 받습니다.
- clean_by_len()은 단어 토큰화 된 코퍼스(tokenized_words)와 정제할 단어 길이 기준(cut_off_length)을 파라미터로 받습니다.
- 두 함수 모두 정제 후 남은 단어 토큰 리스트를 결과로 반환합니다.
- 실제로 만든 함수가 잘 동작하는지 확인하기 위한 실행 코드도 완성해 주세요. clean_by_freq()는 파라미터로 단어 토큰화 된 리스트와 cut_off_count 값으로 2를 넣어주시고, clean_by_len()은 파라미터로 clean_by_freq()의 결과와 cut_off_length 값 2를 추가해 주세요.

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from collections import Counter
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
tokenized_words = word_tokenize(corpus)

In [None]:
def clean_by_freq(tokenized_words, cut_off_count):
    vocab = Counter(tokenized_words)

    # 빈도수가 cut_off_count 이하인 단어를 제거하는 코드를 작성해 주세요
    uncommon_words = [word for word in vocab if len(word) <= cut_off_count]
    cleaned_words = [word for word in vocab if word not in uncommon_words]

    return cleaned_words

In [None]:
def clean_by_len(tokenized_words, cut_off_length):
    cleaned_words = []

    for word in tokenized_words:
    # 길이가 cut_off_length 이하인 단어 제거하는 코드를 작성해 주세요
      if len(word) > cut_off_length:
        cleaned_words.append(word)

    return cleaned_words

In [None]:
# 문제의 조건에 맞게 함수를 호출해 주세요
clean_by_freq = clean_by_freq(tokenized_words, 2)
cleaned_words = clean_by_len(tokenized_words, 2)

cleaned_words

['After',
 'reading',
 'the',
 'comments',
 'for',
 'this',
 'movie',
 'not',
 'sure',
 'whether',
 'should',
 'angry',
 'sad',
 'sickened',
 'Seeing',
 'comments',
 'typical',
 'people',
 'who',
 'know',
 'absolutely',
 'nothing',
 'about',
 'the',
 'military',
 'who',
 'base',
 'everything',
 'they',
 'think',
 'they',
 'know',
 'movies',
 'like',
 'this',
 'CNN',
 'reports',
 'about',
 'Abu-Gharib',
 'makes',
 'wonder',
 'about',
 'the',
 'state',
 'intellectual',
 'stimulation',
 'the',
 'world',
 'the',
 'time',
 'type',
 'this',
 'the',
 'number',
 'people',
 'the',
 'military',
 '1.4',
 'million',
 'Active',
 'Duty',
 'with',
 'another',
 'almost',
 '900,000',
 'the',
 'Guard',
 'and',
 'Reserves',
 'for',
 'total',
 'roughly',
 '2.3',
 'million',
 'The',
 'number',
 'people',
 'indicted',
 'for',
 'abuses',
 'Abu-Gharib',
 'Currently',
 'less',
 'than',
 'That',
 'makes',
 'the',
 'total',
 'people',
 'indicted',
 '.00083',
 'the',
 'total',
 'military',
 'Even',
 'you',
 'indi

## 6. 불용어(Stopwords)
코퍼스에서 큰 의미가 없거나, 분석 목적에서 벗어나는 단어들을 불용어(stopword)라고 한다. -> 정확한 분석을 방해하기 때문에 제거해야 한다.

# 용어 제거는 다음과 같은 방식으로 진행된다.

- 불용어를 모아 놓은 불용어 세트 준비
- 코퍼스의 각 단어 토큰이 불용어 세트에 포함되는지 확인
- 불용어 세트에 있는 단어 토큰은 분석에서 제외

NLTK는 기본 불용어 목록 179개를 제공합니다. 해당 불용어 목록은 'stopwords.words('english')' 로 접근할 수 있다.


In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
stopwords_set = set(stopwords.words('english'))

print('불용어 개수 :', len(stopwords_set))
print(stopwords_set)

불용어 개수 : 179
{'after', 're', 'where', 'its', "shouldn't", 'at', 'hasn', 'wasn', 'we', 'than', 'their', 'can', 'me', 'her', 'that', 'too', "don't", 'he', "should've", 'down', 've', 'weren', 'shouldn', 'under', 'should', "you'd", "couldn't", 'into', 'is', 'any', 'most', 'didn', 'doesn', "mightn't", 'ourselves', 'same', 'when', 'again', 'our', 'those', 'out', 'there', "mustn't", 'o', "she's", 'up', 'mightn', "you'll", 'which', 'himself', 'aren', 'until', 'they', 'wouldn', 'itself', 'on', 'why', "that'll", 'am', 'so', 'haven', 'themselves', "wasn't", 'ours', 'nor', 'not', "won't", 'whom', 'between', 'd', 'couldn', 'were', 'other', 'a', 'i', 'but', 'for', 'only', 'or', 'all', 'such', "haven't", 'over', 'being', 'yourself', 'it', "wouldn't", 'very', 'before', 'she', 'who', 'if', 'with', 'having', 'against', 'in', 'don', "isn't", 'him', 'because', 'as', 'of', 'theirs', 'this', 'an', 'are', 'from', 'how', 'be', 'some', 'won', "shan't", 'doing', 'below', 'just', 'have', 'yourselves', 'his', 'du

일반적인 코퍼스에서 많이 사용되지만 분석에 크게 활용되지 않는 단어들이 불용어 세트에 포함. 경우에 따라서는 NLTK에서 기본 제공하는 불용어에 새로운 단어를 추가하거나, 일부 단어를 기본 불용어 목록에서 제거해야 할 수도 있죠. 이런 경우에는 세트 데이터 형식의 add(), remove() 함수를 사용한다.

한번 stopwords_set에 원하는 불용어를 추가하고 삭제해 볼게요.

In [None]:
# NLTK에서 받아온 불용어 세트 stopwords_set에 hello가 추가되었고, the와 me가 제거
# 또, NLTK가 기본 제공하는 불용어가 아니라 새로운 불용어 세트를 정의해서 사용할 수도 있습니다.
stopwords_set.add('hello')
stopwords_set.remove('the')
stopwords_set.remove('me')

print('불용어 개수 :', len(stopwords_set))
print('불용어 출력 :',stopwords_set)

불용어 개수 : 178
불용어 출력 : {'after', 're', 'where', 'its', "shouldn't", 'at', 'hasn', 'wasn', 'we', 'than', 'their', 'can', 'her', 'that', 'too', "don't", 'he', "should've", 'down', 've', 'weren', 'shouldn', 'under', 'should', "you'd", "couldn't", 'into', 'is', 'any', 'most', 'didn', 'doesn', "mightn't", 'ourselves', 'same', 'hello', 'when', 'again', 'our', 'those', 'out', 'there', "mustn't", 'o', "she's", 'up', 'mightn', "you'll", 'which', 'himself', 'aren', 'until', 'they', 'wouldn', 'itself', 'on', 'why', "that'll", 'am', 'so', 'haven', 'themselves', "wasn't", 'ours', 'nor', 'not', "won't", 'whom', 'between', 'd', 'couldn', 'were', 'other', 'a', 'i', 'but', 'for', 'only', 'or', 'all', 'such', "haven't", 'over', 'being', 'yourself', 'it', "wouldn't", 'very', 'before', 'she', 'who', 'if', 'with', 'having', 'against', 'in', 'don', "isn't", 'him', 'because', 'as', 'of', 'theirs', 'this', 'an', 'are', 'from', 'how', 'be', 'some', 'won', "shan't", 'doing', 'below', 'just', 'have', 'yourselves'

In [None]:
my_stopwords_set = {'i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves'}

print(my_stopwords_set)

{'ours', 'me', 'my', 'myself', 'i', 'our', 'we', 'ourselves'}


## 불용어(Stopwords) 제거하기

등장 빈도와 단어 길이 기준으로 정제했던 cleaned_by_freq_len에서 불용어도 제거해 보겠습니다. cleaned_by_freq_len에 있는 토큰을 하나씩 순회하면서 단어가 불용어 세트에 있는지 확인하고, 없을 때에만 cleaned_words에 저장해 줄게요.

In [None]:
stop_words_set = set(stopwords.words('english'))

# 불용어 제거
cleaned_words = []

for word in cleaned_by_freq_len:
    if word not in stop_words_set:
        cleaned_words.append(word)

In [None]:
# 불용어 제거 결과 확인
print('불용어 제거 전:', len(cleaned_by_freq_len))
print('불용어 제거 후:', len(cleaned_words))

불용어 제거 전: 169
불용어 제거 후: 67


## 불용어 처리 함수

In [None]:
# 불용어 제거 함수
def clean_by_stopwords(tokenized_words, stop_words_set):
    cleaned_words = []

    for word in tokenized_words:
        if word not in stop_words_set:
            cleaned_words.append(word)

    return cleaned_words

## 7. 불용어 제거 실습

불용어 제거를 위한 함수 clean_by_stopwords()를 만들어 주세요.

- clean_by_stopwords()는 파라미터로 단어 토큰화된 코퍼스(tokenized_words)와 불용어 목록(stopwords_set)을 받습니다.
- 결과로는 불용어가 제거된 단어 토큰 리스트를 반환합니다.
- 불용어 목록은 NLTK에서 제공하는 기본 불용어 목록 세트를 받아와 사용합니다.

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')

tokenized_words = word_tokenize(corpus)

# NLTK에서 제공하는 불용어 목록을 세트 자료형으로 받아와 주세요
stopwords_set = set(stopwords.words('english'))

def clean_by_stopwords(tokenized_words, stopwords_set):
    cleaned_words = []

    for word in tokenized_words:
        # 여기에 코드를 작성하세요
        if word not in stop_words_set:
            cleaned_words.append(word)

    return cleaned_words

# 테스트 코드
clean_by_stopwords(tokenized_words, stopwords_set)

## 8, 정규화(Normalization)
아래 단어들은 형태가 조금씩 다르지만 의미는 같습니다.

US, USA, U.S., USA, America ...
이렇게 형태가 다르지만 같은 의미를 나타내는 단어들이 많아질수록 코퍼스는 복잡해지고 분석이 어려워집니다. 그래서 의미가 같은 단어라면 형태를 하나로 통일하는 게 좋습니다. 해당 과정을 정규화(Normalization)라고 합니다.

정규화에는 여러 방법이 있는데요. 이번 레슨에서는 가장 보편적으로 사용되는 두 가지만 소개해 드릴게요.



## 정규화 방법: 대소문자 통합
대부분의 프로그래밍 언어는 대소문자를 구분합니다. 그래서 코퍼스를 대문자나 소문자 중 하나로 통일하면 정규화가 됩니다.

영어 문법 상 대문자는 특수한 상황에서만 사용되고, 보통은 소문자가 많이 사용됩니다. 따라서 대문자를 소문자로 바꾸는게 일반적입니다. 해당 과정에는 파이썬의 문자열 내장함수인 lower()가 사용됩니다.

In [None]:
# Example
text = "What can I do for you? Do your homework now."

# 소문자로 변환
print(text.lower())

what can i do for you? do your homework now.


## 정규화 방법: 규칙 기반 정규화
USA, US, U.S.는 형태가 다르지만 의미는 같습니다. 표준어는 아니지만 Umm과 Ummmm도 같은 의미이기 때문에 정규화 할 수 있죠. 이런 단어들은 규칙을 정의해서 하나의 표현으로 통합할 수 있습니다.

아래 코드는 US를 USA로, Ummmm을 Umm으로 통합하는 코드입니다.

In [None]:
# 동의어 사전
synonym_dict = {'US':'USA', 'U.S':'USA', 'Ummm':'Umm', 'Ummmm':'Umm' }
text = "She became a US citizen. Ummmm, I think, maybe and or."
normalized_words = []

다음으로, 문장을 단어 토큰화 한 다음 토큰들을 순회하면서 동의어 사전의 키에 해당 단어가 포함되는지 확인합니다. 만약에 포함된다면 정규화할 단어로 바꿉니다.

In [None]:
# 단어 토큰화
tokenized_words = nltk.word_tokenize(text)

for word in tokenized_words:
    # 동의어 사전에 있는 단어라면, value에 해당하는 값으로 변환
    if word in synonym_dict.keys():
        word = synonym_dict[word]

    normalized_words.append(word)

In [None]:
# 결과 확인
print(normalized_words)

['She', 'became', 'a', 'USA', 'citizen', '.', 'Umm', ',', 'I', 'think', ',', 'maybe', 'and', 'or', '.', 'She', 'became', 'a', 'USA', 'citizen', '.', 'Umm', ',', 'I', 'think', ',', 'maybe', 'and', 'or', '.']


## 9. 어간추출

특정한 단어의 핵심이 되는 부분을 어간(Stem)이라고 합니다. 그리고 단어에서 어간을 찾아내는 것을 어간 추출(Stemming)이라고 합니다. 서로 다른 형태의 단어들도 어간 추출을 하면 같은 단어로 통합되기 때문에 이를 정규화 방법 중 하나로 사용합니다.

아래는 어간 추출 알고리즘 중 하나인 포터 스테머 알고리즘(Porter Stemmer Algorithm)의 규칙 일부입니다. 단순히 어미만 잘라내는 방식으로 어간을 찾고 있는데요. 그렇기 때문에 사전에 없는 단어가 결과로 나오기도 합니다.

- alize → al (Formalize → Formal)
- ational → ate (Relational -> Relate)
- ate → 제거 (Activate -> Activ)
- ment → 제거 (Encouragement -> Encourage)

예를 들면 Activate에서 ate를 제거해 찾은 어간 activ는 사전에 없는 단어입니다. ate를 제거하고 뒤에 e를 붙여줘야 완전한 단어가 되지만, 그렇게까지 섬세하게 처리해 주지는 못하고 있네요.

따라서 코퍼스의 특성이나 분석하는 상황에 따라 어간 추출을 하는게 적합한지를 잘 판단해야 합니다. 그렇지 않으면 분석에 활용돼야 하는 중요한 단어가 손실될 수 있습니다.

# NLTK로 어간 추출 하기

NLTK는 어간 추출을 위한 알고리즘으로 포터 스테머(Porter Stemmer)와 랭커스터 스테머(Lancaster Stemmer)를 제공합니다. 두 알고리즘은 어간 추출을 하는 기준이 미세하게 다르기 때문에 무엇을 사용하느냐에 따라 결과가 조금씩 달라집니다. 하지만 사용 방식은 거의 동일하기 때문에, 이번 레슨에서는 포터 스테머 알고리즘을 사용하는 방법만 자세히 알아 볼게요. 아래는 어간 추출을 위한 코드입니다.

In [None]:
from nltk.stem import PorterStemmer

In [None]:
porter_stemmer = PorterStemmer()
text = "You are so lovely. I am loving you now."
porter_stemmed_words = []

In [None]:
# 어간 추출을 하기 전에 단어 토큰화가 되어야 한다.
tokenized_words = nltk.word_tokenize(text)

다음으로, 토큰화 된 단어를 순회하며 어간을 추출하여 결과를 porter_stemmed_words에 추가합니다. 참고로, NLTK의 porter_stemmer.stem() 함수는 단어가 포터 스테머 알고리즘의 기준에 포함되면 추출된 어간을 반환하고, 그렇지 않은 경우에는 원래의 단어를 반환해 줍니다.

In [None]:
# 포터 스테머의 어간 추출
for word in tokenized_words:
    stem = porter_stemmer.stem(word)
    porter_stemmed_words.append(stem)

In [None]:
# lovely와 loving이 love로 어간 추출. 서로 다른 두 개의 단어가 하나의 어간으로 정규화.
print('어간 추출 전 :', tokenized_words)
print('포터 스테머의 어간 추출 후:', porter_stemmed_words)

어간 추출 전 : ['You', 'are', 'so', 'lovely', '.', 'I', 'am', 'loving', 'you', 'now', '.']
포터 스테머의 어간 추출 후: ['you', 'are', 'so', 'love', '.', 'i', 'am', 'love', 'you', 'now', '.']


포터 스테머 알고리즘을 이용한 어간 추출 방법을 배웠는데요. 랭커스터 스테머 알고리즘은 동일한 코드에 적용하는 함수만 바꾸면 됩니다.

In [None]:
from nltk.stem import LancasterStemmer

lancaster_stemmer = LancasterStemmer()
text = "You are so lovely. I am loving you now."
lancaster_stemmed_words = []

# 랭커스터 스테머의 어간 추출
for word in tokenized_words:
    stem = lancaster_stemmer.stem(word)
    lancaster_stemmed_words.append(stem)

In [None]:
print('어간 추출 전 :', tokenized_words)
print('랭커스터 스테머의 어간 추출 후:', lancaster_stemmed_words)

어간 추출 전 : ['You', 'are', 'so', 'lovely', '.', 'I', 'am', 'loving', 'you', 'now', '.']
랭커스터 스테머의 어간 추출 후: ['you', 'ar', 'so', 'lov', '.', 'i', 'am', 'lov', 'you', 'now', '.']


In [None]:
# 어간 추출 하는 코드 -> 함수화

from nltk.stem import PorterStemmer

# 포터 스테머 어간 추출 함수
def stemming_by_porter(tokenized_words):
    porter_stemmer = PorterStemmer()
    porter_stemmed_words = []

    for word in tokenized_words:
        stem = porter_stemmer.stem(word)
        porter_stemmed_words.append(stem)

    return porter_stemmed_words

## 10. 어간 추출 실습
포터 스테머 알고리즘으로 어간을 추출하는 함수 stemming_by_porter()를 만들어주세요.

stemming_by_porter() 함수는 파라미터로 토큰화한 코퍼스(tokenized_words)가 전달됩니다.
결과로는 어간이 추출된 토큰 리스트가 반환됩니다.

In [None]:
# 필요한 패키지와 함수 불러오기
import nltk
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
nltk.download('punkt')

tokenized_words = word_tokenize(corpus)

# 포터 스테머의 어간 추출
def stemming_by_porter(tokenized_words):
    porter_stemmer = PorterStemmer()
    porter_stemmed_words = []

    for word in tokenized_words:
        # 여기에 코드를 작성하세요
        stem = porter_stemmer.stem(word)
        porter_stemmed_words.append(stem)

    return porter_stemmed_words

stemming_by_porter(tokenized_words)

## 11. 자연어 전처리 적용
실습에는 IMDb 영화 리뷰 데이터를 사용하겠습니다. IMDb는 The Internet Movie Database의 약자로, 약 200만개 이상의 영화 관련 정보들이 저장되어 있는 데이터 베이스입니다.

실습에는 IMDb에 있는 데이터 중 10개만 가져와서 사용하겠습니다. 아래 imdb.tsv 파일을 확인해 주세요.

실무에서는 자연어 데이터를 보통 Pandas 데이터 프레임 형태로 처리합니다. 본 레슨에서도 실무 상황과 동일하게 Pandas 데이터 프레임의 각 로우에 코퍼스들을 저장하고 실습을 진행하겠습니다.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('/content/drive/MyDrive/Colab_Notebooks/imdb.tsv', delimiter='\t', quoting=3)
df

Unnamed: 0.1,Unnamed: 0,review
0,0,"""Watching Time Chasers, it obvious that it was..."
1,1,I saw this film about 20 years ago and remembe...
2,2,"Minor Spoilers In New York, Joan Barnard (Elvi..."
3,3,I went to see this film with a great deal of e...
4,4,"""Yes, I agree with everyone on this site this ..."
5,5,"""Jennifer Ehle was sparkling in \""""Pride and P..."
6,6,Amy Poehler is a terrific comedian on Saturday...
7,7,"""A plane carrying employees of a large biotech..."
8,8,"A well made, gritty science fiction movie, it ..."
9,9,"""Incredibly dumb and utterly predictable story..."


# 대소문자 통합
가장 먼저 정규화를 위해 코퍼스의 대소문자를 통합해 주겠습니다. 앞선 정규화 레슨에서 대소문자 통합은 보통 대문자를 소문자로 바꾼다고 했었죠? 해당 과정을 진행해 보겠습니다.

df[’review’]는 Pandas 시리즈 형식의 데이터인데요. 해당 데이터 형식으로 저장되어 있는 문자열들을 소문자로 변환하려면 str.lower() 를 사용하면 됩니다.

In [None]:
df['review'] = df['review'].str.lower()
print(df['review'][0])

"watching time chasers, it obvious that it was made by a bunch of friends. maybe they were sitting around one day in film school and said, \""hey, let's pool our money together and make a really bad movie!\"" or something like that. what ever they said, they still ended up making a really bad movie--dull story, bad script, lame acting, poor cinematography, bottom of the barrel stock music, etc. all corners were cut, except the one that would have prevented this film's release. life's like that."


# 단어 토큰화

다음으로 전체 코퍼스를 단어로 토큰화해 보겠습니다. df['review']에 있는 모든 로우에 word_tokenized() 함수를 적용하면 되는데요. apply() 함수를 사용하면 그 작업을 쉽게 처리할 수 있습니다. apply()는 파라미터로 함수 이름을 전달하여 데이터 프레임 전체에 동일한 함수를 적용시켜 줍니다. 사용 방법은 아래와 같습니다.

In [None]:
df['word_tokens'] = df['review'].apply(word_tokenize)
print(df['word_tokens'][0])

['``', 'watching', 'time', 'chasers', ',', 'it', 'obvious', 'that', 'it', 'was', 'made', 'by', 'a', 'bunch', 'of', 'friends', '.', 'maybe', 'they', 'were', 'sitting', 'around', 'one', 'day', 'in', 'film', 'school', 'and', 'said', ',', '\\', "''", "''", 'hey', ',', 'let', "'s", 'pool', 'our', 'money', 'together', 'and', 'make', 'a', 'really', 'bad', 'movie', '!', '\\', "''", "''", 'or', 'something', 'like', 'that', '.', 'what', 'ever', 'they', 'said', ',', 'they', 'still', 'ended', 'up', 'making', 'a', 'really', 'bad', 'movie', '--', 'dull', 'story', ',', 'bad', 'script', ',', 'lame', 'acting', ',', 'poor', 'cinematography', ',', 'bottom', 'of', 'the', 'barrel', 'stock', 'music', ',', 'etc', '.', 'all', 'corners', 'were', 'cut', ',', 'except', 'the', 'one', 'that', 'would', 'have', 'prevented', 'this', 'film', "'s", 'release', '.', 'life', "'s", 'like', 'that', '.', "''"]


# 데이터 정제

데이터 정제 방법으로는 등장 빈도, 단어 길이, 불용어 세트를 사용하는 방법을 배웠었죠? 해당 내용들을 모두 활용해 볼게요. 각 코퍼스별로 등장 빈도가 1회 이하, 단어의 길이가 2 이하, 그리고 NLTK에서 기본 제공하는 불용어에 해당하는 단어들을 정제해 보겠습니다.

해당 과정은 preprocess.py 파일에 만들어 둔 함수 clean_by_freq(), clean_by_len(), clean_by_stopwords()를 사용하면 쉽게 처리할 수 있는데요. 불러오기 전에 꼭 아래 코드를 먼저 실행해야 합니다.

In [None]:
%load_ext autoreload
%autoreload 2

ipynb 파일에서 직접 만든 파이썬 모듈(.py)을 불러와 사용할 때, 파이썬 모듈 파일이 중간에 수정되면 해당 내용이 자동으로 반영되지 않는 문제가 있습니다. 그래서, preprocess.py 파일을 수정할 때마다 주피터 노트북의 커널을 Restart해야 하는 번거로움이 있는데요. 그런 번거로움을 줄이기 위해 위의 코드를 먼저 실행해야 합니다. 관련된 자세한 사항은 튜토리얼 레슨을 참고해 주세요.

그러면 불러온 함수들을 df['word_tokens']에 apply()로 적용해 볼게요.

In [None]:
# preprocess.py 파일

from nltk.stem import PorterStemmer
from collections import Counter

# 등장 빈도 기준 정제 함수
def clean_by_freq(tokenized_words, cut_off_count):
    # 파이썬의 Counter 모듈을 통해 단어의 빈도수 카운트하여 단어 집합 생성
    vocab = Counter(tokenized_words)

    # 빈도수가 cut_off_count 이하인 단어 set 추출
    uncommon_words = {key for key, value in vocab.items() if value <= cut_off_count}

    # uncommon_words에 포함되지 않는 단어 리스트 생성
    cleaned_words = [word for word in tokenized_words if word not in uncommon_words]

    return cleaned_words

# 단어 길이 기준 정제 함수
def clean_by_len(tokenized_words, cut_off_length):
    # 길이가 cut_off_length 이하인 단어 제거
    cleaned_by_freq_len = []

    for word in tokenized_words:
        if len(word) > cut_off_length:
            cleaned_by_freq_len.append(word)

    return cleaned_by_freq_len

# 불용어 제거 함수
def clean_by_stopwords(tokenized_words, stop_words_set):
    cleaned_words = []

    for word in tokenized_words:
        if word not in stop_words_set:
            cleaned_words.append(word)

    return cleaned_words

# 포터 스테머 어간 추출 함수
def stemming_by_porter(tokenized_words):
    porter_stemmer = PorterStemmer()
    porter_stemmed_words = []

    for word in tokenized_words:
        stem = porter_stemmer.stem(word)
        porter_stemmed_words.append(stem)

    return porter_stemmed_words

In [None]:
from google.colab import files

src = list(files.upload().values())[0]
open('preprocess.py','wb').write(src)

Saving preprocess.py to preprocess.py


1562

In [None]:
# .py 모듈 수정 시 자동 리로드
from preprocess import clean_by_freq
from preprocess import clean_by_len
from preprocess import clean_by_stopwords

In [None]:
stopwords_set = set(stopwords.words('english'))

df['cleaned_tokens'] = df['word_tokens'].apply(lambda x: clean_by_freq(x, 1))
df['cleaned_tokens'] = df['cleaned_tokens'].apply(lambda x: clean_by_len(x, 2))
df['cleaned_tokens'] = df['cleaned_tokens'].apply(lambda x: clean_by_stopwords(x, stopwords_set))

만들어 둔 함수들을 데이터 프레임에 적용할 때 처음 보는 표현 방식이 사용됐는데요. lambda 파라미터: 표현식 형태로 사용된 이 부분을 람다 함수라고 부릅니다.

예를 들어 아래와 같이 파라미터로 받은 두 숫자를 더하는 함수가 있다고 가정해 볼게요.

In [None]:
def plus(a, b):
    return a+b

해당 함수는 람다 함수로 아래와 같이 표현할 수 있습니다.

In [None]:
lambda x, y: x + y

<function __main__.<lambda>(x, y)>

위에서 사용된 예시로도 생각해 볼게요. 아래의 람다 함수는 clean_by_freq() 함수를 실행해 주는 하나의 함수입니다. 매개변수 x에 데이터프레임의 각 행에 있는 데이터가 들어와서 clean_by_freq(x, 1)을 실행한 결과를 리턴하는 함수인거죠.

In [None]:
lambda x: clean_by_freq(x ,1)

<function __main__.<lambda>(x)>

apply()는 파라미터로 적용할 함수 이름 하나만 넣을 수 있기 때문에 clean_by_freq()처럼 두 개 이상의 파라미터가 필요한 함수를 써야 할 때에는 해당 함수를 실행하는 또 다른 함수를 람다식 형태로 만들어서 사용할 수 있습니다.

적용한 결과도 한번 확인해 보겠습니다.

In [None]:
print(df['cleaned_tokens'][0])

['one', 'film', 'said', 'really', 'bad', 'movie', 'like', 'said', 'really', 'bad', 'movie', 'bad', 'one', 'film', 'like']


##어간 추출
마지막으로 어간 추출을 이용해 정규화해 보겠습니다. 어간 추출 레슨에서 만들었던 stemming_by_porter() 함수를 df['cleaned_tokens']에 적용해 볼게요.

In [None]:
from preprocess import stemming_by_porter
df['stemmed_tokens'] = df['cleaned_tokens'].apply(stemming_by_porter)
print(df['stemmed_tokens'][0])

['one', 'film', 'said', 'realli', 'bad', 'movi', 'like', 'said', 'realli', 'bad', 'movi', 'bad', 'one', 'film', 'like']
