## 영문 텍스트 토큰화 하기

데이터 셋 출처: https://www.kaggle.com/datasets/hijest/genre-classification-dataset-imdb

연습문제는 영문 텍스트로 진행할 예정입니다. 영문도 마찬가지로 토큰화를 적용해주어야 하는데, 한국어와 몇가지 다른 포인트들이 있습니다. 영어는 먼저 대소문자를 신경써주어야 하며, ing나 ed와 같이 시제를 나타내는 조사를 분리해주어야 합니다. 그리고 경우에 따라서 불용어를 처리해주어야 합니다.

영문 토큰화에는 nltk 라이브러리가 대표적입니다. nltk를 사용하여 영문 텍스트를 전처리해보겠습니다.

### 영어 문장 토큰화

영어 문장은 소문자로 변경한 뒤, nltk 라이브러리에 내장된 WordPunctTokenizer를 이용하여 토큰화 하겠습니다.

In [9]:
import pandas as pd

df = pd.read_csv("./data/movies.csv")

In [10]:
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
import nltk

nltk.download("punkt")
nltk.download("wordnet")
nltk.download('stopwords')
stop_words_list = stopwords.words("english")

def preprocess(text):
    text = text.lower()
    lemmatizer = WordNetLemmatizer()
    tokens = word_tokenize(text)
    stems = [lemmatizer.lemmatize(token) for token in tokens]
    filtered_tokens = [x for x in stems if x not in stop_words_list]
    return filtered_tokens

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\WOODLAC\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\WOODLAC\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\WOODLAC\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


In [13]:
df['processed_content'] = df['content'].apply(preprocess)

# Print the dataframe to see the result
print(df)

                                            title        genre  \
0                    Oscar et la dame rose (2009)        drama   
1                                    Cupid (1997)     thriller   
2                Young, Wild and Wonderful (1980)        adult   
3                           The Secret Sin (1915)        drama   
4                          The Unrecovered (2007)        drama   
...                                           ...          ...   
54209                             "Bonino" (1953)       comedy   
54210                 Dead Girls Don't Cry (????)       horror   
54211   Ronald Goedemondt: Ze bestaan echt (2008)  documentary   
54212                    Make Your Own Bed (1944)       comedy   
54213  Nature's Fury: Storm of the Century (2006)      history   

                                                 content  \
0      Listening in to a conversation between his doc...   
1      A brother and sister with a past incestuous re...   
2      As the bus empties t

In [11]:
print(df['content'][0])

Listening in to a conversation between his doctor and parents, 10-year-old Oscar learns what nobody has the courage to tell him. He only has a few weeks to live. Furious, he refuses to speak to anyone except straight-talking Rose, the lady in pink he meets on the hospital stairs. As Christmas approaches, Rose uses her fantastical experiences as a professional wrestler, her imagination, wit and charm to allow Oscar to live life and love to the full, in the company of his friends Pop Corn, Einstein, Bacon and childhood sweetheart Peggy Blue.



In [55]:
from nltk.tokenize import WordPunctTokenizer

tokenizer = WordPunctTokenizer()

In [56]:
sample = df.iloc[0]["content"].lower()
print(tokenizer.tokenize(sample))

['listening', 'in', 'to', 'a', 'conversation', 'between', 'his', 'doctor', 'and', 'parents', ',', '10', '-', 'year', '-', 'old', 'oscar', 'learns', 'what', 'nobody', 'has', 'the', 'courage', 'to', 'tell', 'him', '.', 'he', 'only', 'has', 'a', 'few', 'weeks', 'to', 'live', '.', 'furious', ',', 'he', 'refuses', 'to', 'speak', 'to', 'anyone', 'except', 'straight', '-', 'talking', 'rose', ',', 'the', 'lady', 'in', 'pink', 'he', 'meets', 'on', 'the', 'hospital', 'stairs', '.', 'as', 'christmas', 'approaches', ',', 'rose', 'uses', 'her', 'fantastical', 'experiences', 'as', 'a', 'professional', 'wrestler', ',', 'her', 'imagination', ',', 'wit', 'and', 'charm', 'to', 'allow', 'oscar', 'to', 'live', 'life', 'and', 'love', 'to', 'the', 'full', ',', 'in', 'the', 'company', 'of', 'his', 'friends', 'pop', 'corn', ',', 'einstein', ',', 'bacon', 'and', 'childhood', 'sweetheart', 'peggy', 'blue', '.']


### 어간 추출

한국어에서 조사가 붙듯이 영어에서도 ing, ed 등 시제나 현재 진행 등을 나타내는 문법적인 요소들이 붙습니다. 이를 분리해내려면 stemming이라는 기법을 사용할 수 있습니다. stemming에 대한 자세한 내용은 생략하고, 가장 대표적인 stemming 알고리즘인 PorterStem을 이용하여 어간을 추출해보겠습니다.

In [57]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

In [58]:
tokens = tokenizer.tokenize(sample)
stems = [stemmer.stem(token) for token in tokens]
print(stems)

['listen', 'in', 'to', 'a', 'convers', 'between', 'hi', 'doctor', 'and', 'parent', ',', '10', '-', 'year', '-', 'old', 'oscar', 'learn', 'what', 'nobodi', 'ha', 'the', 'courag', 'to', 'tell', 'him', '.', 'he', 'onli', 'ha', 'a', 'few', 'week', 'to', 'live', '.', 'furiou', ',', 'he', 'refus', 'to', 'speak', 'to', 'anyon', 'except', 'straight', '-', 'talk', 'rose', ',', 'the', 'ladi', 'in', 'pink', 'he', 'meet', 'on', 'the', 'hospit', 'stair', '.', 'as', 'christma', 'approach', ',', 'rose', 'use', 'her', 'fantast', 'experi', 'as', 'a', 'profession', 'wrestler', ',', 'her', 'imagin', ',', 'wit', 'and', 'charm', 'to', 'allow', 'oscar', 'to', 'live', 'life', 'and', 'love', 'to', 'the', 'full', ',', 'in', 'the', 'compani', 'of', 'hi', 'friend', 'pop', 'corn', ',', 'einstein', ',', 'bacon', 'and', 'childhood', 'sweetheart', 'peggi', 'blue', '.']


### 불용어 처리

영어에는 자주 a, and, as와 같이 자주 사용되는 어휘들이 있습니다. 이들은 자주 사용되지만 큰 의미가 없는 토큰으로 간주하여 삭제 처리하겠습니다. 이를 불용어(stop word) 처리라고 부릅니다. (물론 선택에 따라서 삭제하지 않을 수도 있으며, 현대의 딥러닝 모델들은 굳이 삭제하지 않습니다.) 

마찬가지로 nltk에 내장되어 있는 stopword를 이용해 불용어 처리를 진행하겠습니다. 

In [59]:
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')
stop_words_list = stopwords.words("english")

[nltk_data] Downloading package stopwords to /Users/user/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [60]:
print(stop_words_list)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [61]:
def preprocess(text):
    text = text.lower()
    tokens = tokenizer.tokenize(text)
    stems = [stemmer.stem(token) for token in tokens]
    filtered_tokens = [x for x in stems if x not in stop_words_list]
    return filtered_tokens

In [63]:
from tqdm import tqdm

tqdm.pandas()
df["content_tokens"] = df["content"].progress_apply(lambda x: preprocess(x))

100%|█████████████████████████████████████| 54214/54214 [00:43<00:00, 1243.41it/s]


In [64]:
target_idx = 1
print(df.iloc[target_idx]["content"])
print(df.iloc[target_idx]["content_tokens"])

A brother and sister with a past incestuous relationship have a current murderous relationship. He murders the women who reject him and she murders the women who get too close to him.

['brother', 'sister', 'past', 'incestu', 'relationship', 'current', 'murder', 'relationship', '.', 'murder', 'women', 'reject', 'murder', 'women', 'get', 'close', '.']


### 결과 저장

In [65]:
df.to_csv("./data/movies_preprocessed.csv", index=False)