# Data Exploration

## 1. Imports

In [19]:
import numpy
import pandas as pd

In [51]:
import nltk

# Downloading required packages from nltk
nltk.download('punkt_tab')
nltk.download('stopwords')

[nltk_data] Downloading package punkt_tab to /Users/jv/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /Users/jv/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [4]:
df = pd.read_csv('../../../datasets/movie_reviews_with_language.csv')
df

Unnamed: 0,movie_title,username,numeric_rating,likes,language,comment
0,2001: A Space Odyssey,qaaio,2.5,0,ar,ياساتر اقسم بالله اغبى شي تابعته واكثر شي تمطي...
1,2001: A Space Odyssey,ditapie,5.0,0,en,This is the greatest film ever made. I can’t f...
2,2001: A Space Odyssey,uchinagas,5.0,0,pt,como pode esse filme existir
3,2001: A Space Odyssey,laurkarasek,1.5,0,en,Incredibly beautiful movie - especially for th...
4,2001: A Space Odyssey,nickcaven,5.0,0,en,This movie is a slow burn masterpiece. Each sc...
...,...,...,...,...,...,...
3055,2001: A Space Odyssey,silly_pssy,5.0,1,en,shapes and colors and … well… space baby of co...
3056,2001: A Space Odyssey,pateajubiladas,5.0,0,es,La mejor película espacial en mi opinión. El f...
3057,2001: A Space Odyssey,sidracheema,3.0,2,en,Glad I watched this as Kubrick intended. Over...
3058,2001: A Space Odyssey,ciaranh123,5.0,0,en,Naruto Smith what are you doing here?


## 2. Exploration

In [8]:
desired_lang = 'pt'
desired_columns = ['movie_title', 'numeric_rating', 'likes', 'comment']

df_filtered = df[df['language'] == desired_lang][desired_columns]
df_filtered

Unnamed: 0,movie_title,numeric_rating,likes,comment
2,2001: A Space Odyssey,5.0,0,como pode esse filme existir
12,2001: A Space Odyssey,4.0,1,"Da evolução humana,as viagens espacias, relaçã..."
29,2001: A Space Odyssey,5.0,0,"Não entendi, mas fodastico mds"
42,2001: A Space Odyssey,5.0,0,O Stanley Kubrick gastou todas as barrinhas ne...
45,2001: A Space Odyssey,5.0,0,Esse filme é pra ver depois de ficar bem doido...
...,...,...,...,...
3023,2001: A Space Odyssey,5.0,0,"Sendo sincero, não sei se sou capaz de descrev..."
3025,2001: A Space Odyssey,5.0,0,"""This mission is too important for me to allow..."
3044,2001: A Space Odyssey,4.5,0,Visualmente impecável. Muitos filmes de cgi at...
3051,2001: A Space Odyssey,4.5,0,laerte eu não sei se entendi mas falaram que e...


In [46]:
comment_example = df_filtered.iloc[3:4,:]["comment"]
comment_example.item()

'O Stanley Kubrick gastou todas as barrinhas nesse filme. Eu não acompanhei muito a carreira da Kubrick, provável dele ser assim a vida toda mas porra, como que pode? O filme é lindo, tudo nesse filme é impecável, da estética ao texto, tudo no seu devido lugar, Absolute cinema. 5/5'

## 3. Tokenization

In [63]:
comented_tokenized = nltk.word_tokenize(comment_example.item())
comented_tokenized

['O',
 'Stanley',
 'Kubrick',
 'gastou',
 'todas',
 'as',
 'barrinhas',
 'nesse',
 'filme',
 '.',
 'Eu',
 'não',
 'acompanhei',
 'muito',
 'a',
 'carreira',
 'da',
 'Kubrick',
 ',',
 'provável',
 'dele',
 'ser',
 'assim',
 'a',
 'vida',
 'toda',
 'mas',
 'porra',
 ',',
 'como',
 'que',
 'pode',
 '?',
 'O',
 'filme',
 'é',
 'lindo',
 ',',
 'tudo',
 'nesse',
 'filme',
 'é',
 'impecável',
 ',',
 'da',
 'estética',
 'ao',
 'texto',
 ',',
 'tudo',
 'no',
 'seu',
 'devido',
 'lugar',
 ',',
 'Absolute',
 'cinema',
 '.',
 '5/5']

## 4. Removing stop words

In [60]:
from nltk.corpus import stopwords
stops = set(stopwords.words('portuguese'))

print(f'The stopwords amount is {len(stops)}')
stops

The stopwords amount is 207


{'a',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estamos',
 'estar',
 'estas',
 'estava',
 'estavam',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéramos',
 'estivéssemos',
 'estou',
 'está',
 'estávamos',
 'estão',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fui',
 'fôramos',
 'fôssemos',
 'haja',
 'hajam',
 'hajamos',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houveram',
 'houverei',
 'houverem',
 'houveremos',
 'houveria',
 'houveriam',
 'houvermos',
 'houverá',
 'houverão',
 'houverí

In [61]:
manual_detected_stop_words = {'o', 'a', 'os', 'as', 'um', 'uma', 'uns', 'umas', 'de', 'do', 'da', 'e', 'que', 'eu', 'tu', 'ele', 'ela', 'eles', 'vós', 'nós', 'você', 'vocês', 'me', 'te', 'lhe', 'nos', 'vos', 'lhes', 'mim', 'ti', 'si'}

print(f'The manual stop words amount is {len(manual_detected_stop_words)}')

The manual stop words amount is 31


In [62]:
all_stopwords = set(stops) | set(manual_detected_stop_words)

print(f'The final stop words amount is {len(all_stopwords)}')

all_stopwords

The final stop words amount is 213


{'a',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estamos',
 'estar',
 'estas',
 'estava',
 'estavam',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéramos',
 'estivéssemos',
 'estou',
 'está',
 'estávamos',
 'estão',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fui',
 'fôramos',
 'fôssemos',
 'haja',
 'hajam',
 'hajamos',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houveram',
 'houverei',
 'houverem',
 'houveremos',
 'houveria',
 'houveriam',
 'houvermos',
 'houverá',
 'houverão',
 'houverí

In [66]:
# Using stop words

comment_without_stop_words = [w for w in comented_tokenized if w not in all_stopwords]
print(f'The size of the comment with stop words is {len(comented_tokenized)}')
print(f'The size of the comment without stop words is {len(comment_without_stop_words)}\n')

comment_without_stop_words

The size of the comment with stop words is 59
The size of the comment without stop words is 42



['O',
 'Stanley',
 'Kubrick',
 'gastou',
 'todas',
 'barrinhas',
 'nesse',
 'filme',
 '.',
 'Eu',
 'acompanhei',
 'carreira',
 'Kubrick',
 ',',
 'provável',
 'assim',
 'vida',
 'toda',
 'porra',
 ',',
 'pode',
 '?',
 'O',
 'filme',
 'lindo',
 ',',
 'tudo',
 'nesse',
 'filme',
 'impecável',
 ',',
 'estética',
 'texto',
 ',',
 'tudo',
 'devido',
 'lugar',
 ',',
 'Absolute',
 'cinema',
 '.',
 '5/5']