### carregamos o dataset

In [1]:
import pandas as pd 

resenhas = pd.read_csv('imdb-reviews-pt-br.csv')

# sera necessario limitar o numero de resenhas - 75% dos dados
resenhas = resenhas.sample(frac = 0.75).reset_index(drop=True)

troca = {
    'neg' : 0,
    'pos' : 1
}

resenhas['sentiment_b'] = resenhas.sentiment.map(troca)
resenhas = resenhas.drop(columns = ["id" , "text_en", "sentiment"], axis = 1)

### tratando o dataset

In [2]:
import nltk

nltk.download('stopwords')
stop_words = nltk.corpus.stopwords.words("portuguese")

import re

# tudo lowercase
for index, row in resenhas.iterrows():
    resenhas.at[index,'text_pt'] = row['text_pt'].lower()
    
# elimina as stop words
for index, row in resenhas.iterrows():
    # retorna apenas as palavras - eliminando os pnts de sinalizacao
    words = re.findall(r"[\w']+", row['text_pt'])
    temp = [ws for ws in words if ws not in stop_words]
    resenhas.at[index,'text_pt'] = ' '.join(temp)

# retiramos os acentos das palavras
# retiramos tb as stop words sem acento
import unidecode

for index, row in resenhas.iterrows():
    resenhas.at[index,'text_pt'] = unidecode.unidecode(row['text_pt'])
    
stop_words_sem_acentuacao = [unidecode.unidecode(sw) for sw in stop_words]

for index, row in resenhas.iterrows():
    # retorna apenas as palavras - eliminando os pnts de sinalizacao
    words = re.findall(r"[\w']+", row['text_pt'])
    temp = [ws for ws in words if ws not in stop_words_sem_acentuacao]
    resenhas.at[index,'text_pt'] = ' '.join(temp)
    
# stemizacao
nltk.download('rslp')
stemmer = nltk.RSLPStemmer()
for index, row in resenhas.iterrows():
    #retorna apenas as palavras - eliminando os pnts de sinalizacao
    words = re.findall(r"[\w']+", row['text_pt'])
    temp = [stemmer.stem(ws) for ws in words]
    resenhas.at[index,'text_pt'] = ' '.join(temp)

[nltk_data] Downloading package stopwords to /home/pedro/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /home/pedro/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


## TF-IDF (Frequência dos Termos - Inverso da Frequência do Documento)
#### TF-IDF irá contar a frequência das palavras, ponderando-as em todo o dataset

### exemplo

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer

frases = ["Assisti um filme ótimo", "Assisti um filme péssimo"]

tfidf = TfidfVectorizer(lowercase = False, max_features = 50)

caracteristicas = tfidf.fit_transform(frases)

pd.DataFrame(
    caracteristicas.todense(),
    columns = tfidf.get_feature_names()

)

Unnamed: 0,Assisti,filme,péssimo,um,ótimo
0,0.448321,0.448321,0.0,0.448321,0.630099
1,0.448321,0.448321,0.630099,0.448321,0.0


### aplicando ao nosso dataset 
#### substituindo o bag of words

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(lowercase = False, max_features = 50)

caracteristicas = tfidf.fit_transform(resenhas.text_pt)

### repetimos a classificacao

In [5]:
# estratifica os dados
from sklearn.model_selection import train_test_split

SEED = 20
treino, teste, classe_treino, classe_teste = train_test_split(
    caracteristicas,
    resenhas.sentiment_b,
    random_state = SEED)

# realiza a classificacao
from sklearn.linear_model import LogisticRegression

modelo = LogisticRegression(solver = 'lbfgs')
modelo.fit(treino,classe_treino)
modelo.score(teste,classe_teste)

0.6973960860423742