# Visualização dos dados e tratamento

## Bibliotecas

In [96]:
import re
import pandas as pd
import numpy as np
import nltk

## Visualizando e conhecendo o DataFrame

In [97]:
dados = pd.read_csv('dados/scrap.csv', sep=';')
dados.head()

Unnamed: 0,avaliacao,texto
0,"1,0 de 5 estrelas",\nO livro chegou bastante 'entortado'\n
1,"5,0 de 5 estrelas",\nO livro de Dale Carnegie é um clássico da au...
2,"5,0 de 5 estrelas",\nConfesso que sempre tenho um preconceito com...
3,"5,0 de 5 estrelas",\nJá tinha lido outro livro do Dale Carnegie a...
4,"5,0 de 5 estrelas",\nClássico atemporal publicado pela primeira v...


In [98]:
print(f'O DataFrame possui {dados.shape[0]} linhas e {dados.shape[1]} colunas.')

O DataFrame possui 427 linhas e 2 colunas.


In [99]:
print('Ocorrencia de valor nulo em cada coluna:')
dados.isna().sum()

Ocorrencia de valor nulo em cada coluna:


avaliacao    0
texto        7
dtype: int64

In [100]:
# removendo valores nulo #
dados = dados.dropna(how = 'any') #any - remove a linha inteira que contem ao menos 1 valor nulo
#  #  #  #

In [101]:
print(f'O DataFrame sem dados nulos possui {dados.shape[0]} linhas e {dados.shape[1]} colunas.')

O DataFrame sem dados nulos possui 420 linhas e 2 colunas.


In [102]:
# transformando dados #
# variavel dados

# removendo o \n da coluna 'texto' #
dados['texto'] = dados['texto'].map(lambda x: str(x).replace('\n', ''))

# removendo ",0 de 5 estrelas" dos valores da coluna 'avaliacao' #
dados['avaliacao'] = dados['avaliacao'].map(lambda x: str(x).replace(',0 de 5 estrelas', '',))

# transformando 'avaliacao' em numeros inteiros #
dados['avaliacao'] = dados['avaliacao'].astype(int)

In [103]:
# tranformando dados #
#variavel df

# adicionando coluna 'sentimento' #
df = pd.DataFrame(dados,columns=['avaliacao','texto','sentimento'])

# substituindo valores nulos por sentimentos #
#(<3) = insatisfação, (3) = neutro, (>3) = satisfação
df.loc[df.avaliacao < 3,'sentimento']='insatisfação'
df.loc[df.avaliacao == 3,'sentimento']='neutro'
df.loc[df.avaliacao > 3,'sentimento']='satisfação'

# removendo coluna 'avaliacao' #
df = df.drop(columns={'avaliacao'})

#  #  #  #

## Limpeza do texto

### Processamento

In [104]:
# removendo caracteres especiais #

def remove_caracteres_especiais(text):
    tags_html = re.compile('[^A-Za-z0-9\s]+')
    return tags_html.sub(r'', text)

df['texto'] = df['texto'].apply(remove_caracteres_especiais)
#  #  #  #

In [105]:
# transformando uppercase em lowercase #

def lower(text):
    return text.lower()

df['texto'] = df['texto'].apply(lower)

In [106]:
# removendo stopwords #

lista_stop_words = nltk.corpus.stopwords.words('portuguese')
np.transpose(lista_stop_words)

array(['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para',
       'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as',
       'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou',
       'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo',
       'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo',
       'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa',
       'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos',
       'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas',
       'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus',
       'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos',
       'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele',
       'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está',
       'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram',
       'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos

In [107]:
def removestopwords(texto):
    frases = []
    for(texto) in texto:
        sem_stop = [p for p in texto.split() if p not in lista_stop_words]
        frases.append((sem_stop))
    return frases

df['texto'] = removestopwords(df['texto'])

### Pré Processamento

In [108]:
df.to_csv('dados/dados_tratados.csv', index = False)