# Visualização dos dados e tratamento

## Bibliotecas

In [1]:
from nltk import word_tokenize, download
from nltk.stem import LancasterStemmer, WordNetLemmatizer
from nltk.corpus import stopwords
from keras.preprocessing.text import Tokenizer 
import re
import pandas as pd
from wordcloud import WordCloud
import nltk

## Visualizando e conhecendo o DataFrame

In [2]:
dados = pd.read_csv('dados/scrap.csv', sep=';')
dados.head()

Unnamed: 0,avaliacao,texto
0,"1,0 de 5 estrelas",\nO livro chegou bastante 'entortado'\n
1,"5,0 de 5 estrelas",\nO livro de Dale Carnegie é um clássico da au...
2,"5,0 de 5 estrelas",\nConfesso que sempre tenho um preconceito com...
3,"5,0 de 5 estrelas",\nJá tinha lido outro livro do Dale Carnegie a...
4,"5,0 de 5 estrelas",\nClássico atemporal publicado pela primeira v...


In [3]:
print(f'O DataFrame possui {dados.shape[0]} linhas e {dados.shape[1]} colunas.')

O DataFrame possui 427 linhas e 2 colunas.


In [4]:
print('Ocorrencia de valor nulo em cada coluna:')
dados.isna().sum()

Ocorrencia de valor nulo em cada coluna:


avaliacao    0
texto        7
dtype: int64

In [5]:
# removendo valores nulo #
dados = dados.dropna(how = 'any') #any - remove a linha inteira que contem ao menos 1 valor nulo
#  #  #  #

In [6]:
print(f'O DataFrame sem dados nulos possui {dados.shape[0]} linhas e {dados.shape[1]} colunas.')

O DataFrame sem dados nulos possui 420 linhas e 2 colunas.


In [7]:
# transformando dados #
# variavel dados

# removendo o \n da coluna 'texto' #
dados['texto'] = dados['texto'].map(lambda x: str(x).replace('\n', ''))

# removendo ",0 de 5 estrelas" dos valores da coluna 'avaliacao' #
dados['avaliacao'] = dados['avaliacao'].map(lambda x: str(x).replace(',0 de 5 estrelas', '',))

# transformando 'avaliacao' em numeros inteiros #
dados['avaliacao'] = dados['avaliacao'].astype(int)

In [8]:
# tranformando dados #
#variavel df

# adicionando coluna 'sentimento' #
df = pd.DataFrame(dados,columns=['avaliacao','texto','sentimento'])

# substituindo valores nulos por sentimentos #
#(<3) = insatisfação, (3) = neutro, (>3) = satisfação
df.loc[df.avaliacao < 3,'sentimento']='insatisfação'
df.loc[df.avaliacao == 3,'sentimento']='neutro'
df.loc[df.avaliacao > 3,'sentimento']='satisfação'

# removendo coluna 'avaliacao' #
df = df.drop(columns={'avaliacao'})


#  #  #  #

## Limpeza do texto

In [9]:
# Limpeza do texto #

# removendo tudo o que nao for palavras 
pattern = '[^A-Za-z0-9\s]+'
filter = lambda x : re.sub(pattern, '', x)
# aplicando ao texto
texto_scrap = [filter(text) for text in df['texto']]
texto_scrap

['O livro chegou bastante entortado',
 'O livro de Dale Carnegie  um clssico da autoajuda e por isso tive receio ao comprlo pois imaginava uma pilha de clichs que me seriam pouco teis Percebi que no  apenas um livro para vender melhor embora possa ser lido assim No  um livro para tmidos desabrocharem embora possa ser lido assim Foi surpreendente perceber que para alm da autoajuda h um mtodo e um interesse genuno no auxlio  melhora das interaes sociais',
 'Confesso que sempre tenho um preconceito com livros com ttulos similares mas se tivesse lido esse livro 10 anos atrs eu teria me poupado de um duro aprendizado cheio de pancadas O livro  fornece uma anlise interessante das relaes humanas tem muitos exemplos e continua bastante relevante no tem como no se tornar melhor depois de ler',
 'J tinha lido outro livro do Dale Carnegie antes Como Falar em Pblico e Influenciar Pessoas no Mundo dos Negcios  um livro leve com muitos exemplos reais e histrias interessantes o que me fez criar a exp

In [10]:
# tokenização #

texto_tokens = [word_tokenize(doc) for doc in texto_scrap]
texto_tokens

[['O', 'livro', 'chegou', 'bastante', 'entortado'],
 ['O',
  'livro',
  'de',
  'Dale',
  'Carnegie',
  'um',
  'clssico',
  'da',
  'autoajuda',
  'e',
  'por',
  'isso',
  'tive',
  'receio',
  'ao',
  'comprlo',
  'pois',
  'imaginava',
  'uma',
  'pilha',
  'de',
  'clichs',
  'que',
  'me',
  'seriam',
  'pouco',
  'teis',
  'Percebi',
  'que',
  'no',
  'apenas',
  'um',
  'livro',
  'para',
  'vender',
  'melhor',
  'embora',
  'possa',
  'ser',
  'lido',
  'assim',
  'No',
  'um',
  'livro',
  'para',
  'tmidos',
  'desabrocharem',
  'embora',
  'possa',
  'ser',
  'lido',
  'assim',
  'Foi',
  'surpreendente',
  'perceber',
  'que',
  'para',
  'alm',
  'da',
  'autoajuda',
  'h',
  'um',
  'mtodo',
  'e',
  'um',
  'interesse',
  'genuno',
  'no',
  'auxlio',
  'melhora',
  'das',
  'interaes',
  'sociais'],
 ['Confesso',
  'que',
  'sempre',
  'tenho',
  'um',
  'preconceito',
  'com',
  'livros',
  'com',
  'ttulos',
  'similares',
  'mas',
  'se',
  'tivesse',
  'lido',
  

In [11]:
# removendo stopwords #

stop_words = stopwords.words('portuguese')

texto_tokens = [[token for token in text if token not in stop_words]
                  for text in texto_tokens]
texto_tokens =  texto_tokens
texto_tokens

[['O', 'livro', 'chegou', 'bastante', 'entortado'],
 ['O',
  'livro',
  'Dale',
  'Carnegie',
  'clssico',
  'autoajuda',
  'receio',
  'comprlo',
  'pois',
  'imaginava',
  'pilha',
  'clichs',
  'pouco',
  'teis',
  'Percebi',
  'apenas',
  'livro',
  'vender',
  'melhor',
  'embora',
  'possa',
  'ser',
  'lido',
  'assim',
  'No',
  'livro',
  'tmidos',
  'desabrocharem',
  'embora',
  'possa',
  'ser',
  'lido',
  'assim',
  'Foi',
  'surpreendente',
  'perceber',
  'alm',
  'autoajuda',
  'h',
  'mtodo',
  'interesse',
  'genuno',
  'auxlio',
  'melhora',
  'interaes',
  'sociais'],
 ['Confesso',
  'sempre',
  'preconceito',
  'livros',
  'ttulos',
  'similares',
  'lido',
  'livro',
  '10',
  'anos',
  'atrs',
  'poupado',
  'duro',
  'aprendizado',
  'cheio',
  'pancadas',
  'O',
  'livro',
  'fornece',
  'anlise',
  'interessante',
  'relaes',
  'humanas',
  'muitos',
  'exemplos',
  'continua',
  'bastante',
  'relevante',
  'tornar',
  'melhor',
  'ler'],
 ['J',
  'lido',
  

## Pré Processamento

In [12]:
# lemmatizando #

lem = WordNetLemmatizer()
texto_tokens = [[lem.lemmatize(token) for token in text] for text in texto_tokens]
texto_tokens

[['O', 'livro', 'chegou', 'bastante', 'entortado'],
 ['O',
  'livro',
  'Dale',
  'Carnegie',
  'clssico',
  'autoajuda',
  'receio',
  'comprlo',
  'poi',
  'imaginava',
  'pilha',
  'clichs',
  'pouco',
  'teis',
  'Percebi',
  'apenas',
  'livro',
  'vender',
  'melhor',
  'embora',
  'possa',
  'ser',
  'lido',
  'assim',
  'No',
  'livro',
  'tmidos',
  'desabrocharem',
  'embora',
  'possa',
  'ser',
  'lido',
  'assim',
  'Foi',
  'surpreendente',
  'perceber',
  'alm',
  'autoajuda',
  'h',
  'mtodo',
  'interesse',
  'genuno',
  'auxlio',
  'melhora',
  'interaes',
  'sociais'],
 ['Confesso',
  'sempre',
  'preconceito',
  'livros',
  'ttulos',
  'similares',
  'lido',
  'livro',
  '10',
  'ano',
  'atrs',
  'poupado',
  'duro',
  'aprendizado',
  'cheio',
  'pancadas',
  'O',
  'livro',
  'fornece',
  'anlise',
  'interessante',
  'relaes',
  'humanas',
  'muitos',
  'exemplos',
  'continuum',
  'bastante',
  'relevante',
  'tornar',
  'melhor',
  'ler'],
 ['J',
  'lido',
  '

In [None]:
df.to_csv('dados/dados_tratados.csv', index = False)