In [1]:
from IPython.display import HTML

 <h2><b><i>Análise de sentimento em avaliações de restaurantes</i></b></h2>

* <h3> Este notebook trata da análise de sentimento de avaliações de restaurantes usando diferentes algoritmos</h3>

<h1><b><i>Sobre os dados</i></b></h1>

* <h3><b>Visão geral dos dados: </b> Este conjunto de dados contém mais de 1.000 linhas com apenas 2 recursos... que basicamente são revisões </h3>


# Importando as bibliotecas

In [6]:
# Importing essential Libraries

# NumPy is used for numerical computations and working with arrays.
import numpy as np

# Pandas is used for data manipulation and analysis.
import pandas as pd


# Análise Exploratória de Dados (EDA)

<p>Análise Exploratória de Dados (EDA) é uma abordagem de análise de dados que visa resumir e visualizar dados para compreender suas principais características e padrões antes da modelagem estatística formal ou teste de hipóteses.</p>

<h2><b>Carregamento de dados</b></h2>
<br>
<p>
O carregamento de dados é o processo de importação ou leitura de conjuntos de dados de várias fontes, como arquivos (por exemplo, CSV, Excel), bancos de dados ou APIs, para um ambiente de análise de dados ou software para processamento e análise adicionais.</p>

In [7]:
df = pd.read_csv("./Restaurant_Reviews.tsv",delimiter='\t',quoting=3)

<h2><b>Análise descritiva de dados</b></h2>
<br>
<p>A análise descritiva de dados é o processo de uso de técnicas estatísticas e visuais para resumir e apresentar os principais recursos, padrões e insights de um conjunto de dados, normalmente envolvendo medidas como médias, medianas, desvios padrão, histogramas e gráficos de dispersão para fornecer uma visão geral. das características dos dados.</p>

In [8]:
df.shape

(1000, 2)

In [9]:
df.columns

Index(['Review', 'Liked'], dtype='object')

In [10]:
df.head()

Unnamed: 0,Review,Liked
0,Wow... Loved this place.,1
1,Crust is not good.,0
2,Not tasty and the texture was just nasty.,0
3,Stopped by during the late May bank holiday of...,1
4,The selection on the menu was great and so wer...,1


In [11]:
df.tail()

Unnamed: 0,Review,Liked
995,I think food should have flavor and texture an...,0
996,Appetite instantly gone.,0
997,Overall I was not impressed and would not go b...,0
998,"The whole experience was underwhelming, and I ...",0
999,"Then, as if I hadn't wasted enough of my life ...",0


In [12]:
df.sample(5)

Unnamed: 0,Review,Liked
753,We were sat right on time and our server from ...,1
521,If you haven't gone here GO NOW!,1
306,"Will never, ever go back.",0
849,"Bad day or not, I have a very low tolerance fo...",0
606,It was awesome.,1


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Review  1000 non-null   object
 1   Liked   1000 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 15.8+ KB


In [14]:
df['Liked'].value_counts()

1    500
0    500
Name: Liked, dtype: int64

In [15]:
df.describe()

Unnamed: 0,Liked
count,1000.0
mean,0.5
std,0.50025
min,0.0
25%,0.0
50%,0.5
75%,1.0
max,1.0


In [16]:
df.isnull().sum()

Review    0
Liked     0
dtype: int64

In [17]:
df.duplicated().sum()

4

# **Engenharia de recursos**
<br>
<p>Engenharia de recursos é o processo de criação de recursos (variáveis) novos, significativos e informativos a partir de dados existentes ou de transformação de recursos existentes para melhorar o desempenho de modelos de aprendizado de máquina e aprimorar sua capacidade de fazer previsões ou classificações precisas.</p>

In [18]:
df['Length'] = df['Review'].apply(len)
df.head(5)

Unnamed: 0,Review,Liked,Length
0,Wow... Loved this place.,1,24
1,Crust is not good.,0,18
2,Not tasty and the texture was just nasty.,0,41
3,Stopped by during the late May bank holiday of...,1,87
4,The selection on the menu was great and so wer...,1,59


# **Pré-processamento de dados**
<br>
<p>Engenharia de recursos é o processo de criação, seleção ou transformação de recursos (variáveis) em um conjunto de dados para melhorar o desempenho de modelos de aprendizado de máquina, tornando-os mais informativos e relevantes para a tarefa específica em questão, como modelagem preditiva ou classificação .</p>

<h2><b>Importação de bibliotecas essenciais de NPL</b></h2>

In [20]:
import nltk
import re

# Download NLTK stopwords data
nltk.download('stopwords')

from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\paulo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [21]:
print(list(stopwords.words('english')))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [None]:
# Limpando as avaliações e criando um corpus

# O objetivo deste código é limpar uma coleção de revisões de texto e criar um corpus de revisões limpas.
# O corpus é uma lista onde cada elemento é uma versão limpa de uma revisão.

# Inicialize uma lista vazia para armazenar as avaliações limpas.
corpus = []

# Percorra as primeiras 1000 revisões (ajuste o intervalo conforme necessário) no DataFrame 'df'.
for i in range(0, 1000):

    
    # Etapa 1: Removendo caracteres não alfabéticos
    # Usando expressões regulares, substitua quaisquer caracteres que não estejam no intervalo de 'a' a 'z' por um espaço.
    review = re.sub(pattern='[^a-zA-Z]', repl=' ', string=df['Review'][i])

    
    # Etapa 2: Convertendo texto em minúsculas
    # Converta toda a revisão em letras minúsculas para garantir consistência.
    review = review.lower()

    # Etapa 3: Tokenização
    # Divida a revisão em palavras individuais.
    review_words = review.split()


    # Etapa 4: Removendo palavras irrelevantes
    # Remova palavras irrelevantes comuns em inglês (por exemplo, 'the', 'and', 'in') da lista de palavras.
    # Palavras irrelevantes não têm significado significativo para análise de texto.

    review_words = [word for word in review_words if not word in set(stopwords.words('english'))]
    
    # Etapa 5: Lematização
    # Aplique lematização para reduzir as palavras à sua forma raiz (por exemplo, 'correr' torna-se 'correr').
    # Isso ajuda a reduzir a dimensionalidade dos dados do texto.
    ps = PorterStemmer()
    review = [ps.stem(word) for word in review_words]

    # Etapa 6: Reunindo tokens
    # Junte as palavras limpas e radicais em uma única string.
    review = ' '.join(review)

    # Etapa 7: anexar ao Corpus
    # Adicione a revisão limpa e processada à lista do corpus.
    corpus.append(review)

# After running this code, 'corpus' will contain a list of cleaned reviews suitable for further text analysis.
