## ***Descrição***
--------------------------------------------------------------------------------------
Neste projeto, importei uma base de dados do kaggle para realizar extração de sentimentos com python e nltk, uma biblioteca que possui uma ferramenta chamada VADER, excelente para analisar textos informais, como postagens em redes sociais e comentários de avaliação. 

##### ***Base de dados*** 📌
A base de dados escolhida possui 42.000 avaliações de três filiais da Disneyland (Paris, Califórnia e Hong Kong), publicadas por visitantes no TripAdvisor que é uma plataforma de viagens que fornece informações e opiniões sobre turismo.  
Sendo assim, uma ótima base de dados para extração de sentimentos. 

Base de dados: [Disneyland Reviews](https://www.kaggle.com/datasets/arushchillar/disneyland-reviews)  
Fonte: [Kaggle](https://www.kaggle.com/)

##### ***Dicionário de sentimentos*** 📌

A biblioteca rotula os sentimentos como:  
***neg*** --> Comentários negativos   
***neu*** --> Comentários neutros  
***pos*** --> Comentários positivos  
***compound*** --> Pontuação geral de sentimento (acima de 0 indica um sentimento positivo, enquanto abaixo de 0 indica sentimento negativo)

##### ***Objetivo***

O objetivo deste projeto, além do estudo sobre formas de extração de sentimentos de textos utilizando o python, é descobrir se os parques estão com mais avaliações positivas ou negativas, e isso só será possível com esse processo de automatização, pois assim, é possível analisar grandes volumes de dados em apenas segundos, otimizando o processo.   
Lembrando que o projeto tem foco unicamente e exclusivamente no resultado o qual foi citado acima, excluindo outras análises.



### ***Imports***

In [2]:
import pandas as pd 
import nltk 

### ***Criando o dataframe***

In [3]:
df = pd.read_csv('DisneylandReviews.csv', encoding='latin1')
df

Unnamed: 0,Review_ID,Rating,Year_Month,Reviewer_Location,Review_Text,Branch
0,670772142,4,2019-4,Australia,If you've ever been to Disneyland anywhere you...,Disneyland_HongKong
1,670682799,4,2019-5,Philippines,Its been a while since d last time we visit HK...,Disneyland_HongKong
2,670623270,4,2019-4,United Arab Emirates,Thanks God it wasn t too hot or too humid wh...,Disneyland_HongKong
3,670607911,4,2019-4,Australia,HK Disneyland is a great compact park. Unfortu...,Disneyland_HongKong
4,670607296,4,2019-4,United Kingdom,"the location is not in the city, took around 1...",Disneyland_HongKong
...,...,...,...,...,...,...
42651,1765031,5,missing,United Kingdom,i went to disneyland paris in july 03 and thou...,Disneyland_Paris
42652,1659553,5,missing,Canada,2 adults and 1 child of 11 visited Disneyland ...,Disneyland_Paris
42653,1645894,5,missing,South Africa,My eleven year old daughter and myself went to...,Disneyland_Paris
42654,1618637,4,missing,United States,"This hotel, part of the Disneyland Paris compl...",Disneyland_Paris


### ***Separando minha coluna de reviews***

In [16]:
Reviews = df['Review_Text']
Reviews

0        If you've ever been to Disneyland anywhere you...
1        Its been a while since d last time we visit HK...
2        Thanks God it wasn   t too hot or too humid wh...
3        HK Disneyland is a great compact park. Unfortu...
4        the location is not in the city, took around 1...
                               ...                        
42651    i went to disneyland paris in july 03 and thou...
42652    2 adults and 1 child of 11 visited Disneyland ...
42653    My eleven year old daughter and myself went to...
42654    This hotel, part of the Disneyland Paris compl...
42655    I went to the Disneyparis resort, in 1996, wit...
Name: Review_Text, Length: 42656, dtype: object

### ***Realizando extração de sentimento***

In [None]:
from nltk.sentiment import SentimentIntensityAnalyzer

reviews = df['Review_Text']

#Iniciando o analisador de sentimento
sia = SentimentIntensityAnalyzer()

#Criando nova coluna para armazenar os resultados
df['Sentimento'] = reviews.apply(lambda x: sia.polarity_scores(x))

df_sentimentos = df['Sentimento'].apply(pd.Series)

df = pd.concat([df, df_sentimentos], axis=1)

df_sentimentos


Unnamed: 0,neg,neu,pos,compound
0,0.000,0.887,0.113,0.7069
1,0.040,0.730,0.231,0.9901
2,0.024,0.742,0.235,0.9920
3,0.080,0.760,0.160,0.8489
4,0.000,0.899,0.101,0.2846
...,...,...,...,...
42651,0.000,0.833,0.167,0.9860
42652,0.020,0.776,0.204,0.9909
42653,0.021,0.881,0.098,0.8402
42654,0.000,0.847,0.153,0.9538


### ***Resultado final da extração de sentimentos***

***neg*** --> Comentários negativos   
***neu*** --> Comentários neutros  
***pos*** --> Comentários positivos  
***compound*** --> Pontuação geral de sentimento (acima de 0 indica um sentimento positivo, enquanto abaixo de 0 indica sentimento negativo)


In [21]:
contagemSentimento = df_sentimentos.sum()
contagemSentimento


neg          1671.8890
neu         33435.8140
pos          7548.4190
compound    29104.8844
dtype: float64

Com base na analise sentimental dessa base de dados, podemos concluir que a maioria dos comentários sobre os parques da Disneyland são positivos, já que o índice geral mostra positividade. 