# Análise de Sentimento baseado no dataset pego no Twitter

## Importando as libraries

In [1]:
import numpy as np
import pandas as pd
from tqdm import tqdm

## Puxando o dataset 

In [2]:
dataset = pd.read_csv("tweetSentimentBR.txt", sep='\t', header=None)
dataset.columns = ['Tweet ID', 'Hashtag', 'Vetor', '?', 'Sentimento']
dataset = dataset.drop(['Vetor', '?'], axis=1)
msgs = pd.read_csv("output.txt", '\t', header=None)
msgs = np.array(msgs)

In [3]:
dataset.head()

Unnamed: 0,Tweet ID,Hashtag,Sentimento
0,863044774588272640,#encontro,1
1,865583716088766467,#encontro,1
2,865063232201011201,#TheNoite,1
3,864668391008763905,#masterchefbr,0
4,865572794016378882,#encontro,-1


In [4]:
msgs[:5]

array([['863044774588272640',
        'Que coisa linda! O Programa #encontro estava mostrando uma familia que adotou um adolescente de 18 anos. Que amor!!!'],
       ['865583716088766467',
        'Por mais #Encontro com as Irmãs Galvão, adorei elas.'],
       ['865063232201011201',
        'Mr. CATRA @OficialMrCatra lançando sua nova música PPK CHORA no @SBTTheNoite k k k👅😉'],
       ['#TheNoite #MrCatra #PpkChora', nan],
       ['864668391008763905',
        'quem viu aquela lutadora modela barbuda tatuada? #MasterChefBR']], dtype=object)

In [5]:
print(msgs.shape)
print(dataset.shape)

(16899, 2)
(15047, 3)


In [6]:
dataset_np = np.array(dataset)
dataset_np

array([[863044774588272640, '#encontro', '1'],
       [865583716088766467, '#encontro', '1'],
       [865063232201011201, '#TheNoite', '1'],
       ..., 
       [864831041349054464, '#maisvoce', '1'],
       [863042798575951872, '#encontro', '1'],
       [864681041541386240, '#ConversaComBial', '1']], dtype=object)

## Tratamento dos dados

In [7]:
import math
msgs_new = []

for dado in msgs:
    if dado[1] == str('nan') or dado[0] == '?':
        continue
    else:
        msgs_new.append(dado)

msgs_new = np.array(msgs_new)
msgs_new.shape

(10232, 2)

In [8]:
counter_nan = 0 
counter_inter = 0

for dado in msgs_new:
    if dado[0] == str('nan'):
        counter_nan += 1
    if dado[1] == '?':
        counter_inter += 1
        
print(counter_inter)
print(counter_nan)

0
0


## Colocando os dois datasets juntos 

In [9]:
data_final = []

for dado_dataset in tqdm(dataset_np):
    for dado_msgs in msgs_new:
        if str(dado_dataset[0]) == dado_msgs[0]:
            aux = [dado_dataset[0], dado_dataset[1], dado_dataset[2], dado_msgs[1]]
            data_final.append(aux)

100%|██████████| 15047/15047 [04:21<00:00, 57.54it/s]


In [10]:
data_final = np.array(data_final)
data_final.shape

(8363, 4)

In [11]:
data_final[:5]

array([['863044774588272640', '#encontro', '1',
        'Que coisa linda! O Programa #encontro estava mostrando uma familia que adotou um adolescente de 18 anos. Que amor!!!'],
       ['865583716088766467', '#encontro', '1',
        'Por mais #Encontro com as Irmãs Galvão, adorei elas.'],
       ['865063232201011201', '#TheNoite', '1',
        'Mr. CATRA @OficialMrCatra lançando sua nova música PPK CHORA no @SBTTheNoite k k k👅😉'],
       ['864668391008763905', '#masterchefbr', '0',
        'quem viu aquela lutadora modela barbuda tatuada? #MasterChefBR'],
       ['865572794016378882', '#encontro', '-1',
        'Tô passada com esse cara.... quanta merda pode sair da boca de alguém em alguns minutos! 😠 #Encontro']],
      dtype='<U1324')

In [12]:
df = pd.DataFrame(data_final)
df.columns = ['Tweet ID', 'Hashtag', 'Sentiment', 'Texto']
df

Unnamed: 0,Tweet ID,Hashtag,Sentiment,Texto
0,863044774588272640,#encontro,1,Que coisa linda! O Programa #encontro estava m...
1,865583716088766467,#encontro,1,"Por mais #Encontro com as Irmãs Galvão, adorei..."
2,865063232201011201,#TheNoite,1,Mr. CATRA @OficialMrCatra lançando sua nova mú...
3,864668391008763905,#masterchefbr,0,quem viu aquela lutadora modela barbuda tatuad...
4,865572794016378882,#encontro,-1,Tô passada com esse cara.... quanta merda pode...
5,864531723215925250,#videoShowAoVivo,1,"Cibele arrasou, humilhou!! #VideoShowAoVivo"
6,864176639143555072,#videoShowAoVivo,0,Em Minas sacolé é chup chup! #videoshowaovivo
7,864674916532146176,#masterchefbr,0,Meu prato MasterChef de sardinha enlatada seri...
8,862307799258329089,#encontro,-1,Esse japa não entendi porra nenhuma de orquíde...
9,865901040855650307,#édecasa,1,A Cearamirinense mais famosa do Brasil no #Ede...


In [13]:
df = df.drop(['Tweet ID', 'Hashtag'], axis=1)
df

Unnamed: 0,Sentiment,Texto
0,1,Que coisa linda! O Programa #encontro estava m...
1,1,"Por mais #Encontro com as Irmãs Galvão, adorei..."
2,1,Mr. CATRA @OficialMrCatra lançando sua nova mú...
3,0,quem viu aquela lutadora modela barbuda tatuad...
4,-1,Tô passada com esse cara.... quanta merda pode...
5,1,"Cibele arrasou, humilhou!! #VideoShowAoVivo"
6,0,Em Minas sacolé é chup chup! #videoshowaovivo
7,0,Meu prato MasterChef de sardinha enlatada seri...
8,-1,Esse japa não entendi porra nenhuma de orquíde...
9,1,A Cearamirinense mais famosa do Brasil no #Ede...


In [16]:
df.to_csv('dataFinal.csv', sep=',', header=['Sentimento', 'Texto'], index=False)