# Exploratory Data Analysis

## Libraries and Settings

Load basic libraries and append source code directory (src) into the system path.

In [1]:
import os
import sys

sys.path.append(os.path.abspath(os.path.pardir))

Thirdy party libraries

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
from IPython.core.display import HTML, display

Load functions and resources from internal libraries

In [3]:
from src.pipeline.resources import load_corpus

Presentation settings

In [4]:
%matplotlib inline 
pd.set_option('max_colwidth', 150)

Load and show first corpus rows.

In [5]:
frame = load_corpus()
frame.head()

Unnamed: 0,id,hashtag,votes,hard,sentiment,group,text,repeat
0,863044774588272640,#encontro,"[1, 1, 1, 1, 1, 1, 1]",0,1,test,que coisa linda O programa estava mostrando uma familia que adotou um adolescente de NUMBER anos que amor !,False
1,865583716088766467,#encontro,"[1, 1, 1, 1, 1, 1, 1]",0,1,test,por mais com as irmãs galvão adorei elas,False
2,865063232201011201,#TheNoite,"[1, 0, 1, 1, 1, 0, 0]",2,1,test,mr CATRA USERNAME lançando sua nova música PPK CHORA no USERNAME k k k 👅 😉 #MrCatra #PpkChora,False
3,864668391008763905,#masterchefbr,"[0, 0, 0, 0, 0, 0, 0]",0,0,test,quem viu aquela lutadora modela barbuda tatuada #MasterChefBR,False
4,865572794016378882,#encontro,"[-1, -1, -1, -1, -1, -1, -1]",0,-1,test,tô passada com esse cara quanta merda pode sair da boca de alguém em alguns minutos 😠,False


Show the distribution of values from specific columns.

In [6]:
for column in ['hard', 'sentiment', 'group', 'repeat']:
    display(HTML(f'<h3>{column.capitalize()}</h3>'))
    display(frame[column].value_counts())
    print()

0    13852
1     1146
2       38
3        8
4        3
Name: hard, dtype: int64




1     6648
-1    4426
0     3926
-       47
Name: sentiment, dtype: int64




train    12990
test      2010
-           47
Name: group, dtype: int64




False    14835
True       212
Name: repeat, dtype: int64




Show rows with '-' as sentiment to understand it.

In [7]:
frame.loc[lambda f: f.sentiment == '-'].head()

Unnamed: 0,id,hashtag,votes,hard,sentiment,group,text,repeat
15000,864532441318535168,#videoShowAoVivo,"[0, 0, 1, 1, -1, 1, 0]",4,-,-,esse vestido de casamento da cibele deu o que falar kkk,False
15001,864825521020035072,#maisvoce,"[0, -1, -1, 1, 0, 0, -1]",2,-,-,essa ana maria braga tá chapadona hj kkk,False
15002,865204415380246528,#encontro,"[0, -1, 1, -1, 0, 0, -1]",0,-,-,O xande de pilares tinha q começar ou encerrar o com malandro é malandro e mané é mané,False
15003,864533088596107264,#videoShowAoVivo,"[0, 1, -1, -1, 0, -1, 0]",0,-,-,perdi #DiegoDarksonMc no vejo depois no USERNAME,False
15004,862358112182968321,#videoShowAoVivo,"[0, 1, -1, -1, 0, 0, -1]",1,-,-,manda o vídeo pro céu quem sabe lá tem wi-fi,False


It seems that all records with '-'  sentiment are invalidated due to the absence of a group definition. Checking that:

In [8]:
frame.query(" (sentiment == '-' and group != '-') | (sentiment != '-' and group == '-') ")

Unnamed: 0,id,hashtag,votes,hard,sentiment,group,text,repeat


Check some examples of each difficulty level.

In [9]:
for level in sorted(frame.hard.unique()):
    display(HTML(f'<h3>Level {level}</h3>'))
    display(frame.loc[lambda f: f.hard == level].head(5))
    print()

Unnamed: 0,id,hashtag,votes,hard,sentiment,group,text,repeat
0,863044774588272640,#encontro,"[1, 1, 1, 1, 1, 1, 1]",0,1,test,que coisa linda O programa estava mostrando uma familia que adotou um adolescente de NUMBER anos que amor !,False
1,865583716088766467,#encontro,"[1, 1, 1, 1, 1, 1, 1]",0,1,test,por mais com as irmãs galvão adorei elas,False
3,864668391008763905,#masterchefbr,"[0, 0, 0, 0, 0, 0, 0]",0,0,test,quem viu aquela lutadora modela barbuda tatuada #MasterChefBR,False
4,865572794016378882,#encontro,"[-1, -1, -1, -1, -1, -1, -1]",0,-1,test,tô passada com esse cara quanta merda pode sair da boca de alguém em alguns minutos 😠,False
5,864531723215925250,#videoShowAoVivo,"[1, 1, 1, 1, 1, 1, 1]",0,1,test,cibele arrasou humilhou !,False





Unnamed: 0,id,hashtag,votes,hard,sentiment,group,text,repeat
11,864877489801310210,#masterchefbr,"[0, 0, 1, 0, 1, 1, 1]",1,1,test,nào sei vocês mas quero USERNAME no #powercoupleBrasil com a USERNAME e num reality tipo dr rey até no tá bom,False
12,864702921698664448,#TheNoite,"[0, 1, 1, 0, 1, 1, 1]",1,1,test,tem q passar essa entrevista em telões nas praças,False
19,862319879470407681,#encontro,"[0, 0, 1, 0, 1, 1, 1]",1,1,test,depois eu vou assistir espero que ela cante a nova música #Encontro #SandyNoEncontro,False
22,864814104745320449,#masterchefbr,"[-1, 0, 0, -1, 1, -1, -1]",1,-1,test,aí vc fica até NUMBER assistindo e acorda cedo pra ir trabalhar parecendo um zumbi,False
29,865068372496613376,#ConversaComBial,"[0, 0, 1, 1, 0, 1, 1]",1,1,test,vivendo e aprendendo enfrentar os medos e procurar ajuda é sempre a melhor maneira #ConversaComBial,False





Unnamed: 0,id,hashtag,votes,hard,sentiment,group,text,repeat
2,865063232201011201,#TheNoite,"[1, 0, 1, 1, 1, 0, 0]",2,1,test,mr CATRA USERNAME lançando sua nova música PPK CHORA no USERNAME k k k 👅 😉 #MrCatra #PpkChora,False
8,865566046320832512,#encontro,"[-1, -1, -1, -1, -1, -1, -1]",2,-1,test,coitada da namorada,False
18,864653900405772288,#masterchefbr,"[1, 0, 1, 1, 1, 1, 1]",2,1,test,A MIRIAM E O FOGO DO PROGRAMA ELA E PROTAGONISTA,False
21,862154585120681985,#masterchefbr,"[0, 0, 1, 1, 1, 1, 0]",2,1,test,ai mds é agora,False
27,865311265773813760,#maisvoce,"[0, 0, 1, 0, 0, 0, 0]",2,0,test,olá USERNAME gostaria da participação do fiuk em algum quadro no USERNAME . obrigada,False





Unnamed: 0,id,hashtag,votes,hard,sentiment,group,text,repeat
36,864716100830978048,#masterchefbr,"[1, 0, -1, -1, 0, -1, -1]",3,-1,test,FIQUEI MUITO NERVOSA ACHEI Q MINHA YUKO IA SAIR,False
38,862623978355085315,#encontro,"[-1, -1, -1, -1, -1, -1, -1]",3,-1,test,joão vicente no encontro hoje e eu vou estar aonde no colégio fazendo prova de matemática isso mesmo #Encontro,False
83,864179611869081600,#videoShowAoVivo,"[0, -1, 1, 0, 0, 0, 0]",3,0,test,É vinagre na salsicha #VideoShowAoVivo,False
99,863246926002761728,#ConversaComBial,"[0, -1, -1, 0, 0, 0, 0]",3,0,test,se cadeia é tão ruim pq a galera vive correndo atrás de um PASSE,False
118,864894432419737600,#encontro,"[0, -1, 1, 0, 0, 0, 0]",3,0,test,vou sair do armário só estou esperando o marido dela sair de casa !,False





Unnamed: 0,id,hashtag,votes,hard,sentiment,group,text,repeat
14,864901773076701184,#videoShowAoVivo,"[0, 0, 1, -1, -1, 0, 0]",4,0,test,fatima bernardes sobre o sotaque hahaha coerência profissional,False
274,863573278841085952,#altasHoras,"[1, 1, 1, 0, -1, 1, 0]",4,1,test,mal começou o programa e eu já tô chorando,False
15000,864532441318535168,#videoShowAoVivo,"[0, 0, 1, 1, -1, 1, 0]",4,-,-,esse vestido de casamento da cibele deu o que falar kkk,False



