In [2]:
import altair as alt
import pandas as pd
import os

## 1. Creating the final dataset with merged metadata

In [7]:
annotated_df = pd.read_csv('data/annotated/annotated_dataset.csv')
videos_df = pd.read_csv('data/transcriptions/youtube_videos_transcribed_with_metadata.csv')
videos_df = videos_df[['video_url', 'video_title', 'publish_date']]
final_df = df_merge = pd.merge(annotated_df, videos_df, on='video_url', how='left')

In [8]:
final_df.columns

Index(['video_url', 'brazilian_state', 'corrected_transcription',
       'text_origin', 'specific_contexts', 'punchlines', 'joke_explanation',
       'fun', 'humor', 'nonsense', 'wit', 'irony', 'satire', 'sarcasm',
       'cynicism', 'video_title', 'publish_date'],
      dtype='object')

In [9]:
new_columns_order = ['video_url', 'video_title', 'publish_date', 'brazilian_state', 'text_origin',
        'corrected_transcription', 'specific_contexts', 'punchlines',
       'fun', 'humor', 'nonsense', 'wit', 'irony', 'satire', 'sarcasm',
       'cynicism', 'joke_explanation']
final_df = final_df[new_columns_order]

In [10]:
os.makedirs('data/completed', exist_ok=True)
final_df.to_csv('data/completed/brazilian_ne_annotated_humorous_texts.csv', index=False)

## 2. Exploring data per state

In [30]:
state_counts = final_df['brazilian_state'].value_counts().reset_index()
state_counts.columns = ['Brazilian State', 'Count']

chart = alt.Chart(state_counts).mark_bar().encode(
    y=alt.Y('Brazilian State:N', sort='-x', title='Brazilian State'),
    x=alt.X('Count:Q', title='Number of Texts'),
    tooltip=['Brazilian State:N', 'Count:Q']
).properties(
    title='Number of Texts per Brazilian State',
    width=600,
    height=400
)

chart.show()

### 3. Exploring publish dates

In [39]:
converted = pd.to_datetime(final_df['publish_date'], format='%b %d, %Y', errors='coerce')

# Filtra os valores que n√£o conseguiram ser convertidos
invalid_dates = final_df[converted.isna()]

invalid_dates

Unnamed: 0,video_url,video_title,publish_date,brazilian_state,text_origin,corrected_transcription,specific_contexts,punchlines,fun,humor,nonsense,wit,irony,satire,sarcasm,cynicism,joke_explanation
54,https://www.youtube.com/shorts/aw3sK-m97Ro?fea...,Z√© Lezin e as comidas de hoje #piadas #humor ...,,Para√≠ba,Stand-up,Eu gosto de ir ver como era antigamente. Hoje ...,,"Hoje, botaram uma tintinha dentro, um retrato ...",N√£o,Sim,N√£o,N√£o,Sim,N√£o,Sim,Sim,O humorista desdenha dos h√°bitos contempor√¢neo...
64,https://www.youtube.com/shorts/a8kbZIbEIsA?fea...,Jhordan Matheus #shorts,,Bahia,Stand-up,Sabe o que era foda? √â que as vezes meu tio ch...,,"Meu tio falava, √¥ cabe√ßa de arromba navio, ven...",N√£o,Sim,Sim,N√£o,N√£o,N√£o,N√£o,N√£o,O humorista conta que seu tio inventava apelid...
130,https://www.youtube.com/shorts/x_999rf2n9M?fea...,TABOSA E A QUINTA SINFONIA DE BEETHOVEN | Nas ...,,Cear√°,Programa humor√≠stico,"Homem: √â, com licen√ßa a√≠, pessoal, vou passar ...",,j√° perdi quatro.,Sim,N√£o,Sim,Sim,N√£o,N√£o,N√£o,N√£o,Ao ser informado de que est√£o tocando a Quinta...
163,https://www.youtube.com/shorts/5r0xd5oEG6o?fea...,A PIADA DO DIA - TABOSA NA FARM√ÅCIA | Nas Garr...,,Cear√°,Programa humor√≠stico,"Tabosa: Ei, ei, seu Afran√©sio! Seu Afran√©sio, ...",,"Ah, porque eu s√≥ queria me pesar.",N√£o,Sim,N√£o,N√£o,Sim,N√£o,N√£o,N√£o,O humorista conta uma situa√ß√£o inusitada em qu...
174,https://www.youtube.com/shorts/4yXk7xe2cEI?fea...,nas garras da patrulha,,Cear√°,Programa humor√≠stico,Narrador: A piada do dia! Duas amigas est√£o co...,Pfizer √© uma empresa farmac√™utica multinaciona...,"Mulher, tu acha que um laborat√≥rio que consegu...",Sim,N√£o,N√£o,Sim,Sim,N√£o,Sim,N√£o,A personagem brinca dizendo que um laborat√≥rio...
183,https://www.youtube.com/shorts/sLKtMUAxaIk?fea...,SEU TIO JAÃÅ SE ENVOLVEU NUMA BRIGA PT 2 JHOR...,,Bahia,Stand-up,Meu tio de c√°: de que o que? O cara de l√°: meu...,,"rapaz, n√£o vou falar porra nenhuma, n√£o lhe in...",N√£o,N√£o,Sim,Sim,N√£o,N√£o,Sim,N√£o,O humorista narra uma cena inusitada em que se...
215,https://www.youtube.com/shorts/tgic7oBloCM?fea...,Meu Pai √©‚Ä¶ #humorbrasil #standupcomedybrasil #...,"Premiered Jan 26, 2023",Pernambuco,Stand-up,"Humorista: P√¥, o cara √© pai, tem tr√™s filhos, ...",,O meu pai √© ausente. Tinha tanta coisa pra me ...,Sim,Sim,N√£o,Sim,Sim,Sim,Sim,Sim,O humorista faz uma cr√≠tica bem-humorada ao pa...
226,https://www.youtube.com/shorts/gT9Dm8s39Lc?fea...,O que Z√© vai deixar pr√° fam√≠lia üòÇ #zelezin #ma...,,Para√≠ba,Stand-up,"Mas, p√¥, falando s√©rio, eu tive tanto medo que...",,"Eu digo, um garfo pra cada um. Olha quantos qu...",Sim,Sim,N√£o,Sim,Sim,N√£o,N√£o,N√£o,"O humorista, tomado por uma apreens√£o repentin..."
282,https://www.youtube.com/shorts/8wr7zm8iWkk?fea...,Matheus Buente | Stand UP Comedy Online | S√≥ a...,,Bahia,Stand-up,"Voc√™ falou uma besteira, xingou o cara de Caja...","Rodriguinho √© um cantor, compositor e produtor...","j√° tem algu√©m l√° de Cajazeiras assim √≥, Pol√≠ci...",N√£o,N√£o,N√£o,Sim,Sim,Sim,Sim,N√£o,O humorista faz uma piada sobre a participa√ß√£o...
284,https://www.youtube.com/shorts/dAloH21_JoQ?fea...,Z√© Lezin e A Depila√ß√£o premiada #piadas #come...,,Para√≠ba,Stand-up,"Agora assim, o que eu acho assim mais danado n...",A Opera√ß√£o Lava Jato foi um conjunto de invest...,Diz que segunda-feira ele vai ter que depor e ...,Sim,Sim,Sim,Sim,N√£o,Sim,N√£o,N√£o,O humorista critica o absurdo de envolverem ar...
