<a href="https://colab.research.google.com/github/luanavitorino07/fundamentos/blob/main/notebooks/fundamentos_luana.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importação dos programas utilizados

In [None]:
import json
import numpy as np
import pandas as pd
import plotly.express as px

# Acesso ao Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

Mounted at /content/gdrive


# Acesso a base de dados

In [None]:
caminho_padrao = '/content/gdrive/MyDrive'
caminho_especifico = '/pibic_jr_2024'
caminho_completo = caminho_padrao + caminho_especifico


In [None]:
df_discursos = pd.read_json(f'{caminho_completo}/bd/BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bolsonaro-discursos.json', orient='columns')
df_discursos = pd.json_normalize(df_discursos['_default'])
df_discursos.columns

Index(['tipo_dado', 'pais', 'origem', 'sigla', 'classificado', 'categoria',
       'autoria', 'titulo', 'subtitulo', 'data', 'horario', 'data_atualizado',
       'horario_atualizado', 'link', 'link_archive', 'data_archive',
       'horario_archive', 'local', 'tags', 'edicao', 'editor', 'paragrafos',
       'nome_arquivo', 'imagens', 'dir_bd', 'dir_arquivo', 'codigo_bd',
       'nome_bd_json', 'env_dir_bd', 'extra_01', 'extra_02', 'extra_03'],
      dtype='object')

In [None]:
discurso_com_data = pd.read_csv(f"https://docs.google.com/spreadsheets/d/1iGATvw11oTeH4VqTk4nvfxJGgTwYomQmHC9Yt-NAeNU/export?format=csv&gid=1494194635", skiprows=0)
discurso_com_data = discurso_com_data.drop_duplicates(subset=["link"],keep='first')
discurso_com_data

Unnamed: 0,Responsável,link_info,data,titulo,link
0,Bruna,https://www.youtube.com/watch?v=h-vpjya9M7M,23/06/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
1,Maria Fernanda,https://www.flickr.com/photos/palaciodoplanalt...,04/02/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
2,Bruna,https://www.canalrural.com.br/agricultura/lanc...,22/06/2021,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
3,Bruna,https://www.youtube.com/watch?v=4B38u5YidT4,24/06/2021,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
4,Bruna,https://www.youtube.com/watch?v=vWMqiQPvopY,08/02/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
...,...,...,...,...,...
169,Marcelo,"Na Bahia, Presidente Jair Bolsonaro participou...",22/04/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
170,Bruna,http://www.biblioteca.presidencia.gov.br/presi...,15/06/2019,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
176,Bruna,https://gestaoconteudo.presidencia.gov.br/gest...,18/03/2019,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
177,Bruna,https://gestaoconteudo.presidencia.gov.br/gest...,11/04/2019,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...


In [None]:
df_filtrado = df_discursos [df_discursos["link"].isin(discurso_com_data["link"])]
df_filtrado[["data","link"]]

Unnamed: 0,data,link
39,,http://www.biblioteca.presidencia.gov.br/presi...
83,,http://www.biblioteca.presidencia.gov.br/presi...
92,,http://www.biblioteca.presidencia.gov.br/presi...
95,,http://www.biblioteca.presidencia.gov.br/presi...
96,,http://www.biblioteca.presidencia.gov.br/presi...
...,...,...
573,,http://www.biblioteca.presidencia.gov.br/presi...
591,,http://www.biblioteca.presidencia.gov.br/presi...
592,,http://www.biblioteca.presidencia.gov.br/presi...
604,,http://www.biblioteca.presidencia.gov.br/presi...


In [None]:
# Filtrar os discursos de df_discursos que têm o link presente em df_discursos_com_data
df_filtrado = df_discursos[df_discursos['link'].isin(discurso_com_data['link'])]

# Fazer o merge para adicionar as datas corrigidas ao df_filtrado
df_filtrado_atualizado = df_filtrado.merge(discurso_com_data[['link', 'data']], on='link', how='left', suffixes=('', '_correta'))

# Atualizar a coluna 'data' com as datas corrigidas
df_filtrado_atualizado['data'] = df_filtrado_atualizado['data_correta'].combine_first(df_filtrado_atualizado['data'])

# Remover a coluna 'data_correta' após a atualização
df_filtrado_atualizado = df_filtrado_atualizado.drop(columns=['data_correta'])

# Agora, df_filtrado_atualizado contém os discursos filtrados com as datas atualizadas
df_filtrado_atualizado

Unnamed: 0,tipo_dado,pais,origem,sigla,classificado,categoria,autoria,titulo,subtitulo,data,...,nome_arquivo,imagens,dir_bd,dir_arquivo,codigo_bd,nome_bd_json,env_dir_bd,extra_01,extra_02,extra_03
0,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,22/04/2022,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,
1,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,23/06/2022,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,
2,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,12/05/2021,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,
3,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,13/05/2021,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,
4,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,14/05/2021,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
169,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,15/06/2019,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,
170,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,04/02/2022,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,
171,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,08/02/2022,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,
172,publico,Brasil,Biblioteca presidência da república,BRA-BIBLI-REP,Informações governamentais,discursos,bolsonaro,"Discurso do Presidente da República, Jair Bols...",,30/12/2019,...,,,/media/hdvm10/bd/003/001/001/001/001-a/json/BD...,,bd/003/001/001/001/001-a,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bo...,BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA,,,


In [None]:
# Definir o índice 'link' em ambos os DataFrames
df_discursos.set_index('link', inplace=True)
df_filtrado_atualizado.set_index('link', inplace=True)

# Atualizar df_discursos com os dados de df_filtrado_atualizado
df_discursos.update(df_filtrado_atualizado)

# Se quiser restaurar o índice 'link' como uma coluna, use:
df_discursos.reset_index(inplace=True)

In [None]:
# Converter o DataFrame de volta para uma nova estrutura com um nome diferente
df_json_atualizado = pd.DataFrame({'discursos_atualizados': df_discursos.to_dict(orient='records')})

# Salvar o JSON atualizado com a nova estrutura
df_json_atualizado.to_json(f'{caminho_completo}/bd/BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bolsonaro-discursos-atualizado3.json',
                           orient='records', force_ascii=False, indent=4)

In [None]:
# Criar a estrutura do dicionário
data_dict = {"_default": {}}

# Preencher o dicionário com os dados do DataFrame
for index, (idx,row)in enumerate(df_discursos.iterrows()):
    # Adiciona uma nova entrada no dicionário com a chave correspondente ao índice (começando de 1)
    print(type(index),index)
    key = str(index + 1)
    data_dict["_default"][key] = {
        "tipo_dado": row['tipo_dado'],
        "pais": row['pais'],
        "origem": row['origem'],
        "sigla": row['sigla'],
        "classificado": row['classificado'],
        "categoria": row['categoria'],
        "autoria": row['autoria'],
        "horario": row['horario'],
        "data_atualizado": row['data_atualizado'],
        "horario_atualizado": row['horario_atualizado'],
        "link": row['link'],
        "link_archive": row['link_archive'],
        "data_archive": row['data_archive'],
        "horario_archive": row['horario_archive'],
        "local": row['local'],
        "tags": row['tags'],
        "titulo": row['titulo'],
        "subtitulo": row['subtitulo'],
        "data": row['data'],
        "horario": row['horario'],
        "data_atualizado": row['data_atualizado'],
        "horario_atualizado": row['horario_atualizado'],
        "link": row['link'],
        "link_archive": row['link_archive'],
        "data_archive": row['data_archive'],
        "horario_archive": row['horario_archive'],
        "local": row['local'],
        "tags": row['tags'],
        "edicao": row['edicao'],
        "editor": row['editor'],
        "paragrafos": row['paragrafos'],
        "nome_arquivo": row['nome_arquivo'],
        "imagens": row['imagens'],
        "dir_bd": row['dir_bd'],
        "dir_arquivo": row['dir_arquivo'],
        "codigo_bd": row['codigo_bd'],
        "nome_bd_json": row['nome_bd_json'],
        "env_dir_bd": row['env_dir_bd'],
        "extra_01": row['extra_01'],
        "extra_02": row['extra_02'],
        "extra_02": row['extra_02'],
    }

# Converter o dicionário para JSON
json_output = json.dumps(data_dict, indent=4, ensure_ascii=False)

# Salvar o JSON em um arquivo
caminho_arquivo = f'{caminho_completo}/bd/BD_BRASIL_GOVFEDERAL_BIBLIOTECA_PRESIDENCIA-bolsonaro-discursos_05.json'
# Substitua pelo seu caminho desejado
with open(caminho_arquivo, 'w', encoding="utf-8") as arquivo:
    arquivo.write(json_output)

<class 'int'> 0
<class 'int'> 1
<class 'int'> 2
<class 'int'> 3
<class 'int'> 4
<class 'int'> 5
<class 'int'> 6
<class 'int'> 7
<class 'int'> 8
<class 'int'> 9
<class 'int'> 10
<class 'int'> 11
<class 'int'> 12
<class 'int'> 13
<class 'int'> 14
<class 'int'> 15
<class 'int'> 16
<class 'int'> 17
<class 'int'> 18
<class 'int'> 19
<class 'int'> 20
<class 'int'> 21
<class 'int'> 22
<class 'int'> 23
<class 'int'> 24
<class 'int'> 25
<class 'int'> 26
<class 'int'> 27
<class 'int'> 28
<class 'int'> 29
<class 'int'> 30
<class 'int'> 31
<class 'int'> 32
<class 'int'> 33
<class 'int'> 34
<class 'int'> 35
<class 'int'> 36
<class 'int'> 37
<class 'int'> 38
<class 'int'> 39
<class 'int'> 40
<class 'int'> 41
<class 'int'> 42
<class 'int'> 43
<class 'int'> 44
<class 'int'> 45
<class 'int'> 46
<class 'int'> 47
<class 'int'> 48
<class 'int'> 49
<class 'int'> 50
<class 'int'> 51
<class 'int'> 52
<class 'int'> 53
<class 'int'> 54
<class 'int'> 55
<class 'int'> 56
<class 'int'> 57
<class 'int'> 58
<class 

# Pré Análise


In [None]:
df_discursos.shape

(611, 32)

In [None]:
df_discursos.columns

Index(['link', 'tipo_dado', 'pais', 'origem', 'sigla', 'classificado',
       'categoria', 'autoria', 'titulo', 'subtitulo', 'data', 'horario',
       'data_atualizado', 'horario_atualizado', 'link_archive', 'data_archive',
       'horario_archive', 'local', 'tags', 'edicao', 'editor', 'paragrafos',
       'nome_arquivo', 'imagens', 'dir_bd', 'dir_arquivo', 'codigo_bd',
       'nome_bd_json', 'env_dir_bd', 'extra_01', 'extra_02', 'extra_03'],
      dtype='object')

In [None]:
df_discursos = df_discursos[['data','titulo','link']]
df_discursos

Unnamed: 0,data,titulo,link
0,21/02/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
1,22/02/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
2,23/02/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
3,23/02/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
4,24/02/2022,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
...,...,...,...
606,02/12/2019,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
607,03/12/2019,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
608,05/12/2019,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...
609,08/12/2020,"Discurso do Senhor Presidente da República, Ja...",http://www.biblioteca.presidencia.gov.br/presi...


In [None]:
discursos_sem_data = df_discursos[df_discursos['data'].isna()]
discursos_sem_data

Unnamed: 0,data,titulo,link


In [None]:
df_discursos['data'] = pd.to_datetime(df_discursos['data'], format='%d/%m/%Y', errors='coerce')
df_discursos['ano'] = pd.to_datetime(df_discursos['data']).dt.year
discursos_por_ano = df_discursos['ano'].value_counts().sort_index()
discursos_por_ano = discursos_por_ano.to_frame()
discursos_por_ano


Unnamed: 0_level_0,count
ano,Unnamed: 1_level_1
2018,1
2019,203
2020,130
2021,160
2022,117


In [None]:
discursos_duplicados = df_discursos[df_discursos.duplicated(subset=['titulo', 'data'], keep=False)]
discursos_duplicados

Unnamed: 0,data,titulo,link,ano
181,2021-11-02,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...,2021
182,2021-11-02,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...,2021
397,2022-11-13,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...,2022
398,2022-11-13,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...,2022
529,2019-11-25,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...,2019
530,2019-11-25,"Discurso do Presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...,2019
570,2019-06-13,"Discurso do presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...,2019
571,2019-06-13,"Discurso do presidente da República, Jair Bols...",http://www.biblioteca.presidencia.gov.br/presi...,2019
