In [21]:
import os
import subprocess
import sys
import getpass
from pathlib import Path

# --- CONFIGURA√á√ÉO ---
raw_source = "./"
# Se o path come√ßar com "/media~/", substitui "~" pelo seu usu√°rio em /media
username = getpass.getuser()
if raw_source.startswith("/media/~/"):
    corrected = raw_source.replace("/media/~/", f"/media/{username}/")
else:
    corrected = raw_source
# Agora expande "~" se ainda existir
SOURCE_DIR = Path(os.path.expanduser(corrected))
OUTPUT_DIR = SOURCE_DIR / "pdfs"
PYTHON_EXE = sys.executable
# ---------------------

# Verifica pasta de origem
if not SOURCE_DIR.exists():
    raise FileNotFoundError(f"Pasta de origem n√£o encontrada: {SOURCE_DIR}")

# Cria apenas a pasta pdfs dentro de SOURCE_DIR, sem recriar o resto
OUTPUT_DIR.mkdir(exist_ok=True)

# Converte cada .ipynb em PDF
for nb_path in SOURCE_DIR.glob("*.ipynb"):
    pdf_name = nb_path.stem + ".pdf"
    cmd = [
        PYTHON_EXE, "-m", "jupyter", "nbconvert",
        str(nb_path),
        "--to", "pdf",
        "--output", pdf_name,
        "--output-dir", str(OUTPUT_DIR),
        "--debug"
    ]
    print(f"üîÑ Convertendo {nb_path.name} ‚Üí {pdf_name}")
    try:
        out = subprocess.run(cmd, check=True, capture_output=True, text=True)
        print(out.stdout)
    except subprocess.CalledProcessError as e:
        print(f"‚ùå Erro ao converter {nb_path.name}:\n{e.stderr}")
print("‚úÖ Convers√£o de todos os notebooks finalizada.")


üîÑ Convertendo 1 - Data Loading.ipynb ‚Üí 1 - Data Loading.pdf

üîÑ Convertendo 2 - Data Analysis.ipynb ‚Üí 2 - Data Analysis.pdf

üîÑ Convertendo report.ipynb ‚Üí report.pdf

‚úÖ Convers√£o de todos os notebooks finalizada.


In [None]:
# Analisando os documentos escreva uma apresenta√ß√£o detalhada do estudo, em alto n√≠vel.
# Escrever 15 par√°grafo
# N√£o incluir nada de python
# Explicar em alto nivel
# Um leigo deve entender do que se trata




# Analisando os documentos descreva a metodologia e os resultados que foram obtidos no estudo.
# Escrever 15 par√°grafo
# N√£o incluir nada de python
# Explicar em alto nivel
# Um leigo deve entender do que se trata




# Analisando os documentos descreva a analise e discuss√£o e os resultados que foram obtidos no estudo.
# Escrever 15 par√°grafo
# N√£o incluir nada de python
# Explicar em alto nivel
# Um leigo deve entender do que se trata




# Analisando os documentos descreva as conclus√µes do estudo
# Escrever 15 par√°grafo
# N√£o incluir nada de python
# Explicar em alto nivel
# Um leigo deve entender do que se trata


# Agora com base nos texto gerado nas etapas anteriores quero um relat√≥rio completo.
# Este relat√≥rio deve comunicar os achados para os tomadores de decis√£o
# N√£o incluir nada de python
# Explicar em alto nivel
# Um leigo deve entender do que se trata
# Estrutura do relat√≥rio: Apresenta√ß√£o (4 paragrafos), metodologia e resultados(8 paragrafos), an√°lise e discuss√£o(4 paragrafos), conclus√£o(2 paragrafos)





In [None]:
# Analisando os documentos extraia os codigos que geram visualiza√ß√µes.
# Adapte estes codigos para salvar as imagens em PNG na pasta "figuras"
# Nomear estas Figuras em ordem, figura_1.png, figura_2.png, figura_3.png, et
# Retornar um codigo unico que gere e salve todas as imangens em png na pasta correta

In [6]:
from src.libs.lib import *
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
df_original = pd.read_csv("src/data/tabela_ocorrencias_dbpx_com_a_pontua√ß√£o_academia.csv")


Hash num√©rica de 5 d√≠gitos: 94799


In [7]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

# Preparar o DataFrame
df = df_original.copy()

# Convers√µes necess√°rias
df['Pontua√ß√£o'] = pd.to_numeric(df['Pontua√ß√£o'], errors='coerce')
df['Pontua√ß√£o Atualiza√ß√£o'] = pd.to_numeric(df['Pontua√ß√£o Atualiza√ß√£o'], errors='coerce')
df['Pontua√ß√£o Comit√™'] = pd.to_numeric(df['Pontua√ß√£o Comit√™'], errors='coerce')
df['occurence_create'] = pd.to_datetime(df['occurence_create'], errors='coerce')

# Quartis da Pontua√ß√£o Atualiza√ß√£o
try:
    pontuacoes_validas = df['Pontua√ß√£o Atualiza√ß√£o'].dropna()
    bin_edges = pd.qcut(pontuacoes_validas, q=4, retbins=True, duplicates='drop')[1]
    label_count = len(bin_edges) - 1
    labels = [f"Q{i+1}" for i in range(label_count)]
    df['pontuacao_quartil'] = pd.qcut(df['Pontua√ß√£o Atualiza√ß√£o'], q=label_count, labels=labels, duplicates='drop')
except Exception as e:
    print("Erro ao criar quartis de pontua√ß√£o:", e)
    df['pontuacao_quartil'] = None

# Quartis da coluna observation (se poss√≠vel)
try:
    obs_numeric = pd.to_numeric(df['observation'], errors='coerce')
    df['observation_quartil'] = pd.qcut(obs_numeric, q=4, duplicates='drop')
except:
    df['observation_quartil'] = None

# Criar a pasta 'figuras' se necess√°rio
os.makedirs("figuras", exist_ok=True)

# Fun√ß√£o para gerar e salvar gr√°ficos sequencialmente
def gerar_graficos_e_salvar(df):
    figura_id = 1

    def salvar_fig(titulo):
        nonlocal figura_id
        filename = f"figuras/figura_{figura_id}.png"
        plt.savefig(filename, bbox_inches='tight')
        print(f"{titulo} ‚Üí {filename}")
        figura_id += 1
        plt.close()

    # Histograma
    plt.figure(figsize=(12, 5))
    plt.subplot(1, 2, 1)
    sns.histplot(df['Pontua√ß√£o Atualiza√ß√£o'].dropna(), kde=True, color='blue', bins=30)
    plt.title('Histograma - Pontua√ß√£o Atualiza√ß√£o')

    plt.subplot(1, 2, 2)
    sns.histplot(df['Pontua√ß√£o Comit√™'].dropna(), kde=True, color='green', bins=30)
    plt.title('Histograma - Pontua√ß√£o Comit√™')
    salvar_fig("Histogramas")

    # Boxplot
    plt.figure(figsize=(14, 8))
    sns.boxplot(data=df, x='Pontua√ß√£o Atualiza√ß√£o', y='description')
    plt.title('Boxplot - Pontua√ß√£o Atualiza√ß√£o por Tipo de Ocorr√™ncia')
    salvar_fig("Boxplot Pontua√ß√£o por Ocorr√™ncia")

    # Frequ√™ncia
    plt.figure(figsize=(12, 6))
    df['description'].value_counts().head(20).plot(kind='bar')
    plt.title('Frequ√™ncia das Ocorr√™ncias (Top 20)')
    plt.xlabel('Descri√ß√£o')
    plt.ylabel('Frequ√™ncia')
    plt.xticks(rotation=75)
    salvar_fig("Frequ√™ncia de Ocorr√™ncias")

    # Barras empilhadas
    if df['pontuacao_quartil'].notna().any():
        top10_desc = df['description'].value_counts().head(10).index
        temp = df[df['description'].isin(top10_desc)]
        crosstab = pd.crosstab(temp['description'], temp['pontuacao_quartil'], normalize='index')
        crosstab.plot(kind='bar', stacked=True, figsize=(12, 6), colormap='viridis')
        plt.title('Distribui√ß√£o por Quartil nas Top 10 Ocorr√™ncias')
        plt.ylabel('Propor√ß√£o')
        salvar_fig("Distribui√ß√£o por Quartil")

    # Linha temporal
    df.set_index('occurence_create').resample('M')['Pontua√ß√£o Atualiza√ß√£o'].mean().plot(figsize=(12, 5))
    plt.title('M√©dia da Pontua√ß√£o Atualiza√ß√£o por M√™s')
    plt.ylabel('M√©dia')
    plt.xlabel('Data')
    salvar_fig("M√©dia por M√™s")

    # Heatmap correla√ß√£o
    plt.figure(figsize=(8, 6))
    sns.heatmap(df[['Pontua√ß√£o', 'Pontua√ß√£o Atualiza√ß√£o', 'Pontua√ß√£o Comit√™']].corr(), annot=True, cmap='coolwarm')
    plt.title('Correla√ß√£o entre as Pontua√ß√µes')
    salvar_fig("Heatmap de Correla√ß√£o")

    # Dispers√£o
    plt.figure(figsize=(8, 6))
    sns.scatterplot(x='Pontua√ß√£o Atualiza√ß√£o', y='Pontua√ß√£o Comit√™', data=df)
    plt.title('Dispers√£o: Atualiza√ß√£o vs Comit√™')
    salvar_fig("Dispers√£o Pontua√ß√£o")

    # Heatmap de conting√™ncia
    if df['observation_quartil'].notna().any():
        cont_table = pd.crosstab(df['description'], df['observation_quartil'])
        plt.figure(figsize=(14, 8))
        sns.heatmap(cont_table, annot=False, cmap='Blues')
        plt.title('Heatmap: Descri√ß√£o √ó Quartil de Observa√ß√£o')
        salvar_fig("Conting√™ncia Descri√ß√£o x Observa√ß√£o")

    # Top 20 motoristas
    plt.figure(figsize=(12, 6))
    df['driver_id'].value_counts().head(20).plot(kind='bar')
    plt.title('Top 20 Motoristas com Mais Ocorr√™ncias')
    plt.xlabel('driver_id')
    plt.ylabel('Ocorr√™ncias')
    salvar_fig("Top Motoristas")

    # Cascata de impacto
    impacto = df.groupby('description')['Pontua√ß√£o Atualiza√ß√£o'].sum().sort_values(ascending=False).head(15)
    plt.figure(figsize=(14, 6))
    plt.bar(impacto.index, impacto.values)
    plt.xticks(rotation=90)
    plt.title('Impacto Total da Pontua√ß√£o Atualiza√ß√£o por Evento')
    salvar_fig("Cascata de Impacto")

# Rodar
gerar_graficos_e_salvar(df)


Histogramas ‚Üí figuras/figura_1.png
Boxplot Pontua√ß√£o por Ocorr√™ncia ‚Üí figuras/figura_2.png
Frequ√™ncia de Ocorr√™ncias ‚Üí figuras/figura_3.png
Distribui√ß√£o por Quartil ‚Üí figuras/figura_4.png


  df.set_index('occurence_create').resample('M')['Pontua√ß√£o Atualiza√ß√£o'].mean().plot(figsize=(12, 5))


M√©dia por M√™s ‚Üí figuras/figura_5.png
Heatmap de Correla√ß√£o ‚Üí figuras/figura_6.png
Dispers√£o Pontua√ß√£o ‚Üí figuras/figura_7.png
Conting√™ncia Descri√ß√£o x Observa√ß√£o ‚Üí figuras/figura_8.png
Top Motoristas ‚Üí figuras/figura_9.png
Cascata de Impacto ‚Üí figuras/figura_10.png


In [None]:
# Analisando o relat√≥rio gerado na etapa anterior quero que gere um c√≥digo python para gerar um fluxograma
# Incluir neste fluxograma as etapas do estudo
# Incluir os principais resultados
# Incluir os principais achados
# Incluir as principais conclus√µes
# O fluxograma deve ser salvo na pasta "figuras" como um arquivo png
# O nome do arquivo deve ser "fluxograma.png"
# O c√≥digo deve ser √∫nico e gerar o fluxograma completo
# O c√≥digo deve ser execut√°vel e gerar o fluxograma completo
# C√≥digo de referencia: from graphviz import Digraph# Fluxograma acad√™mico estilizadoflow = Digraph('Academic_Flowchart', format='png')# Atributos do grafo (layout)flow.attr('graph',           rankdir='TB',           # Dire√ß√£o top-to-bottom para estilo acad√™mico          fontsize='12',           fontname='Times New Roman',          bgcolor='white',           margin='0.2')# Atributos dos n√≥s (estilo acad√™mico)flow.attr('node',           shape='rectangle',           style='rounded,filled',           fillcolor='#F7F9FB',    # Tom suave          color='#2E4053',        # Borda escura          fontname='Times New Roman',           fontsize='12',           margin='0.2')# Atributos das arestas (linhas)flow.attr('edge',           color='#2E4053',           arrowhead='vee',           penwidth='1.5')# Defini√ß√£o das etapasetapas = [    ('A', 'In√≠cio'),    ('B', '1. Importa√ß√£o de Dados\n(pandas)'),    ('C', '2. Pr√©-processamento\n(numpy, unidecode)'),    ('D', '3. Estat√≠stica Descritiva\n(statsmodels)'),    ('E', '4. Modelagem Preditiva\n(scikit-learn)'),    ('F', '5. Visualiza√ß√£o de Dados\n(matplotlib, seaborn)'),    ('G', '6. Exporta√ß√£o de Relat√≥rios\n(openpyxl, tabulate)'),    ('H', '7. Deploy & BQ\n(functions-framework,\ngoogle-cloud-bigquery)'),    ('I', 'Conclus√£o')]# Cria os n√≥sfor key, label in etapas:    flow.node(key, label)# Conecta as etapas em sequ√™nciafor (src, _), (dst, _) in zip(etapas, etapas[1:]):    flow.edge(src, dst)# Exibe o fluxogramaflow

In [8]:
from graphviz import Digraph
import os

# Criar pasta se necess√°rio
os.makedirs("figuras", exist_ok=True)

# Criar fluxograma
fluxograma = Digraph('Fluxograma_Estudio', format='png')

# Configura√ß√µes de layout e estilo
fluxograma.attr('graph', rankdir='TB', fontsize='12', fontname='Times New Roman', bgcolor='white', margin='0.2')
fluxograma.attr('node', shape='rectangle', style='rounded,filled', fillcolor='#F7F9FB',
                color='#2E4053', fontname='Times New Roman', fontsize='12', margin='0.2')
fluxograma.attr('edge', color='#2E4053', arrowhead='vee', penwidth='1.5')

# Defini√ß√£o das etapas do estudo
etapas = [
    ('A', 'In√≠cio do Estudo'),
    ('B', '1. Coleta de Dados\n67.554 registros analisados'),
    ('C', '2. Organiza√ß√£o dos Dados\nTipos de eventos e pontua√ß√µes'),
    ('D', '3. An√°lise Explorat√≥ria\nFrequ√™ncia, boxplots, dispers√£o, correla√ß√µes'),
    ('E', '4. Identifica√ß√£o de Padr√µes\nExcesso de "Dia agenciado", reincid√™ncias'),
    ('F', '5. An√°lise Temporal\nVaria√ß√£o das m√©dias mensais'),
    ('G', '6. Revis√µes e Ajustes\nDiferen√ßas entre sistema e comit√™'),
    ('H', '7. Resultados-Chave\n- 95% "Dia agenciado"\n- Inconsist√™ncias em revis√µes\n- Perfis reincidentes'),
    ('I', '8. Conclus√µes\nNecessidade de revis√£o de crit√©rios,\ntratamento da reincid√™ncia e padroniza√ß√£o'),
    ('J', 'Fim do Estudo')
]

# Criar n√≥s
for key, label in etapas:
    fluxograma.node(key, label)

# Criar conex√µes
for i in range(len(etapas) - 1):
    src, _ = etapas[i]
    dst, _ = etapas[i + 1]
    fluxograma.edge(src, dst)

# Salvar o fluxograma
fluxograma.render(filename='fluxograma', directory='figuras', cleanup=True)


'figuras/fluxograma.png'

In [None]:

# Agora com base no relat√≥rio completo quero que gere um documento HTML para ele. 
# N√£o usar Python nesta etapa.
# Gerar em HTMl puramente.
# Usar as normas da ABNT
# Neste documento incluir o texto adaptado do relat√≥rio. 
# Incluir tamb√©m as figuras geradas na etapa anterior. com titulos e descri√ß√£o.
# Incluir e citar no texto as figuras a partir dos PNGs gerados na etapa anterior
# Tamb√©m incluir o fluxograma gerado na etapa anterior.
# Deixar responsivo
