#üìä Big Data na Gest√£o P√∫blica:
#Investimentos, D√≠vidas e Ren√∫ncias Fiscais no Brasil

**Discplina: T√≥picos de Big Data em Python - ARA0168**

**Professor: Vagner Cordeiro**

**Integrantes:**

**- Gabriel Passos**

**- Eduardo Stefanello**

**- Bernardo Moro**


**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Partes Interessadas**
**üîπ P√∫blico-alvo: Sociedade em geral e √≥rg√£os p√∫blicos interessados em transpar√™ncia dos investimentos.**

**üîπ Perfil: Cidad√£os brasileiros, gestores p√∫blicos, pesquisadores (sem delimita√ß√£o exata de idade ou escolaridade).**

**üîπ Parceiros: Dados p√∫blicos extra√≠dos de portais oficiais (Tesouro Nacional, Receita Federal, etc).**

**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Problem√°tica Identificada**
**üîπ Falta de acessibilidade e interpreta√ß√£o dos dados p√∫blicos de investimentos, d√≠vida e ren√∫ncia fiscal.**

**üîπ A popula√ß√£o n√£o tem clareza sobre como e onde o dinheiro p√∫blico est√° sendo aplicado ao longo dos anos.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Justificativa**
**üîπ O projeto promove a transpar√™ncia de dados p√∫blicos, usando tecnologias de Big Data e machine learning.**

**üîπ Relaciona-se com o curso por aplicar conhecimentos de dados, estat√≠stica em larga escala.**

**üîπ Transformar dados complexos em insights acess√≠veis com apoio de visualiza√ß√µes interativas.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Objetivos**
**üîπ Criar visualiza√ß√µes claras e interativas sobre investimentos, d√≠vida e ren√∫ncia fiscal.**

**üîπ Aplicar modelos de previs√£o para auxiliar no planejamento e tomada de decis√£o.**

**üîπ Usar ci√™ncia de dados para fomentar a cidadania e controle social.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Plano de Trabalho**
**üîπ Dados: obtidos do portal `dados.gov`, com foco em dados abertos de investimentos, d√≠vida p√∫blica e ren√∫ncia fiscal.**

**üîπ Limpeza de dados: realizada no Google Colab com Pandas. Ap√≥s tratamento, os arquivos foram exportados em formato `.csv` e importados para o ambiente Databricks.**

**üîπ Integra√ß√£o: realizada com PySpark, unindo os dados anuais de investimento, d√≠vida (dezembro) e ren√∫ncia, gerando uma base consolidada (`df_final_ano`).**

**üîπ Visualiza√ß√µes: desenvolvidas com `Plotly`, exibindo gr√°ficos interativos para an√°lise das tend√™ncias.**

**üîπ Modelos de Previs√£o (ML): uso do `Prophet` para prever s√©ries temporais de investimento, d√≠vida e ren√∫ncia at√© 2034.**

**üîπ Cronograma: planejamento e execu√ß√£o das tarefas registrado no `Trello`, com desenvolvimento entre abril e junho.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Grupo de Trabalho**

**üîπ Eduardo Stefanello e Gabriel Passos : Respons√°vel por buscar os dados p√∫blicos e realizar a limpeza inicial no Google Colab. Cria√ß√£o do Roteiro Overleaf e do Reposit√≥rio do GITHUB**

**üîπ Gabriel Passos: Respons√°vel pela integra√ß√£o dos dados no Databricks, gera√ß√£o de visualiza√ß√µes interativas e desenvolvimento das previs√µes com o modelo Prophet.**

**üîπ Bernardo Moro: Respons√°vel por compilar os dados tratados, organizar o material para apresenta√ß√£o e montar o cronograma no Trello.**


%md
**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Metas e Indicadores**
**üîπ Dataset limpo e integrado.**

**üîπ Tr√™s previs√µes com `Prophet` funcionando (Investimentos, D√≠vida, Ren√∫ncia).**

**üîπ Dashboard interativo com gr√°ficos.**

**üîπ Indicador: Clareza e compreensibilidade dos gr√°ficos gerados (facilidade para o p√∫blico interpretar os dados e proje√ß√µes).**

**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Recursos Previstos**
**üîπ Google Colab, Databricks Community, Plotly, Prophet, PySpark (sem custos).**

**üîπ Arquivos `.csv` p√∫blicos (sem custos).**

**-------------------------------------------------------------------------------------------------------------------------------------------**

### **Detalhamento T√©cnico**
**Etapas do Projeto:**

**üîπ Importa√ß√£o e limpeza dos dados: arquivos `.csv` tratados com Pandas no Colab e posteriormente processados com PySpark no Databricks.**

**üîπ Agrega√ß√£o anual: consolida√ß√£o dos dados por ano com base nas colunas:**
**- `movimento_liquido_reais` (investimentos)**
**- `valor do estoque de dezembro` (d√≠vida)**
**- `total anual` (ren√∫ncia)**

**üîπ Integra√ß√£o dos dados: jun√ß√£o dos tr√™s conjuntos em um √∫nico DataFrame (`df_final_ano`), usando `join` externo pela coluna `ano`.**

**üîπ Visualiza√ß√µes: gr√°ficos interativos com `Plotly`, com destaque para a evolu√ß√£o temporal de cada indicador.**

**üîπ Modelos de Previs√£o com `Prophet`: modelos treinados separadamente para investimento, d√≠vida e ren√∫ncia fiscal, projetando os valores de 2024 at√© 2034.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
# Leitura dos dados (Spark + CSV)
df_invest = spark.read.option("header", True).option("sep", ",").csv("/FileStore/tables/investimentos_ok.csv")
df_divida = spark.read.option("header", True).option("sep", ",").csv("/FileStore/tables/divida_ok.csv")
df_renuncia = spark.read.option("header", True).option("sep", ",").csv("/FileStore/tables/renuncia_ok.csv")
df_cnae = spark.read.option("header", True).option("sep", ",").csv("/FileStore/tables/cnae_ok.csv")
df_baseagregada = spark.read.option("header", True).option("sep", ",").csv("/FileStore/tables/base_agregada_anual.csv")

In [0]:
from pyspark.sql.functions import year, month, col, to_date, sum as spark_sum

#coluna "mes do estoque" para o tipo data
df_divida = df_divida.withColumn("mes do estoque", to_date("mes do estoque"))

#valores da d√≠vida para (double)
df_divida = df_divida.withColumn("valor do estoque", col("valor do estoque").cast("double"))

# extraindo o ano e o m√™s da data
df_divida = df_divida.withColumn("ano", year("mes do estoque"))
df_divida = df_divida.withColumn("mes", month("mes do estoque"))

# apenas os dados referentes a dezembro (m√™s 12), valor final do ano
df_divida_dez = df_divida.filter(col("mes") == 12)

# agrupando por ano e somando o valor do estoque da d√≠vida
div_ano = df_divida_dez.groupBy("ano").agg(spark_sum("valor do estoque").alias("divida_total"))

df_invest = df_invest.withColumn("ano", year("data"))

#"f0000_ano" para "ano" ren√∫ncia fiscal
df_renuncia = df_renuncia.withColumnRenamed("f0000_ano", "ano")

# investimentos por ano e somando os valores
inv_ano = df_invest.groupBy("ano").agg(spark_sum("movimento_liquido_reais").alias("investimentos_total"))

# ren√∫ncia por ano e somando os valores
ren_ano = df_renuncia.groupBy("ano").agg(spark_sum("total").alias("renuncia_total"))

# join tabelas: investimentos, d√≠vida e ren√∫ncia por ano
df_final_ano = inv_ano.join(div_ano, on="ano", how="outer") \
                      .join(ren_ano, on="ano", how="outer") \
                      .orderBy("ano")


**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
import plotly.graph_objects as go

#dataFrame spark para pandas e removendo linhas (NaN)
pdf = df_final_ano.dropna().toPandas()

#criando a figura do gr√°fico
fig = go.Figure()

#linha de Investimentos
fig.add_trace(go.Scatter(
    x=pdf["ano"], 
    y=pdf["investimentos_total"],
    mode='lines+markers',
    name='Investimentos',
    hovertemplate='Ano: %{x}<br>Investimentos: R$ %{y:,.2f}'
))

#linha da D√≠vida
fig.add_trace(go.Scatter(
    x=pdf["ano"], 
    y=pdf["divida_total"],
    mode='lines+markers',
    name='D√≠vida',
    hovertemplate='Ano: %{x}<br>D√≠vida: R$ %{y:,.2f}'
))

#linha da Ren√∫ncia Fiscal
fig.add_trace(go.Scatter(
    x=pdf["ano"], 
    y=pdf["renuncia_total"],
    mode='lines+markers',
    name='Ren√∫ncia',
    hovertemplate='Ano: %{x}<br>Ren√∫ncia: R$ %{y:,.2f}'
))

#layout do gr√°fico
fig.update_layout(
    title="üìä Evolu√ß√£o dos Valores Investimento / D√≠vida / Ren√∫ncia por Ano (2017‚Äì2023)",
    xaxis_title="Ano",
    yaxis_title="Valor (R$)",
    hovermode="x unified", #Tooltip unificada por eixo X
    template="plotly_white",
    width=950,
    height=500
)

fig.show()

### **üìä Evolu√ß√£o de Investimentos, D√≠vida e Ren√∫ncia Fiscal (2017‚Äì2023)**

**O gr√°fico mostra como o setor p√∫blico brasileiro aplicou, acumulou e abriu m√£o de recursos nos √∫ltimos anos:**

**üîµ Investimentos: Em queda desde 2017, com forte retra√ß√£o em 2020 devido √† pandemia. Recupera√ß√£o t√≠mida at√© 2023.**

**üî¥ D√≠vida P√∫blica: Crescimento cont√≠nuo, intensificado em 2020 com os gastos emergenciais da COVID-19. Em 2023, ultrapassa R$ 8 trilh√µes.**

**üü¢ Ren√∫ncia Fiscal: Aumenta gradualmente, com saltos em 2020 e 2022, impulsionada por incentivos a setores estrat√©gicos e medidas eleitorais.**

**üëâ A compara√ß√£o revela um Estado com alta d√≠vida, baixo investimento e expans√£o de benef√≠cios fiscais, refletindo desafios na gest√£o dos recursos p√∫blicos em momentos de crise e instabilidade econ√¥mica.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
import plotly.express as px
from pyspark.sql.functions import sum

# agrupar os dados de investimento por estado (UF), excluindo os totais nacionais
pdf_uf = df_invest.filter(~df_invest["uf_desc"].isin(["BRASIL", "NACIONAL"])) \
    .groupBy("uf_desc") \
    .agg(sum("movimento_liquido_reais").alias("total_uf")) \
    .orderBy("total_uf", ascending=False) \
    .limit(10) \
    .toPandas()                                                            

# fun√ß√£o para formatar os valores em Bilh√µes ou Trilh√µes
def format_valor(valor):
    if valor >= 1e12:
        return f"{valor / 1e12:.1f}T"
    else:
        return f"{valor / 1e9:.1f}B"

#aplica√ß√£o da formata√ß√£o nos valores totais
pdf_uf["texto_formatado"] = pdf_uf["total_uf"].apply(format_valor)

#gr√°fico de barras horizontais com Plotly
fig = px.bar(
    pdf_uf.sort_values("total_uf", ascending=True),
    x="total_uf",
    y="uf_desc",
    orientation="h",
    text="texto_formatado",
    title="üí∞ Top 10 Estados por Investimento P√∫blico (2014‚Äì2024)",
    labels={
        "total_uf": "Investimento Total (R$)",
        "uf_desc": "Estado (UF)"
    }
)

fig.update_layout(template="plotly_white")

fig.show()

### **üí∞ Top 10 Estados por Investimento P√∫blico (2014‚Äì2024)**

**O gr√°fico mostra os estados que mais receberam investimentos p√∫blicos no per√≠odo de 2014 a 2024. Bahia, Rio Grande do Sul e Minas Gerais lideram, com valores que ultrapassam R$ 1 trilh√£o, indicando forte presen√ßa de projetos federais nessas regi√µes.**

**Estados como Santa Catarina, S√£o Paulo e Paran√° aparecem em seguida, com aportes acima de R$ 600 bilh√µes. A distribui√ß√£o evidencia a concentra√ß√£o de recursos em determinadas regi√µes, o que pode refletir prioridades econ√¥micas, estrat√©gicas ou sociais ao longo da d√©cada.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
import plotly.express as px
from pyspark.sql.functions import sum as spark_sum, col

df_mun = df_invest.filter(~df_invest["municipio"].isin(["BRASIL", "NACIONAL"]))

#agrupa por munic√≠pio, somando o valor de investimento total
pdf_mun = df_mun.groupBy("municipio") \
    .agg(spark_sum("movimento_liquido_reais").alias("total_municipio")) \
    .orderBy("total_municipio", ascending=False) \
    .limit(10).toPandas()

#converte o valor para bilh√µes para o gr√°fico
pdf_mun["total_municipio_bilhoes"] = pdf_mun["total_municipio"] / 1e9

fig = px.bar(
    pdf_mun,
    x="total_municipio_bilhoes",
    y="municipio",
    orientation="h",
    title="üí∞ Top 10 Munic√≠pios por Investimento P√∫blico (2014‚Äì2024)",
    labels={
        "total_municipio_bilhoes": "Investimento (Bilh√µes R$)",
        "municipio": "Munic√≠pio"
    }
)

# formata os r√≥tulos para exibir os valores em bilh√µes com 1 casa decimal
fig.update_traces(texttemplate='%{x:.1f}B')

fig.update_layout(
    template="plotly_white",
    xaxis_title="Investimento Total (R$)",
    yaxis_title="Munic√≠pio",
    yaxis=dict(categoryorder='total ascending')
)

fig.show()

### **üí∞ Top 10 Munic√≠pios por Investimento P√∫blico (2014‚Äì2024)**

**Este gr√°fico apresenta os 10 munic√≠pios que mais receberam recursos p√∫blicos no per√≠odo analisado. Bras√≠lia lidera com folga, refletindo seu papel como sede administrativa do pa√≠s. Em seguida, aparecem grandes centros urbanos como Rio de Janeiro e Porto Alegre, evidenciando a concentra√ß√£o de investimentos em regi√µes metropolitanas com alta demanda por infraestrutura e servi√ßos p√∫blicos.**

**A predomin√¢ncia de capitais e cidades estrat√©gicas mostra a prioriza√ß√£o de √°reas com maior densidade populacional ou import√¢ncia econ√¥mica para o pa√≠s.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
import plotly.express as px

df_regiao = df_invest.filter(~df_invest["regiao"].isin(["NACIONAL"]))

#agrupa os dados por regi√£o, somando o valor total de investimento
pdf_regiao = df_regiao.groupBy("regiao") \
    .agg(sum("movimento_liquido_reais").alias("total_regiao")) \
    .orderBy("total_regiao", ascending=False).toPandas()

fig = px.bar(
            pdf_regiao, x="regiao", y="total_regiao",
             title="üí∞ Top 5 Regi√µes por Investimento (2014-2024)",
             labels={"total_regiao": "Investimento Total (R$)", "regiao": "Regi√£o"},
             text_auto=True) # Exibe os valores automaticamente sobre as barras

fig.update_layout(template="plotly_white")

fig.show()

### **üí∞ Top 5 Regi√µes por Investimento (2014-2024)**

**O gr√°fico exibe os Top 5 investimentos p√∫blicos por regi√£o do Brasil entre 2014 e 2024. A Regi√£o Nordeste se destaca como l√≠der em volume total de investimentos, ultrapassando 6 trilh√µes de reais, seguida pelas regi√µes Sudeste e Sul, com valores acima de 3 trilh√µes.**

**Apesar de concentrarem grandes centros econ√¥micos, o Sudeste e o Sul receberam menos recursos que o Nordeste, o que pode estar relacionado a programas federais de incentivo ao desenvolvimento regional. O investimento no Exterior tamb√©m aparece, embora em menor escala, refletindo a√ß√µes pontuais de alcance internacional.**

**Esse recorte regional ajuda a compreender como os recursos p√∫blicos s√£o distribu√≠dos geograficamente, revelando prioridades territoriais nas pol√≠ticas de investimento do governo federal.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
import plotly.express as px

#agrupa os dados por tipo de fun√ß√£o p√∫blica, somando o total de investimentos
pdf_funcao = df_invest.groupBy("funcao_desc") \
    .agg(sum("movimento_liquido_reais").alias("total_funcao")) \
    .orderBy("total_funcao", ascending=False) \
    .limit(10).toPandas()

fig = px.bar(pdf_funcao, x="total_funcao", y="funcao_desc", orientation="h",
             title="üí∞ Top 10 Fun√ß√µes P√∫blicas por Investimento (2014-2024) ",
             labels={"total_funcao": "Investimento Total (R$)", "funcao_desc": "Fun√ß√£o"},
             text_auto=True) # Mostra o valor em cima das barras
        
fig.update_layout(
            template="plotly_white",
            yaxis={'categoryorder': 'total ascending'})

fig.show()

### **üí∞ Top 10 Fun√ß√µes P√∫blicas por Investimento (2014-2024)**

**O gr√°fico apresenta as 10 fun√ß√µes p√∫blicas que mais receberam investimentos entre 2014 e 2024. As √°reas de Transporte e Defesa Nacional lideram com folga, somando juntas mais de 17 trilh√µes de reais. Essas prioridades podem refletir grandes obras de infraestrutura e gastos estrat√©gicos com seguran√ßa e defesa.**

**Na sequ√™ncia, aparecem Encargos Especiais (que incluem pagamento de juros da d√≠vida), Educa√ß√£o, Urbanismo e Sa√∫de, demonstrando a diversidade das frentes que absorvem recursos p√∫blicos.**

**A an√°lise revela como o or√ßamento federal se distribui entre fun√ß√µes estruturais, sociais e operacionais, oferecendo uma vis√£o macro das escolhas pol√≠ticas ao longo da d√©cada.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
import plotly.express as px
from pyspark.sql.functions import col, sum as spark_sum, row_number
from pyspark.sql.window import Window

#5 fun√ß√µes com maior investimento
top_funcoes = df_invest.groupBy("funcao_desc") \
    .agg(spark_sum("movimento_liquido_reais").alias("total_funcao")) \
    .orderBy(col("total_funcao").desc()) \
    .limit(5)

#filtra fun√ß√µes
top_funcoes_list = [row["funcao_desc"] for row in top_funcoes.collect()]
df_filtrado = df_invest.filter(col("funcao_desc").isin(top_funcoes_list))

#agrupa por programa
df_programas = df_filtrado.groupBy("funcao_desc", "programa_desc") \
    .agg(spark_sum("movimento_liquido_reais").alias("total_investido"))

#3 maiores programas por fun√ß√£o
window = Window.partitionBy("funcao_desc").orderBy(col("total_investido").desc())
top_programas = df_programas.withColumn("rank", row_number().over(window)) \
                            .filter(col("rank") <= 3) \
                            .drop("rank")

pdf_programas = top_programas.toPandas()

#quebra de linha nos nomes longos
def quebra_linha(texto, max_chars=35):
    if len(texto) > max_chars:
        return texto[:max_chars] + "<br>" + texto[max_chars:]
    return texto

pdf_programas["programa_exibicao"] = pdf_programas["programa_desc"].apply(quebra_linha)

#formatar valores
def formatar_valor(v):
    if v >= 1e12:
        return f"{v / 1e12:.2f}T"
    else:
        return f"{v / 1e9:.2f}B"

pdf_programas["texto_formatado"] = pdf_programas["total_investido"].apply(formatar_valor)

fig = px.bar(pdf_programas,
             x="total_investido",
             y="programa_exibicao",
             color="funcao_desc",
             title="üí∞ Top 3 Programas das 5 Fun√ß√µes com Maior Investimento",
             labels={"total_investido": "Total Investido (R$)", "programa_exibicao": "Programa"},
             height=700,
             orientation="h")

fig.update_traces(text=pdf_programas["texto_formatado"])

fig.update_layout(template="plotly_white",
                  legend_title="Fun√ß√£o",
                  yaxis=dict(categoryorder="total ascending"))
                  
fig.show()

### **üí∞ Top 3 Programas das 5 Fun√ß√µes com Maior Investimento**

**Este gr√°fico apresenta os principais programas p√∫blicos dentro das cinco fun√ß√µes que mais receberam investimentos no per√≠odo analisado. Entre os destaques:**

**- Defesa Nacional lidera com um programa isolado que ultrapassa a marca de R$ 6 trilh√µes.**

**- A fun√ß√£o Transporte aparece com diversos programas relevantes, como transporte rodovi√°rio e mobilidade urbana.**

**- Educa√ß√£o mostra forte presen√ßa com iniciativas voltadas √† qualidade do ensino b√°sico e superior**.

**- As fun√ß√µes de Urbanismo e Encargos Especiais tamb√©m possuem programas com valores expressivos, voltados √† infraestrutura e obriga√ß√µes constitucionais.**

**O gr√°fico permite observar quais √°reas concentram os maiores recursos e quais programas espec√≠ficos absorvem boa parte dos investimentos p√∫blicos.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
from pyspark.sql.functions import col, sum
import plotly.express as px

#total para num√©rica
df_renuncia = df_renuncia.withColumn("total", col("total").cast("double"))

#agregar o total por empresa
top_empresas = df_renuncia.groupBy("razao_social") \
    .agg(sum("total").alias("renuncia_total")) \
    .orderBy(col("renuncia_total").desc()) \
    .limit(10)

pdf_empresas = top_empresas.toPandas()

fig = px.bar(pdf_empresas,
             x="renuncia_total",
             y="razao_social",
             orientation="h",
             title="üè¢ Top 10 Empresas com Maior Ren√∫ncia Fiscal (2015-2023)",
             labels={"renuncia_total": "Total Renunciado (R$)", "razao_social": "Empresa"},
             text_auto=True)
             
fig.update_layout(template="plotly_white", yaxis={'categoryorder':'total ascending'})

fig.show()

### **üè¢ Top 10 Empresas com Maior Ren√∫ncia Fiscal (2015‚Äì2023)**

**O gr√°fico apresenta as dez empresas que mais se beneficiaram de ren√∫ncias fiscais no per√≠odo de 2015 a 2023. A VALE S/A lidera isoladamente, acumulando quase 30 bilh√µes de reais em incentivos. Em seguida, aparecem grandes corpora√ß√µes como PETROBRAS e GLOBO COMUNICA√á√ÉO.**

**Esses dados revelam a concentra√ß√£o de incentivos fiscais em grandes empresas, especialmente nos setores de minera√ß√£o, energia e comunica√ß√£o, levantando debates sobre a efetividade e o equil√≠brio dessas pol√≠ticas de ren√∫ncia.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
from pyspark.sql.functions import regexp_replace, col, sum
import plotly.express as px

#agrega√ß√£o da ren√∫ncia fiscal total por CNAE
df_cnae_agg = df_renuncia.groupBy("cnae") \
    .agg(sum("total").alias("renuncia_total"))

#jun√ß√£o com descri√ß√£o do CNAE
df_cnae_renuncia = df_cnae_agg.join(df_cnae, on="cnae", how="left")

#descri√ß√µes nulas
df_cnae_renuncia = df_cnae_renuncia.fillna({'descricao': 'Descri√ß√£o n√£o dispon√≠vel'})

top_cnaes = df_cnae_renuncia.orderBy(col("renuncia_total").desc()).limit(10).toPandas()

fig = px.bar(
    top_cnaes,
    x="renuncia_total",
    y="descricao",
    orientation="h",
    title="üè¢ Top 10 Setores Econ√¥micos com Maior Ren√∫ncia Fiscal",
    labels={"descricao": "Setor Econ√¥mico (CNAE)", "renuncia_total": "Ren√∫ncia Fiscal (R$)"},
    text_auto=True
)
fig.update_layout(
    template="plotly_white",
    yaxis=dict(categoryorder="total ascending"),
    height=600
)
fig.show()

### **üè¢ Top 10 Setores Econ√¥micos com Maior Ren√∫ncia Fiscal**

**O gr√°fico mostra os setores com maiores valores de ren√∫ncia fiscal entre 2015 e 2023. O setor de extra√ß√£o de min√©rio de ferro lidera com folga, seguido por atividades de televis√£o aberta e gera√ß√£o de energia el√©trica.**

**Esses dados revelam onde est√£o concentrados os incentivos tribut√°rios, com destaque para setores estrat√©gicos da infraestrutura e da ind√∫stria extrativa. O investimento p√∫blico indireto nesses setores pode estar relacionado √† sua import√¢ncia econ√¥mica ou √† busca por est√≠mulo em √°reas essenciais ao desenvolvimento do pa√≠s.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
%pip install prophet

from prophet import Prophet
import pandas as pd
import plotly.graph_objects as go

df = df_baseagregada.toPandas().copy()

df["ano"] = df["ano"].astype(int)  #coluna "ano" inteiro
df["investimentos_total"] = df["investimentos_total"].astype(float)  #converte float
df["y"] = df["investimentos_total"] / 1e12  #converte para trilh√µes de reais

df["ds"] = pd.to_datetime(df["ano"].astype(str), format="%Y")  #cria coluna de data exigida Prophet

#treina o modelo Prophet com o dados
model = Prophet()
model.fit(df[["ds", "y"]])  #'ds' (data) e 'y' (valor a ser previsto)

#datas futuras at√© 2034
future = model.make_future_dataframe(periods=11, freq="Y")
forecast = model.predict(future)  #previs√µes

#separa dados reais (at√© 2024) previs√µes (a partir de 2025)
real = forecast[forecast["ds"] <= pd.to_datetime("2024-12-31")]
previsao = forecast[forecast["ds"] > pd.to_datetime("2024-12-31")]

fig = go.Figure()

#linha dos dados reais
fig.add_trace(go.Scatter(
    x=real["ds"], y=real["yhat"],
    mode="lines+markers",
    name="Investimento Real",
    line=dict(color="green")
))

#linha das previs√µes
fig.add_trace(go.Scatter(
    x=previsao["ds"], y=previsao["yhat"],
    mode="lines+markers",
    name="Previs√£o (2025‚Äì2034)",
    line=dict(color="blue", dash="dash")
))

fig.update_layout(
    title="üìà Previs√£o de Investimentos P√∫blicos (2014‚Äì2034) com Prophet",
    xaxis_title="Ano",
    yaxis_title="Investimentos (Trilh√µes R$)",
    xaxis=dict(tickformat="%Y"),
    template="plotly_white",
    width=950,
    height=500
)

fig.show() 

### **üìä Previs√£o de Investimentos P√∫blicos (2014‚Äì2034)**
### 
**Utilizando o modelo Prophet, foi realizada a proje√ß√£o dos investimentos p√∫blicos anuais com base na s√©rie hist√≥rica de 2014 a 2024.**

**Os dados indicam uma recupera√ß√£o nos √∫ltimos anos, e o modelo prev√™ uma tend√™ncia de crescimento moderado at√© 2034, com valores variando entre 5,1 e 5,8 trilh√µes de reais ao ano.**

**A an√°lise foi feita sem vari√°veis externas, focando apenas na evolu√ß√£o hist√≥rica dos dados. O Prophet foi escolhido pela sua efici√™ncia em s√©ries temporais anuais e por capturar tend√™ncias mesmo em s√©ries mais curtas.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
from prophet import Prophet
import pandas as pd
import plotly.graph_objects as go

df = df_baseagregada.toPandas().copy()

df["ano"] = df["ano"].astype(int)  #coluna "ano" inteiro
df["divida_total"] = df["divida_total"].astype(float)   #converte float

#filtro dados a partir de 2017
df = df[df["ano"] >= 2017].copy()

df["y"] = df["divida_total"] / 1e12  #converte para trilh√µes
df["ds"] = pd.to_datetime(df["ano"], format="%Y") #cria coluna de data exigida Prophet

#cria e treina o modelo Prophet
model = Prophet()
model.fit(df[["ds", "y"]])  #'ds' (data) e 'y' (valor a ser previsto)

#datas futuras at√© 2034
future = model.make_future_dataframe(periods=11, freq="Y")
forecast = model.predict(future)  #previs√µes

#agrupa a previs√£o por ano
forecast["ano"] = forecast["ds"].dt.year
df_previsto = forecast.groupby("ano").agg({"yhat": "mean"}).reset_index()

#separa dados reais (at√© 203) previs√µes (a partir de 2024)
real = df_previsto[df_previsto["ano"] <= 2023]
previsao = df_previsto[df_previsto["ano"] > 2023]

fig = go.Figure()

#linha dos dados reais
fig.add_trace(go.Scatter(
    x=real["ano"], y=real["yhat"],
    mode="lines+markers",
    name="D√≠vida Real (2017‚Äì2023)",
    line=dict(color="green")
))

#linha das previs√µes futuras
fig.add_trace(go.Scatter(
    x=previsao["ano"], y=previsao["yhat"],
    mode="lines+markers",
    name="Previs√£o (2024‚Äì2034)",
    line=dict(color="blue", dash="dash")
))

fig.update_layout(
    title="üìâ Previs√£o da D√≠vida P√∫blica com Prophet (2017‚Äì2034)",
    xaxis_title="Ano",
    yaxis_title="D√≠vida P√∫blica (Trilh√µes R$)",
    template="plotly_white",
    width=950,
    height=500
)

#mostrar todos os anos
fig.update_xaxes(
    tickmode="linear",
    tick0=2017,
    dtick=1
)

fig.show()


21:37:15 - cmdstanpy - INFO - Chain [1] start processing
21:37:20 - cmdstanpy - INFO - Chain [1] done processing


### **üìä Previs√£o da D√≠vida P√∫blica (2017‚Äì2034)**
### 
**O gr√°fico apresenta a evolu√ß√£o da d√≠vida p√∫blica brasileira entre 2017 e 2034.**

**Entre 2017 e 2023, observa-se uma tend√™ncia de crescimento cont√≠nuo, partindo de aproximadamente R$ 5,3 trilh√µes at√© cerca de R$ 8,9 trilh√µes.**

**A partir de 2024, as previs√µes indicam uma acelera√ß√£o na d√≠vida, ultrapassando R$ 14 trilh√µes em 2028 e podendo alcan√ßar cerca de R$ 20 trilh√µes at√© 2034, conforme proje√ß√µes do modelo Prophet.**

**Essa tend√™ncia refor√ßa a necessidade de pol√≠ticas fiscais sustent√°veis para conter o avan√ßo da d√≠vida no longo prazo.**

**-------------------------------------------------------------------------------------------------------------------------------------------**

In [0]:
from prophet import Prophet
import pandas as pd
import plotly.graph_objects as go

df = df_baseagregada.toPandas().copy()

df["ano"] = df["ano"].astype(int)   #coluna "ano" inteiro
df["renuncia_total"] = df["renuncia_total"].astype(float)   #converte float

#filtro dados a partir de 2017
df = df[df["ano"] >= 2017].copy()

df["y"] = df["renuncia_total"] / 1e9 #converte para bih√µes
df["ds"] = pd.to_datetime(df["ano"], format="%Y")   #cria coluna de data exigida Prophet   

#cria e treina o modelo Prophet
model = Prophet()
model.fit(df[["ds", "y"]])   #'ds' (data) e 'y' (valor a ser previsto)

#datas futuras at√© 2034
future = model.make_future_dataframe(periods=11, freq="Y")
forecast = model.predict(future) #previs√µes

#agrupa a previs√£o por ano
forecast["ano"] = forecast["ds"].dt.year
df_previsto = forecast.groupby("ano").agg({"yhat": "mean"}).reset_index()

#separa dados reais (at√© 203) previs√µes (a partir de 2024)
real = df_previsto[df_previsto["ano"] <= 2023]
previsao = df_previsto[df_previsto["ano"] > 2023]

fig = go.Figure()

#linha dos dados reais
fig.add_trace(go.Scatter(
    x=real["ano"], y=real["yhat"],
    mode="lines+markers",
    name="Ren√∫ncia Real (2017‚Äì2023)",
    line=dict(color="green")
))

#linha das previs√µes futuras
fig.add_trace(go.Scatter(
    x=previsao["ano"], y=previsao["yhat"],
    mode="lines+markers",
    name="Previs√£o (2024‚Äì2034)",
    line=dict(color="blue", dash="dash")
))

fig.update_layout(
    title="üìâ Previs√£o da Ren√∫ncia Fiscal com Prophet (2017‚Äì2034)",
    xaxis_title="Ano",
    yaxis_title="Ren√∫ncia Fiscal (Bilh√µes R$)",
    template="plotly_white",
    width=950,
    height=500
)

fig.update_xaxes(
    tickmode="linear",
    tick0=2017,
    dtick=1
)

fig.show()

21:41:20 - cmdstanpy - INFO - Chain [1] start processing
21:41:20 - cmdstanpy - INFO - Chain [1] done processing


### **üìä Previs√£o da Ren√∫ncia Fiscal (2017‚Äì2034)**

**O gr√°fico mostra a evolu√ß√£o da ren√∫ncia fiscal entre 2017 e 2034.**
**No per√≠odo de 2017 a 2023, os valores oscilaram entre R$ 15 bilh√µes e R$ 40 bilh√µes, com aumentos mais expressivos ap√≥s 2020.**

**As proje√ß√µes para 2024 a 2034 indicam um crescimento gradual da ren√∫ncia, podendo atingir valores pr√≥ximos a R$ 85 bilh√µes at√© 2034.**
**Esse aumento sugere aten√ß√£o √†s pol√≠ticas de incentivos fiscais e seus impactos na arrecada√ß√£o p√∫blica ao longo da pr√≥xima d√©cada.**


**-------------------------------------------------------------------------------------------------------------------------------------------**

### Conclus√£o

**üîπ O projeto evidenciou o desafio de consolidar e interpretar dados p√∫blicos de forma clara e acess√≠vel. A integra√ß√£o dos dados de investimento, d√≠vida e ren√∫ncia mostrou n√£o s√≥ a complexidade da gest√£o financeira p√∫blica, mas tamb√©m a car√™ncia de dados padronizados e completos. A previs√£o com Prophet, embora √∫til para indicar tend√™ncias, depende fortemente da qualidade dos dados hist√≥ricos ‚Äì um ponto cr√≠tico ao se trabalhar com fontes p√∫blicas.**

**üîπ As visualiza√ß√µes ajudaram a revelar desigualdades regionais nos investimentos e a evolu√ß√£o preocupante da d√≠vida, que tende a crescer mais do que os aportes p√∫blicos. Essa disparidade levanta quest√µes sobre a sustentabilidade fiscal e a efic√°cia da aloca√ß√£o de recursos no pa√≠s.**

**üîπ Apesar das limita√ß√µes t√©cnicas e estruturais dos dados, o projeto refor√ßou a import√¢ncia da transpar√™ncia p√∫blica e mostrou como a ci√™ncia de dados pode ser uma ferramenta essencial para diagn√≥sticos estrat√©gicos, principalmente em contextos governamentais.**

**-------------------------------------------------------------------------------------------------------------------------------------------**