# üéØ Objetivo
Este notebook tem como objetivo complementar o nosso notebook principal, focando especificamente nas respostas √†s perguntas formuladas no in√≠cio da Etapa 1. Optamos por estrutur√°-lo separadamente para garantir uma melhor organiza√ß√£o e clareza na apresenta√ß√£o das conclus√µes.

## üì¶ Instala√ß√£o da Biblioteca `nbimporter`

Para importar vari√°veis, fun√ß√µes ou c√©lulas de um notebook Jupyter para outro, utilizamos a biblioteca `nbimporter`. 

üîß **Para instal√°-la, execute o seguinte comando no terminal ou em uma c√©lula do Jupyter:**

```bash
pip install nbimporter


In [1]:
import nbimporter
import main
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from scipy.stats import ttest_ind
from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.decomposition import PCA
import warnings
warnings.filterwarnings('ignore')


<a id="perguntas"></a>
# ‚ùì Perguntas e Respostas

A seguir, apresentamos cada pergunta acompanhada de sua resposta final, com base nas an√°lises realizadas ao longo das Etapas 1 a 5 do projeto. Quando aplic√°vel, tamb√©m inclu√≠mos refer√™ncias √†s etapas, gr√°ficos, tabelas e demais visualiza√ß√µes que serviram de base para a resposta.

Algumas quest√µes foram abordadas em diferentes momentos do projeto ‚Äî nesses casos, consolidamos as evid√™ncias para oferecer uma vis√£o mais completa.

<a id="1"></a>
### 1 - Existe correla√ß√£o entre o PIB per capita de um estado e a taxa de mortalidade infantil?

<a id="2"></a>
### 2 - Regi√µes com maior produ√ß√£o agr√≠cola t√™m maior PIB per capita?

#### N√£o, necessariamente. Embora algumas regi√µes com alta produ√ß√£o agr√≠cola tamb√©m tenham PIB per capita elevado, isso n√£o √© uma regra geral. A an√°lise mostra que a produ√ß√£o agr√≠cola por si s√≥ n√£o garante maior desenvolvimento econ√¥mico. O que realmente faz diferen√ßa √© a capacidade de agregar valor √† produ√ß√£o, por meio de industrializa√ß√£o, log√≠stica eficiente e diversifica√ß√£o econ√¥mica.

In [None]:

df_agricola = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)
df_pib_regioes = pd.read_csv('pib_per_capita/pib_per_capita_regioes.csv')  # Dados j√° agregados por regi√£o

# Converter colunas num√©ricas (tratando formato brasileiro)
if 'VlProducaoAgricola' in df_agricola.columns:
    df_agricola['VlProducaoAgricola'] = df_agricola['VlProducaoAgricola'].astype(str).str.replace('.', '').str.replace(',', '.').astype(float)

# Agregar produ√ß√£o agr√≠cola por regi√£o e ano (soma)
df_agregado_regiao = df_agricola.groupby(['Ano', 'Regiao'])['VlProducaoAgricola'].sum().reset_index()

# Contar n√∫mero de munic√≠pios por regi√£o/ano (para o tamanho dos pontos)
qtd_municipios = df_agricola.groupby(['Ano', 'Regiao'])['Municipio'].nunique().reset_index()
qtd_municipios.rename(columns={'Municipio': 'QtdMunicipios'}, inplace=True)

# Juntar todos os dados (usando a tabela de PIB por regi√µes)
df_final = pd.merge(df_agregado_regiao, df_pib_regioes, on=['Ano', 'Regiao'])
df_final = pd.merge(df_final, qtd_municipios, on=['Ano', 'Regiao'])

# Converter Ano para string para a anima√ß√£o
df_final['Ano'] = df_final['Ano'].astype(str)

# Criar o gr√°fico
fig = px.scatter(
    df_final,
    x='PIB_per_capita',  # Coluna da sua tabela de regi√µes
    y='VlProducaoAgricola',
    color='Regiao',
    size='QtdMunicipios',
    animation_frame='Ano',
    range_x=[0, df_final['PIB_per_capita'].max() * 1.1],
    range_y=[0, df_final['VlProducaoAgricola'].max() * 1.1],
    title='<b>Rela√ß√£o entre PIB per capita e Produ√ß√£o Agr√≠cola por Regi√£o (2016-2021)</b>',
    labels={
        'PIB_per_capita': 'PIB per capita (R$)',
        'VlProducaoAgricola': 'Valor da Produ√ß√£o Agr√≠cola (R$)',
        'QtdMunicipios': 'N¬∫ de Munic√≠pios',
        'Regiao': 'Regi√£o'
    },
    hover_data=['Regiao', 'Ano'],
    height=600,
    color_discrete_sequence=px.colors.qualitative.Set2
)

fig.update_layout(
    font=dict(family="Arial", size=12),
    plot_bgcolor='white',
    paper_bgcolor='white',
    title_font_size=20,
    legend_title_text='Regi√£o',
    margin=dict(l=40, r=40, t=80, b=40),
    yaxis=dict(gridcolor='lightgrey'),
    xaxis=dict(gridcolor='lightgrey'),
    hovermode='closest'
)

fig.update_traces(
    marker=dict(opacity=0.85, line=dict(width=1, color='DarkSlateGrey'))
)

# Configura√ß√µes da anima√ß√£o
fig.layout.updatemenus[0].buttons[0].args[1]['frame']['duration'] = 1000
fig.layout.updatemenus[0].buttons[0].args[1]['transition']['duration'] = 500

fig.show()

<a id="3"></a>
### 3 - Cidades com maior √°rea cultivada t√™m menor densidade populacional? Isso afeta o desenvolvimento econ√¥mico?

<a id="4"></a>
### 4 - Cidades mais populosas t√™m mais empregos, mas piores indicadores de sa√∫de?

<a id="5"></a>
### 5 - Estados com maior volume de exporta√ß√µes t√™m maior PIB per capita?
#### N√£o necessariamente. Com base na an√°lise do gr√°fico de Exporta√ß√µes vs PIB per capita por Estado, √© poss√≠vel perceber que um maior volume de exporta√ß√µes n√£o garante, por si s√≥, um maior PIB per capita. O estado de S√£o Paulo, por exemplo, apresenta um alto volume de exporta√ß√µes, mas n√£o lidera o ranking de PIB per capita. Por outro lado, o Distrito Federal se destaca entre os estados com maior PIB per capita, mesmo com um volume exportador relativamente baixo, o que indica que sua economia est√° fortemente baseada em setores como administra√ß√£o p√∫blica e servi√ßos. Esses exemplos mostram que o desenvolvimento econ√¥mico regional depende de m√∫ltiplos fatores al√©m do com√©rcio exterior. Entre eles, destacam-se a composi√ß√£o setorial da economia, o n√≠vel de diversifica√ß√£o produtiva, a infraestrutura institucional e a presen√ßa de pol√≠ticas p√∫blicas que impactam diretamente o rendimento per capita da popula√ß√£o.

üîç Dica: Para visualizar o PIB per capita dos estados de SP e AM, clique na legenda da cor azul (Exporta√ß√µes) no gr√°fico. Isso ocultar√° temporariamente as barras de exporta√ß√µes e permitir√° ver com mais clareza as barras de PIB per capita desses estados.

In [14]:
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";", dtype={"Exportacoes_R$": str})
df.columns = df.columns.str.strip()

# Carregar o dataset de PIB per capita por estado
df_pib_estado = pd.read_csv("pib_per_capita/pib_per_capita_estados.csv")
df_pib_estado["Ano"] = df_pib_estado["Ano"].astype(str)

for col in ["Exportacoes_R$", "QtEmpresas", "PessoalOcupado"]:
    df[col] = pd.to_numeric(df[col].astype(str).str.replace(".", "", regex=False).str.replace(",", ".", regex=False),errors="coerce")
    
df["Ano"] = df["Ano"].astype(str)
df_exportacoes = df.groupby(["Ano", "UF"])["Exportacoes_R$"].sum().reset_index()
df_final = pd.merge(df_exportacoes, df_pib_estado, on=["Ano", "UF"])
fig = go.Figure()
anos = sorted(df_final["Ano"].unique())
buttons = []

for i, ano in enumerate(anos):
    df_ano = df_final[df_final["Ano"] == ano].sort_values("PIB_per_capita", ascending=False)
    
    fig.add_trace(go.Bar(
        x=df_ano["UF"],
        y=df_ano["Exportacoes_R$"],
        name="Exporta√ß√µes (R$)",
        marker_color="#1f77b4",
        yaxis="y2",
        visible=(i==0)
    ))

    fig.add_trace(go.Bar(
        x=df_ano["UF"],
        y=df_ano["PIB_per_capita"],
        name="PIB per capita (R$)",
        marker_color="#ff7f0e",
        visible=(i==0)
    ))

    buttons.append(dict(
        label=str(ano),
        method="update",
        args=[{"visible": [False]*len(anos)*2},
              {"title": f"Exporta√ß√µes vs PIB per capita por Estado - {ano}"}]
    ))
    buttons[-1]["args"][0]["visible"][i*2] = True
    buttons[-1]["args"][0]["visible"][i*2 + 1] = True

fig.update_layout(
    title="Exporta√ß√µes vs PIB per capita por Estado",
    xaxis=dict(title="Estados", tickangle=45),
    yaxis=dict(title="PIB per capita (R$)", side="left"),
    yaxis2=dict(
        title="Exporta√ß√µes (R$)",
        overlaying="y",
        side="right"
        
    ),
    updatemenus=[{
        "buttons": buttons,
        "direction": "down",
        "showactive": True,
        "x": 1.0,
        "y": 1.15
    }],
    barmode="group",
    plot_bgcolor="white",
    height=600,
    width=1000,
    legend=dict(x=1.1, y=1)
)

fig.show()



<a id="6"></a>
### 6 - Cidades com maior produ√ß√£o agr√≠cola t√™m melhores ou piores indicadores de sa√∫de infantil?

<a id="7"></a>
### 7 - Regi√µes com maior produ√ß√£o pecu√°ria t√™m maior PIB per capita?

<a id="8"></a>
### 8 - Cidades com maior densidade populacional t√™m maior volume de exporta√ß√µes?
#### Sim. Embora o modelo de regress√£o linear tenha apresentado baixo poder preditivo (com R¬≤ de apenas 6,39%), os resultados apontam que a densidade populacional possui um coeficiente positivo elevado, indicando uma tend√™ncia de que estados mais densamente povoados tendem a exportar mais. Ou seja, mesmo com limita√ß√µes no ajuste global do modelo, h√° ind√≠cios de que a densidade populacional exerce alguma influ√™ncia positiva sobre o volume de exporta√ß√µes. Esse padr√£o sugere que fatores como concentra√ß√£o urbana, infraestrutura e log√≠stica podem contribuir para o desempenho exportador dos estados.

In [6]:
# Carregar o dataset
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";")

# Converter as colunas relevantes de string para float (substituir v√≠rgula por ponto)
for col in ["Exportacoes_R$", "povoamento", "QtEmpresas"]:
    df[col] = df[col].astype(str).str.replace(",", ".").astype(float)

# Selecionar as vari√°veis relevantes
df_model = df[["Exportacoes_R$", "povoamento", "QtEmpresas"]].copy()

# Remover registros com valores faltantes
df_model.dropna(inplace=True)

# Definir vari√°veis explicativas (X) e vari√°vel alvo (y)
X = df_model[["povoamento", "QtEmpresas"]]
y = df_model["Exportacoes_R$"]

# Padronizar as vari√°veis explicativas
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividir em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)


# Criar o modelo de regress√£o linear
model = LinearRegression()

# Treinar o modelo com os dados de treino
model.fit(X_train, y_train)

# Fazer previs√µes no conjunto de teste
y_pred = model.predict(X_test)

# Obter coeficientes e intercepto
coeficientes = model.coef_
intercepto = model.intercept_

# Calcular m√©tricas de avalia√ß√£o
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Mostrar os coeficientes com os nomes das vari√°veis
for nome, coef in zip(["Densidade Populacional (povoamento)", "N√∫mero de Empresas (QtEmpresas)"], coeficientes):
    print(f"{nome}: {coef:.4f}")

print(f"\nIntercepto: {intercepto:.2f}")
print(f"Erro Quadr√°tico M√©dio (MSE): {mse:.2f}")
print(f"Coeficiente de Determina√ß√£o (R¬≤): {r2:.2%}")


Densidade Populacional (povoamento): 602281.6500
N√∫mero de Empresas (QtEmpresas): -647206.8851

Intercepto: 461016291.49
Erro Quadr√°tico M√©dio (MSE): 12273326486112360448.00
Coeficiente de Determina√ß√£o (R¬≤): 6.39%


<a id="9"></a>
### 9 - Estados com maior informalidade t√™m menor PIB?

<a id="10"></a>
### 10 - Quais s√£o as principais diferen√ßas socioecon√¥micas entre as regi√µes do Brasil?