# üéØ Objetivo
Este notebook tem como objetivo complementar o nosso notebook principal, focando especificamente nas respostas √†s perguntas formuladas no in√≠cio da Etapa 1. Optamos por estrutur√°-lo separadamente para garantir uma melhor organiza√ß√£o e clareza na apresenta√ß√£o das conclus√µes.

## üì¶ Instala√ß√£o da Biblioteca `nbimporter`

Para importar vari√°veis, fun√ß√µes ou c√©lulas de um notebook Jupyter para outro, utilizamos a biblioteca `nbimporter`. 

üîß **Para instal√°-la, execute o seguinte comando no terminal ou em uma c√©lula do Jupyter:**

```bash
pip install nbimporter


In [3]:
import nbimporter
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from scipy.stats import ttest_ind
from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.decomposition import PCA

import warnings
warnings.filterwarnings('ignore')


<a id="perguntas"></a>
# ‚ùì Perguntas e Respostas

A seguir, apresentamos cada pergunta acompanhada de sua resposta final, com base nas an√°lises realizadas ao longo das Etapas 1 a 5 do projeto. Quando aplic√°vel, tamb√©m inclu√≠mos refer√™ncias √†s etapas, gr√°ficos, tabelas e demais visualiza√ß√µes que serviram de base para a resposta.

Algumas quest√µes foram abordadas em diferentes momentos do projeto ‚Äî nesses casos, consolidamos as evid√™ncias para oferecer uma vis√£o mais completa.

<a id="1"></a>
### 1 - Existe correla√ß√£o entre o PIB per capita de uma regi√£o e a taxa de mortalidade infantil?

#### Com base na an√°lise comparativa entre a distribui√ß√£o regional dos √≥bitos infantis e a do PIB per capita, √© poss√≠vel identificar uma correla√ß√£o negativa entre essas duas vari√°veis. Os gr√°ficos mostram que regi√µes com maior participa√ß√£o no PIB per capita, como o Sul, Sudeste e Centro-Oeste, concentram proporcionalmente menos √≥bitos infantis ao longo dos anos analisados. Em contrapartida, o Nordeste, que apresenta a menor fatia de participa√ß√£o no PIB per capita lidera na propor√ß√£o de mortalidade infantil.


In [4]:

# 1. Prepara√ß√£o dos dados
df_obitos = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)
df_pib = pd.read_csv('pib_per_capita/pib_per_capita_regioes.csv')

# Converter dados num√©ricos
df_obitos['NrObitosInfantis'] = df_obitos['NrObitosInfantis'].astype(str).str.replace('.','').str.replace(',','.').astype(float)
df_obitos['Ano'] = df_obitos['Ano'].astype(str)
df_pib['Ano'] = df_pib['Ano'].astype(str)

# Agregar e juntar dados
df_agregado = df_obitos.groupby(['Ano', 'Regiao'])['NrObitosInfantis'].sum().reset_index()
df_final = pd.merge(df_agregado, df_pib, on=['Ano', 'Regiao'])

# 2. Criar gr√°fico de √°rea percentual para √ìbitos
fig_obitos = px.area(
    df_final,
    x='Ano',
    y='NrObitosInfantis',
    color='Regiao',
    title='<b>Distribui√ß√£o Percentual dos √ìbitos Infantis por Regi√£o</b>',
    labels={'NrObitosInfantis': 'Participa√ß√£o % nos √ìbitos', 'Ano': 'Ano'},
    groupnorm='percent',  # Normaliza para 100%
    color_discrete_sequence=px.colors.qualitative.Pastel
)

# 3. Criar gr√°fico de √°rea percentual para PIB
fig_pib = px.area(
    df_final,
    x='Ano',
    y='PIB_per_capita',
    color='Regiao',
    title='<b>Distribui√ß√£o Percentual do PIB per capita por Regi√£o</b>',
    labels={'PIB_per_capita': 'Participa√ß√£o % no PIB', 'Ano': 'Ano'},
    groupnorm='percent',  # Normaliza para 100%
    color_discrete_sequence=px.colors.qualitative.Pastel
)

# 4. Ajustar layouts
for fig in [fig_obitos, fig_pib]:
    fig.update_layout(
        height=400,
        width=800,
        hovermode='x unified',
        yaxis=dict(ticksuffix='%'),
        legend=dict(orientation='h', yanchor='bottom', y=1.02),
        margin=dict(l=50, r=50, t=80, b=50)
    )
    fig.update_traces(
        hovertemplate='<b>%{color}</b><br>Ano: %{x}<br>Participa√ß√£o: %{y:.1f}%'
    )

# 5. Exibir gr√°ficos lado a lado
from plotly.subplots import make_subplots

final_fig = make_subplots(rows=1, cols=2, subplot_titles=(
    'Distribui√ß√£o dos √ìbitos Infantis por Regi√£o',
    'Distribui√ß√£o do PIB per capita por Regi√£o'
))

for trace in fig_obitos.data:
    final_fig.add_trace(trace, row=1, col=1)
    
for trace in fig_pib.data:
    final_fig.add_trace(trace, row=1, col=2)

final_fig.update_layout(
    height=450,
    width=1000,
    showlegend=True,
    title_text='<b>Compara√ß√£o da Distribui√ß√£o Regional: √ìbitos vs PIB (2016-2021)</b>',
    title_x=0.5
)

final_fig.show()

### Ademais, ao observar as regras de associa√ß√£o,a Regra 1 confirma a expectativa geral: regi√µes com PIB per capita alto tendem a apresentar mortalidade infantil baixa, o que √© coerente tanto com a l√≥gica socioecon√¥mica quanto com a visualiza√ß√£o dos gr√°ficos, nos quais regi√µes como Sul, Sudeste e Centro-Oeste (com maior PIB) possuem menores propor√ß√µes de √≥bitos. A confian√ßa alta (86,01%) refor√ßa a consist√™ncia dessa associa√ß√£o. No entanto, o lift inferior a 1 sugere que, embora exista rela√ß√£o, ela n√£o √© t√£o forte quanto se esperaria, o que indica que outros fatores podem estar atuando simultaneamente (como pol√≠ticas p√∫blicas, estrutura de sa√∫de e fatores demogr√°ficos).

### As Regras 2 e 3, por outro lado, s√£o contraintuitivas. Ambas mostram que, mesmo com PIB per capita baixo, a mortalidade infantil tamb√©m tende a ser baixa, com destaque para a Regra 3, cuja confian√ßa √© alt√≠ssima (94,23%). Isso levanta uma hip√≥tese importante: em determinadas regi√µes de menor PIB, mecanismos compensat√≥rios ‚Äî como programas sociais, aten√ß√£o b√°sica √† sa√∫de, saneamento m√≠nimo ou iniciativas federais ‚Äî podem estar sendo eficazes em manter baixos os √≠ndices de mortalidade infantil.

### Do ponto de vista gr√°fico, essa hip√≥tese √© sustentada: o Nordeste, por exemplo, tem baixa participa√ß√£o no PIB per capita, mas ainda assim representa uma parte importante das regi√µes com mortalidade infantil relativamente controlada, sem grandes aumentos ao longo dos anos. Isso se alinha com a observa√ß√£o de que o PIB por si s√≥ n√£o determina os resultados de sa√∫de infantil, embora ajude a explic√°-los em parte

In [13]:
from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder

# Carregar o arquivo
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";", low_memory=False)

# Converter colunas num√©ricas com v√≠rgula para float
for col in ['PIB', 'Populacao', 'NrNascimentos', 'NrObitosInfantis']:
    df[col] = df[col].astype(str).str.replace(r'\.', '', regex=True).str.replace(',', '.').astype(float)

# Calcular o PIB per capita
df['PIB_per_capita'] = df['PIB'] / df['Populacao']

# Calcular a taxa de mortalidade infantil (√≥bitos por 1000 nascimentos)
df['TaxaMortalidadeInfantil'] = (df['NrObitosInfantis'] / df['NrNascimentos']) * 1000


# üìä Classificar PIB per capita como 'Alto' ou 'Baixo'
media_pib_per_capita = df['PIB_per_capita'].mean()
df['PIB_per_capita_cat'] = df['PIB_per_capita'].apply(lambda x: 'Alto' if x > media_pib_per_capita else 'Baixo')

# üìä Classificar mortalidade infantil como 'Alta' ou 'Baixa'
media_mortalidade = df['TaxaMortalidadeInfantil'].mean()
df['MortalidadeInfantil_cat'] = df['TaxaMortalidadeInfantil'].apply(lambda x: 'Alta' if x > media_mortalidade else 'Baixa')






# Criar DataFrame para Apriori com vari√°veis categ√≥ricas bin√°rias
df_apriori = pd.get_dummies(df[['PIB_per_capita_cat', 'MortalidadeInfantil_cat']])
frequent_itemsets = apriori(df_apriori, min_support=0.1, use_colnames=True)
rules = association_rules(frequent_itemsets, metric='confidence', min_threshold=0.6)

# Filtrar pela regra: Se PIB_per_capita_Alto ent√£o MortalidadeInfantil_Baixa
regras_filtradas = rules[
    (rules['antecedents'].astype(str).str.contains('PIB_per_capita_cat_Alto')) &
    (rules['consequents'].astype(str).str.contains('MortalidadeInfantil_cat_Baixa'))
]
for index, row in rules.iterrows():
    print(f"Regra {index + 1}: {row['antecedents']} => {row['consequents']}")
    print(f"Suporte: {row['support']:.4f}, Confian√ßa: {row['confidence']:.4f}, Lift: {row['lift']:.4f}")
    print('-' * 80)


Regra 1: frozenset({'PIB_per_capita_cat_Alto'}) => frozenset({'MortalidadeInfantil_cat_Baixa'})
Suporte: 0.2822, Confian√ßa: 0.8601, Lift: 0.9396
--------------------------------------------------------------------------------
Regra 2: frozenset({'MortalidadeInfantil_cat_Baixa'}) => frozenset({'PIB_per_capita_cat_Baixo'})
Suporte: 0.6332, Confian√ßa: 0.6917, Lift: 1.0295
--------------------------------------------------------------------------------
Regra 3: frozenset({'PIB_per_capita_cat_Baixo'}) => frozenset({'MortalidadeInfantil_cat_Baixa'})
Suporte: 0.6332, Confian√ßa: 0.9423, Lift: 1.0295
--------------------------------------------------------------------------------


### Portanto,sim, h√° uma correla√ß√£o entre PIB per capita e mortalidade infantil, mas ela n√£o √© direta nem uniforme. A Regra 1 mostra uma tend√™ncia esperada (PIB alto ‚Üí mortalidade baixa), mas o lift fraco e os resultados de Regras 2 e 3 revelam que fatores estruturais e pol√≠ticas p√∫blicas podem estar quebrando a l√≥gica cl√°ssica da desigualdade econ√¥mica em algumas regi√µes. Isso refor√ßa a ideia de que a redu√ß√£o da mortalidade infantil n√£o depende apenas do crescimento econ√¥mico, mas de como os recursos s√£o aplicados e das pol√≠ticas adotadas para garantir equidade no acesso √† sa√∫de.

<a id="2"></a>
### 2 - Regi√µes com maior produ√ß√£o agr√≠cola t√™m maior PIB per capita?

#### N√£o, necessariamente. Embora algumas regi√µes com alta produ√ß√£o agr√≠cola tamb√©m tenham PIB per capita elevado, isso n√£o √© uma regra geral. A an√°lise mostra que a produ√ß√£o agr√≠cola por si s√≥ n√£o garante maior desenvolvimento econ√¥mico. O que realmente faz diferen√ßa √© a capacidade de agregar valor √† produ√ß√£o, por meio de industrializa√ß√£o, log√≠stica eficiente e diversifica√ß√£o econ√¥mica.

In [None]:

df_agricola = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)
df_pib_regioes = pd.read_csv('pib_per_capita/pib_per_capita_regioes.csv')  # Dados j√° agregados por regi√£o

# Converter colunas num√©ricas (tratando formato brasileiro)
if 'VlProducaoAgricola' in df_agricola.columns:
    df_agricola['VlProducaoAgricola'] = df_agricola['VlProducaoAgricola'].astype(str).str.replace('.', '').str.replace(',', '.').astype(float)

# Agregar produ√ß√£o agr√≠cola por regi√£o e ano (soma)
df_agregado_regiao = df_agricola.groupby(['Ano', 'Regiao'])['VlProducaoAgricola'].sum().reset_index()

# Contar n√∫mero de munic√≠pios por regi√£o/ano (para o tamanho dos pontos)
qtd_municipios = df_agricola.groupby(['Ano', 'Regiao'])['Municipio'].nunique().reset_index()
qtd_municipios.rename(columns={'Municipio': 'QtdMunicipios'}, inplace=True)

# Juntar todos os dados (usando a tabela de PIB por regi√µes)
df_final = pd.merge(df_agregado_regiao, df_pib_regioes, on=['Ano', 'Regiao'])
df_final = pd.merge(df_final, qtd_municipios, on=['Ano', 'Regiao'])

# Converter Ano para string para a anima√ß√£o
df_final['Ano'] = df_final['Ano'].astype(str)

# Criar o gr√°fico
fig = px.scatter(
    df_final,
    x='PIB_per_capita',  # Coluna da sua tabela de regi√µes
    y='VlProducaoAgricola',
    color='Regiao',
    size='QtdMunicipios',
    animation_frame='Ano',
    range_x=[0, df_final['PIB_per_capita'].max() * 1.1],
    range_y=[0, df_final['VlProducaoAgricola'].max() * 1.1],
    title='<b>Rela√ß√£o entre PIB per capita e Produ√ß√£o Agr√≠cola por Regi√£o (2016-2021)</b>',
    labels={
        'PIB_per_capita': 'PIB per capita (R$)',
        'VlProducaoAgricola': 'Valor da Produ√ß√£o Agr√≠cola (R$)',
        'QtdMunicipios': 'N¬∫ de Munic√≠pios',
        'Regiao': 'Regi√£o'
    },
    hover_data=['Regiao', 'Ano'],
    height=600,
    color_discrete_sequence=px.colors.qualitative.Set2
)

fig.update_layout(
    font=dict(family="Arial", size=12),
    plot_bgcolor='white',
    paper_bgcolor='white',
    title_font_size=20,
    legend_title_text='Regi√£o',
    margin=dict(l=40, r=40, t=80, b=40),
    yaxis=dict(gridcolor='lightgrey'),
    xaxis=dict(gridcolor='lightgrey'),
    hovermode='closest'
)

fig.update_traces(
    marker=dict(opacity=0.85, line=dict(width=1, color='DarkSlateGrey'))
)

# Configura√ß√µes da anima√ß√£o
fig.layout.updatemenus[0].buttons[0].args[1]['frame']['duration'] = 1000
fig.layout.updatemenus[0].buttons[0].args[1]['transition']['duration'] = 500

fig.show()

<a id="3"></a>
### 3 - Cidades com maior √°rea cultivada t√™m menor densidade populacional? Isso afeta o desenvolvimento econ√¥mico?

<a id="4"></a>
### 4 - Cidades mais populosas t√™m mais empregos, mas piores indicadores de sa√∫de?

<a id="5"></a>
### 5 - Estados com maior volume de exporta√ß√µes t√™m maior PIB per capita?
#### N√£o necessariamente. Com base na an√°lise do gr√°fico de Exporta√ß√µes vs PIB per capita por Estado, √© poss√≠vel perceber que um maior volume de exporta√ß√µes n√£o garante, por si s√≥, um maior PIB per capita. O estado de S√£o Paulo, por exemplo, apresenta um alto volume de exporta√ß√µes, mas n√£o lidera o ranking de PIB per capita. Por outro lado, o Distrito Federal se destaca entre os estados com maior PIB per capita, mesmo com um volume exportador relativamente baixo, o que indica que sua economia est√° fortemente baseada em setores como administra√ß√£o p√∫blica e servi√ßos. Esses exemplos mostram que o desenvolvimento econ√¥mico regional depende de m√∫ltiplos fatores al√©m do com√©rcio exterior. Entre eles, destacam-se a composi√ß√£o setorial da economia, o n√≠vel de diversifica√ß√£o produtiva, a infraestrutura institucional e a presen√ßa de pol√≠ticas p√∫blicas que impactam diretamente o rendimento per capita da popula√ß√£o.

üîç Dica: Para visualizar o PIB per capita dos estados de SP e AM, clique na legenda da cor azul (Exporta√ß√µes) no gr√°fico. Isso ocultar√° temporariamente as barras de exporta√ß√µes e permitir√° ver com mais clareza as barras de PIB per capita desses estados.

In [None]:
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";", dtype={"Exportacoes_R$": str})
df.columns = df.columns.str.strip()

# Carregar o dataset de PIB per capita por estado
df_pib_estado = pd.read_csv("pib_per_capita/pib_per_capita_estados.csv")
df_pib_estado["Ano"] = df_pib_estado["Ano"].astype(str)

for col in ["Exportacoes_R$", "QtEmpresas", "PessoalOcupado"]:
    df[col] = pd.to_numeric(df[col].astype(str).str.replace(".", "", regex=False).str.replace(",", ".", regex=False),errors="coerce")
    
df["Ano"] = df["Ano"].astype(str)
df_exportacoes = df.groupby(["Ano", "UF"])["Exportacoes_R$"].sum().reset_index()
df_final = pd.merge(df_exportacoes, df_pib_estado, on=["Ano", "UF"])
fig = go.Figure()
anos = sorted(df_final["Ano"].unique())
buttons = []

for i, ano in enumerate(anos):
    df_ano = df_final[df_final["Ano"] == ano].sort_values("PIB_per_capita", ascending=False)
    
    fig.add_trace(go.Bar(
        x=df_ano["UF"],
        y=df_ano["Exportacoes_R$"],
        name="Exporta√ß√µes (R$)",
        marker_color="#1f77b4",
        yaxis="y2",
        visible=(i==0)
    ))

    fig.add_trace(go.Bar(
        x=df_ano["UF"],
        y=df_ano["PIB_per_capita"],
        name="PIB per capita (R$)",
        marker_color="#ff7f0e",
        visible=(i==0)
    ))

    buttons.append(dict(
        label=str(ano),
        method="update",
        args=[{"visible": [False]*len(anos)*2},
              {"title": f"Exporta√ß√µes vs PIB per capita por Estado - {ano}"}]
    ))
    buttons[-1]["args"][0]["visible"][i*2] = True
    buttons[-1]["args"][0]["visible"][i*2 + 1] = True

fig.update_layout(
    title="Exporta√ß√µes vs PIB per capita por Estado",
    xaxis=dict(title="Estados", tickangle=45),
    yaxis=dict(title="PIB per capita (R$)", side="left"),
    yaxis2=dict(
        title="Exporta√ß√µes (R$)",
        overlaying="y",
        side="right"
        
    ),
    updatemenus=[{
        "buttons": buttons,
        "direction": "down",
        "showactive": True,
        "x": 1.0,
        "y": 1.15
    }],
    barmode="group",
    plot_bgcolor="white",
    height=600,
    width=1000,
    legend=dict(x=1.1, y=1)
)

fig.show()



<a id="6"></a>
### 6 - Cidades com maior produ√ß√£o agr√≠cola t√™m melhores ou piores indicadores de sa√∫de infantil?

####  Cidades com maior produ√ß√£o agr√≠cola tendem a ter melhores indicadores de sa√∫de infantil, conforme indicado pelo gr√°fico. Observa-se que as regi√µes com alta produ√ß√£o agr√≠cola,em especial o Sul (laranja),concentram-se no extremo esquerdo do eixo X, o que representa menores taxas de mortalidade infantil (entre 20 e 24 por mil nascidos vivos). Por outro lado, regi√µes com baixa produ√ß√£o agr√≠cola, como o Norte (verde) e partes do Centro-Oeste (azul), est√£o associadas a √≠ndices mais altos de mortalidade infantil, variando entre 35 e 44. Portanto, a rela√ß√£o mostrada no gr√°fico indica que quanto maior a produ√ß√£o agr√≠cola, menor tende a ser a mortalidade infantil, sugerindo uma correla√ß√£o positiva entre desenvolvimento agr√≠cola e melhores condi√ß√µes de sa√∫de infantil.

In [None]:


df = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)

df['NrObitosInfantis'] = pd.to_numeric(
    df['NrObitosInfantis'].astype(str).str.replace('.', '').str.replace(',', '.'), 
    errors='coerce'
)
df['NrNascimentos'] = pd.to_numeric(
    df['NrNascimentos'].astype(str).str.replace('.', '').str.replace(',', '.'), 
    errors='coerce'
)
df['VlProducaoAgricola'] = pd.to_numeric(
    df['VlProducaoAgricola'].astype(str).str.replace('.', '').str.replace(',', '.'), 
    errors='coerce'
)

df['MortalidadeInfantil'] = (df['NrObitosInfantis'] / df['NrNascimentos']) * 1000

df_regiao = df.groupby(['Regiao', 'Ano']).agg({
    'NrObitosInfantis': 'sum',
    'NrNascimentos': 'sum',
    'VlProducaoAgricola': 'sum'
}).reset_index()

df_regiao['MortalidadeInfantil'] = (df_regiao['NrObitosInfantis'] / df_regiao['NrNascimentos']) * 1000

df_regiao = df_regiao.dropna(subset=['MortalidadeInfantil', 'VlProducaoAgricola'])
df_regiao = df_regiao[df_regiao['MortalidadeInfantil'] != float('inf')]

df_regiao['VlProducaoAgricola_M'] = df_regiao['VlProducaoAgricola'] / 1_000_000

fig = px.scatter(
    df_regiao,
    x='MortalidadeInfantil',
    y='VlProducaoAgricola_M',  
    color='Regiao',
    size='VlProducaoAgricola_M',
    size_max=30,  
    hover_name='Regiao',
    hover_data=['Ano', 'VlProducaoAgricola'],
    labels={
        'MortalidadeInfantil': 'Mortalidade Infantil (por 1000 nascidos vivos)',
        'VlProducaoAgricola_M': 'Produ√ß√£o Agr√≠cola (em milh√µes de R$)',
        'Regiao': 'Regi√£o',
        'Ano': 'Ano'
    },
    title='<b>Rela√ß√£o entre Produ√ß√£o Agr√≠cola e Mortalidade Infantil (por Regi√£o/Ano)</b>',
)

fig.update_layout(
    height=600,
    width=900,
    xaxis_title='Mortalidade Infantil (por 1000 nascidos vivos)',
    yaxis_title='Produ√ß√£o Agr√≠cola (em milh√µes de R$)',
    legend_title='Regi√£o',
    hovermode='closest',
    xaxis=dict(
        tickformat=".2f" 


))

fig.show()

<a id="7"></a>
### 7 - Regi√µes com maior produ√ß√£o pecu√°ria t√™m maior PIB per capita?

<a id="8"></a>
### 8 - Cidades com maior densidade populacional t√™m maior volume de exporta√ß√µes?
#### Sim. Embora o modelo de regress√£o linear tenha apresentado baixo poder preditivo (com R¬≤ de apenas 6,39%), os resultados apontam que a densidade populacional possui um coeficiente positivo elevado, indicando uma tend√™ncia de que estados mais densamente povoados tendem a exportar mais. Ou seja, mesmo com limita√ß√µes no ajuste global do modelo, h√° ind√≠cios de que a densidade populacional exerce alguma influ√™ncia positiva sobre o volume de exporta√ß√µes. Esse padr√£o sugere que fatores como concentra√ß√£o urbana, infraestrutura e log√≠stica podem contribuir para o desempenho exportador dos estados.

In [None]:
# Carregar o dataset
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";")

# Converter as colunas relevantes de string para float (substituir v√≠rgula por ponto)
for col in ["Exportacoes_R$", "povoamento", "QtEmpresas"]:
    df[col] = df[col].astype(str).str.replace(",", ".").astype(float)

# Selecionar as vari√°veis relevantes
df_model = df[["Exportacoes_R$", "povoamento", "QtEmpresas"]].copy()

# Remover registros com valores faltantes
df_model.dropna(inplace=True)

# Definir vari√°veis explicativas (X) e vari√°vel alvo (y)
X = df_model[["povoamento", "QtEmpresas"]]
y = df_model["Exportacoes_R$"]

# Padronizar as vari√°veis explicativas
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividir em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)


# Criar o modelo de regress√£o linear
model = LinearRegression()

# Treinar o modelo com os dados de treino
model.fit(X_train, y_train)

# Fazer previs√µes no conjunto de teste
y_pred = model.predict(X_test)

# Obter coeficientes e intercepto
coeficientes = model.coef_
intercepto = model.intercept_

# Calcular m√©tricas de avalia√ß√£o
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Mostrar os coeficientes com os nomes das vari√°veis
for nome, coef in zip(["Densidade Populacional (povoamento)", "N√∫mero de Empresas (QtEmpresas)"], coeficientes):
    print(f"{nome}: {coef:.4f}")

print(f"\nIntercepto: {intercepto:.2f}")
print(f"Erro Quadr√°tico M√©dio (MSE): {mse:.2f}")
print(f"Coeficiente de Determina√ß√£o (R¬≤): {r2:.2%}")


Densidade Populacional (povoamento): 602281.6500
N√∫mero de Empresas (QtEmpresas): -647206.8851

Intercepto: 461016291.49
Erro Quadr√°tico M√©dio (MSE): 12273326486112360448.00
Coeficiente de Determina√ß√£o (R¬≤): 6.39%


<a id="9"></a>
### 9 - Estados com maior informalidade t√™m menor PIB?


#### N√£o necessariamente. Os dois gr√°ficos sugerem uma tend√™ncia geral de que estados com maior n√∫mero de empregos informais tendem a apresentar PIB per capita mais baixo, o que indicaria uma rela√ß√£o entre informalidade e menor desenvolvimento econ√¥mico. No entanto, essa rela√ß√£o n√£o √© absoluta.

#### No primeiro gr√°fico, com todos os estados (inclusive o DF), o Distrito Federal aparece como um ponto fora da curva, com um PIB per capita muito alto, mesmo com um n√∫mero elevado de empregos informais, o que quebra a tend√™ncia esperada. J√° no segundo gr√°fico, ao removermos o DF, conseguimos observar mais claramente a tend√™ncia negativa entre informalidade e PIB, mas ainda existem exce√ß√µes, como o Mato Grosso (MT), que apresenta um PIB per capita elevado apesar de tamb√©m ter uma informalidade significativa.

#### Portanto, embora exista uma associa√ß√£o aparente entre alta informalidade e menor PIB per capita, os dados mostram que essa rela√ß√£o n√£o √© uma regra fixa, e pode ser influenciada por outros fatores, como caracter√≠sticas econ√¥micas regionais e estrutura produtiva.

In [11]:

# Carregar os dados
df = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)
df_pib = pd.read_csv('pib_per_capita/pib_per_capita_estados.csv')


for col in ['PessoalOcupado', 'PessoalAssalariado']:
    df[col] = df[col].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
    df[col] = pd.to_numeric(df[col], errors='coerce')  

# Calcular empregos informais
df['Empregos_Informais'] = df['PessoalOcupado'] - df['PessoalAssalariado']

# Agrupar por estado e calcular m√©dia entre os anos
df_estado = df.groupby('UF')[['Empregos_Informais']].mean().round(0).astype(int).reset_index()


# Adicionar o PIB per capita m√©dio de cada estado
pib_estado = df_pib.groupby('UF')['PIB_per_capita'].mean().reset_index()
df_estado = pd.merge(df_estado, pib_estado, on='UF')

fig = px.scatter(
    df_estado,
    x='Empregos_Informais',
    y='PIB_per_capita',
    text='UF',
    title='Rela√ß√£o entre Empregos Informais e PIB per capita por Estado (com escala log)',
    labels={
        'Empregos_Informais': 'Empregos Informais (m√©dia 2016‚Äì2021)',
        'PIB_per_capita': 'PIB per capita m√©dio (R$)'
    },
    log_x=True  
)

fig.update_traces(textposition='top center')
fig.show()


In [12]:
# Identificar o estado com o maior n√∫mero de "Empregos Informais"
df_estado_max_empregos = df_estado[df_estado['Empregos_Informais'] == df_estado['Empregos_Informais'].max()]
estado_max_empregos = df_estado_max_empregos['UF'].values[0]
#print(f'O estado com o maior n√∫mero de empregos informais √©: {estado_max_empregos}')

# Gr√°fico 2: Sem o estado com o maior n√∫mero de "Empregos Informais"
df_estado_sem_max_empregos = df_estado[df_estado['UF'] != estado_max_empregos]

fig_sem_max_empregos = px.scatter(
    df_estado_sem_max_empregos,
    x='Empregos_Informais',
    y='PIB_per_capita',
    text='UF',

    title=f'Rela√ß√£o entre Empregos Informais e PIB per capita por Estado (sem {estado_max_empregos})',
    labels={
        'Empregos_Informais': 'Empregos Informais (m√©dia 2016‚Äì2021)',
        'PIB_per_capita': 'PIB per capita m√©dio (R$)'
    },
    log_x=True  # Escala logar√≠tmica
)

fig_sem_max_empregos.update_traces(textposition='top center')
fig_sem_max_empregos.show()
