# Etapa 1 - Projeto Desenvolvedor 🚀

### Introdução
**Integrantes do projeto**: Aline Santos, Luana Tavares, Gustavo Luca e Marcus Eduardo Resende. 

O objetivo deste trabalho é proporcionar aos participantes a vivência de diversos desafios enfrentados por cientistas de dados em sua atuação profissional.Para isso, estão disponíveis dois conjuntos de dados: **dados de criminalidade do estado de São Paulo (SPSafe) e dados demográficos dos municípios brasileiros (BrStats)**.

Cada conjunto de dados é acompanhado por um artigo que descreve detalhadamente o processo de geração e organização das informações. A leitura atenta desses artigos é essencial para o bom desenvolvimento do projeto e deve ser realizada por todos os membros do grupo. 

A escolha do conjunto de dados a ser utilizado está  vinculada à turma prática no qual o grupo está matriculado. Como pertecemos à **turma prática P1**, utilizaremos o conjunto de dados **BrStats**.

O artigo de referência para esse conjunto de dados pode ser acessado por meio do seguinte link: https://sol.sbc.org.br/index.php/dsw/article/view/25506

### Descrição Etapa 1
Nesta etapa, o grupo irá fazer uma primeira análise dos dados, para identificar os atributos existentes, e elaborar uma lista com pelo menos 10 perguntas que pretende responder com o trabalho. Também devem ser feitos tratamentos dos dados em termos de formatação, enriquecimento com novos atributos externos, tratamento de ausências, dentre outros. Essa etapa envolve entender os atributos e objetos dos dados, o tipo e o domínio de cada atributo, verificar e identificar possíveis ruídos ou informações ausentes, criar novos atributos se necessário, formatar valores, juntar conjuntos de dados, dentre outras atividades.

### Divisão de Tarefas
O trabalho foi dividido entre os quatro integrantes do grupo, com as seguintes responsabilidades:

- ✂️ **Retirada de 7 colunas da tabela**: **Aline** e **Marcus** foram responsáveis por essa tarefa.  
- 💱 **Conversão de moedas**: **Luana** e **Aline** ficaram encarregadas dessa etapa.  
- 📏 **Conversão de unidades nas colunas**: **Gustavo** foi o responsável por realizar as conversões de unidades.  
- 🧹 **Retirada das linhas da tabela**: **Marcus** contribuiu com ideias e conhecimentos para essa parte do trabalho.

🧠 As **perguntas de pesquisa** foram decididas e discutidas em uma reunião pelo **Google Meet**, onde todos os integrantes participaram ativamente. O tratamento dos dados também foi debatido e definido durante essa reunião.

📎 O relatório de participação da reunião pode ser acessado neste link:  
[Google Sheets - Registro de Reunião](https://docs.google.com/spreadsheets/d/1nYTdsyvY9Kk3X73YN4Af45I4sEfED_4RbvQ6LWWLkZQ/edit?usp=sharing)

📘 Todos os integrantes **leram os artigos** relacionados ao projeto e **analisaram os dados disponíveis** para garantir uma abordagem comum e fundamentada.

📱 A comunicação do grupo foi feita principalmente por um **grupo no WhatsApp**, que permitiu trocas de ideias e esclarecimento de dúvidas em tempo real.

🧪 As **aulas em laboratório** foram fundamentais para o andamento da primeira etapa do projeto. Os integrantes puderam **compartilhar ideias, conhecimentos e opiniões** para melhor análise dos dados do dataset.

📝 A documentação em *Markdown* foi construída à medida que cada integrante concluía suas respectivas tarefas. Para os itens que não faziam parte da tarefa de um integrante específico, a **Aline** ficou responsável pela elaboração dos textos explicativos.

---

**🗂 Organização no GitHub**

Para organizar o desenvolvimento do projeto, decidimos dividir o repositório em duas *branches*:

- **`dev`**: utilizada para armazenar versões intermediárias, ainda em desenvolvimento, das etapas.  
- **`main`**: destinada a armazenar as versões finais de cada etapa, sendo a versão atual a da **Etapa 1**.


### 🛠️ Preparação do Ambiente
Nesta seção, serão apresentados os comandos necessários para preparar o ambiente de análise. Isso inclui a importação das bibliotecas utilizadas, o carregamento do conjunto de dados e sua visualização inicial.


#### 📚 Bibliotecas Necessárias

In [2]:
import pandas as pd
import numpy as np
import os

#### 📥 Importação dos Dados
Utilizamos o seguinte comando para carregar a tabela de dados localizada no mesmo diretório do projeto.O parâmetro sep=";" é utilizado para informar que os dados no arquivo estão separados por ponto e vírgula (;).Dessa forma, o pandas consegue interpretar corretamente as colunas e montar a tabela (DataFrame) com os dados organizados.

In [3]:
# Cria a pasta "Pibs" se ela ainda não existir
os.makedirs('dataFrame', exist_ok=True)
df = pd.read_csv("dataFrame/BrStats.csv", sep = ";")

  df = pd.read_csv("dataFrame/BrStats.csv", sep = ";")


#### 👀 Visualização Inicial dos Dados
Para confirmar que a base de dados foi importada corretamente, exibimos as 5 primeiras linhas utilizando o comando df.head(), que permite uma visualização rápida e concisa do conteúdo. Caso seja necessário consultar o dataframe completo, ele está disponível na pasta do projeto com o nome "BrStats.csv".

In [4]:
pd.set_option('display.max_colwidth', 50)
df.head()

Unnamed: 0,Ano,CDMunicipio,Populacao,PessoalOcupado,PessoalAssalariado,VrSalarios,PIB,QtEmpresas,AreaPlantada_h,AreaColhida_h,...,Exportacoes_US$,Receitas_R$,Transferencias_correntes_R$,Transferencias_capital_R$,NrNascimentos,NrObitosInfantis,povoamento,UF,Municipio,Regiao
0,2016,3509452,5.932,854.0,537.0,13.692,111.19,252.0,38.0,38.0,...,,"25.511.889,220","18.911.068,400","1.665.392,540",80.0,0.0,32065,SP,Campina do Monte Alegre,Sudeste
1,2016,3123601,27.505,5.68,4.778,104.977,554.663,671.0,3.0,3.0,...,"1.777.256,000","63.002.672,933","45.304.154,440","538.882,600",299.0,3.0,55065,MG,Elói Mendes,Sudeste
2,2016,3552007,6.193,668.0,580.0,12.519,62.441,83.0,0.0,0.0,...,,"30.492.825,449","21.861.157,950","1.048.458,040",59.0,2.0,14930,SP,Silveiras,Sudeste
3,2016,3305604,21.279,3.087,2.669,80.161,403.121,290.0,0.0,0.0,...,,"140.538.926,872","100.508.822,360","871.234,340",272.0,2.0,22698,RJ,Silva Jardim,Sudeste
4,2016,1717008,4.534,212.0,183.0,5.309,48.551,34.0,94.0,34.0,...,,"15.541.375,953","13.178.989,760","8.037,870",43.0,1.0,2908,TO,Pindorama do Tocantins,Norte


### 🧹 Limpeza e Preparação dos Dados
A seguir, apresentamos as etapas que escolhemos para o tratamento e organização dos dados da tabela utilizada em nossa análise.

#### 🗑️Remoção de Colunas
Removemos as colunas CDMunicipio, VrSalarios, AreaColhida_h, Importacoes_US, Receitas, Transferencias_correntes e Transferencias_capital após uma análise cuidadosa da equipe. Concluímos que esses atributos não contribuirão de forma significativa para responder às perguntas propostas na pesquisa.

Além de não serem úteis para as análises futuras, essas colunas poderiam introduzir ruído nos dados e complicar a construção de insights relevantes, desviando o foco das variáveis realmente importantes para os nossos objetivos. Por isso, optamos por eliminá-las, mantendo o dataset mais limpo, enxuto e direcionado às metas da investigação.


In [5]:

df = df.drop(columns=[
    'CDMunicipio',
    'VrSalarios',
    'AreaColhida_h',
    'Transferencias_correntes_R$',
    'Transferencias_capital_R$',
    'Receitas_R$',
    'Importacoes_US$'
])



#### 🗑️Remoção de Linhas
Durante a etapa de tratamento dos dados, identificamos a presença de valores ausentes em diversas linhas e colunas do dataframe. No entanto, sabemos que remover dados sem critério ou embasamento estatístico pode comprometer a integridade da análise.

Por isso, estabelecemos um critério objetivo: todas as linhas que possuem mais de 3 valores nulos foram removidas. Acreditamos que a permanência dessas linhas, com grande quantidade de informações faltantes, comprometeria a qualidade das análises futuras, podendo gerar distorções ou interpretações equivocadas.

Consideramos esses valores nulos como possíveis erros de coleta ou dados indisponíveis. Abaixo, é possível visualizar a quantidade de linhas que foram excluídas com base nesse critério:

In [6]:
# Lista de colunas que devem ser verificadas 
colunas_verificar = ['Populacao', 'PIB', 'PessoalOcupado', 'PessoalAssalariado', 
                    'AreaPlantada_h', 'VlProducaoAgricola', 'VlProducaoPecuaria', 
                    'Area', 'NrNascimentos', 'NrObitosInfantis', 'povoamento', 'Exportacoes_US$']

#Identificar linhas com mais de 3 valores nulos nas colunas selecionadas
linhas_remover = df[df[colunas_verificar].isnull().sum(axis=1) > 3]

#Mostrar as cidades que serão removidas
if not linhas_remover.empty:
    
    # Remover as linhas problemáticas
    qtd_removida = len(linhas_remover)
    df = df[df[colunas_verificar].isnull().sum(axis=1) <= 3]
    
    print(f"\total de linhas removidas: {qtd_removida}")
else:
    print("Nenhuma linha com mais de 3 colunas nulas encontrada")




	otal de linhas removidas: 33


#### 💵Conversão De Moedas e Tipos
Outra etapa importante do tratamento de dados foi a conversão dos valores da coluna “Exportações”, originalmente em dólares americanos, para reais. Optamos por essa conversão para padronizar a unidade monetária em todo o dataset, já que as demais informações financeiras presentes estão em reais. Trabalhar com diferentes moedas exigiria ajustes constantes e dificultaria comparações e análises futuras.

Além disso, decidimos converter algumas colunas que estavam no tipo object para o tipo float, permitindo o uso correto dessas variáveis em análises estatísticas e cálculos numéricos mais precisos.

Com essas conversões, garantimos maior consistência nos dados e facilitamos a interpretação dos resultados, otimizando as etapas futuras da análise.

In [7]:
df["Exportacoes_US$"] = df["Exportacoes_US$"].astype(str)

df["Exportacoes_US$"] = (
    df["Exportacoes_US$"]
    .str.replace(".", "", regex=False)  
    .str.replace(",", ".")            
)


df["Exportacoes_US$"] = df["Exportacoes_US$"].astype(float)

taxa_cambio = 5.68

# Criar a nova coluna em reais
df["Exportacoes_R$"] = df["Exportacoes_US$"] * taxa_cambio

# Remover a coluna original
df = df.drop(columns=["Exportacoes_US$"])


df["Area"]=df["Area"].astype(str)
df["Area"] = (
    df["Area"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["Area"]=df["Area"].astype(float)

df["povoamento"]=df["povoamento"].astype(str)
df["povoamento"] = (
    df["povoamento"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["povoamento"]=df["povoamento"].astype(float)

df["Populacao"]=df["Populacao"].astype(str)
df["Populacao"] = (
    df["Populacao"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["Populacao"]=df["Populacao"].astype(float)

df["PessoalOcupado"]=df["PessoalOcupado"].astype(str)
df["PessoalOcupado"] = (
    df["PessoalOcupado"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["PessoalOcupado"]=df["PessoalOcupado"].astype(float)

df["PessoalAssalariado"]=df["PessoalAssalariado"].astype(str)
df["PessoalAssalariado"] = (
    df["PessoalAssalariado"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["PessoalAssalariado"]=df["PessoalAssalariado"].astype(float)





#### 📏 Ajuste de Unidades dos Dados
De acordo com o artigo que acompanha a base de dados, algumas colunas apresentam seus valores em unidades escaladas, o que pode causar interpretações equivocadas caso não seja considerado no momento da análise.

Para facilitar a leitura e garantir que os dados reflitam valores reais e interpretáveis diretamente, realizamos os seguintes ajustes:

Multiplicamos as colunas PIB, VlProducaoAgricola e VlProducaoPecuaria por 1.000, já que seus valores estavam originalmente representados em milhares (10³).

Multiplicamos a coluna AreaPlantada_h por 10.000, pois os dados estavam expressos em dezenas de mil (10⁴).

A decisão de realizar essas conversões foi tomada tanto por motivos estéticos quanto práticos: ao apresentar os dados já na unidade correta, evitamos que o usuário precise realizar conversões manuais para interpretar os valores, tornando a análise mais fluida, precisa e acessível.


In [8]:
df["PIB"] = df["PIB"].str.replace(".", "", regex=False)
df["PIB"] = df["PIB"].astype(float)

df["PIB"] *= 1000
df["VlProducaoAgricola"] *= 1000
df["VlProducaoPecuaria"] *= 1000
df["AreaPlantada_h"] *= 10000

#### ✏️ Renomeando Coluna 
De acordo com o artigo científico que acompanha a base de dados, a coluna "Povoamento" representa, na prática, a densidade populacional dos municípios.

Para garantir que o nome da variável reflita de forma mais precisa seu conteúdo e esteja alinhado com a nomenclatura técnica correta, optamos por renomear a coluna "Povoamento" para "Densidade". Essa alteração facilita a compreensão e interpretação dos dados, especialmente durante as análises e visualizações futuras.

In [9]:
df.rename(columns={'povoamento': 'Densidade'}, inplace=True)

#### 🛠️ Atualização dos dados de PIB com base no IBGE (2021)
Para garantir maior precisão nos dados econômicos, atualizamos os valores de PIB do ano de 2021 no nosso dataset principal, utilizando os dados oficiais do IBGE.Carregamos uma base complementar (PIB dos Municípios - base de dados 2021.csv), que contém os valores atualizados do PIB por município e UF. Para integrar essa informação ao nosso dataset original (BrStats.csv), usamos um processo de merge indireto, criando uma chave única de correspondência (Municipio-UF) entre as duas bases. Após isso, substituímos apenas os valores de PIB de 2021 onde havia correspondência entre os municípios, mantendo todos os demais dados e anos intactos. Esse processo garante que a análise futura utilize valores econômicos confiáveis e atualizados, sem interferir em outras partes da base de dados.
Link para acessar o dataFrame do IBGE: [PIB-2021](https://www.ibge.gov.br/estatisticas/economicas/contas-nacionais/9088-produto-interno-bruto-dos-municipios.html?t=downloads&c=1100015)

In [10]:
# Passo 1: Carrega os dois datasets
df = pd.read_csv('dataFrame/BrStats.csv', sep=';', encoding='utf-8')
df_ibge_2021 = pd.read_csv('dataFrame/PIB dos Municípios - base de dados 2021.csv', sep=';', encoding='utf-8', low_memory=False)
# Passo 2: Renomeia colunas e ajusta nomes
df_ibge_2021 = df_ibge_2021.rename(columns={
    'Nome do Município': 'Municipio',
    'Sigla da Unidade da Federação': 'UF',
    'Produto Interno Bruto, \na preços correntes\n(R$ 1.000)': 'PIB_2021'
})
# Passo 3: Converte PIB para float e multiplica por 1000 (para tirar a escala de mil)
df_ibge_2021['PIB_2021'] = df_ibge_2021['PIB_2021'].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
df_ibge_2021['PIB_2021'] = pd.to_numeric(df_ibge_2021['PIB_2021'], errors='coerce') * 1000
# Passo 4: Filtra apenas os dados de 2021 no df
mask_2021 = df['Ano'] == 2021
# Passo 5: Cria uma chave de merge (Municipio + UF) para ambos os DataFrames
df['chave'] = df['Municipio'] + '-' + df['UF']
df_ibge_2021['chave'] = df_ibge_2021['Municipio'] + '-' + df_ibge_2021['UF']
# Passo 6: Cria um dicionário com o PIB do IBGE por chave
pib_dict = df_ibge_2021.set_index('chave')['PIB_2021'].to_dict()
# Passo 7: Atualiza os valores de PIB de 2021 no DataFrame original, apenas onde existir correspondência
df.loc[mask_2021, 'PIB'] = df.loc[mask_2021, 'chave'].map(pib_dict).combine_first(df.loc[mask_2021, 'PIB'])
# Remove a coluna auxiliar
df = df.drop(columns=['chave'])
#df.to_csv("dataFrame/BrStatsAtualizada.csv", index=False, sep=";", decimal=",")


  df = pd.read_csv('dataFrame/BrStats.csv', sep=';', encoding='utf-8')


#### 📊 Criação da Tabela de PIB per Capita
Para aprofundar nossa análise econômica, decidimos criar uma tabela auxiliar com o PIB per capita, segmentado por região, estado e município, ao longo dos diferentes anos. Essa métrica é essencial para avaliar o desenvolvimento relativo entre as localidades de forma mais justa e proporcional à sua população.

No entanto, como o cálculo depende diretamente das colunas PIB e População, precisamos garantir que os dados utilizados sejam consistentes. Por isso, removemos todas as linhas que apresentavam valores nulos nessas duas colunas, evitando assim resultados incorretos ou distorcidos.

O cálculo do PIB per capita foi feito utilizando a fórmula:

PIB per capita = PIB/população

Em seguida, organizamos 2 novas tabela, uma para cada situação de PIB_per_capita.


In [11]:


# Limpa nomes das colunas
df.columns = df.columns.str.strip()


df['Ano'] = df['Ano'].astype(str)

# Lista de colunas que NÃO devem ser convertidas para número
colunas_nao_numericas = ['Municipio', 'UF', 'Regiao','Ano']


# Converte todas as outras colunas para float, tratando o formato brasileiro
for col in df.columns:
    if col not in colunas_nao_numericas:
        df[col] = df[col].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
        try:
            df[col] = df[col].astype(float)
        except ValueError:
            print(f"⚠️ Não foi possível converter a coluna '{col}' para float.")

# Filtra linhas com PIB e População válidos
df_pib_percapita = df.dropna(subset=['PIB', 'Populacao'])

# Calcula o PIB per capita
df_pib_percapita['PIB_per_capita'] = df_pib_percapita['PIB'] / df_pib_percapita['Populacao']

# Seleciona colunas relevantes
df_pib_percapita = df_pib_percapita[['Ano', 'Regiao', 'UF', 'Municipio', 'PIB', 'Populacao', 'PIB_per_capita']]

# Calcula médias por estado e região
df_estado = df_pib_percapita.groupby(['Ano', 'UF'])['PIB_per_capita'].mean().reset_index()
df_regiao = df_pib_percapita.groupby(['Ano', 'Regiao'])['PIB_per_capita'].mean().reset_index()


df_regiao['Ano'] = df_regiao['Ano'].astype(str)

# Cria pasta para salvar os resultados
os.makedirs('pib_per_capita', exist_ok=True)

# 🔹 Filtra top 10 por ano
df_pib_percapita = df_pib_percapita.sort_values(['Ano', 'PIB_per_capita'], ascending=[True, False])
df_pib_percapita = df_pib_percapita.groupby('Ano').head(10)

# Salva os arquivos
df_estado.to_csv('pib_per_capita/pib_per_capita_estados.csv', index=False)
df_regiao.to_csv('pib_per_capita/pib_per_capita_regioes.csv', index=False)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_pib_percapita['PIB_per_capita'] = df_pib_percapita['PIB'] / df_pib_percapita['Populacao']


#### 📊 Padronização dos Dados
Durante nossa análise, identificamos uma discrepância nos formatos entre os anos:
2016 a 2020: Valores em milhares de reais (ex: 31.20 = R$ 31.200,00)
2021: Valores em unidades brutas (ex: 555.879 = R$ 555.879,00)
Para garantir consistência, implementamos um sistema inteligente de verificação e correção:

In [12]:
# Lista de arquivos a corrigir
arquivos = [
    'pib_per_capita_estados.csv',
    'pib_per_capita_regioes.csv'
]

# Pasta de destino (garante que existe)
os.makedirs('pib_per_capita', exist_ok=True)

for arquivo in arquivos:
    try:
        # Carrega o CSV (convertendo Ano para string para comparação segura)
        df = pd.read_csv(f'pib_per_capita/{arquivo}')
        df['Ano'] = df['Ano'].astype(str)  # Padroniza como string
        
        # Verificação de segurança (só aplica se valores de 2016-2020 estiverem abaixo de 100)
        anos_verificar = ['2016', '2017', '2018', '2019', '2020']
        media_pre_2021 = df[df['Ano'].isin(anos_verificar)]['PIB_per_capita'].mean()
        
        if media_pre_2021 < 100:  # Se parece estar em milhares
            print(f"Aplicando correção em {arquivo}...")
            df.loc[df['Ano'].isin(anos_verificar), 'PIB_per_capita'] *= 1000
        else:
            print(f"Dados em {arquivo} já padronizados (pulando correção)")
        
        # Verificação para 2021 (opcional)
        if '2021' in df['Ano'].unique():
            media_2021 = df[df['Ano'] == '2021']['PIB_per_capita'].mean()
            
    
            # Verificação geral para valores altos em 2021
            if media_2021 > 100000:  # Valores muito altos
                print(f"Ajustando valores de 2021 em {arquivo}...")
                df.loc[df['Ano'] == '2021', 'PIB_per_capita'] /= 10
        
        # Salva com encoding UTF-8 (evita erros em caracteres especiais)
        df.to_csv(f'pib_per_capita/{arquivo}', index=False, encoding='utf-8')
        print(f"✅ Arquivo {arquivo} processado e salvo com sucesso!")
        
    except FileNotFoundError:
        print(f"⚠️ Arquivo {arquivo} não encontrado. Pulando...")
    except Exception as e:
        print(f"⚠️ Erro ao processar {arquivo}: {str(e)}")

print("Processo concluído. Verifique os logs acima!")

Aplicando correção em pib_per_capita_estados.csv...
Ajustando valores de 2021 em pib_per_capita_estados.csv...
✅ Arquivo pib_per_capita_estados.csv processado e salvo com sucesso!
Aplicando correção em pib_per_capita_regioes.csv...
Ajustando valores de 2021 em pib_per_capita_regioes.csv...
✅ Arquivo pib_per_capita_regioes.csv processado e salvo com sucesso!
Processo concluído. Verifique os logs acima!


#### 🧹 Conclusões com o Tratamento dos Dados
Com os ajustes feitos nos dados, conseguimos filtrar  as informações de maneira que os anos de 2016 a 2021 foram tratados, e as colunas e linhas que não eram relevantes para o projeto foram removidas. Isso resultou em uma tabela mais enxuta e focada, o que facilita a análise das questões propostas.

O tratamento realizado também garantiu que as unidades das colunas fossem ajustadas corretamente, permitindo que as comparações entre os dados fossem mais precisas.Além disso, realizar a conversão de moedas ajudará com as análises futuras. 

Agora, com os dados organizados e refinados, estamos prontos para avançar nas análises e começar a responder às questões do projeto de maneira mais eficaz.

# Etapa 2 - Projeto Desenvolvedor 🚀

### Descrição Etapa 2
Com os dados preparados e entendidos, nesta etapa o grupo deve gerar estatísticas descritivas, gráficos e tabelas para conhecer os dados. Todo conhecimento importante extraído deverá ser documentado e discutido. Pensem fora da caixa e tentem extrair correlações não óbvias entre os atributos e objetos. Nesta etapa, o objetivo é responder parte das perguntas elaboradas. Lembrem-se que novos questionamentos podem surgir.


### Divisão de Tarefas
Antes de iniciarmos a **Etapa 2**, decidimos revisar e aprimorar alguns pontos da **Etapa 1** que não haviam sido totalmente implementados na primeira entrega.

 **Revisões na Etapa 1:**
- Identificamos que o ano de **2021** estava sem dados de **PIB** no *dataframe* original.
- Buscamos uma nova tabela no site do **IBGE** contendo os dados corretos e realizamos o **merge** com o nosso *dataframe* atualizado.
- Com base nisso, também criamos as tabelas de **PIB per capita** por **estado** e por **região**.
- Renomeamos a coluna `povoamento` para **densidade**, tornando a nomenclatura mais clara e adequada.
- Divimos o dataframe e as tabelas de pib_per_capita em pastas para melhor organização e menos poluimento visual na organização do projeto.
- As explicações dos tratamento de dados realizados no dataframe também foram melhorados, como foi sugerido para o grupo. 

**Responsáveis:**
- Essas atividades foram realizadas por **Aline**.
- A padronização dos dados vindos da nova tabela do IBGE foi feita por **Marcus**.

---

Na **Etapa 2**, cada integrante do grupo ficou responsável por escolher perguntas definidas na Etapa 1 e construir gráficos que ajudem a relacionar os dados com as perguntas. A divisão de temas ficou assim:

##### 👩‍💻 Aline
- 📈 Análise exploratória do **PIB per capita ao longo do tempo**
- 🔍 Relação entre **empregos informais** e **PIB per capita**

##### 👨‍💻 Marcus
- 💡 Relação entre **PIB per capita** e **mortalidade infantil**
- 🌾 Análise da **produção agrícola** por região x **PIB per capita**
- 📐 Análise da **área plantada** x **densidade populacional**

##### 👩‍🌾 Luana
- 🐄 Comparativo entre **PIB per capita** e **produção pecuária** por região
- 📊 Relação entre **produção pecuária** x **PIB per capita**
- 🌽 Relação entre **produção agrícola** x **mortalidade infantil**

##### 👨‍💼 Gustavo
- 🧭 **Densidade populacional** x **empregos**
- 🚼 **Densidade populacional** x **mortalidade infantil**
- 🌎 **PIB per capita** x **exportações**

Cada integrante foi responsável por:
- Escolher o tipo de gráfico mais adequado.
- Justificar a escolha do gráfico.
- Explicar os dados apresentados.
- Apontar as conclusões da análise.

Os demais textos explicativos e *markdowns* de apoio ao notebook foram escritos por **Aline**.

---


Acreditamos que, com essa divisão de tarefas, o trabalho ficou:

- 📌 Mais **equilibrado** na participação do grupo.
- 📌 Mais **coeso** na estrutura e nas explicações.
- 📌 Mais **completo** em termos de análise de dados.

Mais análises ainda serão feitas para enriquecer a Etapa 2 com novos gráficos e interpretações adicionais.

#### 🧩 Importação da Biblioteca de Visualização

Para a criação dos gráficos interativos e animados, utilizaremos as biblioteca abaixo, umas das ferramentas mais completas para visualização de dados em Python.
Se você ainda não possui a biblioteca instalada, basta rodar o seguinte comando:

```bash
pip install plotly


In [13]:
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots


#### 📊 Análise Exploratória do PIB per capita ao longo do tempo
Analisar o PIB_per_capita por estado e região ao longo do tempo (2016-2021).

In [14]:

df_regiao = pd.read_csv('pib_per_capita/pib_per_capita_regioes.csv')
df_regiao['Ano'] = df_regiao['Ano'].astype(str)


fig_regiao = px.bar(
    df_regiao,
    x='Regiao',
    y='PIB_per_capita',
    color='Regiao',
    animation_frame='Ano',
    animation_group='Regiao',  
    title='PIB per capita por Região (2016–2021)',
    labels={'PIB_per_capita': 'PIB per capita (R$)'},
    range_y=[0, df_regiao['PIB_per_capita'].max() * 1.1]
)

fig_regiao.show()

A seguir, plotamos um gráfico com a média geral das regiões entre os anos de 2016 a 2021. 

In [15]:
media_regioes = df_regiao.groupby('Regiao')['PIB_per_capita'].mean().reset_index()

# Plotar gráfico de barras
fig_media_regiao = px.bar(
    media_regioes,
    x='Regiao',
    y='PIB_per_capita',
    color='Regiao',
    title='Média do PIB per capita por Região (2016–2021)',
    labels={'PIB_per_capita': 'PIB per capita médio (R$)'},
   # text=media_regioes['PIB_per_capita'].round(2)
)

# Formatar layout
fig_media_regiao.update_layout(
    xaxis_title="Região",
    yaxis_title="PIB per capita médio (R$)",
    #showlegend=False
)

fig_media_regiao.show()


A seguir, temos o gráfico animado que apresenta o PIB per capita médio por unidade federativa (estado). Essa visualização é importante para detectar disparidades econômicas entre os estados brasileiros e pode nos ajudar a relacionar o PIB com outros fatores analisados posteriormente.

In [16]:
df_estado = pd.read_csv('pib_per_capita/pib_per_capita_estados.csv')
df_estado['Ano'] = df_estado['Ano'].astype(str)

fig_estado = px.bar(
    df_estado,
    x='UF',
    y='PIB_per_capita',
    color='UF',
    animation_frame='Ano',
    title='PIB per capita por Estado (2016–2021)',
    labels={'PIB_per_capita': 'PIB per capita (R$)'},
    range_y=[0, df_estado['PIB_per_capita'].max() * 1.1]
)
fig_estado.update_layout(xaxis_title="Estado", yaxis_title="PIB per capita (R$)")
fig_estado.show()


A seguir, plotamos o gráfico da média geral dos estados entre os anos de 2016 a 2021.

In [17]:
# Agrupar por estado (UF) e calcular a média do PIB per capita no período
media_estados = df_estado.groupby('UF')['PIB_per_capita'].mean().reset_index()

# Plotar o gráfico de barras
fig_media_estado = px.bar(
    media_estados,
    x='UF',
    y='PIB_per_capita',
    color='UF',
    title='Média do PIB per capita por Estado (2016–2021)',
    labels={'PIB_per_capita': 'PIB per capita médio (R$)'},
    #text=media_estados['PIB_per_capita'].round(2)
)

# Ajustar layout
fig_media_estado.update_layout(
    xaxis_title="Estado (UF)",
    yaxis_title="PIB per capita médio (R$)",
    #showlegend=False
)

fig_media_estado.show()


#### 🎯 Motivo da Utilização do Gráfico
Optamos por utilizar gráficos para representar o PIB per capita devido à centralidade desse indicador em nossas análises. Grande parte das perguntas do projeto gira em torno do PIB per capita por região ou por estado, o que torna esse um dos principais parâmetros a serem observados. Além disso, o PIB per capita é uma métrica que resume de maneira clara e direta o desempenho econômico de uma localidade em relação à sua população, sendo essencial para identificar desigualdades, avanços ou retrocessos.
Para representar esses dados, escolhemos o gráfico de barras por ser uma forma visualmente clara, objetiva e de fácil comparação entre diferentes categorias, como estados e regiões. Esse tipo de gráfico permite identificar rapidamente quais localidades se destacam com os maiores ou menores valores de PIB per capita. Ele também facilita a leitura mesmo com uma grande quantidade de dados, como no caso dos estados brasileiros, sem sobrecarregar visualmente o leitor. Além disso, sua estrutura é ideal para representar variações ao longo do tempo, o que se alinha bem à proposta de mostrar a evolução dos dados entre os anos de 2016 a 2021.

#### 📌 Explicação do Conteúdo do Gráfico
No desenvolvimento da visualização, utilizamos dois tipos principais de gráficos de barras: um interativo, que mostra a evolução ao longo do tempo, e outro fixo, que apresenta a média geral do período. Nos gráficos interativos, optamos por barras animadas que permitem acompanhar a variação do PIB per capita ano a ano, tanto por estado quanto por região. Neles, o eixo Y representa os valores do PIB per capita (em milhares de reais) e o eixo X mostra os estados ou regiões. Um botão de play também foi adicionado para que o usuário possa visualizar, de forma contínua, a trajetória dos dados ao longo do tempo. Já nos gráficos fixos, que mostram a média do período, mantivemos o eixo Y com os valores em mil reais e o eixo X com os estados ou regiões, sem a animação, para permitir uma comparação mais direta dos dados consolidados.

#### ✅ O que podemos perceber?
Ao analisarmos os resultados apresentados nos gráficos, percebemos que os valores de PIB per capita se mantiveram relativamente constantes entre os anos de 2016 a 2020. No entanto, em 2021, foi possível notar um aumento expressivo em praticamente todas as regiões e estados. Após pesquisa, identificamos que esse crescimento coincide com o aumento de 4,6% no Produto Interno Bruto (PIB) do Brasil no ano de 2021, segundo o IBGE: [Aumento do PIB em 2021](https://agenciadenoticias.ibge.gov.br/agencia-noticias/2012-agencia-de-noticias/noticias/38388-em-2021-pib-cresce-em-todas-as-27-unidades-da-federacao). Esse avanço representou uma recuperação da economia brasileira após a retração sofrida em 2020 devido à pandemia de COVID-19. Além disso, a Formação Bruta de Capital Fixo, que reflete o nível de investimento produtivo do país, cresceu 17,2% no mesmo período:[Aumento Produtivo em 2021](https://www.poder360.com.br/economia/pib-do-brasil-sobe-46-em-2021-diz-ibge/?utm_source), o que pode ter impulsionado ainda mais esse crescimento. Assim, os gráficos não apenas ajudam a visualizar a trajetória dos dados, mas também evidenciam como a economia respondeu de forma significativa em 2021, influenciando diretamente os valores do PIB per capita.

#### 📊 Análise da Relação entre PIB per Capita e Mortalidade Infantil
Investigar se existe correlação significativa entre o desenvolvimento econômico regional (medido pelo PIB per capita) e os índices de mortalidade infantil no período 2016-2021.

In [18]:

# 1. Preparação dos dados
df_obitos = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)
df_pib = pd.read_csv('pib_per_capita/pib_per_capita_regioes.csv')

# Converter dados numéricos
df_obitos['NrObitosInfantis'] = df_obitos['NrObitosInfantis'].astype(str).str.replace('.','').str.replace(',','.').astype(float)
df_obitos['Ano'] = df_obitos['Ano'].astype(str)
df_pib['Ano'] = df_pib['Ano'].astype(str)

# Agregar e juntar dados
df_agregado = df_obitos.groupby(['Ano', 'Regiao'])['NrObitosInfantis'].sum().reset_index()
df_final = pd.merge(df_agregado, df_pib, on=['Ano', 'Regiao'])

# 2. Criar gráfico de área percentual para Óbitos
fig_obitos = px.area(
    df_final,
    x='Ano',
    y='NrObitosInfantis',
    color='Regiao',
    title='<b>Distribuição Percentual dos Óbitos Infantis por Região</b>',
    labels={'NrObitosInfantis': 'Participação % nos Óbitos', 'Ano': 'Ano'},
    groupnorm='percent',  # Normaliza para 100%
    color_discrete_sequence=px.colors.qualitative.Pastel
)

# 3. Criar gráfico de área percentual para PIB
fig_pib = px.area(
    df_final,
    x='Ano',
    y='PIB_per_capita',
    color='Regiao',
    title='<b>Distribuição Percentual do PIB per capita por Região</b>',
    labels={'PIB_per_capita': 'Participação % no PIB', 'Ano': 'Ano'},
    groupnorm='percent',  # Normaliza para 100%
    color_discrete_sequence=px.colors.qualitative.Pastel
)

# 4. Ajustar layouts
for fig in [fig_obitos, fig_pib]:
    fig.update_layout(
        height=400,
        width=800,
        hovermode='x unified',
        yaxis=dict(ticksuffix='%'),
        legend=dict(orientation='h', yanchor='bottom', y=1.02),
        margin=dict(l=50, r=50, t=80, b=50)
    )
    fig.update_traces(
        hovertemplate='<b>%{color}</b><br>Ano: %{x}<br>Participação: %{y:.1f}%'
    )

# 5. Exibir gráficos lado a lado
from plotly.subplots import make_subplots

final_fig = make_subplots(rows=1, cols=2, subplot_titles=(
    'Distribuição dos Óbitos Infantis por Região',
    'Distribuição do PIB per capita por Região'
))

for trace in fig_obitos.data:
    final_fig.add_trace(trace, row=1, col=1)
    
for trace in fig_pib.data:
    final_fig.add_trace(trace, row=1, col=2)

final_fig.update_layout(
    height=450,
    width=1000,
    showlegend=True,
    title_text='<b>Comparação da Distribuição Regional: Óbitos vs PIB (2016-2021)</b>',
    title_x=0.5
)

final_fig.show()

#### 🎯 Motivo da Utilização do Gráfico
Este gráfico comparativo foi elaborado para analisar simultaneamente dois indicadores fundamentais do desenvolvimento regional: saúde infantil e desempenho econômico. Ao apresentar os dados de óbitos infantis e PIB per capita lado a lado, permite identificar possíveis relações entre condições socioeconômicas e resultados em saúde pública. A abordagem temporal (2016-2021) foi escolhida para verificar se houve evolução nesses indicadores, enquanto a divisão por regiões brasileiras revela disparidades territoriais. O formato de barras percentuais possibilita comparações justas entre regiões com populações de tamanhos diferentes, destacando padrões que poderiam ser mascarados em análises absolutas.

#### 📌 Explicação do Conteúdo do Gráfico
A visualização está organizada em dois painéis principais. O painel superior apresenta a distribuição percentual dos óbitos infantis por região em cada ano, onde cada barra colorida representa a participação relativa de uma região no total nacional de mortes infantis. O painel inferior mostra a contribuição percentual de cada região para o PIB per capita nacional no mesmo período. As cores consistentes associadas a cada região facilitam a correlação entre os dois conjuntos de dados. Por exemplo, se uma região aparece com alta participação nos óbitos infantis, mas baixa no PIB per capita (como é comum no Nordeste), isso sugere uma relação entre desenvolvimento econômico e saúde pública. A disposição cronológica permite ainda observar tendências, como possíveis melhorias ou deteriorações nos indicadores ao longo do tempo.

#### ✅ O que podemos perceber?

Regiões com menor PIB per capita, como o Nordeste, apresentam maiores taxas de mortalidade infantil, sugerindo que condições socioeconômicas impactam a saúde infantil. O Sudeste, por ser a região mais populosa, aparece em destaque nos dois indicadores, enquanto Centro-Oeste e Sul, com melhores indicadores econômicos, registram menos óbitos infantis, evidenciando a relação entre desenvolvimento e saúde pública.



#### 📊 Análise da Relação de PIB per capita e produção Agrícola por Região
Investigar se existe relação significativa entre a área plantada de uma região e seu PIB per capita, em um periodo de 2016 a 2021.

In [19]:

df_agricola = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)
df_pib_regioes = pd.read_csv('pib_per_capita/pib_per_capita_regioes.csv')  # Dados já agregados por região

# Converter colunas numéricas (tratando formato brasileiro)
if 'VlProducaoAgricola' in df_agricola.columns:
    df_agricola['VlProducaoAgricola'] = df_agricola['VlProducaoAgricola'].astype(str).str.replace('.', '').str.replace(',', '.').astype(float)

# Agregar produção agrícola por região e ano (soma)
df_agregado_regiao = df_agricola.groupby(['Ano', 'Regiao'])['VlProducaoAgricola'].sum().reset_index()

# Contar número de municípios por região/ano (para o tamanho dos pontos)
qtd_municipios = df_agricola.groupby(['Ano', 'Regiao'])['Municipio'].nunique().reset_index()
qtd_municipios.rename(columns={'Municipio': 'QtdMunicipios'}, inplace=True)

# Juntar todos os dados (usando a tabela de PIB por regiões)
df_final = pd.merge(df_agregado_regiao, df_pib_regioes, on=['Ano', 'Regiao'])
df_final = pd.merge(df_final, qtd_municipios, on=['Ano', 'Regiao'])

# Converter Ano para string para a animação
df_final['Ano'] = df_final['Ano'].astype(str)

# Criar o gráfico
fig = px.scatter(
    df_final,
    x='PIB_per_capita',  # Coluna da sua tabela de regiões
    y='VlProducaoAgricola',
    color='Regiao',
    size='QtdMunicipios',
    animation_frame='Ano',
    range_x=[0, df_final['PIB_per_capita'].max() * 1.1],
    range_y=[0, df_final['VlProducaoAgricola'].max() * 1.1],
    title='<b>Relação entre PIB per capita e Produção Agrícola por Região (2016-2021)</b>',
    labels={
        'PIB_per_capita': 'PIB per capita (R$)',
        'VlProducaoAgricola': 'Valor da Produção Agrícola (R$)',
        'QtdMunicipios': 'Nº de Municípios',
        'Regiao': 'Região'
    },
    hover_data=['Regiao', 'Ano'],
    height=600,
    color_discrete_sequence=px.colors.qualitative.Set2
)

fig.update_layout(
    font=dict(family="Arial", size=12),
    plot_bgcolor='white',
    paper_bgcolor='white',
    title_font_size=20,
    legend_title_text='Região',
    margin=dict(l=40, r=40, t=80, b=40),
    yaxis=dict(gridcolor='lightgrey'),
    xaxis=dict(gridcolor='lightgrey'),
    hovermode='closest'
)

fig.update_traces(
    marker=dict(opacity=0.85, line=dict(width=1, color='DarkSlateGrey'))
)

# Configurações da animação
fig.layout.updatemenus[0].buttons[0].args[1]['frame']['duration'] = 1000
fig.layout.updatemenus[0].buttons[0].args[1]['transition']['duration'] = 500

fig.show()

#### 🎯 Motivo da Utilização do Gráfico
Este gráfico foi desenvolvido para analisar a relação entre o desempenho econômico (PIB per capita) e a produção agrícola nas diferentes regiões brasileiras no período de 2016 a 2021. A visualização conjunta desses dois indicadores permite identificar se regiões com maior valor de produção agrícola apresentam também maior PIB per capita, revelando possíveis padrões de desenvolvimento regional baseado no agronegócio. O recorte temporal de seis anos possibilita ainda observar tendências e variações nessa relação ao longo do tempo, destacando se o crescimento da produção agrícola está associado a melhorias no indicador econômico per capita.

#### 📌 Explicação do Conteúdo do Gráfico
O gráfico analisa a relação entre PIB per capita e valor da produção agrícola nas cinco regiões brasileiras entre 2016 e 2021, plotando cada região em um eixo cartesiano onde os valores da produção agrícola (em milhões de reais) são representados no eixo vertical, enquanto o PIB per capita (em milhares de reais) aparece no eixo horizontal. A disposição dos dados permite identificar padrões regionais - como o Centro-Oeste tipicamente apresentando alta produção agrícola aliada a PIB per capita elevado, enquanto o Nordeste mostra o oposto - revelando como o desenvolvimento econômico regional se relaciona com o desempenho do agronegócio. A ausência de uma correlação linear perfeita entre os eixos indica que outros fatores, além do volume de produção agrícola, influenciam o PIB per capita das regiões.

#### ✅ O que podemos perceber?

A relação entre produção agrícola e PIB per capita varia conforme a capacidade de agregar valor. Regiões com agroindústria desenvolvida (como o Sul) associam alta produção a PIB elevado, enquanto áreas focadas em commodities in natura (como o Centro-Oeste) podem ter grande volume produtivo sem equivalência em desenvolvimento econômico per capita. O diferencial está no processamento industrial, infraestrutura logística e diversificação econômica, não apenas na escala de produção.



#### 📊 Análise da Área Plantada e Densidade Populacional.
Investigar se existe relação entre regiões com grande extensão de área plantada e sua densidade demográfica, utilizando dados de 2016 a 2021.

In [20]:


# 1. Carregar os dados
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=';', low_memory=False)

# 2. Tratar colunas numéricas
df['Populacao'] = df['Populacao'].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False).astype(float)
df['Area'] = df['Area'].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False).astype(float)
df['AreaPlantada_h'] = df['AreaPlantada_h'].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False).astype(float)

# 3. Calcular densidade populacional
df['DensidadePopulacional'] = df['Populacao'] / df['Area']

# 4. Agregar por região
df_regiao = df.groupby('Regiao').agg({
    'AreaPlantada_h': 'sum',
    'Populacao': 'sum',
    'Area': 'sum'
}).reset_index()

# Recalcular densidade populacional
df_regiao['DensidadePopulacional'] = df_regiao['Populacao'] / df_regiao['Area']
df_regiao = df_regiao.sort_values(by='AreaPlantada_h', ascending=False)

# 5. Criar gradientes de cor
# Gradiente verde (escuro → claro) para Área Plantada
cores_area = ['#bae4b3','#74c476','#31a354','#006d2c']  # Tons de verde
# Gradiente amarelo (escuro → claro) para Densidade
cores_densidade = ['#ffeda0', '#fed976', '#feb24c', '#fd8d3c']  # Tons de amarelo/laranja

# 6. Criar gráfico de barras agrupadas
fig = go.Figure()

# Área Plantada (eixo Y esquerdo) - Gradiente verde
fig.add_trace(go.Bar(
    x=df_regiao['Regiao'],
    y=df_regiao['AreaPlantada_h'],
    name='Área Plantada (ha)',
    marker=dict(
        color=df_regiao['AreaPlantada_h'],
        colorscale=cores_area,
        colorbar=dict(title='Área (ha)', x=-0.15),
        cmin=df_regiao['AreaPlantada_h'].min(),
        cmax=df_regiao['AreaPlantada_h'].max()
    ),
    yaxis='y1',
    offsetgroup=1
))

# Densidade Populacional (eixo Y direito) - Gradiente amarelo
fig.add_trace(go.Bar(
    x=df_regiao['Regiao'],
    y=df_regiao['DensidadePopulacional'],
    name='Densidade Populacional (hab/km²)',
    marker=dict(
        color=df_regiao['DensidadePopulacional'],
        colorscale=cores_densidade,
        colorbar=dict(title='Densidade', x=1.15),
        cmin=df_regiao['DensidadePopulacional'].min(),
        cmax=df_regiao['DensidadePopulacional'].max()
    ),
    yaxis='y2',
    offsetgroup=2
))

# 7. Layout com barras lado a lado
fig.update_layout(
    title='Área Plantada x Densidade Populacional por Região (2016–2021)',
    xaxis=dict(title='Região'),
    yaxis=dict(
        title=dict(text='Área Plantada (ha)', font=dict(color='#31a354')),
        tickfont=dict(color='#31a354'),
        side='left'
    ),
    yaxis2=dict(
        title=dict(text='Densidade Populacional (hab/km²)', font=dict(color='#feb24c')),
        tickfont=dict(color='#feb24c'),
        overlaying='y',
        side='right'
    ),
    barmode='group',
    bargap=0.15,
    bargroupgap=0.1,
    legend=dict(x=0.02, y=0.98),
    template='simple_white',
    height=500,
    width=900,
    margin=dict(l=50, r=150)  # Margem maior para as colorbars
)

fig.show()

#### 🎯 Motivo da Utilização do Gráfico
Este gráfico foi elaborado para analisar a relação entre área plantada (em bilhões de hectares) e densidade populacional (hab/km²) nas cinco regiões brasileiras no período de 2016 a 2021. A visualização conjunta desses indicadores permite identificar padrões territoriais, como a concentração agrícola em regiões de menor povoamento, típica do modelo de agronegócio brasileiro. O recorte temporal de seis anos possibilita ainda observar a evolução dessa dinâmica.

#### 📌 Explicação do Conteúdo do Gráfico
O gráfico apresenta dois eixos principais: o eixo vertical mostra a área plantada em bilhões de hectares (indicada pela letra "B", onde 1B equivale a 1 bilhão de hectares), com valores que variam de 0,5B a 3B, enquanto o eixo horizontal exibe a densidade populacional em habitantes por quilômetro quadrado (hab/km²), variando de 0 a 100. As cinco regiões brasileiras (Norte, Nordeste, Centro-Oeste, Sudeste e Sul) são posicionadas conforme seus respectivos valores nesses eixos, permitindo visualizar claramente a relação inversa entre área agrícola e densidade demográfica - o Centro-Oeste, por exemplo, aparece com a maior área plantada (3B ha) e a menor densidade populacional (abaixo de 20 hab/km²), enquanto o Sudeste apresenta o padrão oposto, caracterizando os diferentes modelos de ocupação territorial e desenvolvimento agrícola nas regiões do país.



#### ✅ O que podemos perceber?

Os dados revelam que regiões com maior área plantada (como o Centro-Oeste) tendem a ter menor densidade populacional, enquanto áreas mais urbanizadas (como o Sudeste) mostram o padrão oposto. Essa relação inversa entre agricultura extensiva e concentração humana destaca dois modelos de desenvolvimento territorial no Brasil. Exceções regionais aparecem conforme o tipo de cultivo e estágio de urbanização.

#### 📊 Relação entre Empregos Informais e PIB per capita
O objetivo deste gráfico é investigar se há uma relação entre o nível de informalidade no mercado de trabalho e o desempenho econômico dos estados brasileiros, medido através do PIB per capita. A ideia é identificar se estados com maior proporção de empregos informais apresentam, de fato, um PIB per capita mais baixo, o que pode sugerir vínculos entre economia informal e desenvolvimento econômico.

In [21]:

# Carregar os dados
df = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)
df_pib = pd.read_csv('pib_per_capita/pib_per_capita_estados.csv')


for col in ['PessoalOcupado', 'PessoalAssalariado']:
    df[col] = df[col].astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
    df[col] = pd.to_numeric(df[col], errors='coerce')  

# Calcular empregos informais
df['Empregos_Informais'] = df['PessoalOcupado'] - df['PessoalAssalariado']

# Agrupar por estado e calcular média entre os anos
df_estado = df.groupby('UF')[['Empregos_Informais']].mean().round(0).astype(int).reset_index()


# Adicionar o PIB per capita médio de cada estado
pib_estado = df_pib.groupby('UF')['PIB_per_capita'].mean().reset_index()
df_estado = pd.merge(df_estado, pib_estado, on='UF')

fig = px.scatter(
    df_estado,
    x='Empregos_Informais',
    y='PIB_per_capita',
    text='UF',
    trendline='ols',
    title='Relação entre Empregos Informais e PIB per capita por Estado (com escala log)',
    labels={
        'Empregos_Informais': 'Empregos Informais (média 2016–2021)',
        'PIB_per_capita': 'PIB per capita médio (R$)'
    },
    log_x=True  
)

fig.update_traces(textposition='top center')
fig.show()


ModuleNotFoundError: No module named 'statsmodels'

#### 🎯 Motivo da Utilização do Gráfico
Usamos um gráfico de dispersão (ou gráfico de pontos) para analisar a relação entre duas variáveis contínuas: o número de empregos informais e o PIB per capita dos estados brasileiros. O gráfico de dispersão é a escolha ideal para investigar visualmente se existe uma correlação entre essas duas variáveis, já que ele permite que vejamos como uma variável se comporta em relação à outra, observando tendências e padrões. Neste caso, o gráfico é essencial para detectar se existe uma tendência de os estados com mais empregos informais apresentarem um PIB per capita mais baixo, o que indicaria uma possível ligação entre a informalidade no mercado de trabalho e o desenvolvimento econômico.

#### 📌 Explicação do Conteúdo do Gráfico
O gráfico de dispersão apresenta cada estado como um ponto, onde o eixo X representa o número médio de empregos informais nos anos de 2016 a 2021, e o eixo Y representa o PIB per capita médio de cada estado. O número de empregos informais foi ajustado para uma escala logarítmica, permitindo que o gráfico mostre os estados com menos informalidade de maneira mais precisa, enquanto os estados com grande quantidade de informalidade têm seus valores mais comprimidos.A escala logarítmica foi aplicada ao eixo X, que representa o número de empregos informais. A escala logarítmica é uma transformação matemática que compressa a representação dos valores mais altos, fazendo com que os valores menores sejam mais detalhados, enquanto os valores muito grandes (como os dos estados com muitos empregos informais) se tornam mais comprimidos. Isso ajuda a evitar que os pontos extremos (como o Distrito Federal, que possui o maior número de empregos informais) dominem o gráfico e distorçam a análise dos demais estados. Em termos práticos, a escala logarítmica converte os números no eixo X de modo que cada unidade de aumento é proporcional ao valor anterior, o que ajuda a suavizar as diferenças muito grandes entre os estados.
No eixo Y, temos o PIB per capita, que está expresso em valores monetários (R$). O eixo Y não utiliza escala logarítmica, pois os valores de PIB per capita são distribuídos de forma mais uniforme e não possuem uma variação tão extrema como os empregos informais.

A linha de tendência OLS (método dos mínimos quadrados ordinários) foi adicionada ao gráfico para ilustrar a correlação entre os dois conjuntos de dados. Essa linha ajuda a mostrar se existe uma tendência geral de relação entre o número de empregos informais e o PIB per capita, e se ela é positiva ou negativa.



#### ✅ O que podemos perceber?

Com o primeiro gráfico, que inclui todos os estados, incluindo o Distrito Federal (DF), podemos observar uma tendência geral entre o número de empregos informais e o PIB per capita. Inicialmente, parece haver uma correlação de que estados com maior número de empregos informais tendem a ter um PIB per capita mais baixo, sugerindo uma possível relação entre maior informalidade e menor desenvolvimento econômico.

No entanto, ao incluir o DF, que possui um número elevado de empregos informais e um PIB per capita muito alto, vemos que há exceções que desafiam essa tendência. Esse ponto extremo sugere que a relação entre informalidade e PIB per capita não é direta e pode ser influenciada por outros fatores, como a estrutura econômica específica de cada estado, a presença de economias públicas fortes ou outras características regionais.

Portanto, enquanto o gráfico nos fornece uma visão preliminar da relação entre essas duas variáveis, não podemos tirar uma conclusão definitiva sem realizar mais análises detalhadas, levando em consideração outros fatores como a composição econômica de cada estado, o papel do setor público, a distribuição de renda, entre outros.

In [22]:
# Identificar o estado com o maior número de "Empregos Informais"
df_estado_max_empregos = df_estado[df_estado['Empregos_Informais'] == df_estado['Empregos_Informais'].max()]
estado_max_empregos = df_estado_max_empregos['UF'].values[0]
#print(f'O estado com o maior número de empregos informais é: {estado_max_empregos}')

# Gráfico 2: Sem o estado com o maior número de "Empregos Informais"
df_estado_sem_max_empregos = df_estado[df_estado['UF'] != estado_max_empregos]

fig_sem_max_empregos = px.scatter(
    df_estado_sem_max_empregos,
    x='Empregos_Informais',
    y='PIB_per_capita',
    text='UF',
    title=f'Relação entre Empregos Informais e PIB per capita por Estado (sem {estado_max_empregos})',
    labels={
        'Empregos_Informais': 'Empregos Informais (média 2016–2021)',
        'PIB_per_capita': 'PIB per capita médio (R$)'
    },
    log_x=True  # Escala logarítmica
)

fig_sem_max_empregos.update_traces(textposition='top center')
fig_sem_max_empregos.show()


#### 🎯 Motivo da Utilização do Gráfico
Usamos esse gráfico de dispersão sem o Distrito Federal para investigar a relação entre empregos informais e PIB per capita de forma mais precisa, sem a influência de um valor extremo que pode distorcer a visualização. Quando incluímos o DF, que possui um número de empregos informais muito alto em relação aos outros estados, isso pode comprimir os dados dos outros estados e dificultar a identificação de padrões claros. Remover o DF permite que vejamos mais claramente a correlação entre as duas variáveis para os estados que estão fora dessa exceção.

A aplicação da escala logarítmica no eixo X continua a ser importante, já que ela ajuda a suavizar a distorção causada pelos estados com muitos empregos informais e permite que os pontos com menos informalidade sejam mais bem distribuídos no gráfico.

#### 📌 Explicação do Conteúdo do Gráfico
Neste gráfico, temos o mesmo tipo de análise, mas sem o DF. O eixo X representa o número médio de empregos informais (em uma escala logarítmica), e o eixo Y continua representando o PIB per capita dos estados (em R$). A remoção do DF melhora a visualização da distribuição dos dados, permitindo que os estados com PIB per capita mais baixo e com maior informalidade no mercado de trabalho se destaquem mais claramente.


#### ✅ O que podemos perceber?

No gráfico 2, onde removemos o Distrito Federal (DF), conseguimos visualizar mais claramente a relação entre empregos informais e PIB per capita nos estados brasileiros. A tendência de que empregos informais podem estar associados a um PIB per capita mais baixo é mais visível, sugerindo que a informalidade no mercado de trabalho pode refletir condições econômicas mais desafiadoras em algumas regiões.

No entanto, mesmo com a remoção do DF, ainda observamos exceções como o Mato Grosso (MT), onde o PIB per capita é elevado, apesar de um número significativo de empregos informais. Isso reforça a ideia de que a relação entre essas duas variáveis pode ser mais complexa do que simplesmente correlacionar informalidade com baixo desenvolvimento econômico.

Como resultado, embora o gráfico sugira uma tendência, a análise não é conclusiva. Outros fatores econômicos, sociais e regionais precisam ser considerados para entender melhor a dinâmica entre empregos informais e PIB per capita. Mais análises são necessárias para explorar profundamente essa relação e identificar os fatores subjacentes que podem influenciar os dados.

In [None]:
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";", low_memory=False)
df_pib_percapita = pd.read_csv("pib_per_capita/pib_per_capita_regioes.csv")

df["VlProducaoPecuaria"] = pd.to_numeric(
    df["VlProducaoPecuaria"].astype(str).str.replace(",", "."), errors="coerce"
)

df["povoamento"] = pd.to_numeric(
    df["povoamento"].astype(str).str.replace(",", "."), errors="coerce"
)

df_regiao = df.groupby("Regiao")[["VlProducaoPecuaria"]].mean().reset_index()
df_pib = df_pib_percapita.groupby("Regiao")[["PIB_per_capita"]].mean().reset_index()

df_pib_producao = pd.merge(df_regiao, df_pib, on="Regiao")

df_pib_producao = df_pib_producao.sort_values("VlProducaoPecuaria")

fig = go.Figure()

fig.add_trace(go.Scatter(
    x=df_pib_producao["VlProducaoPecuaria"],
    y=df_pib_producao["PIB_per_capita"],
    mode="lines+markers",
    name="PIB per Capita Médio (R$)", 
    line=dict(color="royalblue"),
    hovertext=df_pib_producao["Regiao"]
))

fig.add_trace(go.Scatter(
    x=df_pib_producao["VlProducaoPecuaria"],
    y=df_pib_producao["VlProducaoPecuaria"],
    mode="lines+markers",
    name="Produção Pecuária Média (R$)",  
    line=dict(color="seagreen"),
    hovertext=df_pib_producao["Regiao"]
))

fig.update_layout(
    title={
        "text": "Produção Pecuária Média vs PIB per Capita",
        "x": 0.5,  
        "xanchor": "center",
        "yanchor": "top"
    },
    xaxis=dict(
        title="Produção Pecuária Média (R$)",
        showgrid=True
    ),
    yaxis=dict(
        title="PIB per Capita Médio (R$)",
        showgrid=True
    ),
    height=500,
    width=900,
    template="plotly_white",
    hovermode="x unified",
    legend=dict(
        title=dict(text="Legenda"), 
        orientation="h",  
        x=0.5,
        xanchor="center",
        y=-0.2  
    )
)

# Exibir gráfico
fig.show()


#### ✅ O que podemos perceber?



### 📊  Mortalidade Infantil x Produção Agrícola

In [None]:
import pandas as pd
import plotly.express as px

df = pd.read_csv('dataFrame/BrStatsAtualizada.csv', sep=';', low_memory=False)

df['NrObitosInfantis'] = pd.to_numeric(
    df['NrObitosInfantis'].astype(str).str.replace('.', '').str.replace(',', '.'), 
    errors='coerce'
)
df['NrNascimentos'] = pd.to_numeric(
    df['NrNascimentos'].astype(str).str.replace('.', '').str.replace(',', '.'), 
    errors='coerce'
)
df['VlProducaoAgricola'] = pd.to_numeric(
    df['VlProducaoAgricola'].astype(str).str.replace('.', '').str.replace(',', '.'), 
    errors='coerce'
)

df['MortalidadeInfantil'] = (df['NrObitosInfantis'] / df['NrNascimentos']) * 1000

df_regiao = df.groupby(['Regiao', 'Ano']).agg({
    'NrObitosInfantis': 'sum',
    'NrNascimentos': 'sum',
    'VlProducaoAgricola': 'sum'
}).reset_index()

df_regiao['MortalidadeInfantil'] = (df_regiao['NrObitosInfantis'] / df_regiao['NrNascimentos']) * 1000

df_regiao = df_regiao.dropna(subset=['MortalidadeInfantil', 'VlProducaoAgricola'])
df_regiao = df_regiao[df_regiao['MortalidadeInfantil'] != float('inf')]

df_regiao['VlProducaoAgricola_M'] = df_regiao['VlProducaoAgricola'] / 1_000_000

fig = px.scatter(
    df_regiao,
    x='MortalidadeInfantil',
    y='VlProducaoAgricola_M',  
    color='Regiao',
    size='VlProducaoAgricola_M',
    size_max=30,  
    hover_name='Regiao',
    hover_data=['Ano', 'VlProducaoAgricola'],
    labels={
        'MortalidadeInfantil': 'Mortalidade Infantil (por 1000 nascidos vivos)',
        'VlProducaoAgricola_M': 'Produção Agrícola (em milhões de R$)',
        'Regiao': 'Região',
        'Ano': 'Ano'
    },
    title='<b>Relação entre Produção Agrícola e Mortalidade Infantil (por Região/Ano)</b>',
)

fig.update_layout(
    height=600,
    width=900,
    xaxis_title='Mortalidade Infantil (por 1000 nascidos vivos)',
    yaxis_title='Produção Agrícola (em milhões de R$)',
    legend_title='Região',
    hovermode='closest',
    xaxis=dict(
        tickformat=".2f" 


))

fig.show()


###  🎯 Motivo da Visualização do Gráfico

Optamos pelo scatter plot (gráfico de dispersão) como ferramenta de visualização devido à sua capacidade de destacar relações entre duas variáveis contínuas, neste caso, a Produção Agrícola (eixo Y) e a Mortalidade Infantil (eixo X). Essa escolha se justifica porque o scatter plot permite identificar claramente padrões, tendências e outliers, como regiões que apresentam alta produção agrícola e, ao mesmo tempo, baixa mortalidade infantil. Além disso, o uso de cores distintas para representar as diferentes regiões do Brasil facilita a análise comparativa entre elas, evidenciando possíveis disparidades regionais.

O tamanho dos pontos, por sua vez, reflete a magnitude da produção agrícola, permitindo que os observadores identifiquem rapidamente quais regiões possuem maior ou menor contribuição nesse aspecto. Por fim, a possibilidade de habilitar a animação temporal (animation_frame='Ano') adiciona uma dimensão dinâmica ao gráfico, permitindo acompanhar a evolução dos indicadores ao longo dos anos, o que enriquece ainda mais a análise. Assim, o scatter plot foi escolhido por sua eficácia em comunicar tanto relações diretas quanto diferenças regionais e temporais de maneira intuitiva e visualmente clara.


#### ✅ O que podemos perceber?

O gráfico revela uma relação inversa entre a mortalidade infantil e a produção agrícola nas diferentes regiões do Brasil. Regiões com maior produção agrícola, como o Sudeste e o Sul, tendem a apresentar menores taxas de mortalidade infantil, o que sugere que melhores condições econômicas e acesso a recursos impactam positivamente a saúde infantil. O Sudeste destaca-se com alta produção agrícola e baixa mortalidade infantil, enquanto o Sul também mantém baixa mortalidade, mas com menor dispersão nos valores de produção agrícola. Já o Nordeste exibe taxas de mortalidade infantil mais altas, indicando possíveis desafios na saúde pública e infraestrutura. As regiões Norte e Centro-Oeste mostram dados mais dispersos, com variações significativas tanto na mortalidade infantil quanto na produção agrícola. 









### 📊  Densidade populacional x Empregos

Para fazer a relação entre a densidade populacional e o número de empregos médio  de cada estado, foi distinguido entre o total de pessoas ocupadas e aquelas que possuem empregos formais. O gráfico busca identificar se os estados mais densos concentram mais empregos.

In [None]:

# Carregar os dados
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";", low_memory=False)

# Converter colunas
for col in ["povoamento", "PessoalOcupado", "PessoalAssalariado"]:
    df[col] = pd.to_numeric(df[col].astype(str).str.replace(",", "."), errors="coerce")

# Agrupar por estado (UF)
df_estado = df.groupby("UF")[["povoamento", "PessoalOcupado", "PessoalAssalariado"]].mean().reset_index()

# Ordenar pela densidade populacional
df_estado = df_estado.sort_values("povoamento")

# Criar gráfico de linhas
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=df_estado["povoamento"],
    y=df_estado["PessoalOcupado"],
    mode="lines+markers",
    name="Pessoal Ocupado",
    line=dict(color="royalblue"),
    hovertext=df_estado["UF"]
))

fig.add_trace(go.Scatter(
    x=df_estado["povoamento"],
    y=df_estado["PessoalAssalariado"],
    mode="lines+markers",
    name="Pessoal Assalariado",
    line=dict(color="seagreen"),
    hovertext=df_estado["UF"]
))

fig.update_layout(
    title="Densidade Populacional x Número de Empregos (Média por Estado)",
    xaxis_title="Densidade Populacional Média (hab/km²)",
    yaxis_title="Número Médio de Pessoas (escala log)",
    height=500,
    width=900,
    template="plotly_white",
    hovermode="x unified"
)

fig.update_yaxes(type='log')


fig.show()


#### 🎯 Motivo da Utilização do Gráfico

O gráfico foi elaborado com o objetivo de analisar a relação entre a densidade populacional média dos estados brasileiros e o número médio de empregos, tanto formais quanto informais. A motivação para essa visualização está na busca por padrões que possam indicar se há uma correlação entre o grau de povoamento de uma região e sua capacidade de gerar ocupações. Para isso, foram utilizados os dados médios por estado, agrupando as informações de todos os municípios pertencentes a cada unidade federativa, o que permite uma visão mais agregada e comparativa entre os estados.

#### 📌 Explicação do Conteúdo do Gráfico

Na construção do gráfico, a densidade populacional média (habitantes por km²) foi representada no eixo horizontal, enquanto o número médio de pessoas empregadas foi representado no eixo vertical, dividido em duas séries: uma para o total de pessoal ocupado e outra para o pessoal assalariado. Devido à grande disparidade entre os estados, especialmente pelo valor extremamente elevado do Distrito Federal (DF), foi aplicada uma escala logarítmica ao eixo Y. A escolha dessa escala tem como finalidade permitir que os estados com valores mais baixos ainda sejam visualizados de forma clara, sem serem comprimidos na base do gráfico, o que aconteceria em uma escala linear. O uso da escala log também é útil quando se deseja comparar ordens de magnitude diferentes, como é o caso aqui.



#### ✅ O que podemos perceber?

Com base na visualização, é possível perceber uma tendência geral de crescimento no número de empregos conforme aumenta a densidade populacional. Estados mais densamente povoados tendem a ter maior concentração de postos de trabalho, o que pode estar relacionado à urbanização e à maior atividade econômica. No entanto, destaca-se o caso do Distrito Federal, que apresenta um número médio de empregos muito superior ao dos demais estados, configurando-se como um ponto fora da curva (outlier). Isso se deve ao fato de o DF concentrar grande parte da estrutura administrativa federal, com uma população urbana altamente empregada no setor público e serviços, o que distorce a média em relação aos outros estados. A visualização em escala logarítmica permitiu suavizar esse impacto e tornar mais evidente o comportamento dos demais estados, oferecendo uma leitura mais equilibrada dos dados.

### 📊  Densidade populacional x Mortalidade infantil

A análise da relação entre densidade populacional e mortalidade infantil foi realizada utilizando os dados de todos os estados, de 2016 a 2021. Com isso, foi possível observar como a mortalidade infantil varia conforme a densidade populacional de cada estado, permitindo uma análise mais detalhada do comportamento desse indicador ao longo do tempo.

In [None]:
import pandas as pd
import plotly.graph_objects as go

# Carregar os dados
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";", low_memory=False)

# Converter colunas para valores numéricos
for col in ["povoamento", "NrObitosInfantis", "NrNascimentos"]:
    df[col] = pd.to_numeric(df[col].astype(str).str.replace(",", "."), errors="coerce")

# Calcular Mortalidade Infantil
df["MortalidadeInfantil"] = (df["NrObitosInfantis"] / df["NrNascimentos"]) * 1000

# Agrupar por estado e calcular a média
df_estado = df.groupby("UF").agg({
    "povoamento": "mean",
    "MortalidadeInfantil": "mean"
}).reset_index()

# Ordenar os estados pelo nome (opcional)
df_estado.sort_values(by="UF", inplace=True)

# Criar gráfico de barras
fig = go.Figure(data=[
    go.Bar(name='Densidade Populacional Média', x=df_estado["UF"], y=df_estado["povoamento"], marker_color='indianred'),
    go.Bar(name='Mortalidade Infantil Média', x=df_estado["UF"], y=df_estado["MortalidadeInfantil"], marker_color='steelblue')
])

fig.update_layout(
    yaxis_type='log',
    yaxis_title='Valor (Escala Log)',
    title='Comparativo por Estado: Densidade Populacional x Mortalidade Infantil (Escala Logarítmica)',
    barmode='group',
    template='plotly_white',
    height=600
)


fig.show()


#### 🎯 Motivo da Utilização do Gráfico

O gráfico apresentado utiliza barras duplas para comparar, por estado, dois indicadores importantes: a densidade populacional média e a mortalidade infantil média, no período de 2016 a 2021. No eixo X temos os estados brasileiros, enquanto o eixo Y representa os valores dos indicadores em escala logarítmica, o que permite uma melhor visualização de dados com variações muito grandes,já que alguns estados têm densidade populacional extremamente baixa enquanto outros possuem valores de mortalidade bem altos.

#### 📌 Explicação do Conteúdo do Gráfico
A escolha por barras duplas facilita a comparação entre os dois indicadores para cada estado, lado a lado. Ao observar o gráfico, nota-se que não existe uma relação direta e proporcional entre a densidade populacional e a mortalidade infantil. Por exemplo, estados como o Distrito Federal e São Paulo apresentam alta densidade, mas mortalidade infantil relativamente controlada. Já estados menos populosos, como Amapá ou Maranhão, podem registrar níveis de mortalidade ainda elevados.

#### ✅ O que podemos perceber?

O uso da escala logarítmica foi fundamental para permitir que estados com valores muito pequenos também fossem visualizados de forma justa no gráfico. Isso garantiu que todos os dados fossem considerados na análise, sem que os maiores valores 'escondessem' os menores. Assim, o gráfico nos ajuda a enxergar diferenças regionais importantes e reforça a ideia de que a mortalidade infantil não depende exclusivamente da concentração populacional, mas sim de uma série de fatores sociais, econômicos e estruturais

### 📊  PIB per capita x Exportações

Nessa análise queremos evidenciar se há alguma relação entre o PIB per capita com o volume de exportações de cada estado, para ajudar nessa análise foi separado cada ano (2016 a 2020), buscando uma verificação mais profunda dos dados.

In [None]:
df = pd.read_csv("dataFrame/BrStatsAtualizada.csv", sep=";", dtype={"Exportacoes_R$": str})
df.columns = df.columns.str.strip()

# Carregar o dataset de PIB per capita por estado
df_pib_estado = pd.read_csv("pib_per_capita/pib_per_capita_estados.csv")
df_pib_estado["Ano"] = df_pib_estado["Ano"].astype(str)

for col in ["Exportacoes_R$", "QtEmpresas", "PessoalOcupado"]:
    df[col] = pd.to_numeric(df[col].astype(str).str.replace(".", "", regex=False).str.replace(",", ".", regex=False),errors="coerce")
    
df["Ano"] = df["Ano"].astype(str)
df_exportacoes = df.groupby(["Ano", "UF"])["Exportacoes_R$"].sum().reset_index()
df_final = pd.merge(df_exportacoes, df_pib_estado, on=["Ano", "UF"])
fig = go.Figure()
anos = sorted(df_final["Ano"].unique())
buttons = []

for i, ano in enumerate(anos):
    df_ano = df_final[df_final["Ano"] == ano].sort_values("PIB_per_capita", ascending=False)
    
    fig.add_trace(go.Bar(
        x=df_ano["UF"],
        y=df_ano["Exportacoes_R$"],
        name="Exportações (R$)",
        marker_color="#1f77b4",
        yaxis="y2",
        visible=(i==0)
    ))

    fig.add_trace(go.Bar(
        x=df_ano["UF"],
        y=df_ano["PIB_per_capita"],
        name="PIB per capita (R$)",
        marker_color="#ff7f0e",
        visible=(i==0)
    ))

    buttons.append(dict(
        label=str(ano),
        method="update",
        args=[{"visible": [False]*len(anos)*2},
              {"title": f"Exportações vs PIB per capita por Estado - {ano}"}]
    ))
    buttons[-1]["args"][0]["visible"][i*2] = True
    buttons[-1]["args"][0]["visible"][i*2 + 1] = True

fig.update_layout(
    title="Exportações vs PIB per capita por Estado",
    xaxis=dict(title="Estados", tickangle=45),
    yaxis=dict(title="PIB per capita (R$)", side="left"),
    yaxis2=dict(
        title="Exportações (R$)",
        overlaying="y",
        side="right"
        
    ),
    updatemenus=[{
        "buttons": buttons,
        "direction": "down",
        "showactive": True,
        "x": 1.0,
        "y": 1.15
    }],
    barmode="group",
    plot_bgcolor="white",
    height=600,
    width=1000,
    legend=dict(x=1.1, y=1)
)

fig.show()



#### 🎯 Motivo da Utilização do Gráfico

Utilizamos o gráfico de barras agrupadas com eixo duplo para comparar, de forma clara e simultânea, o PIB per capita e as exportações por estado ao longo dos anos. Esse tipo de gráfico é ideal quando se deseja visualizar duas variáveis com escalas diferentes em um mesmo eixo, mantendo a clareza e a legibilidade dos dados. Além disso, a inclusão de abas por ano permite uma análise temporal, facilitando a identificação de uma relação.

#### 📌 Explicação do Conteúdo do Gráfico

O gráfico apresenta uma comparação entre os valores totais de exportações e o PIB per capita de cada estado brasileiro ao longo dos anos. As informações são exibidas por meio de barras sobrepostas, permitindo visualizar dois indicadores diferentes ocupando o mesmo espaço. A barra laranja indica o PIB per capita, já a barra azul sobreposta representa o valor total de exportações do estado.

No eixo horizontal estão os estados brasileiros representados por suas respectivas siglas.Além disso, o gráfico inclui um menu interativo que permite selecionar o ano desejado, facilitando a análise temporal. Esse tipo de visualização permite observar como exportações e a renda se relacionam ao longo do tempo em diferentes partes do país.

#### ✅ O que podemos perceber?

Ao analisar o gráfico de Exportações vs PIB per capita por Estado, é possível perceber que um maior volume de exportações não garante, necessariamente, um maior PIB per capita. Um exemplo disso é o estado de São Paulo, que aparece com alto valor de exportações, mas não lidera o ranking de PIB per capita. Por outro lado, o Distrito Federal se destaca com um dos maiores PIBs per capita, mesmo apresentando baixo volume de exportações. Isso sugere que sua economia está fortemente baseada em setores como administração pública e serviços, e não na exportação de bens.

### ❗Informações Relevantes 
Embora muitas das perguntas de análise tivessem como foco os municípios, percebemos que a visualização dos dados nesse nível de detalhe gerava gráficos excessivamente poluídos e de difícil interpretação. Por isso, optamos por realizar as análises iniciais em nível estadual e regional, onde é possível identificar padrões de maneira mais clara e objetiva. A partir desses resultados, planejamos aprofundar a análise nos municípios que se destacarem dentro de cada estado ou região. Essa abordagem progressiva proporciona uma leitura mais eficaz e assertiva dos dados.

Durante a revisão do projeto, também identificamos a necessidade de alterar algumas perguntas de análise. Algumas delas envolviam diretamente o PIB per capita por município, mas como são muitos municípios e o grupo ainda estava compreendendo como funcionaria o cálculo e a análise desse indicador, percebemos que seria difícil extrair insights que realmente agregassem valor ao projeto nesse momento. Por isso, reformulamos as perguntas de forma que as análises ficassem mais coerentes com os dados disponíveis e com o conhecimento técnico do grupo até aqui.

Outro ponto importante foi a identificação de um outlier nos dados do Distrito Federal. Os indicadores econômicos e sociais desse estado estavam significativamente acima da média dos demais, o que gerou um forte impacto visual nos gráficos. Esse comportamento atípico nos chamou atenção e estamos analisando a melhor forma de tratar ou destacar esse caso específico na interpretação dos dados.

Também notamos que os dados adicionados posteriormente, vindos do site do IBGE, especialmente os referentes ao ano de 2021, apresentaram um salto muito elevado em relação aos valores dos anos anteriores. Apesar da diferença significativa, decidimos confiar nesses dados por se tratarem de uma fonte oficial. Acreditamos que parte desse aumento pode estar relacionado a efeitos da pandemia, como mudanças abruptas na economia e nos padrões de produção.

Por fim, vale destacar que nenhum dos integrantes do grupo tinha conhecimento aprofundado sobre como criar gráficos utilizando as bibliotecas escolhidas. Por esse motivo, adotamos uma postura colaborativa, compartilhando entre nós tudo o que aprendíamos ao longo do processo. Em alguns momentos, também recorremos a ajuda externa, como o uso de inteligência artificial, para solucionar dúvidas específicas sobre o funcionamento das bibliotecas, uma vez que algumas informações não estavam claras na documentação oficial.

Essas decisões e ajustes contribuíram para tornar o projeto mais consistente, realista e alinhado com os recursos disponíveis ao grupo no momento.



### 📜Referências
Pandas Documentation. "Pandas Documentation". Disponível em: https://pandas.pydata.org/docs/. Acesso em: 20 mar. 2025.   

Pandas 10-Minute Tutorial. "Pandas 10-Minute Tutorial". Disponível em: https://pandas.pydata.org/docs/user_guide/10min.html. Acesso em: 20 mar. 2025.   

W3Schools. "Pandas Tutorial". Disponível em: https://www.w3schools.com/python/pandas/default.asp. Acesso em: 20 mar. 2025

PLOTLY. Plotly Express – Python Graphing Library. Disponível em: https://plotly.com/python/plotly-express/. Acesso em: 21 abr. 2025.

PLOTLY. Graph Objects – Python Graphing Library. Disponível em: https://plotly.com/python/graph-objects/. Acesso em: 21 abr. 2025.

PLOTLY. Subplots in Python. Disponível em: https://plotly.com/python/subplots/. Acesso em: 21 abr. 2025.