# Etapa 1 - Projeto Desenvolvedor 🚀

### Introdução
**Integrantes do projeto**: Aline Santos, Luana Tavares, Gustavo Luca e Marcos Eduardo Resende. 

O objetivo deste trabalho é proporcionar aos participantes a vivência de diversos desafios enfrentados por cientistas de dados em sua atuação profissional.Para isso, estão disponíveis dois conjuntos de dados: **dados de criminalidade do estado de São Paulo (SPSafe) e dados demográficos dos municípios brasileiros (BrStats)**.

Cada conjunto de dados é acompanhado por um artigo que descreve detalhadamente o processo de geração e organização das informações. A leitura atenta desses artigos é essencial para o bom desenvolvimento do projeto e deve ser realizada por todos os membros do grupo. 

A escolha do conjunto de dados a ser utilizado está  vinculada à turma prática no qual o grupo está matriculado. Como pertecemos à **turma prática P1**, utilizaremos o conjunto de dados **BrStats**.

O artigo de referência para esse conjunto de dados pode ser acessado por meio do seguinte link: https://sol.sbc.org.br/index.php/dsw/article/view/25506

### Descrição Etapa 1
Nesta etapa, o grupo irá fazer uma primeira análise dos dados, para identificar os atributos existentes, e elaborar uma lista com pelo menos 10 perguntas que pretende responder com o trabalho. Também devem ser feitos tratamentos dos dados em termos de formatação, enriquecimento com novos atributos externos, tratamento de ausências, dentre outros. Essa etapa envolve entender os atributos e objetos dos dados, o tipo e o domínio de cada atributo, verificar e identificar possíveis ruídos ou informações ausentes, criar novos atributos se necessário, formatar valores, juntar conjuntos de dados, dentre outras atividades.

### Divisão de Tarefas
O trabalho foi dividido entre os quatro integrantes do grupo, com as seguintes responsabilidades:   
- Retirada de 7 colunas da tabela: **Aline e Marcos** foram responsáveis por essa tarefa.   
- Conversão de moedas: **Luana** ficou encarregada dessa etapa.   
- Conversão de unidades nas colunas: **Gustavo** foi o responsável por realizar as conversões de unidades.   
- Agrupamento dos dados da tabela: **Todos os integrantes** do grupo contribuíram com ideias e conhecimentos para essa parte do trabalho.   
- As perguntas de pesquisa foram decididas e discutidas em uma reunião pelo Google Meet, onde todos os integrantes participaram ativamente. O tratamento dos dados também foi    discutido e definido durante essa reunião.O relatório de participação da reunião no Google Meet pode ser acessado através deste link:   
 https://docs.google.com/spreadsheets/d/1nYTdsyvY9Kk3X73YN4Af45I4sEfED_4RbvQ6LWWLkZQ/edit?usp=sharing   
- Todos os integrantes leram os artigos relacionados ao projeto e analisaram os dados disponíveis para garantir uma abordagem comum e fundamentada. A comunicação entre os  integrantes foi realizada por meio de um grupo criado no WhatsApp, onde discutimos o andamento das tarefas e tiramos dúvidas em tempo real.
A documentação em Markdown foi realizada à medida que os integrantes completavam suas respectivas tarefas. Para os itens que não faziam parte da tarefa de um integrante específico, a **Aline** ficou responsável pela elaboração.

* Em relação ao GitHub, optamos por organizar o repositório em duas branches:   
dev: utilizada para armazenar versões intermediárias, ainda em desenvolvimento, das etapas.   
main: destinada a armazenar as versões finais de cada etapa, sendo a versão atual a da Etapa 1.  


### 🛠️ Preparação do Ambiente
Nesta seção, serão apresentados os comandos necessários para preparar o ambiente de análise. Isso inclui a importação das bibliotecas utilizadas, o carregamento do conjunto de dados e sua visualização inicial.


#### 📚 Bibliotecas Necessárias

In [1]:
import pandas as pd
import numpy as np

#### 📥 Importação dos Dados
Utilizamos o seguinte comando para carregar a tabela de dados localizada no mesmo diretório do projeto.O parâmetro sep=";" é utilizado para informar que os dados no arquivo estão separados por ponto e vírgula (;).Dessa forma, o pandas consegue interpretar corretamente as colunas e montar a tabela (DataFrame) com os dados organizados.

In [2]:
df = pd.read_csv("BrStats.csv", sep = ";")

  df = pd.read_csv("BrStats.csv", sep = ";")


#### 👀 Visualização Inicial dos Dados
Após a importação, usamos df.info() para visualizar a estrutura da tabela, como tipos de dados e valores nulos. Já o comando display(df) exibe a tabela de forma mais organizada no Jupyter, facilitando a visualização dos dados.

In [3]:
display(df)
df.info()   

Unnamed: 0,Ano,CDMunicipio,Populacao,PessoalOcupado,PessoalAssalariado,VrSalarios,PIB,QtEmpresas,AreaPlantada_h,AreaColhida_h,...,Exportacoes_US$,Receitas_R$,Transferencias_correntes_R$,Transferencias_capital_R$,NrNascimentos,NrObitosInfantis,povoamento,UF,Municipio,Regiao
0,2016,3509452,5.932,854,537,13.692,111.190,252.0,38.0,38.0,...,,"25.511.889,220","18.911.068,400","1.665.392,540",80.0,0.0,32065,SP,Campina do Monte Alegre,Sudeste
1,2016,3123601,27.505,5.680,4.778,104.977,554.663,671.0,3.0,3.0,...,"1.777.256,000","63.002.672,933","45.304.154,440","538.882,600",299.0,3.0,55065,MG,Elói Mendes,Sudeste
2,2016,3552007,6.193,668,580,12.519,62.441,83.0,0.0,0.0,...,,"30.492.825,449","21.861.157,950","1.048.458,040",59.0,2.0,14930,SP,Silveiras,Sudeste
3,2016,3305604,21.279,3.087,2.669,80.161,403.121,290.0,0.0,0.0,...,,"140.538.926,872","100.508.822,360","871.234,340",272.0,2.0,22698,RJ,Silva Jardim,Sudeste
4,2016,1717008,4.534,212,183,5.309,48.551,34.0,94.0,34.0,...,,"15.541.375,953","13.178.989,760","8.037,870",43.0,1.0,2908,TO,Pindorama do Tocantins,Norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
33415,2021,2705408,7.171,463.0,436.0,10.502,,32.0,0.0,0.0,...,,,,,135.0,3.0,83287,AL,Monteirópolis,Nordeste
33416,2021,1600105,9.265,428.0,383.0,9.932,,38.0,0.0,0.0,...,,,,,160.0,2.0,1010,AP,Amapá,Norte
33417,2019,2605459,3.061,2.21,1.773,43.093,192.775,289.0,0.0,0.0,...,,,,,32.0,1.0,180059,PE,Fernando de Noronha,Nordeste
33418,2020,1503002,7.07,538.0,514.0,12.207,63.579,32.0,0.0,0.0,...,,,,,149.0,4.0,0601,PA,Faro,Norte


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33420 entries, 0 to 33419
Data columns (total 24 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Ano                          33420 non-null  int64  
 1   CDMunicipio                  33420 non-null  int64  
 2   Populacao                    33390 non-null  object 
 3   PessoalOcupado               33390 non-null  object 
 4   PessoalAssalariado           33390 non-null  object 
 5   VrSalarios                   33390 non-null  object 
 6   PIB                          27825 non-null  object 
 7   QtEmpresas                   33390 non-null  float64
 8   AreaPlantada_h               33348 non-null  float64
 9   AreaColhida_h                33348 non-null  float64
 10  VlProducaoAgricola           33348 non-null  float64
 11  VlProducaoPecuaria           33384 non-null  float64
 12  Area                         33390 non-null  object 
 13  Importacoes_US$ 

### 🧹 Limpeza e Preparação dos Dados
A seguir, apresentamos as etapas que escolhemos para o tratamento e organização dos dados da tabela utilizada em nossa análise.

#### 🗑️Remoção de Colunas
Removemos as colunas CDMunicipio,VrSalarios,AreaColhida_h,Importacoes_US,Receitas,Transferencias_correntes e Transferencias_capital por não serem relevantes para os objetivos da nossa análise. Como essas informações não serão utilizadas, sua exclusão ajuda a deixar o conjunto de dados mais limpo e focado nas variáveis que realmente importam para a pesquisa.



In [4]:

df = df.drop(columns=[
    'CDMunicipio',
    'VrSalarios',
    'AreaColhida_h',
    'Transferencias_correntes_R$',
    'Transferencias_capital_R$',
    'Receitas_R$',
    'Importacoes_US$'
])



#### 0️⃣Adicionando Zeros

Nas colunas nulas (NaN), optamos por adicionar zeros, para melhorar a visualização e a manipulção dos dados posteriormente.

In [5]:
df.fillna(0, inplace=True)

#### 💵Conversão De Moedas e Tipos
Outra etapa do tratamento de dados que escolhemos aplicar foi a conversão dos valores da coluna Exportações. Os dados estão originalmente em dólares americanos, e decidimos convertê-los para reais, a fim de manter uma padronização nas unidades monetárias da análise. Decidimos também fazer a conversão das colunas que estavam do tipo object e e agora serão do tipo float. 

In [6]:
df["Exportacoes_US$"] = df["Exportacoes_US$"].astype(str)

df["Exportacoes_US$"] = (
    df["Exportacoes_US$"]
    .str.replace(".", "", regex=False)  
    .str.replace(",", ".")            
)

df["Exportacoes_US$"] = df["Exportacoes_US$"].astype(float)

taxa_cambio = 5.68

df["Exportacoes_R$"] = df["Exportacoes_US$"] * taxa_cambio

df = df.rename(columns = {"Exportacoes_US$" : "Exportacoes_R$"})


df["Area"]=df["Area"].astype(str)
df["Area"] = (
    df["Area"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["Area"]=df["Area"].astype(float)

df["povoamento"]=df["povoamento"].astype(str)
df["povoamento"] = (
    df["povoamento"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["povoamento"]=df["povoamento"].astype(float)

df["Populacao"]=df["Populacao"].astype(str)
df["Populacao"] = (
    df["Populacao"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["Populacao"]=df["Populacao"].astype(float)

df["PessoalOcupado"]=df["PessoalOcupado"].astype(str)
df["PessoalOcupado"] = (
    df["PessoalOcupado"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["PessoalOcupado"]=df["PessoalOcupado"].astype(float)

df["PessoalAssalariado"]=df["PessoalAssalariado"].astype(str)
df["PessoalAssalariado"] = (
    df["PessoalAssalariado"]
    .str.replace(".","",regex=False)
    .str.replace(",",".")
)
df["PessoalAssalariado"]=df["PessoalAssalariado"].astype(float)





#### 📏 Ajuste de Unidades dos Dados
De acordo com o artigo que acompanha a base de dados, algumas colunas apresentam seus valores em unidades escaladas. Para tornar a análise mais precisa e os valores mais realistas, realizamos os seguintes ajustes:
Multiplicamos as colunas PIB, VlProducaoAgricola e VlProducaoPecuaria por 1.000, pois os valores estão originalmente na unidade de 10³ (mil).
Multiplicamos a coluna AreaPlantada_h por 10.000, já que os dados estão expressos na unidade de 10⁴ (dez mil).


In [7]:
df["PIB"] = df["PIB"].str.replace(".", "", regex=False)
df["PIB"] = df["PIB"].astype(float)

df["PIB"] *= 1000
df["VlProducaoAgricola"] *= 1000
df["VlProducaoPecuaria"] *= 1000
df["AreaPlantada_h"] *= 10000

#### 🗓️ Média dos Anos por Município
Para simplificar a análise e focar nos comportamentos gerais ao longo dos anos, optamos por agrupar os dados por município,UF e região e calcular a média dos valores entre os anos de 2016 a 2021.Dessa forma, reduzimos a tabela para uma única entrada por município, representando uma visão média do período analisado.

In [8]:
# Calcular a média agrupada por Município,UF e região que são objects
df_media = df.groupby(["Municipio", "UF","Regiao"], as_index=False).mean(numeric_only=True)

# Arredondar os valores para 2 casas decimais
df_media = df_media.round(2)

# Salvar o arquivo com as médias arredondadas
df_media.to_csv("BrStatsAtualizada.csv", index=False, sep=";", decimal=",")

print("Média salva no arquivo 'BrStatsAtualizada.csv'.")

Média salva no arquivo 'BrStatsAtualizada.csv'.


#### 📊 Visualização da Tabela Após Tratamentos e Limpeza de Dados
Após realizar os tratamentos e ajustes necessários nos dados, conseguimos reduzir a tabela para focar apenas nas informações essenciais para responder às 10 perguntas-chave do nosso projeto. Essa limpeza permitiu que os dados fossem mais objetivos e relevantes para a análise das questões propostas. 

In [9]:
display(df_media)

Unnamed: 0,Municipio,UF,Regiao,Ano,Populacao,PessoalOcupado,PessoalAssalariado,PIB,QtEmpresas,AreaPlantada_h,VlProducaoAgricola,VlProducaoPecuaria,Area,Exportacoes_R$,NrNascimentos,NrObitosInfantis,povoamento,Exportacoes_R$.1
0,Abadia de Goiás,GO,Centro-Oeste,2018.5,8622.00,2031.83,1629.67,2.127168e+08,340.17,6666.67,13000.00,5333.33,146.8,24536.83,219.50,4.00,58.73,139369.21
1,Abadia dos Dourados,MG,Sudeste,2018.5,7014.17,1965.17,1535.00,1.490002e+08,360.50,35000.00,40000.00,42666.67,881.1,0.00,56.50,0.67,7.96,0.00
2,Abadiânia,GO,Centro-Oeste,2018.5,19698.67,2411.17,2059.67,3.361076e+08,317.17,145000.00,53000.00,32666.67,1045.1,16469.33,186.50,3.33,18.85,93545.81
3,Abaetetuba,PA,Norte,2018.5,156470.50,10769.33,9597.50,1.429141e+09,444.69,563333.33,376666.67,0.00,1610.6,51277.83,2.64,39.50,97.15,291258.09
4,Abaeté,MG,Sudeste,2018.5,23359.67,4173.00,3322.17,4.849866e+08,617.33,36666.67,29833.33,141166.67,1817.1,19637.00,232.50,2.83,12.86,111538.16
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5565,Áurea,RS,Sul,2018.5,3603.67,620.50,410.33,1.058196e+08,162.67,155000.00,33000.00,17166.67,158.3,1363.00,28.83,0.17,22.76,7741.84
5566,Ângulo,PR,Sul,2018.5,2943.17,552.50,412.67,1.109616e+08,114.17,493333.33,73000.00,5000.00,106.0,2094.33,41.67,0.50,27.77,11895.81
5567,Érico Cardoso,BA,Nordeste,2018.5,10827.00,639.83,579.17,6.387360e+07,70.67,13333.33,3000.00,333.33,701.4,0.00,111.33,2.83,15.44,0.00
5568,Óbidos,PA,Norte,2018.5,51700.50,3813.50,3370.67,7.506454e+08,384.17,416666.67,270166.67,37000.00,28021.3,270251.67,165.04,15.00,1.85,1535029.47


#### 🧹 Conclusões com o Tratamento dos Dados
Com os ajustes feitos nos dados, conseguimos filtrar e unificar as informações de maneira que os anos de 2016 a 2021 foram consolidados, e as colunas que não eram relevantes para o projeto foram removidas. Isso resultou em uma tabela mais enxuta e focada, o que facilita a análise das questões propostas.

O tratamento realizado também garantiu que as unidades das colunas de exportações, produção agrícola e área plantada fossem ajustadas corretamente, permitindo que as comparações entre os dados fossem mais precisas. Além disso, o cálculo da média dos anos por município nos ajudou a ter uma visão mais representativa e equilibrada do comportamento das variáveis ao longo do tempo.

Agora, com os dados organizados e refinados, estamos prontos para avançar nas análises e começar a responder às questões do projeto de maneira mais eficaz.

#### 📜Referências
Pandas Documentation. "Pandas Documentation". Disponível em: https://pandas.pydata.org/docs/. Acesso em: 20 mar. 2025.   

Pandas 10-Minute Tutorial. "Pandas 10-Minute Tutorial". Disponível em: https://pandas.pydata.org/docs/user_guide/10min.html. Acesso em: 20 mar. 2025.   

W3Schools. "Pandas Tutorial". Disponível em: https://www.w3schools.com/python/pandas/default.asp. Acesso em: 20 mar. 2025
