# Etapa 1 - Projeto Desenvolvedor 🚀

### Introdução
**Integrantes do projeto**: Aline Santos, Luana Tavares, Gustavo Luca e Marcos Eduardo Resende. 

O objetivo deste trabalho é proporcionar aos participantes a vivência de diversos desafios enfrentados por cientistas de dados em sua atuação profissional.Para isso, estão disponíveis dois conjuntos de dados: **dados de criminalidade do estado de São Paulo (SPSafe) e dados demográficos dos municípios brasileiros (BrStats)**.

Cada conjunto de dados é acompanhado por um artigo que descreve detalhadamente o processo de geração e organização das informações. A leitura atenta desses artigos é essencial para o bom desenvolvimento do projeto e deve ser realizada por todos os membros do grupo. 

A escolha do conjunto de dados a ser utilizado está  vinculada à turma prática no qual o grupo está matriculado. Como pertecemos à **turma prática P1**, utilizaremos o conjunto de dados **BrStats**.

O artigo de referência para esse conjunto de dados pode ser acessado por meio do seguinte link: https://sol.sbc.org.br/index.php/dsw/article/view/25506

### Descrição Etapa 1
Nesta etapa, o grupo irá fazer uma primeira análise dos dados, para identificar os atributos existentes, e elaborar uma lista com pelo menos 10 perguntas que pretende responder com o trabalho. Também devem ser feitos tratamentos dos dados em termos de formatação, enriquecimento com novos atributos externos, tratamento de ausências, dentre outros. Essa etapa envolve entender os atributos e objetos dos dados, o tipo e o domínio de cada atributo, verificar e identificar possíveis ruídos ou informações ausentes, criar novos atributos se necessário, formatar valores, juntar conjuntos de dados, dentre outras atividades.

### 🛠️ Preparação do Ambiente
Nesta seção, serão apresentados os comandos necessários para preparar o ambiente de análise. Isso inclui a importação das bibliotecas utilizadas, o carregamento do conjunto de dados e sua visualização inicial.


#### 📚 Bibliotecas Necessárias

In [1]:
import pandas as pd
import numpy as np

#### 📥 Importação dos Dados
Utilizamos o seguinte comando para carregar a tabela de dados localizada no mesmo diretório do projeto.O parâmetro sep=";" é utilizado para informar que os dados no arquivo estão separados por ponto e vírgula (;).Dessa forma, o pandas consegue interpretar corretamente as colunas e montar a tabela (DataFrame) com os dados organizados.

In [2]:
df = pd.read_csv("BrStats.csv", sep = ";")

  df = pd.read_csv("BrStats.csv", sep = ";")


#### 👀 Visualização Inicial dos Dados
Após a importação, usamos df.info() para visualizar a estrutura da tabela, como tipos de dados e valores nulos. Já o comando display(df) exibe a tabela de forma mais organizada no Jupyter, facilitando a visualização dos dados.

In [3]:
display(df)
df.info()   

Unnamed: 0,Ano,CDMunicipio,Populacao,PessoalOcupado,PessoalAssalariado,VrSalarios,PIB,QtEmpresas,AreaPlantada_h,AreaColhida_h,...,Exportacoes_US$,Receitas_R$,Transferencias_correntes_R$,Transferencias_capital_R$,NrNascimentos,NrObitosInfantis,povoamento,UF,Municipio,Regiao
0,2016,3509452,5.932,854,537,13.692,111.190,252.0,38.0,38.0,...,,"25.511.889,220","18.911.068,400","1.665.392,540",80.0,0.0,32065,SP,Campina do Monte Alegre,Sudeste
1,2016,3123601,27.505,5.680,4.778,104.977,554.663,671.0,3.0,3.0,...,"1.777.256,000","63.002.672,933","45.304.154,440","538.882,600",299.0,3.0,55065,MG,Elói Mendes,Sudeste
2,2016,3552007,6.193,668,580,12.519,62.441,83.0,0.0,0.0,...,,"30.492.825,449","21.861.157,950","1.048.458,040",59.0,2.0,14930,SP,Silveiras,Sudeste
3,2016,3305604,21.279,3.087,2.669,80.161,403.121,290.0,0.0,0.0,...,,"140.538.926,872","100.508.822,360","871.234,340",272.0,2.0,22698,RJ,Silva Jardim,Sudeste
4,2016,1717008,4.534,212,183,5.309,48.551,34.0,94.0,34.0,...,,"15.541.375,953","13.178.989,760","8.037,870",43.0,1.0,2908,TO,Pindorama do Tocantins,Norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
33415,2021,2705408,7.171,463.0,436.0,10.502,,32.0,0.0,0.0,...,,,,,135.0,3.0,83287,AL,Monteirópolis,Nordeste
33416,2021,1600105,9.265,428.0,383.0,9.932,,38.0,0.0,0.0,...,,,,,160.0,2.0,1010,AP,Amapá,Norte
33417,2019,2605459,3.061,2.21,1.773,43.093,192.775,289.0,0.0,0.0,...,,,,,32.0,1.0,180059,PE,Fernando de Noronha,Nordeste
33418,2020,1503002,7.07,538.0,514.0,12.207,63.579,32.0,0.0,0.0,...,,,,,149.0,4.0,0601,PA,Faro,Norte


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33420 entries, 0 to 33419
Data columns (total 24 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Ano                          33420 non-null  int64  
 1   CDMunicipio                  33420 non-null  int64  
 2   Populacao                    33390 non-null  object 
 3   PessoalOcupado               33390 non-null  object 
 4   PessoalAssalariado           33390 non-null  object 
 5   VrSalarios                   33390 non-null  object 
 6   PIB                          27825 non-null  object 
 7   QtEmpresas                   33390 non-null  float64
 8   AreaPlantada_h               33348 non-null  float64
 9   AreaColhida_h                33348 non-null  float64
 10  VlProducaoAgricola           33348 non-null  float64
 11  VlProducaoPecuaria           33384 non-null  float64
 12  Area                         33390 non-null  object 
 13  Importacoes_US$ 

### 🧹 Limpeza e Preparação dos Dados
A seguir, apresentamos as etapas que escolhemos para o tratamento e organização dos dados da tabela utilizada em nossa análise.

#### 🗑️Remoção de Colunas
Removemos as colunas CDMunicipio,VrSalarios,AreaColhida_h,Importacoes_US$,Receitas_R$,Transferencias_correntes_R$ e Transferencias_capital_R$ por não serem relevantes para os objetivos da nossa análise. Como essas informações não serão utilizadas, sua exclusão ajuda a deixar o conjunto de dados mais limpo e focado nas variáveis que realmente importam para a pesquisa.



In [4]:
df = df.drop(columns=['Importacoes_US$','Receitas_R$'])


In [5]:
df = df.drop(columns=['Transferencias_correntes_R$','Transferencias_capital_R$'])

#### Adicionando Zeros

Nas colunas nulas (NaN), optamos por adicionar zeros, para melhorar a visualização e a manipulção dos dados posteriormente.

In [6]:
df.fillna(0, inplace=True)
display(df)

Unnamed: 0,Ano,CDMunicipio,Populacao,PessoalOcupado,PessoalAssalariado,VrSalarios,PIB,QtEmpresas,AreaPlantada_h,AreaColhida_h,VlProducaoAgricola,VlProducaoPecuaria,Area,Exportacoes_US$,NrNascimentos,NrObitosInfantis,povoamento,UF,Municipio,Regiao
0,2016,3509452,5.932,854,537,13.692,111.190,252.0,38.0,38.0,86.0,1.0,185000,0,80.0,0.0,32065,SP,Campina do Monte Alegre,Sudeste
1,2016,3123601,27.505,5.680,4.778,104.977,554.663,671.0,3.0,3.0,649.0,99.0,499500,"1.777.256,000",299.0,3.0,55065,MG,Elói Mendes,Sudeste
2,2016,3552007,6.193,668,580,12.519,62.441,83.0,0.0,0.0,3.0,57.0,414800,0,59.0,2.0,14930,SP,Silveiras,Sudeste
3,2016,3305604,21.279,3.087,2.669,80.161,403.121,290.0,0.0,0.0,4.0,7.0,937500,0,272.0,2.0,22698,RJ,Silva Jardim,Sudeste
4,2016,1717008,4.534,212,183,5.309,48.551,34.0,94.0,34.0,0.0,4.0,"1.559,100",0,43.0,1.0,2908,TO,Pindorama do Tocantins,Norte
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
33415,2021,2705408,7.171,463.0,436.0,10.502,0,32.0,0.0,0.0,0.0,7.0,86100,0,135.0,3.0,83287,AL,Monteirópolis,Nordeste
33416,2021,1600105,9.265,428.0,383.0,9.932,0,38.0,0.0,0.0,4.0,0.0,"9.175,900",0,160.0,2.0,1010,AP,Amapá,Norte
33417,2019,2605459,3.061,2.21,1.773,43.093,192.775,289.0,0.0,0.0,0.0,32.0,17000,0,32.0,1.0,180059,PE,Fernando de Noronha,Nordeste
33418,2020,1503002,7.07,538.0,514.0,12.207,63.579,32.0,0.0,0.0,6.0,0.0,"11.770,600",0,149.0,4.0,0601,PA,Faro,Norte
