# Análise Exploratória de Dados: IBGE

<h1>
    <p align="center">
        Work in Progress 🛠️
    </p>
</h1>

Objetivos:

- Realizar uma análise focada nas variáveis referentes a população brasileira e alguns índices econômicos;

Algumas possibilidades: 

- Comparativos entre estados ou regiões do Brasil no quesito populacional e/ou econômico;
- Procurar entender quais os estados com os municípios mais ricos, mais populosos, com mais imigrantes;
- Rankeamento desses estados com base em alguns KPI's (GDP, IDH, População total);
- Um dado interessante para a análise também pode ser a distribuição de carros/motos por cidadão.
- Divisão etária da população desses estados, buscando quais os de população mais jovem e velha na média;

## Puxando dados e selecionando variáveis necessárias

In [1]:
# Importando pacotes:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Definindo parâmetros de tamanho das figuras do Seaborn:
sns.set(rc={'figure.figsize':(12,8)})
sns.set(style="darkgrid")

print('Pacotes prontos!')

Pacotes prontos!


In [2]:
# Criando dataframe:
data = pd.read_csv('data/BRAZIL_CITIES.csv', sep=';')

In [3]:
# Visualizando dados:
data.head()

Unnamed: 0,CITY,STATE,CAPITAL,IBGE_RES_POP,IBGE_RES_POP_BRAS,IBGE_RES_POP_ESTR,IBGE_DU,IBGE_DU_URBAN,IBGE_DU_RURAL,IBGE_POP,...,Pu_Bank,Pr_Assets,Pu_Assets,Cars,Motorcycles,Wheeled_tractor,UBER,MAC,WAL-MART,POST_OFFICES
0,Abadia De Goiás,GO,0,6876.0,6876.0,0.0,2137.0,1546.0,591.0,5300.0,...,,,,2158.0,1246.0,0.0,,,,1.0
1,Abadia Dos Dourados,MG,0,6704.0,6704.0,0.0,2328.0,1481.0,847.0,4154.0,...,,,,2227.0,1142.0,0.0,,,,1.0
2,Abadiânia,GO,0,15757.0,15609.0,148.0,4655.0,3233.0,1422.0,10656.0,...,1.0,33724584.0,67091904.0,2838.0,1426.0,0.0,,,,3.0
3,Abaeté,MG,0,22690.0,22690.0,0.0,7694.0,6667.0,1027.0,18464.0,...,2.0,44974716.0,371922572.0,6928.0,2953.0,0.0,,,,4.0
4,Abaetetuba,PA,0,141100.0,141040.0,60.0,31061.0,19057.0,12004.0,82956.0,...,4.0,76181384.0,800078483.0,5277.0,25661.0,0.0,,,,2.0


In [4]:
# Checando shape:
data.shape

(5573, 81)

Dados: 5573 Registros em 81 Variáveis

In [5]:
# Checando colunas:
data.columns

Index(['CITY', 'STATE', 'CAPITAL', 'IBGE_RES_POP', 'IBGE_RES_POP_BRAS',
       'IBGE_RES_POP_ESTR', 'IBGE_DU', 'IBGE_DU_URBAN', 'IBGE_DU_RURAL',
       'IBGE_POP', 'IBGE_1', 'IBGE_1-4', 'IBGE_5-9', 'IBGE_10-14',
       'IBGE_15-59', 'IBGE_60+', 'IBGE_PLANTED_AREA', 'IBGE_CROP_PRODUCTION_$',
       'IDHM Ranking 2010', 'IDHM', 'IDHM_Renda', 'IDHM_Longevidade',
       'IDHM_Educacao', 'LONG', 'LAT', 'ALT', 'PAY_TV', 'FIXED_PHONES', 'AREA',
       'REGIAO_TUR', 'CATEGORIA_TUR', 'ESTIMATED_POP', 'RURAL_URBAN',
       'GVA_AGROPEC', 'GVA_INDUSTRY', 'GVA_SERVICES', 'GVA_PUBLIC',
       ' GVA_TOTAL ', 'TAXES', 'GDP', 'POP_GDP', 'GDP_CAPITA', 'GVA_MAIN',
       'MUN_EXPENDIT', 'COMP_TOT', 'COMP_A', 'COMP_B', 'COMP_C', 'COMP_D',
       'COMP_E', 'COMP_F', 'COMP_G', 'COMP_H', 'COMP_I', 'COMP_J', 'COMP_K',
       'COMP_L', 'COMP_M', 'COMP_N', 'COMP_O', 'COMP_P', 'COMP_Q', 'COMP_R',
       'COMP_S', 'COMP_T', 'COMP_U', 'HOTELS', 'BEDS', 'Pr_Agencies',
       'Pu_Agencies', 'Pr_Bank', 'Pu_Bank', 'P

Antes de nos aprofundarmos mais no Dataset, iremos realizar um corte de variáveis, preservando apenas aquelas que interessam para a análise proposta no início.

In [7]:
# Selecionando as variáveis que serão relevantes para a análise:
data_pop = data.loc[
    :,
    ['CITY', 'STATE', 'CAPITAL', 'IBGE_RES_POP', 'IBGE_RES_POP_BRAS', 'IBGE_RES_POP_ESTR', 'IBGE_DU', 
    'IBGE_DU_URBAN', 'IBGE_DU_RURAL', 'IBGE_POP', 'IBGE_1', 'IBGE_1-4', 'IBGE_5-9', 'IBGE_10-14',
    'IBGE_15-59', 'IBGE_60+', 'ESTIMATED_POP', 'Cars', 'Motorcycles', 'IDHM', 'IDHM_Renda', 
    'IDHM_Longevidade', 'IDHM_Educacao', 'TAXES']
].copy()


In [8]:
# Visualizando novos dados:
data_pop.head()

Unnamed: 0,CITY,STATE,CAPITAL,IBGE_RES_POP,IBGE_RES_POP_BRAS,IBGE_RES_POP_ESTR,IBGE_DU,IBGE_DU_URBAN,IBGE_DU_RURAL,IBGE_POP,...,IBGE_15-59,IBGE_60+,ESTIMATED_POP,Cars,Motorcycles,IDHM,IDHM_Renda,IDHM_Longevidade,IDHM_Educacao,TAXES
0,Abadia De Goiás,GO,0,6876.0,6876.0,0.0,2137.0,1546.0,591.0,5300.0,...,3542.0,416.0,8583.0,2158.0,1246.0,0.708,0.687,0.83,0.622,20554.2
1,Abadia Dos Dourados,MG,0,6704.0,6704.0,0.0,2328.0,1481.0,847.0,4154.0,...,2709.0,589.0,6972.0,2227.0,1142.0,0.69,0.693,0.839,0.563,12873.5
2,Abadiânia,GO,0,15757.0,15609.0,148.0,4655.0,3233.0,1422.0,10656.0,...,6896.0,990.0,19614.0,2838.0,1426.0,0.69,0.671,0.841,0.579,26822.58
3,Abaeté,MG,0,22690.0,22690.0,0.0,7694.0,6667.0,1027.0,18464.0,...,11979.0,2681.0,23223.0,6928.0,2953.0,0.698,0.72,0.848,0.556,26994.09
4,Abaetetuba,PA,0,141100.0,141040.0,60.0,31061.0,19057.0,12004.0,82956.0,...,53516.0,5996.0,156292.0,5277.0,25661.0,0.628,0.579,0.798,0.537,95180.48


Com nossas variáveis selecionadas, podemos dar início propriamente as análises iniciais do Dataset e limpeza.

## Análise inicial e conhecendo os dados 

In [9]:
# Visualizando o novo shape:
data_pop.shape

(5573, 24)

Agora temos os mesmos 5573 registros em apenas 24 variáveis

Para termos uma visão melhor e mais apropiada do conteúdo de cada variável, realizaremos um dicionário de variáveis, baseado no arquivo CSV presente na pasta `data` chamado `Data_Dictionary.csv`: