# Análise Exploratória de Dados 🔍

🔗 [An Extensive Step by Step Guide to Exploratory Data Analysis](https://towardsdatascience.com/an-extensive-guide-to-exploratory-data-analysis-ddd99a03199e)

🔗 [Exploratory Data Analysis in Python](https://www.geeksforgeeks.org/exploratory-data-analysis-in-python/)

🔗 [Análise Exploratória de Dados com Python, Pandas e Numpy](https://www.amazon.com.br/An%C3%A1lise-Explorat%C3%B3ria-Dados-Python-Pandas-ebook/dp/B098DF8BZ5) 💰

---

© 2023 Augusto Fadel 🔷 augustofadel@gmail.com

## Censo Demográfico 2010

🔗 [Principais resultados](https://www.ibge.gov.br/estatisticas/sociais/populacao/9662-censo-demografico-2010.html)

🔗 [Metodologia](https://www.ibge.gov.br/estatisticas/sociais/populacao/9662-censo-demografico-2010.html?=&t=conceitos-e-metodos)

🔗 [Publicação completa](https://biblioteca.ibge.gov.br/visualizacao/livros/liv49230.pdf)

🔗 [Downloads](https://www.ibge.gov.br/estatisticas/sociais/populacao/9662-censo-demografico-2010.html?=&t=downloads) (microdados, tabelas, documentação etc.)

### Resultados Gerais da Amostra

1.   Faça o download dos [microdados](http://u.pc.cd/uzectalK) dos resultados gerais da amostra do Censo Demográfico 2010 para o Estado do Rio de Janeiro.

2.   Faça o download da documentação necessária: [dicionário de dados](http://u.pc.cd/Qc57) e [descrição das variáveis](http://u.pc.cd/YW9).

🛑 Para que dados **amostrais** sejam representativos da população de interesse é necessário realizar a etapa de **expansão**.

### Subir arquivo local para o Colab

Execute a célula abaixo e selecione o arquivo de microdados `resultados-gerais-amostra-33-csv.zip`

In [None]:
from google.colab import files
files.upload()

### Importar o arquivo de dados

Importe o arquivo csv (compactado) como um dataframe Pandas.

In [None]:
import pandas as pd
df = pd.read_csv('/content/resultados-gerais-amostra-33-csv.zip')
df

### Verificar os atributos do dataframe

*   `shape`
*   `columns`
*   `dtypes`
*   ...



In [None]:
df.

### Explorar os dados

Sugestões:

*   Consulte informações das variáveis na documentação: [dicionário de dados](http://u.pc.cd/Qc57) e [descrição das variáveis](http://u.pc.cd/YW9).
*   Verifique se há erros de importação.
*   Busque se familiarizar com os dados.
*   Gere estatísticas descritivas e visualizações com informações interessantes.
*   Cruze variáveis como sexo (`v0601`), idade (`v6036`), cor ou raça (`v0606`) e escolaridade (`v0633`, `v0634`, `v0635`) com renda (`v6511`, `v6521`), por exemplo.
*   Filtre municípios ou explore a diferença entre eles.
*   Explore as características e condições dos domicílios.
*   Atenção aos missings (NaN)!!!

#### Exemplo de estátistica descritiva

In [None]:
df.groupby(['v0601', 'v0606', 'v0635'])['v6511'].mean()

In [None]:
pd.crosstab(
    index=[df['v0601'], df['v0635']],
    columns=df['v0606'],
    values=df['v6511'],
    aggfunc='mean'
)

#### Recodificação de variáveis categóricas

Na documentação é possível ver que a variável `v0601` corresponde ao sexo da pessoa recenseada e a informação coletada é classificada como:

1.   Masculino
2.   Feminino

Podemos então recodificar esta variável no dataframe para facilitar a interpretação dos resultados.

In [None]:
v0601 = dict(zip(
    [1, 2],     # códigos
    ['M', 'F']  # descrições
))
v0601

In [None]:
df['v0601'] = df['v0601'].map(v0601)
df['v0601'].value_counts()

Consulte a documentação e recodifique as demais variáveis (`v0606`, `0635`, `v6511`) para reprozuzir a estatística descritiva do exemplo acima.

#### Análises e resultados