## Análise Exploratória de Dados

Análise exploratória de dados (AED) é uma etapa muito importante para a análise de dados estatísticos.
Ela é posta em prática antes de qualquer tipo de modelagem em si, para que o análista ou pesquisador seja capaz de conhecer e entender ao máximo os dados em mãos.

A finalidade da EAD é examinar os dados antes de qualquer tipo de modelagem em si, para que o analista ou pesquisador possa ter um entendimento básico de seus dados e das relações existentes entre as variáveis analisadas.

Obviamente, a primeira etapa consiste em obter os dados e disponibilizados em um formato adequado para análise.
Posteriormente, inicia-se uma análise descritiva detalhada, para que o pesquisador ou analista possa se familiarizar com os dados, organizá-los e sintetizá-los de forma a obter as informações necessárias ao estudo.

Na análise exploratória podemos:

- realizar um exame gráfico das variáveis individuais;
- realizar um exame gráfico de relações entre as variáveis e uma análise descritiva sobre o grau de correlação entre elas;
- avaliar a presença de dados ausentes (missing);
- identificar os possíveis outliers;
- avaliar algumas suposições básicas, como normalidade, lineariedade e homocedasticidade.


#### A base de dados
Neste Notebook vamos analisar dados da Pesquisa Nacional por Amostra de Domicílios Contínua (PNADC).
A PNADC é uma pesquisa amostral levada à campo pelo 
Aqui analisazeremos os dados para o 4º trimestre de 2019.
Para saber mais sobre a PNADC acesse o site do IBGE:

https://www.ibge.gov.br/estatisticas/sociais/populacao/9171-pesquisa-nacional-por-amostra-de-domicilios-continua-mensal.html .


Para o exercício realizado neste Notebook empregaremos os dados da PNAD de forma bruta, sem adequar os dados ao desenho amostral da pesquisa. O objetivo é realizar o exercício sem introduzir temas relativos ao desenho amostral complexo (que exigiria a aplicação de conceitos estatísticos específicos).

O plano amostral adotado na PNAD Contínua é conglomerado em dois estágios de seleção com estratificação das unidades primárias de amostragem (UPAs). Mais detalhes podem ser vistos nas notas metodológicas:

https://biblioteca.ibge.gov.br/visualizacao/livros/liv101733_notas_tecnicas.pdf


## Análise Explortatória de dados no Python/ Pandas





Vamos começar importando as bibliotecas necessárias para a AED.
Abaixo segue uma lista das bibliotecas utilizadas e onde você pode encontar a documentação de cada uma delas.

- NumPy (https://numpy.org/)

- Pandas (https://pandas.pydata.org)

- Matplotlib para contruir gráficos (https://matplotlib.org)

- Seaborn para contruir gráficos (https://seaborn.pydata.org)

In [1]:
# importar bibliotecas
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

#### Carregar os dados

Aqui termos disponível os dados da PNADC (2019.4) em formato `.csv`. Originalmente, o IBGE fornece os dados no formato `.txt`.
Para facilitar o processo de leitura neste Notebook, fiz a conversão prévia dos dados.

Para carregar os dados usaremos a função `read_csv`.


In [2]:
# Importando diretamente em um diretório local (supondo que o notebook está no mesmo diretório)
# dfpnadc = pd.read_csv('pnad19t4.csv')

# Usando um arquivo compactado devemos usar e o parâmetro 'compression'
# dfpnadc = pd.read_csv('pnad19t4.zip', compression='zip')

# Importando o arquivo diretamente de um diretório no GitHub
dfpnadc = pd.read_csv('https://raw.githubusercontent.com/vitormiro/pnadc_python/master/pnad19t4.csv')

HTTPError: HTTP Error 404: Not Found

O Pandas carrega os dados na forma de um **DataFrame**.

Para termos uma ideia da dimensão do DataFrame vamos aplicar o método `shape`.

In [None]:
dfpnadc.shape

Com o método `info` temos informações como o nome das variáveis (colunas), a quantidade e o tipo de dados válidos (não faltantes).

In [None]:
dfpnadc.info()

#### Dicionário da PNAD contínua

Para termos uma ideia das variáveis contidas nesta base de dados, podemos consultar o dicionário de dados da PNADC.
O dicionário pode ser encontrado na página da pesquisa.

Abaixo segue a descrição das principais variáveis que podem ser exploradas na nossa análise.


UF = unidade da federação

Capital = Município da Capital

V2007 = Sexo

V2009 = Idade do morador na data de referência

V2010 = Cor ou raça

VD3004 = Nível de instrução mais elevado alcançado (pessoas de 5 anos ou mais de idade) padronizado para o Ensino fundamental -  SISTEMA DE 9 ANOS

VD3005 = Anos de estudo (pessoas de 5 anos ou mais de idade) padronizado para o Ensino fundamental - SISTEMA DE 9 ANOS

VD4001 = Condição em relação à força de trabalho na semana de referência para pessoas de 14 anos ou mais de idade

VD4002 = Condição de ocupação na semana de referência para pessoas de 14 anos ou mais de idade

VD4009 = Posição na ocupação e categoria do emprego do trabalho principal da semana de referência para pessoas de 14 anos ou mais de idade

VD4010 = Grupamentos de atividade principal do empreendimento do trabalho principal da semana de referência para pessoas de 14 anos ou mais de idade
 
VD4020 = Rendimento mensal efetivo de todos os trabalhos para pessoas de 14 anos ou mais de idade (apenas para pessoas que receberam em dinheiro, produtos ou mercadorias em qualquer trabalho).


O método `head` permite vizualizar as primeiras linhas do DataFrame. Por *default* o Pandas apresenta as 5 primeira linhas. Aqui utilizaremos o argumento para mostrar as 20 primeiras linhas.

In [None]:
dfpnadc.head(20)

#### Removendo colunas

Alguma colunas deste DataFrame não serão importante para o exercício que iremos realizar.
Dessa forma, vamos excluí-las da base, deixando o DataFrame mais leve.
Para isso, usamos o médodo `drop` e passamos a lista de variáveis a serem deletadas.

In [None]:
dfpnadc = dfpnadc.drop(columns=['Ano', 'Trimestre', 'UPA', 'Estrato', 'V1008', 'V1014', 'V1027', 'V1029', 'posest'])
dfpnadc.head(20)

#### Renomear variáveis
Para não lidar com os códigos das variáveis durante toda a análise (e não precisar decorá-los) podemos renomear as colunas.
Para isso usamos o `rename`.

In [None]:
dfpnadc.rename(columns={'V2007':'sexo',
                   'V2009':'idade',
                   'V2010':'cor',
                   'VD3004':'escolaridade',
                   'VD3005':'anos_estudo',
                   'VD4001':'forca_trabalho',
                   'VD4002':'ocupado',
                   'VD4009':'tipo_ocupacao',
                   'VD4010':'atividade',
                   'VD4020':'renda_trabalho'}, inplace=True)
dfpnadc.head()

Podemos "mapear" uma variável qualitativa usando o método `map` e passar um dicionário como argumento.

Aqui faremos isso para a variável `sexo`. Nesta variável código 1 = "homem" e código 2 = "mulher".

In [None]:
dfpnadc['sexo'] = dfpnadc['sexo'].map({1:'homem', 2:'mulher'})

In [None]:
dfpnadc['cor'] = dfpnadc['cor'].map({1:'branca', 2:'preta', 3:'amarela', 4:'parda', 5:'indigena', 9:'ignorado'})

In [None]:
dfpnadc.head(10)

#### Verificando valores ausentes (missing values) nas variáveis

É possível verificar a presença de algumas entradas na base `NaN` (Not a Number). São valores ausentes (por diversas razões) na nossa base.

O método `isnull` retorna valores booleanos indicando dados ausentes (TRUE) ou não (FALSE).

In [None]:
dfpnadc.isnull()

Podemos conciliar os métodos `isnull` e `sum` para termos a quantidade de valores faltantes em cada variável.
Algumas destas variaveis apresentam valores faltantes pelo fato da informação não ser aplicavél.
Em outros casos, o dado faltante representa a verdadeira ausência da informação, como o caso da renda do trabalho para uma pessoa que não está ocupada.

In [None]:
# Quantidade de valores faltantes
dfpnadc.isnull().sum()

Podemos também obter a proporção de valores faltantes em cada variável.

In [None]:
# Proporção de valores faltantes
(dfpnadc.isnull().sum() / dfpnadc.shape[0])*100

Note que a variável capital possui mais de 77% de dados faltantes. Nesse caso, a razão é simples: são domicílios que compõem a amostra localizados fora do município da capital.
Por sua vez, variáveis de mercado de trabalho possuem muitos valores faltantes porque as questões da pesquisa nesta área não se aplicam a todos os entrevistados. A participação na força de trabalho, por exemplo, só se aplica para pessoa em idade para trabalhar (com exceção dos casos de trabalho infantil).
A renda do trabalho só será respondida por quem está ocupado e possui rendimentos. E ainda há a possibilidade de uma pessoa ocupada simplesmente omitir o valor dos seus rendimentos.

Podemos ter várias razões para dados ausentes, e isso deve ser analisado no contexto de cada base de dados.

**Observação**. Por padrão, o pandas exclui dados ausentes no cálculo de estatísticas descritivas.

### Análise descritiva dos dados

Um dos principais objetivos da AED é apresentar os dados de forma sistematizada.
Podemos aplicar técnicas de estatística descritiva para análisar os dados.

Vamos analisar inicialmente algumas variáveis categóricas como **sexo** e **raça**.

In [None]:
# Contando valores absolutos - frequência
dfpnadc['sexo'].value_counts()  #Alternativamente podemos usar o comando dfpnadc.sexo.value_counts()

In [None]:
dfpnadc.sexo.value_counts()

In [None]:
# Distribuição - frequência relativa
dfpnadc['sexo'].value_counts(normalize = True) * 100

Vamos repetir estas operações atribuindo "rótulos" para os dados.

In [None]:
freq_sexo = dfpnadc['sexo'].value_counts()
dist_sexo = dfpnadc['sexo'].value_counts(normalize = True) * 100

Agora vamos contruir uma tabela (um "pequeno DataFrame") com as informações acima:

In [None]:
df_sexo = pd.DataFrame({'Frequência': dfpnadc['sexo'].value_counts(), 'Proporção (%)': dist_sexo})
df_sexo

Vamos aplicar esta mesma análise para a variável **cor**.

In [None]:
freq_cor = dfpnadc['cor'].value_counts()
dist_cor = dfpnadc['cor'].value_counts(normalize = True) * 100

df_cor = pd.DataFrame({'Frequência': freq_cor, 'Percentual (%)': dist_cor})
df_cor

Vamos plotar um gráfico "pizza" para ver a distribuição da variável **cor**.

In [None]:
plt.pie(df_cor['Percentual (%)'], 
        labels = df_cor.index,
        startangle = 90, 
        shadow = True, 
        explode = (0,0,0,0.1,0.3,0.5))
plt.show()

Considerando grupos com participações muito pequenas, talvez o gráfico "pizza" não seja a melhor forma de vizualizar estes dados!

In [None]:
plt.bar(df_cor.index, df_cor['Percentual (%)'])
plt.title("Distribuição (%) da amostra segundo cor declarada pelos indivíduos ")
plt.show()

Vamos verificar também a distribuição da amostra entre os estados (UFs).

In [None]:
# contar valores
dfpnadc.UF.value_counts()

In [None]:
# Dicionário para os códigos das UFs
uf_map = {
    11: 'Rondônia', 
    12: 'Acre', 
    13: 'Amazonas', 
    14: 'Roraima', 
    15: 'Pará', 
    16: 'Amapá', 
    17: 'Tocantins', 
    21: 'Maranhão', 
    22: 'Piauí', 
    23: 'Ceará', 
    24: 'Rio Grande do Norte', 
    25: 'Paraíba', 
    26: 'Pernambuco', 
    27: 'Alagoas', 
    28: 'Sergipe', 
    29: 'Bahia', 
    31: 'Minas Gerais', 
    32: 'Espírito Santo', 
    33: 'Rio de Janeiro', 
    35: 'São Paulo', 
    41: 'Paraná', 
    42: 'Santa Catarina', 
    43: 'Rio Grande do Sul', 
    50: 'Mato Grosso do Sul', 
    51: 'Mato Grosso', 
    52: 'Goiás', 
    53: 'Distrito Federal'
}

In [None]:
dfpnadc['UF'] = dfpnadc['UF'].map(uf_map)

dist_uf = dfpnadc.UF.value_counts()
dist_uf

In [None]:
# Plotar em um gráfico de barras utilizando um formato um pouco diferente do comando
dist_uf.plot(kind='bar', figsize=(12,5))
plt.title("Número de observações amostrais por UF");

### Tabelas de Contingência (tabelas cruzadas)

Uma tabela de contingência apresenta as frequência (absolutas ou relativas) de múltiplas variáveis categóricas. As linhas e colunas das tabelas correspondem a essas variáveis categóricas.

Podemos usar o método `crosstab` para formatar tabelas de contingência na nossa análise.

In [None]:
# Frequências absolutas
sexo_cor = pd.crosstab(dfpnadc['sexo'], dfpnadc['cor'])
sexo_cor

In [None]:
# Frequências relativas - Distribuição conjunta
dist_sexo_cor = pd.crosstab(dfpnadc['sexo'], dfpnadc['cor'], normalize = True) * 100
dist_sexo_cor

#### Sumário estatístico

Com o método `describe` temos um sumário estatísticos para uma variável numérica.

Aqui vamos pedir um sumário estatístico para a variável **idade**.

In [None]:
dfpnadc['idade'].describe()

Podemos realizar o cálculo de medidas de tendência central - média, mediana e moda - usando os métodos `mean()`, `median()` e `mode()`.

In [None]:
tend_central_idade = {'Média (idade)': dfpnadc['idade'].mean(), 
                           'Mediana (idade)': dfpnadc['idade'].median(), 
                           'Moda (idade)': dfpnadc['idade'].mode()}
tend_central_idade

Vamos plotar um histograma da distribuição de idades.
Para este histograma vamos usar as bibliotecas **matplotlib** e **seaborn**.

In [None]:
# Histograma com histtype = 'stepfilled' 
plt.hist(dfpnadc['idade'], bins=10, histtype = 'stepfilled', rwidth = 0.8)
plt.show()

In [None]:
# Histograma com histtype = 'bar' 
plt.hist(dfpnadc['idade'], bins=20, histtype = 'bar', rwidth = 0.8)
plt.show()

Usando a função `displot`do seaborn.

In [None]:
sns.distplot(dfpnadc['idade'], bins=25, kde = True);

In [None]:
# Histograma com seaborn
hist_age = sns.distplot(dfpnadc['idade'], bins=20, kde =False)
hist_age.figure.set_size_inches(8, 4)
hist_age.set_title('Distribuição - idade', fontsize = 16)
hist_age.set_xlabel('Anos', fontsize = 12)
hist_age.set_ylabel('Observações', fontsize = 12);

### Cópias e subconjuntos

#### Cópia
Podemos criar uma cópia do DataFrame antes de aplicar algumas operações sobre ele. Dessa forma, podemos nos resguardar de ter uma cópia da versão trabalhada até o momento. Para isso usamos o método `copy`.

In [None]:
dfpnadc2 = dfpnadc.copy()

In [None]:
dfpnadc2.head()

Poderíamos usar o novo DataFrame para selecionar subconjuntos de variáveis, fazer alterações em valores de colunas, entre outras operações. Alternativamente, podemos selecionar subconjuntos do DataFrame de referência e atribuir um novo DataFrame, mantendo o DataFrame anterior. É o que vamos fazer aqui.

In [None]:
# Como não vamos usar o dfpnadc2, vamos deletá-lo
del dfpnadc2

#### Subconjuntos condicionados

Para analisar apenas escolaridade de indivíduos adultos, com 25 anos ou mais de idade (idade razoável para completar as principais etapas de ensino) poderíamos adicionar condições aos comandos.
Aqui vamos optar por criar um novo DataFrame denominado **dfpnadc25**.

In [None]:
dfpnadc25 = dfpnadc[dfpnadc["idade"] >= 25]
dfpnadc25.head()

Vamos analizar a variável **anos de estudo** das pessoas com 25 anos ou mais de idade.

In [None]:
freq_estudo = dfpnadc25['anos_estudo'].value_counts()
freq_estudo

Note o ordenamento dos valores. Vamos usar aqui o `sort_index`

In [None]:
freq_estudo = dfpnadc25['anos_estudo'].value_counts().sort_index()
freq_estudo

In [None]:
dist_estudo = dfpnadc25['anos_estudo'].value_counts(normalize = True).sort_index() * 100
dist_estudo

Vamos usar o seaborn para plotar um histograma da variável 'anos de estudo'.

In [None]:
est = sns.distplot(dfpnadc25['anos_estudo'], bins=8, kde =False)
est.figure.set_size_inches(8, 4)
est.set_title('Distribuição - anos de estudo', fontsize = 14)
est.set_xlabel('Anos de estudo', fontsize = 12);

Vamos verificar a escolaridade média (anos de estudo) por sexo.

In [None]:
dfpnadc25.groupby('sexo').mean()[['anos_estudo']]

Usando boxplot para vizualizar esta informação.

In [None]:
sns.boxplot(x = dfpnadc25['sexo'],
            y = dfpnadc25['anos_estudo'], 
            data = dfpnadc25,
            showmeans=True, meanprops={"marker":"o", "markerfacecolor":"white"})
plt.title("Anos de Estudo x Sexo");

Vamos obter a escolaridade média (anos de estudo) por UF e plotar essa informação.

In [None]:
dfpnadc25.groupby('UF').mean()[['anos_estudo']].plot(kind='bar', figsize=(12,5))
plt.title("Escolaridade média por UF");

Vamos criar um DataFrame com esta informação da média de anos de estudo por UF.

Posteriomente vamos criar um gráfico de barras na horizontal e com as UFs ordenadas pela escolaridade média (em anos de estudo).

In [None]:
est_uf = dfpnadc25.groupby('UF').mean()[['anos_estudo']]
est_uf

In [None]:
est_uf.sort_values('anos_estudo').plot(kind='barh', figsize=(10,8))
plt.title("Escolaridade média por UF")
plt.show()

#### Analisando rendimentos
Para análisar rendimentos do trabalho, vamos montar um DataFrame apenas com pessoas ocupadas no mercado de trabalho e com rendimentos positivos. Lembrando que nossa base já conta apenas com pessoas com idade igual ou superior a 25 anos.

In [None]:
pnadc_ocup = dfpnadc25[(dfpnadc25["ocupado"] == 1) & (dfpnadc25["renda_trabalho"] > 0)]

Agora vamos analisar a distribuição da variável de renda do trabalho.

In [None]:
sns.distplot(pnadc_ocup["renda_trabalho"], hist = False, kde = True);

Podemos perceber pelo gráfico a presença de *outliers*.
Para verificar melhor, vamos plotar um boxplot.

In [None]:
pnadc_ocup["renda_trabalho"].plot(kind='box', vert=False, figsize=(15, 3));

Verificar algumas estatísticas da distirbuição da renda do trabalho.

In [None]:
pnadc_ocup["renda_trabalho"].describe()

Temos uma média bem maior que a medida. Até mais próxima do 75º percentil.
Temos uma assimetria positiva bastante acentuada.
Vamos verificar o valor do coeficiente de assimetria.

In [None]:
print(pnadc_ocup["renda_trabalho"].skew())

Um procedimento que pode ser adotado é a exclusão de valores muito elevados da base.
Vamos analisar outras medidas de posição da nossa distribuição.

In [None]:
print("80º percentil = ",pnadc_ocup["renda_trabalho"].quantile(0.80))
print("90º percentil = ",pnadc_ocup["renda_trabalho"].quantile(0.90))
print("95º percentil = ",pnadc_ocup["renda_trabalho"].quantile(0.95))
print("99º percentil = ",pnadc_ocup["renda_trabalho"].quantile(0.99))

Antes de fazer alterações, vamos fazer uma cópia do DataFrame **pnadc_ocup** 

In [None]:
df_ocup = pnadc_ocup.copy()

Agora vamos usar a cópia e excluir observações com rendimentos acima do 95º percentil usando `drop`

In [None]:
df_ocup.drop(pnadc_ocup[pnadc_ocup["renda_trabalho"] >= 7000].index, axis = 0, inplace=True)

In [None]:
df_ocup["renda_trabalho"].describe()

In [None]:
print(df_ocup["renda_trabalho"].skew())

In [None]:
df_ocup["renda_trabalho"].plot(kind='box', vert=False, figsize=(15, 3))
plt.show()

In [None]:
sns.distplot(df_ocup["renda_trabalho"], bins=10, kde = True);

In [None]:
# Renda do trabalho por UF
rtrab_uf = df_ocup.groupby('UF').mean()[["renda_trabalho"]]
rtrab_uf

In [None]:
rtrab_uf.sort_values('renda_trabalho').plot(kind='barh', figsize=(10,8))
plt.title("Renda do trabalho média por UF");

Na modelagem estatística é muito comum a transformação logarítmica de variáveis. Adotar a escala logaritmica em um modelo de regressão possui algumas vantagens. Primeiro ela permite que relações não lineares possam ser tratadas no âmbito de um modelo linear. 

A transformação também é indicada em situações em que a distribuição dos resíduos é muito assimétrica e apresenta heterocedasticidade dos resíduos sejam garantidas. Nesse sentido, a transformação logaritmica torna a distribuição de resíduos mais simétrica (mais próxima da normal) e reduz o efeito de heterocedasticidade.

Aqui vamos aplicar a escala logaritmica (logaritmo natual) na renda trabalho, usando a função `log` do NumPy.

In [None]:
df_ocup["log_rtrab"] = np.log(df_ocup["renda_trabalho"])
df_ocup.head()

In [None]:
sns.distplot(df_ocup["log_rtrab"]);

Para aprofundar a análise, vamos plotar a distribuição de renda do trabalho por grupos de homens e mulheres.

In [None]:
df_h = df_ocup[df_ocup.sexo == "homem"]
df_m = df_ocup[df_ocup.sexo == "mulher"]

sns.distplot(df_h[["log_rtrab"]], hist=False, label = "homens" )
sns.distplot(df_m[["log_rtrab"]], hist=False, label = "mulheres");

Em um gráfico de dispersão podemos verificar uma evidência da relação entre anos de estudo e renda do trabalho para os dois grupos.

In [None]:
sns.lmplot('anos_estudo', 'log_rtrab', hue='sexo', data=df_ocup);

### Regressão linear

Apesar de não ser o foco do presente Notebook, vamos apresentar de forma breve as estimações de modelos de regressão linear.

Aqui os modelos serão estimados pelo método de Mínimos Quadrados Ordinários (OLS - *Ordinary Least Square*).

Para essas estimações vamos usar a biblioteca **statsmodel** (https://www.statsmodels.org/).

In [None]:
# Primeiro vamos importar o statsmodel e a API formula
import statsmodels.api as sm
import statsmodels.formula.api as smf

Vamos estimar uma regressão do log da renda do trabalho em função da escolaridade (em anos de estudo).

In [None]:
# define o modelo
model1 = smf.ols(formula = 'log_rtrab ~ anos_estudo', data = df_ocup)
# estima
model1 = model1.fit()
# imprime os resultados
print(model1.summary())

Para estimar um modelo de regressão linear múltipla vamos adicionar mais algumas variáveis explicativas: idade e sexo.

In [None]:
model2 = smf.ols(formula = 'log_rtrab ~ anos_estudo + idade + sexo', data = df_ocup)
model2  = model2.fit() 
print(model2 .summary())

Em uma primeira checagem dos resultados, podemos verificar que os coeficientes foram estimados com os sinais esperados e são estatisticamente significantes. Mas não devemos nos atentar apenas a avaliar isto. Em outro Notebook podemos abordar de forma detalhada a análise dos resultados de modelo de regressão linear simples, bem como o diagnóstico do modelo.