# Análise Exploratória de Dados com Python
    
    A Pesquisa Nacional por Amostra de Domicílios - PNAD

Arquivo com dados: https://github.com/neylsoncrepalde/introducao_ao_r/blob/master/dados/pes_2012.csv?raw=true

Link do vídeo que me ajudou: https://www.youtube.com/watch?v=2OXbbgvMrBA&list=WL&index=14&t=183s


### Colunas

    V0101 - Ano
    UF    - Unidade da Federação
    V0302 - Gênero
    V8005 - Idade
    V0404 - Cor da pele
    V4803 - Escolaridade
    V4718 - Renda Principal
    V4720 - Renda Total
    V4729 - Peso Amostral
    
## Planejamento
        1 - Exploração dos dados
            1.1 Encontrando Dados Nulos
        2 - Primeiras análises
            2.1 Qual a proporção de gênero e cor da pele?
                Gênero
                Cor da Pele
            2.2 Variáveis Quantitativas
                Idade
            2.3 Tipos de dados (Renda Principal, Renda Total)
        
        3 - Análises mais complexas (com gráficos)
Você pode acessar o notebook com os gráficos aqui: https://github.com/pauloreis-ds/Paulo-Reis-Ciencia-de-dados/tree/master/4%20-%20Visualiza%C3%A7%C3%A3o%20de%20dados%20-%20Data%20Visualization/PNAD
        

In [89]:
# Seção imports

import pandas as pd

In [41]:
pnad = pd .read_csv('pes_2012.csv')

## 1 - Exploração do dados

    Descobrir como os dados estão estruturados e organizados, para
    que saibamos como utilizar e onde modificar de acordo como nossa
    necessidade.
    A começar pelo nome das colunas. Sabemos quais são, então podemos 
    alterar agora, já que facilitará o processo.

In [42]:
# Mostra as primeiras linhas da tabela

pnad.head()

Unnamed: 0,V0101,UF,V0302,V8005,V0404,V4803,V4718,V4720,V4729
0,2012,Rondônia,Masculino,48,Branca,15 anos ou mais,3000.0,3000,232
1,2012,Rondônia,Feminino,48,Branca,15 anos ou mais,3000.0,3000,232
2,2012,Rondônia,Feminino,23,Branca,15 anos ou mais,1100.0,1100,232
3,2012,Rondônia,Feminino,21,Branca,14 anos,1100.0,1100,232
4,2012,Rondônia,Feminino,54,Branca,15 anos ou mais,,460,232


In [43]:
# Passamos um dicionário como argumento para alteração
# inplace = True faz a modificação na própria variável

dict_with_names = {"V0101": "Ano","V0302": "Sexo","V8005": "Idade","V0404": "Cor_da_pele", "V4803": "Escolaridade",
                        "V4718": "Renda_principal", "V4720": "Renda_total", "V4729": "Peso_amostral"}

pnad.rename(columns=dict_with_names, inplace=True)

In [44]:
# Mostra as últimas linhas da tabela, e como pode notar, podemos escolher quantas linhas

pnad.tail(3)

Unnamed: 0,Ano,UF,Sexo,Idade,Cor_da_pele,Escolaridade,Renda_principal,Renda_total,Peso_amostral
362448,2012,Distrito Federal,Masculino,21,Branca,13 anos,,0,290
362449,2012,Distrito Federal,Masculino,19,Branca,13 anos,,0,290
362450,2012,Distrito Federal,Masculino,40,Branca,15 anos ou mais,13000.0,13000,290


In [45]:
# Número de linhas e colunas

pnad.shape

(362451, 9)

In [46]:
# Mostra as colunas
'''
    Mas não precisaríamos usar agora, já que sabemos quais são
'''

pnad.columns

Index(['Ano', 'UF', 'Sexo', 'Idade', 'Cor_da_pele', 'Escolaridade',
       'Renda_principal', 'Renda_total', 'Peso_amostral'],
      dtype='object')

In [47]:
# Tipo de dado das colunas


pnad.dtypes

Ano                 int64
UF                 object
Sexo               object
Idade               int64
Cor_da_pele        object
Escolaridade       object
Renda_principal    object
Renda_total        object
Peso_amostral       int64
dtype: object

In [48]:
# Informações como o nome das colunas, seus tipos de dados e quantidade de dados não nulos...
'''
    Sim, poderíamos ter utilizado está função ao invés das três anteriores.
    O ponto é que há momentos em que as funções mais específicas são mais adequadas.
    Veremos mais adiante.
'''

pnad.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 362451 entries, 0 to 362450
Data columns (total 9 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   Ano              362451 non-null  int64 
 1   UF               362451 non-null  object
 2   Sexo             362451 non-null  object
 3   Idade            362451 non-null  int64 
 4   Cor_da_pele      362451 non-null  object
 5   Escolaridade     362451 non-null  object
 6   Renda_principal  173539 non-null  object
 7   Renda_total      309512 non-null  object
 8   Peso_amostral    362451 non-null  int64 
dtypes: int64(3), object(6)
memory usage: 24.9+ MB


### 1.1 Encontrando Dados Nulos
    Valores faltantes, nulos, na/NaN/Null/None podem interferir na análise
    por isso é importante saber como lidar com eles.
    
    .shape nos retornou o número de linhas/observações como sendo 362451.
    Logo, ao ver em .info() que há colunas com valores não nulos/ non-null
    menores que 362451, sabemos que há NaN entre os dados.
    
    Mas há outra maneira de identificar "missing values":

In [49]:
# Retorna boolean. True se for NaN, False se for um valor válido.
'''
    Essa abordagem, apesar de nos indicar NaN, não é a forma mais 
    eficiente de se localizar dados Null. Por isso...
'''

pnad.isnull().head()

Unnamed: 0,Ano,UF,Sexo,Idade,Cor_da_pele,Escolaridade,Renda_principal,Renda_total,Peso_amostral
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,True,False,False


In [50]:
'''
    Utilizar .sum() é uma boa opção, ele nos dirá a quantidade de
    NaN encontradas
'''
# Obs: isnull() faz o mesmo que isna()
pnad.isna().sum()

Ano                     0
UF                      0
Sexo                    0
Idade                   0
Cor_da_pele             0
Escolaridade            0
Renda_principal    188912
Renda_total         52939
Peso_amostral           0
dtype: int64

In [51]:
'''
    Extra: ao usarmos .any() o retorno é True para se houver pelo menos 1 valor nulo
    e False para se não ouver nenhum
'''

pnad.isna().any()

Ano                False
UF                 False
Sexo               False
Idade              False
Cor_da_pele        False
Escolaridade       False
Renda_principal     True
Renda_total         True
Peso_amostral      False
dtype: bool

In [52]:
# Quantia (em porcentagem) dos NaN
'''
    Note que .shape retorna uma tupla (lista que não pode ser alterada) 
    (362451, 9).
    Ao fazermos .shape[0] estamos nos referindo ao primeiro valor dessa tupla
    
    'Como se fosse uma lista'[0] 
'''

pnad.isna().sum() / pnad.shape[0]

Ano                0.000000
UF                 0.000000
Sexo               0.000000
Idade              0.000000
Cor_da_pele        0.000000
Escolaridade       0.000000
Renda_principal    0.521207
Renda_total        0.146058
Peso_amostral      0.000000
dtype: float64

In [53]:
'Como se fosse uma lista'[0]

'C'

In [54]:
''' Melhor visualização? '''
(pnad.isna().sum() / pnad.shape[0]) * 100

Ano                 0.000000
UF                  0.000000
Sexo                0.000000
Idade               0.000000
Cor_da_pele         0.000000
Escolaridade        0.000000
Renda_principal    52.120700
Renda_total        14.605836
Peso_amostral       0.000000
dtype: float64

## 2 - Primeiras Análises
     Qual a proporção de gênero, idade e cor da pele?
### Gênero

In [55]:
# Conta os valores da coluna
'''
    Logo, teremos a quantidade (nesse caso) de pessoas do sexo Feminino e Masculino

'''

pnad.Sexo.value_counts()

Feminino     186054
Masculino    176397
Name: Sexo, dtype: int64

In [56]:
'''
    Para termos a proporção (valores em porcentagem), basta dividirmos as 
    quantidades de pessoas de cada sexo pelo número total de pessoas.
    
    .shape[0] nos diz o número total de linhas da tabela, o que pode ser 
    representado pelo número total de pessoas (já que também a coluna ['Sexo'] 
    não tem valores nulos).
'''

total_de_casos = pnad.shape[0]

pnad.Sexo.value_counts() / total_de_casos

Feminino     0.513322
Masculino    0.486678
Name: Sexo, dtype: float64

In [57]:
(pnad.Sexo.value_counts() / total_de_casos) * 100

Feminino     51.33218
Masculino    48.66782
Name: Sexo, dtype: float64

    Por fim temos que aproximadamente 51% são mulheres e 48% homens
### Cor da pele
    Dados diferentes, mas mesmo processo

In [58]:
pnad.Cor_da_pele.value_counts() / total_de_casos

Parda             0.479328
Branca            0.429286
Preta             0.083101
Amarela           0.004276
Indígena          0.003959
Sem declaração    0.000050
Name: Cor_da_pele, dtype: float64

### Variáveis Quantitativas

Para analisá-las, começamos com estatística descritiva (média, mediana, desvio padrão...)
### Idade

In [59]:
# idade mean = Média
pnad.Idade.mean()

32.63801175883085

In [60]:
# Mediana
pnad.Idade.median()

30.0

In [61]:
# Desvio Padrão - uma medida de dispersão em torno da média 
#                 o quão próximo da média os dados estão
pnad.Idade.std()

20.77032627236788

In [62]:
# Nos apresenta essas estatísticas (e outras) de uma vez

pnad.Idade.describe()

count    362451.000000
mean         32.638012
std          20.770326
min           0.000000
25%          15.000000
50%          30.000000
75%          48.000000
max         117.000000
Name: Idade, dtype: float64

    .describe() também pode ser utilizada no dataset inteiro, assim
    ela dirá calculará essas informações estatísticas das colunas númericas

In [63]:
pnad.head(1)

Unnamed: 0,Ano,UF,Sexo,Idade,Cor_da_pele,Escolaridade,Renda_principal,Renda_total,Peso_amostral
0,2012,Rondônia,Masculino,48,Branca,15 anos ou mais,3000,3000,232


In [69]:
'''
    Como pode ver, ['Renda_principal'] e ['Renda_total'] não estão 'salvas'
    como valores numéricos, assim sendo não aparecerão.
    A solução é tranformá-los em tipo de dado numérico.
'''

pnad.describe()

Unnamed: 0,Ano,Idade,Peso_amostral
count,362451.0,362451.0,362451.0
mean,2012.0,32.638012,543.183294
std,0.0,20.770326,260.364253
min,2012.0,0.0,174.0
25%,2012.0,15.0,334.0
50%,2012.0,30.0,522.0
75%,2012.0,48.0,705.0
max,2012.0,117.0,1132.0


### 2.3 Tipos de dados

In [70]:
'''
    Note que ['Renda_principal'] e ['Renda_total'] estão como object (str, list, dict...)
'''

pnad.dtypes

Ano                 int64
UF                 object
Sexo               object
Idade               int64
Cor_da_pele        object
Escolaridade       object
Renda_principal    object
Renda_total        object
Peso_amostral       int64
dtype: object

In [73]:
# Alterando o tipo de dado "textual" para numérico

'''
    ERRO: Encontraremos um erro, pois existe o texto "Sem declaração"
    entre os valores.
    
    ValueError: Unable to parse string "Sem declaração" at position 281

'''

pd.to_numeric(pnad.Renda_principal)

ValueError: Unable to parse string "Sem declaração" at position 281

In [75]:
# Confirmando
pnad[pnad.Renda_principal == "Sem declaração"].head()

Unnamed: 0,Ano,UF,Sexo,Idade,Cor_da_pele,Escolaridade,Renda_principal,Renda_total,Peso_amostral
281,2012,Rondônia,Masculino,20,Parda,15 anos ou mais,Sem declaração,Sem declaração,232
1361,2012,Rondônia,Masculino,52,Branca,11 anos,Sem declaração,Sem declaração,232
1730,2012,Rondônia,Masculino,72,Branca,4 anos,Sem declaração,Sem declaração,233
1732,2012,Rondônia,Feminino,49,Branca,15 anos ou mais,Sem declaração,Sem declaração,232
2319,2012,Rondônia,Masculino,30,Branca,4 anos,Sem declaração,Sem declaração,233


In [77]:
# Quantos valores "Sem declaração" temos ao total
pnad[pnad.Renda_principal == "Sem declaração"].count()

Ano                4558
UF                 4558
Sexo               4558
Idade              4558
Cor_da_pele        4558
Escolaridade       4558
Renda_principal    4558
Renda_total        4558
Peso_amostral      4558
dtype: int64

In [80]:
'''
    Para resolver, ativamos o parâmetro errors  como 'coerce'.
    Isso fará com que a função transforme os valores que ela 
    não consegue mudar para número em NaN.
    
    Além disso, passamos essa mudança para a tabela (através da 
    coluna ['Renda_principal'])
'''

pnad.Renda_principal = pd.to_numeric(pnad.Renda_principal, errors='coerce')

In [81]:
# O mesmo para ['Renda_total']

pnad.Renda_total = pd.to_numeric(pnad.Renda_total, errors='coerce')

In [83]:
# Agora elas são vistas como números

pnad.describe()

Unnamed: 0,Ano,Idade,Renda_principal,Renda_total,Peso_amostral
count,362451.0,362451.0,168981.0,303634.0,362451.0
mean,2012.0,32.638012,1342.847628,992.282985,543.183294
std,0.0,20.770326,2656.679175,2492.988418,260.364253
min,2012.0,0.0,0.0,0.0,174.0
25%,2012.0,15.0,622.0,0.0,334.0
50%,2012.0,30.0,800.0,622.0,522.0
75%,2012.0,48.0,1400.0,1100.0,705.0
max,2012.0,117.0,350000.0,351600.0,1132.0


## 3 - Análises mais complexas (com gráficos)

Você pode acessar a segunda parte por esse link:

https://github.com/pauloreis-ds/Paulo-Reis-Ciencia-de-dados/tree/master/4%20-%20Visualiza%C3%A7%C3%A3o%20de%20dados%20-%20Data%20Visualization/PNAD

    Localização pelos arquivos do Github:
    Paulo-Reis-Ciencia-de-dados/4 - Visualização de dados - Data Visualization/PNAD/