# Projeto de obtenção de medidas descritivas do PNAD 2015

A **Pesquisa Nacional por Amostra de Domicílios - PNAD**, de periodicidade anual, foi encerrada em 2016, com a divulgação das informações referentes a 2015. Planejada para produzir resultados para Brasil, Grandes Regiões, Unidades da Federação e nove Regiões Metropolitanas (Belém, Fortaleza, Recife, Salvador, Belo Horizonte, Rio de Janeiro, São Paulo, Curitiba e Porto Alegre), ela pesquisava, de forma permanente, características gerais da população, educação, trabalho, rendimento e habitação, e, com periodicidade variável, outros temas, de acordo com as necessidades de informação para o País, tendo como unidade de investigação o domicílio. A PNAD foi substituída, com metodologia atualizada, pela **Pesquisa Nacional por Amostra de Domicílios Contínua - PNAD Contínua**,  que propicia uma cobertura territorial mais abrangente e disponibiliza informações conjunturais trimestrais sobre a força de trabalho em âmbito nacional.  

Fonte de dados: https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/Curso_de_Estatistica.zip

## Preparando Ambiente

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import scipy
# Caso seja necessário instalar uma versão anterior de alguma biblioteca:
# !pip install biblioteca=='versão'

## Pré-Processamento já Realizado
1. Eliminados registros com renda inválida
2. Eliminados registros com renda nula
3. Só foram considerados os registros dos responsáveis de cada domicílio

## Importação e Leitura Básica

In [3]:
df = pd.read_csv("dados.csv")
df

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.739790
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344


In [7]:
df.head(10)

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
5,11,1,34,8,12,790,1.637906
6,11,0,57,8,12,3150,1.570078
7,11,1,60,8,12,1700,1.608495
8,11,1,50,4,14,1800,1.780329
9,11,0,26,8,12,1150,1.793203


## Tipos dos Dados do DF

In [6]:
df.dtypes

UF                  int64
Sexo                int64
Idade               int64
Cor                 int64
Anos de Estudo      int64
Renda               int64
Altura            float64
dtype: object

**Variáveis Qualitativas Ordinais:**
* Anos de estudo

**Variáveis Qualitativas Nominais:**
* UF
* Sexo
* Cor

**Variáveis Quantitativas Discretas:**
* Idade
* Renda

**Variáveis Quantitativas Contínuas:**
* Altura

In [8]:
df['Anos de Estudo'].unique()

array([12, 15,  6,  9, 14, 16, 10,  1,  5,  7,  3,  2,  4,  8, 11, 17, 13])

In [9]:
df['UF'].unique()

array([11, 12, 13, 14, 15, 16, 17, 21, 22, 23, 24, 25, 26, 27, 28, 29, 31,
       32, 33, 35, 41, 42, 43, 50, 51, 52, 53])

In [10]:
df['Sexo'].unique()

array([0, 1])

In [11]:
df['Cor'].unique()

array([8, 2, 4, 6, 0])

In [12]:
df['Idade'].unique()

array([23, 35, 46, 47, 34, 57, 60, 50, 26, 49, 52, 38, 45, 43, 53, 62, 69,
       41, 25, 33, 44, 65, 32, 30, 64, 31, 63, 40, 28, 37, 39, 36, 73, 56,
       27, 42, 51, 29, 24, 55, 67, 66, 61, 54, 48, 80, 79, 71, 59, 19, 22,
       77, 58, 17, 72, 70, 18, 21, 20, 68, 74, 76, 75, 84, 85, 78, 15, 82,
       95, 13, 83, 81, 87, 88, 16, 91, 92, 97, 89, 90, 86, 94, 14, 99])

In [16]:
print(df['Renda'].unique().max())
print(df['Renda'].unique().min())

200000
0


In [17]:
print(df['Altura'].unique().max())
print(df['Altura'].unique().min())

2.028496765
1.339244614
