## 💬 O Dataset

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

Fonte dos Dados: https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

#### Variáveis Utilizadas:

* Renda: Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.
* Idade: Idade do morador na data de referência em anos.
* Altura: Altura do morador em metros.
* UF:

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

* Sexo: 

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

* Anos de Estudo

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

* Cor

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|


#### Observações:

* Os seguintes tratamentos foram realizados nos dados originais:
    *  Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
    * Foram eliminados os registros onde a <b>Renda</b> era missing;
    * Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

## 💡 Tipos de Dado: Conhecendo o Dataset

Importando o pandas e lendo o dataset 

In [1]:
import pandas as pd
dados = pd.read_csv("src/dados.csv")
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


📌 Variáveis qualitativas ordinais: variáveis que podem ser ordenadas ou hierarquizardas 

In [2]:
sorted(dados['Anos de Estudo'].unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

📌 Variáveis qualitativas nominais: variáveis que não podem ser ordenadas ou hierarquizardas

In [None]:
sorted(dados['UF'].unique())

In [5]:
sorted(dados['Sexo'].unique())

[0, 1]

In [6]:
sorted(dados['Cor'].unique())

[0, 2, 4, 6, 8]

📌 Variáveis quantitativas discretas: variáveis que representam uma contagem onde os valores possíveis formam um conjunto finito ou enumerável.

In [7]:
print('De %s até %s anos' % (dados.Idade.min(), dados.Idade.max()))

De 13 até 99 anos


⚠️ Observação: A variável idade pode ser classificada de três formas distintas:
* <b>Quantitativa Discreta</b> - quando representa anos completos (números inteiros);
* <b>Quantitativa Contínua</b> - quando representa a idade exata, sendo representado por frações de anos; e
* <b>Quantitativa Ordinal</b> - quando representa faixas de idade.

📌 Variáveis quantitativas contínuas: variáveis que representam uma contagem ou mensuração que assumem valores em uma escala contínua (números reais).

In [8]:
print('De %s até %s metros' % (dados['Altura'].min(), dados.Altura.max()))

De 1.339244614 até 2.028496765 metros
