# Introdução 

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### Dicionáros das variáveis

In [None]:
sexo = {
    0: 'Masculino', 
    1: 'Feminino'
}
cor = {
    0: 'Indígena', 
    2: 'Branca', 
    4: 'Preta', 
    6: 'Amarela', 
    8: 'Parda', 
    9: 'Sem declaração'
}
anos_de_estudo = {
    1: 'Sem instrução e menos de 1 ano', 
    2: '1 ano', 
    3: '2 anos', 
    4: '3 anos', 
    5: '4 anos', 
    6: '5 anos', 
    7: '6 anos', 
    8: '7 anos', 
    9: '8 anos', 
    10: '9 anos', 
    11: '10 anos', 
    12: '11 anos', 
    13: '12 anos', 
    14: '13 anos', 
    15: '14 anos', 
    16: '15 anos ou mais', 
    17: 'Não determinados'
}
uf = {
    11: 'Rondônia', 
    12: 'Acre', 
    13: 'Amazonas', 
    14: 'Roraima', 
    15: 'Pará', 
    16: 'Amapá', 
    17: 'Tocantins', 
    21: 'Maranhão', 
    22: 'Piauí', 
    23: 'Ceará', 
    24: 'Rio Grande do Norte', 
    25: 'Paraíba', 
    26: 'Pernambuco', 
    27: 'Alagoas', 
    28: 'Sergipe', 
    29: 'Bahia', 
    31: 'Minas Gerais', 
    32: 'Espírito Santo', 
    33: 'Rio de Janeiro', 
    35: 'São Paulo', 
    41: 'Paraná', 
    42: 'Santa Catarina', 
    43: 'Rio Grande do Sul', 
    50: 'Mato Grosso do Sul', 
    51: 'Mato Grosso', 
    52: 'Goiás', 
    53: 'Distrito Federal'
}

Classes de renda:

<b>A</b> ► Acima de 25 SM

<b>B</b> ► De 15 a 25 SM

<b>C</b> ► De 5 a 15 SM

<b>D</b> ► De 2 a 5 SM

<b>E</b> ► Até 2 SM

#### Importando dados

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
dados = pd.read_csv('dados/dados.csv')
dados.head()

#### Obtendo informações dos dados

In [None]:
dados.info()

#### A coluna altura foi removida, pois ela tinha sido inserida afim de testes estatísticos.


In [None]:
dados.drop(columns=['Altura'])

#### Definindo os valores em reais
Usand dados.Renda.min(), e max() para pegar o menor valor e o maior.

In [None]:
classe = [
    dados.Renda.min(),
    2*788,
    5*788,
    15*788,
    25*788,
    dados.Renda.max()
]
classe

#### Definindo labels

In [None]:
labels = ['E', 'D', 'C', 'B', 'A']

#### Construindo frequência

In [None]:
frequencias = pd.cut(x = dados.Renda,
bins = classe,
labels= labels,
include_lowest= True) #inclui o menor valor.
frequencias

#### Exibindo a quantidade por classe

In [None]:
frequencias = pd.value_counts(pd.cut(x = dados.Renda,
                            bins = classe,
                            labels= labels,
                            include_lowest= True)) #inclui o menor valor.
frequencias

In [None]:
frequencias = pd.DataFrame(frequencias)
frequencias

#### Construindo tabela de percentuais

In [None]:
percentual = pd.value_counts(pd.cut(x = dados.Renda,
bins = classe,
labels= labels,
include_lowest= True),
normalize= True) * 100 

percentual

In [None]:
percentual = pd.DataFrame(percentual)
percentual

In [None]:
percentual.rename(columns= {'Renda' : ' Quantidade (%)'})

In [None]:
area = plt.figure()

In [None]:
plt.rc('figure', figsize = (20, 15))
fig = percentual.plot.bar(color = 'royalblue', alpha = .6)#Configurações e plotagem
fig.set_title('Distribuição das rendas', {'fontsize' : 28}) #título
fig.set_xlabel('Classe das rendas', {'fontsize' : 25}) # título eixo x
fig.set_ylabel('Porcentagem (%)', {'fontsize' : 25}) #título eixo y
plt.tick_params(labelsize = 25) #aumentando os valores
plt.xticks(rotation = 0) #rotacionando os valores
plt.show()

Como fica claro, infelizmente, a classe mais populosa é a E.

In [None]:
percentual.to_excel('dados/dfPorcentagem.xlsx')