### Análise Estatística Preliminar

#### Dataset:

Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

Fonte dos dados: https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### Observação:
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

In [1]:
import pandas as pd

In [2]:
# Importando a base de dados:

dados = pd.read_csv('data/dados.csv')
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


#### PARTE I:

* Análise exploratória dos dados:

> Panorama geral sobre as idades dos entrevistados;

> Distribuição de frequência: Relação % entre homens x mulheres chefes de família;

In [3]:
# Explorando os dados referentes às idades dos entrevistados:

min = dados['Idade'].min()
max = dados['Idade'].max()

print(f'As idades dos entrevistados variam entre {min} e {max} anos.')

As idades dos entrevistados variam entre 13 e 99 anos.


In [7]:
# Frequência:

frequencia = dados['Sexo'].value_counts()
frequencia

0    53250
1    23590
Name: Sexo, dtype: int64

In [10]:
# Percentual entre homens e mulheres que responderam à pesquisa (chefes de família):

percentual = dados['Sexo'].value_counts(normalize = True)*100

In [11]:
# Distribuição de Frequência:

dist_freq_qualitativa = pd.DataFrame({'Frequência': frequencia, 'Porcentagem': percentual})
dist_freq_qualitativa

Unnamed: 0,Frequência,Porcentagem
0,53250,69.299844
1,23590,30.700156


In [12]:
# Formatando os índices:

dist_freq_qualitativa.rename(index = {0:'Masculino', 1:'Feminino'}, inplace = True)
dist_freq_qualitativa

Unnamed: 0,Frequência,Porcentagem
Masculino,53250,69.299844
Feminino,23590,30.700156


In [13]:
# Rótulo do índice:

dist_freq_qualitativa.rename_axis('Sexo', axis = 'columns', inplace = True)
dist_freq_qualitativa

Sexo,Frequência,Porcentagem
Masculino,53250,69.299844
Feminino,23590,30.700156


In [None]:
# Frequência com parâmetros 'Sexo' e 'Cor': Crosstab

