In [1]:
# Fonte dos dados:
# https://www.ibge.gov.br/
# https://www.ibge.gov.br/estatisticas/sociais/populacao/19897-sintese-de-indicadores-pnad2.html?=&t=microdados

In [2]:
# Bibliotecas
import os
import pandas as pd

In [3]:
# Variáveis de Ambiente
current_dir = os.getcwd()
file_path = os.path.join(current_dir, 'dados','dados.csv')
base = pd.read_csv(file_path)

### Análise Exploratória

In [4]:
# Exibe a quantidade de registros e colunas da base
base.shape

(76840, 7)

In [5]:
# Exibe a lista de colunas da base
base.columns

Index(['UF', 'Sexo', 'Idade', 'Cor', 'Anos de Estudo', 'Renda', 'Altura'], dtype='object')

In [6]:
# Exibe a quantidade de valores nulos em cada coluna
base.isnull().sum()

UF                0
Sexo              0
Idade             0
Cor               0
Anos de Estudo    0
Renda             0
Altura            0
dtype: int64

In [7]:
# Exibe informações gerais sobre a base
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76840 entries, 0 to 76839
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   UF              76840 non-null  int64  
 1   Sexo            76840 non-null  int64  
 2   Idade           76840 non-null  int64  
 3   Cor             76840 non-null  int64  
 4   Anos de Estudo  76840 non-null  int64  
 5   Renda           76840 non-null  int64  
 6   Altura          76840 non-null  float64
dtypes: float64(1), int64(6)
memory usage: 4.1 MB


In [8]:
# Exibe os cinco primeiros registros da base
base.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


In [9]:
# Exibe os cinco últimos registros da base
base.tail()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
76835,53,1,46,2,11,812,1.68703
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344
76839,53,0,38,8,4,900,1.658305


In [10]:
# Exibe o resumo estatístico dos dados
base.describe()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
count,76840.0,76840.0,76840.0,76840.0,76840.0,76840.0,76840.0
mean,31.912962,0.307002,44.071421,5.032613,9.469664,2000.383199,1.699512
std,11.14783,0.461253,12.480583,2.857118,4.539929,3323.38773,0.079717
min,11.0,0.0,13.0,0.0,1.0,0.0,1.339245
25%,25.0,0.0,34.0,2.0,6.0,788.0,1.645785
50%,31.0,0.0,43.0,4.0,11.0,1200.0,1.699325
75%,41.0,1.0,53.0,8.0,12.0,2000.0,1.753062
max,53.0,1.0,99.0,8.0,17.0,200000.0,2.028497


### Variáveis 

In [11]:
# Variáveis Qualitativas Ordinais 
sorted(base['Anos de Estudo'].unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

In [12]:
# Variáveis Qualitativas Nominais
sorted(base['UF'].unique())

[11,
 12,
 13,
 14,
 15,
 16,
 17,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 31,
 32,
 33,
 35,
 41,
 42,
 43,
 50,
 51,
 52,
 53]

In [13]:
# Variáveis Quantitativas Discretas
print("Campo 'idade' de %s até %s anos" % (base['Idade'].min(), base['Idade'].max())) 

Campo 'idade' de 13 até 99 anos


In [14]:
# Variáveis Quantitativas Contínuas
print("Campo 'Altura' de %s até %s metros" % (base['Altura'].min(), base['Altura'].max())) 

Campo 'Altura' de 1.339244614 até 2.028496765 metros


### Distribuição de Frequências

In [15]:
# Sexo
frequencia_sexo = base['Sexo'].value_counts()
porcentual_sexo = base['Sexo'].value_counts(normalize=True) * 100
dist_freq_sexo = pd.DataFrame({'Frequência': frequencia_sexo, 'Porcentual (%)': porcentual_sexo})
dist_freq_sexo.rename(index = {0: 'Masculino', 1: 'Feminino'}, inplace=True)
dist_freq_sexo.rename_axis('Sexo', axis = 'columns', inplace=True)
dist_freq_sexo

Sexo,Frequência,Porcentual (%)
Masculino,53250,69.299844
Feminino,23590,30.700156


In [16]:
# Estado
frequencia_estado = base['UF'].value_counts()
porcentual_estado = base['UF'].value_counts(normalize=True) * 100
dist_freq_estado = pd.DataFrame({'Frequência': frequencia_estado, 'Porcentual (%)': porcentual_estado})
dist_freq_estado.rename_axis('UF', axis = 'columns', inplace=True)
dist_freq_estado

UF,Frequência,Porcentual (%)
35,8544,11.119209
31,7686,10.002603
43,6322,8.227486
29,5717,7.440135
33,5556,7.230609
15,4449,5.789953
41,4356,5.668922
26,3820,4.971369
52,3478,4.526288
23,3359,4.371421


In [31]:
sexo ={
        0: 'Masculino',
        1: 'Feminino'}

cor = { 
        0: 'Indígena',
        2: 'Branca',
        4: 'Preta',
        6: 'Amarela',
        8: 'Parda',
        9: 'Sem declaração'}

frequencia_cor_e_sexo = pd.crosstab(base.Sexo, 
                         base.Cor,)
frequencia_cor_e_sexo.rename(index=sexo, inplace=True)
frequencia_cor_e_sexo.rename(columns=cor, inplace=True)
frequencia_cor_e_sexo

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


In [32]:
porcentual_cor_e_sexo = pd.crosstab(base.Sexo, 
                         base.Cor,
                         normalize=True) * 100
porcentual_cor_e_sexo.rename(index=sexo, inplace=True)
porcentual_cor_e_sexo.rename(columns=cor, inplace=True)
porcentual_cor_e_sexo

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.33316,28.883394,7.160333,0.30583,32.617126
Feminino,0.131442,12.520822,3.759761,0.152264,14.135867


In [33]:
media_renda_por_cor_e_sexo = pd.crosstab(base.Sexo, 
                                        base.Cor,
                                        aggfunc='mean',
                                        values = base['Renda'])
media_renda_por_cor_e_sexo.rename(index=sexo, inplace=True)
media_renda_por_cor_e_sexo.rename(columns=cor, inplace=True)
media_renda_por_cor_e_sexo

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Feminino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516
