In [2]:
import pandas as pd
import numpy as np
import seaborn as sea
import scipy as sci

In [3]:
data = pd.read_csv('dados.csv')
print(data)

       UF  Sexo  Idade  Cor  Anos de Estudo  Renda    Altura
0      11     0     23    8              12    800  1.603808
1      11     1     23    2              12   1150  1.739790
2      11     1     35    8              15    880  1.760444
3      11     0     46    2               6   3500  1.783158
4      11     1     47    8               9    150  1.690631
...    ..   ...    ...  ...             ...    ...       ...
76835  53     1     46    2              11    812  1.687030
76836  53     0     30    4               7   1500  1.792934
76837  53     0     32    8              12   1300  1.830587
76838  53     0     57    8               4   1500  1.726344
76839  53     0     38    8               4    900  1.658305

[76840 rows x 7 columns]


## Distribuição de frquências qualitativas

 1. Calculando frequencia de etnias
 2. Calculando renda média por etnias

In [4]:
# Definindo dicionários para seus respectivos números
sexo = { 0:'Masculino', 1:'Feminino' }
cor = {
    0:'Indigena',
    2:'Branca',
    4:'Preta',
    6:'Amarela',
    8:'Parda',
    9:'Sem Declaração'
}

In [5]:
# Implementando método Crosstab
frequencia = pd.crosstab(data.Sexo, data.Cor)
# Renomeando indícies com o dicionário
frequencia.rename(index=sexo, inplace=True)
# Renomeando rótulos de colunas com o dicionário
frequencia.rename(columns=cor, inplace=True)
frequencia

Cor,Indigena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


In [6]:
# Calculando a renda média de acordo com a etnia
percentual = pd.crosstab(data.Sexo, data.Cor, aggfunc='mean', values=data.Renda)
percentual.rename(index=sexo, inplace=True)
percentual.rename(columns=cor, inplace=True)
percentual

Cor,Indigena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Feminino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


## Distribuição de frequência para variáveis quantitativas (Classes personalizadas)


In [7]:
# Identificando valores máximos e minimos nas rendas
print(f'Valor máximo da renda {data.Renda.max()}')
print(f'Valor minimo da renda {data.Renda.min()}')


Valor máximo da renda 200000
Valor minimo da renda 0


In [8]:
# Definindo classes sóciais de acordo com padrão IBGE 2015
classes = [0, 1576, 3152, 7880, 15760, 200000]
labels = ['E','D','C','B','A']

In [9]:
# Utilizando o método cut para separar as rendas por classes e metodo value_counts para medir as ocorrências
frequencia = pd.value_counts(
pd.cut(x = data.Renda,
        bins=classes,
        labels=labels,
        include_lowest=True)
)
frequencia

E    49755
D    16700
C     7599
B     2178
A      608
Name: Renda, dtype: int64

In [10]:
# Verificando o percentual por cada ocorrência
percentual = pd.value_counts(
pd.cut(x = data.Renda,
        bins=classes,
        labels=labels,
        include_lowest=True), 
normalize=True
) * 100

percentual


E    64.751432
D    21.733472
C     9.889381
B     2.834461
A     0.791255
Name: Renda, dtype: float64

In [11]:
# Criando o DataFrame
dF_freq_percentual = pd.DataFrame({ 'Frequencia':frequencia, 'Percentual (%)':percentual })
dF_freq_percentual


Unnamed: 0,Frequencia,Percentual (%)
E,49755,64.751432
D,16700,21.733472
C,7599,9.889381
B,2178,2.834461
A,608,0.791255


In [12]:
# Ordenando de acordo com classe social
dF_freq_percentual.sort_index(ascending=False)

Unnamed: 0,Frequencia,Percentual (%)
A,608,0.791255
B,2178,2.834461
C,7599,9.889381
D,16700,21.733472
E,49755,64.751432


In [16]:
# Analíse altura
classes = [data.Altura.min(), 1.65, 1.75, data.Altura.max()]
labels = ['1 - Baixa', '2 - Média', '3 - Alta']

frequencia = pd.value_counts(
    pd.cut(
        x = data.Altura,
        bins = classes,
        labels = labels,
        include_lowest = True
    )
)

percentual = pd.value_counts(
    pd.cut(
        x = data.Altura,
        bins = classes,
        labels = labels,
        include_lowest = True
    ), normalize = True
) * 100

dist_freq_altura = pd.DataFrame(
    {'Frequência': frequencia, 'Porcentagem (%)': percentual}
)

dist_freq_altura.rename_axis('Estaturas', axis= 'columns', inplace = True)

dist_freq_altura.sort_index(ascending = True, inplace = True)

dist_freq_altura

Estaturas,Frequência,Porcentagem (%)
1 - Baixa,20529,26.716554
2 - Média,36162,47.061426
3 - Alta,20149,26.22202
