# Conhecendo dados 

In [102]:
import pandas as pd
dados = pd.read_csv('dados.csv')
dados.head(5)


Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


Varáveis qualitativas ordinais
> variaveis que podem ser ordenadas ou hierarquizadas

In [103]:
sorted(dados['Anos de Estudo'].unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

In [104]:
frequencia = dados['Sexo'].value_counts()
percentual = dados['Sexo'].value_counts(normalize=True) * 100
index = ['Masculino', 'Feminino']

dist_freq_qualitativas = pd.DataFrame({'Frequencia':frequencia, 'Percentual(%)':percentual })
dist_freq_qualitativas.index = index

In [105]:
sexo = {0: 'Masculino',
        1: 'Feminino'}

cor = {0: 'Indígena',
        2: 'Branca',
        4: 'Preta',
        6: 'Amarela',
        8: 'Parda',
        9: 'Sem declaração'}

<h1> CrossTab:</h1>


> https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html


<h2> Quantidade de pessoas por cor e sexo

In [106]:
frequencia = pd.crosstab(
    dados.Sexo,
    dados.Cor
)
frequencia.rename(index=sexo).rename(columns=cor)

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


<h2> Porcentagem da quantidade de pessoas por cor e sexo

In [107]:
percentual = pd.crosstab(
    dados.Sexo,
    dados.Cor, normalize=True
) * 100 
frequencia.rename(index=sexo).rename(columns=cor)

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


<h2>Media da renda por Cor e por Sexo

In [108]:
percentual = pd.crosstab(
    dados.Sexo,
    dados.Cor,
    aggfunc= 'mean',
    values=dados.Renda
)
percentual.rename(index=sexo).rename(columns=cor)

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Feminino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


<h2> Categorizando  </h2>
A - acima de 15.750<br>
B - De 7.880 a 15.760<br>
C - De 3.152 a 7.880<br>
D - De 1.576 a 3.152<br>
E - Até 1.576 <br>

In [109]:
print(dados.Renda.min(),"a",
dados.Renda.max())

0 a 200000


In [110]:
classes = [0, 1576, 3152, 7880, 15760, 200000]
labels = ['E', 'D', 'C', 'B' , 'A'] 

In [111]:
corte = pd.cut(x = dados.Renda, bins = classes, labels=labels,
include_lowest=True)

In [112]:

porcentagem = pd.value_counts(corte, normalize=True) * 100
quantidade  = pd.value_counts(corte)

dist_freq_quantitativas = pd.DataFrame({
    "Quantidade":quantidade,
    "Porcentagem(%)": porcentagem,
    
})
dist_freq_quantitativas.sort_index(ascending=False, inplace=True)
display(dist_freq_quantitativas)

Unnamed: 0,Quantidade,Porcentagem(%)
A,608,0.791255
B,2178,2.834461
C,7599,9.889381
D,16700,21.733472
E,49755,64.751432


In [113]:
classes = [dados.Altura.min(), 1.65, 1.75, dados.Altura.max()]
labels = ['1 - Baixa', '2 - Média', '3 - Alta']

frequencia = pd.value_counts(
    pd.cut(
        x = dados.Altura,
        bins = classes,
        labels = labels,
        include_lowest = True
    )
)

percentual = pd.value_counts(
    pd.cut(
        x = dados.Altura,
        bins = classes,
        labels = labels,
        include_lowest = True
    ), normalize = True
) * 100

dist_freq_altura = pd.DataFrame(
    {'Frequência': frequencia, 'Porcentagem (%)': percentual}
)

dist_freq_altura.rename_axis('Estaturas', axis= 'columns', inplace = True)

dist_freq_altura.sort_index(ascending = True, inplace = True)

dist_freq_altura

Estaturas,Frequência,Porcentagem (%)
1 - Baixa,20529,26.716554
2 - Média,36162,47.061426
3 - Alta,20149,26.22202


In [114]:
import numpy as np

In [115]:
n = dados.shape[0]
n

76840

In [116]:
k = 1 + (10/3) * np.log10(n)

In [117]:
k = int(k.round(0))

In [118]:
porcentagem = pd.value_counts(
    pd.cut(
        x = dados.Renda,
        bins = k,
        include_lowest= True
    ),
    sort = False,
    normalize = True
)
frequencia  = pd.value_counts(
    pd.cut(
        x = dados.Renda,
        bins = k,
        include_lowest= True
    ),
    sort = False
)

dist_frequencia_porcentagem_amplitude_fixa = pd.DataFrame({
    'Frequencia': frequencia,
    'Porcentagem(%)':( porcentagem * 100).round(3)
})

In [119]:
letras = ('a b c d e f g h i j k l m n o p q'.upper()).split()
index = []
numero = 0
for item in dist_frequencia_porcentagem_amplitude_fixa.index:
    index.append(f'{letras[numero]} : {item}')
    numero += 1
dist_frequencia_porcentagem_amplitude_fixa.index = index

In [120]:
dist_frequencia_porcentagem_amplitude_fixa

Unnamed: 0,Frequencia,Porcentagem(%)
"A : (-200.001, 11764.706]",75594,98.378
"B : (11764.706, 23529.412]",1022,1.33
"C : (23529.412, 35294.118]",169,0.22
"D : (35294.118, 47058.824]",19,0.025
"E : (47058.824, 58823.529]",16,0.021
"F : (58823.529, 70588.235]",5,0.007
"G : (70588.235, 82352.941]",4,0.005
"H : (82352.941, 94117.647]",1,0.001
"I : (94117.647, 105882.353]",6,0.008
"J : (105882.353, 117647.059]",0,0.0
