O dataset usado aqui foi retirado do IBGE.
Este: 

In [5]:
!pip install pandas
!pip install seaborn
!pip install scipy

Successfully installed scipy-1.13.0


In [6]:
import pandas as pd
import numpy as np
import seaborn as sns 
import scipy

In [7]:
dados = pd.read_csv('dados.csv')

In [8]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


### Tipos de dados


- Variável qualitativa ordinal

In [48]:
sorted(dados['Anos de Estudo'].unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

- Variável qualitativa ordinal

In [None]:
sorted(dados['UF'].unique())

In [50]:
sorted(dados['Sexo'].unique())

[0, 1]

In [51]:
sorted(dados['Cor'].unique())

[0, 2, 4, 6, 8]

- Variável quantitativa discreta

In [52]:
dados['Idade'].min()

13

In [53]:
dados.Idade.max()

99

In [54]:
print("De %s até %s anos" % (dados.Idade.min(),dados.Idade.max()))

De 13 até 99 anos


###### Observação: A variável idade pode ser classificada como QUANTITATIVA DISCRETA, QUANTITATIVA CONTÍNUA ou QUALITATIVA ORDINAL. Depedende de como ela está sendo analisada no projeto.

- Variável quantitativa contínua

In [55]:
print("De %s até %s metros" % (dados.Altura.min(),dados.Altura.max()))

De 1.339244614 até 2.028496765 metros


In [58]:
dados.groupby('Sexo')['Idade'].value_counts().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
Sexo,Idade,Unnamed: 2_level_1
0,40,1576
0,37,1564
0,45,1540
0,35,1521
0,39,1506
...,...,...
1,91,3
1,88,2
1,86,1
1,89,1


### Distribuição de Frequências

> Conhecendo o comportamento das variáveis

#### Distribuição de Frequências em variáveis qualitativas

##### - Método 1: `value_counts()` e porcentagem

In [61]:
dados['Sexo'].value_counts()

Sexo
0    53250
1    23590
Name: count, dtype: int64

In [62]:
dados['Sexo'].value_counts(normalize=True) * 100

Sexo
0    69.299844
1    30.700156
Name: proportion, dtype: float64

In [63]:
frequencia = dados['Sexo'].value_counts()

Sexo
0    53250
1    23590
Name: count, dtype: int64

In [66]:
percentual = dados['Sexo'].value_counts(normalize=True) * 100
percentual.reset_index()

Unnamed: 0,Sexo,proportion
0,0,69.299844
1,1,30.700156


In [69]:
dist_freq_qualitativas = pd.DataFrame({'Frequência': frequencia, 'Porcentagem':percentual })
dist_freq_qualitativas.reset_index()

Unnamed: 0,Sexo,Frequência,Porcentagem
0,0,53250,69.299844
1,1,23590,30.700156


In [70]:
dist_freq_qualitativas.head()

Unnamed: 0_level_0,Frequência,Porcentagem
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
0,53250,69.299844
1,23590,30.700156


In [71]:
dist_freq_qualitativas.rename(index = {0: 'Masculino',1:'Feminino'},inplace=True)
dist_freq_qualitativas.rename_axis('Sexo', axis= 'columns',inplace=True)

In [74]:
dist_freq_qualitativas.head()

Sexo,Frequência,Porcentagem
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,53250,69.299844
Feminino,23590,30.700156


##### - Método 2: Cruzamento de variáveis, `crosstab()`

In [75]:
sexo = { 0: 'Masculino',
         1: 'Feminino'}

cor = {0: 'Indígena',
        2: 'Branca',
        4: 'Preta',
        6: 'Amarela',
        8: 'Parda',
        9: 'Sem declaração'}

In [79]:
dados.head(2)

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979


In [83]:
frequencia = pd.crosstab(dados.Sexo, dados.Cor)

frequencia.rename(index=sexo, inplace=True)
frequencia.rename(columns=cor, inplace=True)
frequencia

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


cada campo é a intersecção de duas variáveis no conjunto.

In [87]:
percentual = pd.crosstab(dados.Sexo, dados.Cor, normalize=True) *100
percentual.rename(index=sexo, inplace=True)
percentual.rename(columns=cor, inplace=True)
percentual

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.33316,28.883394,7.160333,0.30583,32.617126
Feminino,0.131442,12.520822,3.759761,0.152264,14.135867


O código abaixo calcula a renda média de cada grupo separadamente.
Por meio dos parâmetros `aggfunc='mean'` e o `values= dados.Renda`.

In [88]:
percentual = pd.crosstab(dados.Sexo, dados.Cor, aggfunc='mean', values = dados.Renda)
percentual.rename(index=sexo, inplace=True)
percentual.rename(columns=cor, inplace=True)
percentual

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Feminino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


Cada campo é o cálculo de uma função, `'mean'`, aplicada em uma terceira variável, `dados.Renda`, correspondente à intersecção de duas variáveis, `Feminino` e `Indígena` por exemplo.