In [2]:
import pandas as pd

# 1. Conhecendo os dados

In [3]:
dados = pd.read_csv("dados/dados.csv") # Lendo arquivos 
dados.head(10) # Observando somente os 10 primeiros 

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
5,11,1,34,8,12,790,1.637906
6,11,0,57,8,12,3150,1.570078
7,11,1,60,8,12,1700,1.608495
8,11,1,50,4,14,1800,1.780329
9,11,0,26,8,12,1150,1.793203


## Variáveis qualitativas ordinais

In [4]:
sorted(dados['Anos de Estudo'].unique()) # Vendo a lista de numeros que foram utilizados no "Anos de Estudo"

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

## Variáveis qualitativas nominais

In [5]:
sorted(dados['UF'].unique())

[11,
 12,
 13,
 14,
 15,
 16,
 17,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 31,
 32,
 33,
 35,
 41,
 42,
 43,
 50,
 51,
 52,
 53]

In [6]:
sorted(dados['Sexo'].unique()) # Vendo quantos sexos existem

[0, 1]

In [7]:
sorted(dados['Cor'].unique()) # Vendo quantas cores diferentes existem

[0, 2, 4, 6, 8]

## Variáveis qualitativas discretas

In [8]:
sorted(dados['Idade'].unique()) # Vendo as idades que aparecem no DataFrame

[13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 94,
 95,
 97,
 99]

## Observação:  A variável idade pode ser classificada em três diferentes tipos:
     1. QUANTITATIVA DISCRETA - quando representa anos completos (números inteiros)
     2. QUANTITATIVA CONTÍNUA - quando representa a idade exata, sendo representado por frações de anos
     3. QUALITATIVA ORDINAL - quando representa faixas de idade 




## Variáveis quantitativas contínuas
        Variáveis que representam uma contagem ou mensuração que assumem valores em uma escala contínual(números reais)

In [9]:
print("De %s até %s metros" % (dados.Altura.min(), (dados.Altura.max()))) #Pegando a média minima e a maxima das alturas

De 1.339244614 até 2.028496765 metros


## Distribuição de Frequência 

### Distribuição de Frequência para variáveis qualitativas

In [10]:
dados

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.739790
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344


In [11]:
dados['Sexo'].value_counts() # Contando a quantidade de dados presentes no "Sexo"

0    53250
1    23590
Name: Sexo, dtype: int64

In [12]:
dados['Sexo'].value_counts(normalize=True) * 100 # Vendo a média de sexo presente no DataFrame

0    69.299844
1    30.700156
Name: Sexo, dtype: float64

In [13]:
frequencia = dados['Sexo'].value_counts() # Criando variavel frequência

In [14]:
percentual = dados['Sexo'].value_counts(normalize=True) * 100 # Criando variavel percentual

In [15]:
dist_freq_qualitativa =  pd.DataFrame({'Frequência': frequencia, 'Porcentagem (%)': percentual}) # Criando um DataFrame

In [16]:
dist_freq_qualitativa # Teremos a frequência dos sexos que aparecem 

Unnamed: 0,Frequência,Porcentagem (%)
0,53250,69.299844
1,23590,30.700156


In [17]:
dist_freq_qualitativa.rename(index= {0: 'Masculino', 1: 'Feminino' }, inplace=True) # Trocando os index
dist_freq_qualitativa.rename_axis('Sexo', axis='columns', inplace=True) # Trocando o nome da coluna dos sexos 

In [18]:
dist_freq_qualitativa

Sexo,Frequência,Porcentagem (%)
Masculino,53250,69.299844
Feminino,23590,30.700156


## Exercício

In [19]:
dados1 = pd.DataFrame({'Profissão': [1, 2, 3, 1, 2, 2, 2, 3, 3, 2, 1, 3]})
dados1

Unnamed: 0,Profissão
0,1
1,2
2,3
3,1
4,2
5,2
6,2
7,3
8,3
9,2


In [20]:
# 1 para Estatístico
# 2 para Cientista de Dados
# 3 para Programador Python

frequencia = dados1['Profissão'].value_counts() # Contando os valores
porcentagem = dados1['Profissão'].value_counts(normalize=True) * 100 # Vendo a porcentagem da quantidade de profissões

dado_refinado = pd.DataFrame({'Frequência': frequencia, 'porcentagem (%)': porcentagem}) # Criando um novo data frame

dado_refinado.rename(index = {1:'Estatístico', 2: 'Cientista de Dados', 3:'Programador Python'}, inplace=True) # Renomeando linha
dado_refinado.rename_axis('Profissão', axis='columns', inplace=True) # Renomeando coluna 
dado_refinado # Resultado final

Profissão,Frequência,porcentagem (%)
Cientista de Dados,5,41.666667
Programador Python,4,33.333333
Estatístico,3,25.0


## Distribuição de Frequência com o método crosstab()

documentação = https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html

A função crosstab() nos ajuda a juntar colunas do nosso DataFrame e tirar insights em cima disso, podemos colocar parâmetros de média, mediana, desvio-padrão, dentre outras.

In [21]:
sexo = {0: 'Masculino',
        1: 'Feminino'}

cor = {0: 'Indígena', 
        2: 'Branca',
        4: 'Preta',
        6: 'Amarela',
        8: 'Parda', 
        9: 'Sem declaração'}

In [22]:
frequencia = pd.crosstab(dados.Sexo,
                         dados.Cor) #Juntando as colunas para ver a cor, o sexo e a quantidade de pessoas
frequencia.rename(index = sexo, inplace = True)
frequencia

Cor,0,2,4,6,8
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


In [23]:
percentual = pd.crosstab(dados.Sexo,
                        dados.Cor,
                        normalize=True) * 100 # Olhando a média 
percentual.rename(index=sexo, inplace=True) 
percentual.rename(columns=cor, inplace=True)
percentual

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.33316,28.883394,7.160333,0.30583,32.617126
Feminino,0.131442,12.520822,3.759761,0.152264,14.135867


In [24]:
percentual = pd.crosstab(dados.Sexo,
                        dados.Cor,
                        aggfunc = 'mean',
                        values = dados.Renda) # A média da renda que as pessoas ganham de acordo com a sua cor e sexo
percentual.rename(index=sexo, inplace=True)
percentual.rename(columns=cor, inplace=True)
percentual

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Feminino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


## Dando inicio ao estudo das variáveis quantitativas (classes personalizadas)

Variáveis qualitativas são especiais pois teremos que criar algo para dar sentido a elas, por exemplo:

Tabela de renda, onde a classe A recebe mais de 20 salários mínimos e a classe E de 0 a 2 salários mínimos:

A: acima de 20; <br>
B: de 10 a 20;  <br>
C: de 4 a 10;<br>
D: de 2 a 4;<br>
E: de zero até 2 salários mínimos.

Acrescentamos uma letra do alfabeto para simbolizar em que classe alguem estará, isso ocorre também em:

A: acima de 15760 <br>
B: de 7880 até 15760 <br>
C: de 3152 até 7880<br>
D: de 1576 até 3152<br>
E: de zero até 1576<br>

In [25]:
dados.Renda.min()

0

In [26]:
dados.Renda.max()

200000

In [27]:
classes = [0, 1576, 3152, 7880, 15760, 200000]

In [28]:
labels = ["E", "D", "C", "B", "A"]

### Usando o método cut

documentação = https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.cut.html

In [29]:
frequencia = pd.value_counts(
    pd.cut(x=dados.Renda,
       bins=classes,
       labels=labels,
       include_lowest=True)
)
frequencia

E    49755
D    16700
C     7599
B     2178
A      608
Name: Renda, dtype: int64

In [30]:
percentual = pd.value_counts(
    pd.cut(x=dados.Renda,
       bins=classes,
       labels=labels,
       include_lowest=True),
    normalize=True 
)
percentual

E    0.647514
D    0.217335
C    0.098894
B    0.028345
A    0.007913
Name: Renda, dtype: float64

In [31]:
dist_freq_quantitativas_personalizadas =  pd.DataFrame(
    {'Frequência': frequencia, 'Porcentagem (%)': percentual}
)
dist_freq_quantitativas_personalizadas

Unnamed: 0,Frequência,Porcentagem (%)
E,49755,0.647514
D,16700,0.217335
C,7599,0.098894
B,2178,0.028345
A,608,0.007913


In [32]:
dist_freq_quantitativas_personalizadas.sort_index(ascending=False)

Unnamed: 0,Frequência,Porcentagem (%)
A,608,0.007913
B,2178,0.028345
C,7599,0.098894
D,16700,0.217335
E,49755,0.647514


## Atividade

In [34]:
classes = [dados.Altura.min(), 1.65, 1.75, dados.Altura.max()]
labels = ['1 - Baixa', '2 - Média', '3 - Alta']

frequencia = pd.value_counts(
    pd.cut(
        x = dados.Altura,
        bins = classes,
        labels = labels,
        include_lowest = True
    )
)

percentual = pd.value_counts(
    pd.cut(
        x = dados.Altura,
        bins = classes,
        labels = labels,
        include_lowest = True
    ), normalize = True
) * 100

dist_freq_altura = pd.DataFrame(
    {'Frequência': frequencia, 'Porcentagem (%)': percentual}
)

dist_freq_altura.rename_axis('Estaturas', axis= 'columns', inplace = True)

dist_freq_altura.sort_index(ascending = True, inplace = True)

dist_freq_altura

Estaturas,Frequência,Porcentagem (%)
1 - Baixa,20529,26.716554
2 - Média,36162,47.061426
3 - Alta,20149,26.22202


## Distribuição de frequência para variáveis quantitivas (classes de amplitude fixa)

Agora, aprenderemos a Regra de Sturges que otimiza a escolha da quantidade de classes que teremos nas tabelas de distribuições, considerando somente o número de observações que temos na variável.

k = 1 + (10/3 log₁₀ n)

In [35]:
import numpy as np

In [36]:
n = dados.shape[0]
n

76840

In [38]:
k = 1 + (10/3) * np.log10 (n)
k

17.285291187298853

In [39]:
k = int(k.round(0))
k

17

## Criar tabelas de frequencia 

In [42]:
frequencia = pd.value_counts(
    pd.cut(
      x = dados.Renda,
      bins= 17,
      include_lowest = True
    ),
    sort=False
)

In [43]:

percentual = pd.value_counts(
    pd.cut(
      x = dados.Renda,
      bins= 17,
      include_lowest = True
    ),
    sort=False,
    normalize = True
)
percentual

(-200.001, 11764.706]       0.983784
(11764.706, 23529.412]      0.013300
(23529.412, 35294.118]      0.002199
(35294.118, 47058.824]      0.000247
(47058.824, 58823.529]      0.000208
(58823.529, 70588.235]      0.000065
(70588.235, 82352.941]      0.000052
(82352.941, 94117.647]      0.000013
(94117.647, 105882.353]     0.000078
(105882.353, 117647.059]    0.000000
(117647.059, 129411.765]    0.000013
(129411.765, 141176.471]    0.000000
(141176.471, 152941.176]    0.000000
(152941.176, 164705.882]    0.000000
(164705.882, 176470.588]    0.000000
(176470.588, 188235.294]    0.000000
(188235.294, 200000.0]      0.000039
Name: Renda, dtype: float64

In [44]:
dist_freq_quantitativas_amplitude_fixa=  pd.DataFrame(
    {'Frequência': frequencia, 'Porcentagem (%)': percentual}
)
dist_freq_quantitativas_amplitude_fixa

Unnamed: 0,Frequência,Porcentagem (%)
"(-200.001, 11764.706]",75594,0.983784
"(11764.706, 23529.412]",1022,0.0133
"(23529.412, 35294.118]",169,0.002199
"(35294.118, 47058.824]",19,0.000247
"(47058.824, 58823.529]",16,0.000208
"(58823.529, 70588.235]",5,6.5e-05
"(70588.235, 82352.941]",4,5.2e-05
"(82352.941, 94117.647]",1,1.3e-05
"(94117.647, 105882.353]",6,7.8e-05
"(105882.353, 117647.059]",0,0.0
