Importando Bibliotecas

In [1]:
import pandas as pd
import numpy as np


Construindo DataFrame

In [2]:
df_imc = pd.DataFrame({
    'nome': [
        'Fernando', 'Maria', 'Felipe', 'Pedro', 'Bianca',
        'Beatriz', 'Patricia', 'Lucia'
    ],
    'imc': [27, 26, 25, 16, 16.7, 17.5, 18.6, 24]
})
df_imc

Unnamed: 0,nome,imc
0,Fernando,27.0
1,Maria,26.0
2,Felipe,25.0
3,Pedro,16.0
4,Bianca,16.7
5,Beatriz,17.5
6,Patricia,18.6
7,Lucia,24.0


Categorização

É transformar os dados numéricos em categorias, exemplo:
- Clientes de bancos categorizados a partir do valor investido no banco: Diamante, Platina, Ouro
- Classe social baseada na renda familiar: A, B, C, D e E
- Empresas categorizadas a partir do seu valor de mercado: Micro caps, small caps, mid caps e large caps
- Pessoas categorizadas a partir do seu IMC: Abaixo do peso, normal, acima, obesidade e etc.

Nas Faixas da OMS

- Muito abaixo do peso: 16 a 16,9 kg/m2
- Abaixo do peso: 17 a 18,4 kg/m2
- Peso normal: 18,5 a 24,9 kg/m2
- Acima do peso: 25 a 29,9 kg/m2

In [6]:
df_imc.loc[df_imc['imc'] <= 16.9, 'imc_cat'] = 'muito_abaixo'
df_imc.loc[(df_imc['imc'] > 16.9) & (df_imc['imc'] <= 18.4),
           'imc_cat'] = 'abaixo'
df_imc.loc[(df_imc['imc'] > 18.4) & (df_imc['imc'] <= 24.9),
           'imc_cat'] = 'normal'
df_imc.loc[(df_imc['imc'] > 24.9), 'imc_cat'] = 'acima'

In [8]:
df_imc

Unnamed: 0,nome,imc,imc_cat
0,Fernando,27.0,acima
1,Maria,26.0,acima
2,Felipe,25.0,acima
3,Pedro,16.0,muito_abaixo
4,Bianca,16.7,muito_abaixo
5,Beatriz,17.5,abaixo
6,Patricia,18.6,normal
7,Lucia,24.0,normal


Em Saudável e não Saudável

- Não saudável: < 18,5 kg/m2
- Saudável: 18,5 a 24,9 kg/m2
- Não saudável: > 25 kg/m2

In [9]:
df_imc.loc[:,'imc_cat_2'] = 'nao_saudavel'
df_imc.loc[(df_imc['imc']>18.4) & (df_imc['imc']<=24.9),'imc_cat_2'] = 'saudavel'
df_imc

Unnamed: 0,nome,imc,imc_cat,imc_cat_2
0,Fernando,27.0,acima,nao_saudavel
1,Maria,26.0,acima,nao_saudavel
2,Felipe,25.0,acima,nao_saudavel
3,Pedro,16.0,muito_abaixo,nao_saudavel
4,Bianca,16.7,muito_abaixo,nao_saudavel
5,Beatriz,17.5,abaixo,nao_saudavel
6,Patricia,18.6,normal,saudavel
7,Lucia,24.0,normal,saudavel


Em Quartis

- 1o_quartil : 0%  a 25%  primeiros valores
- 2o_quartil : 25% a 50%  primeiros valores
- 3o_quartil : 50% a 75%  primeiros valores
- 4o_quartil : 75% a 100% primeiros valores

In [10]:
df_imc['imc'].sort_values()

3    16.0
4    16.7
5    17.5
6    18.6
7    24.0
2    25.0
1    26.0
0    27.0
Name: imc, dtype: float64

In [11]:
df_imc['imc'].quantile([0.25,0.5,0.75])

0.25    17.30
0.50    21.30
0.75    25.25
Name: imc, dtype: float64

In [12]:
quartil_1, quartil_2, quartil_3 = df_imc['imc'].quantile([0.25,0.5,0.75])

In [13]:
df_imc['imc_cat_3'] = np.where(
    df_imc['imc'] < 17.3, '1o_quartil',
    np.where(df_imc['imc'] < 21.3, '2o_quartil',
             np.where(df_imc['imc'] < 25.25, '3o_quartil', '4o_quartil')))

In [14]:
df_imc.sort_values('imc')

Unnamed: 0,nome,imc,imc_cat,imc_cat_2,imc_cat_3
3,Pedro,16.0,muito_abaixo,nao_saudavel,1o_quartil
4,Bianca,16.7,muito_abaixo,nao_saudavel,1o_quartil
5,Beatriz,17.5,abaixo,nao_saudavel,2o_quartil
6,Patricia,18.6,normal,saudavel,2o_quartil
7,Lucia,24.0,normal,saudavel,3o_quartil
2,Felipe,25.0,acima,nao_saudavel,3o_quartil
1,Maria,26.0,acima,nao_saudavel,4o_quartil
0,Fernando,27.0,acima,nao_saudavel,4o_quartil


Construindo Dummies

``pd.get_dummies()`` é usado para transformar uma variável categórica em variáveis flag

In [15]:
df_imc['imc_cat']

0           acima
1           acima
2           acima
3    muito_abaixo
4    muito_abaixo
5          abaixo
6          normal
7          normal
Name: imc_cat, dtype: object

In [16]:
pd.get_dummies(df_imc['imc_cat'])

Unnamed: 0,abaixo,acima,muito_abaixo,normal
0,False,True,False,False
1,False,True,False,False
2,False,True,False,False
3,False,False,True,False
4,False,False,True,False
5,True,False,False,False
6,False,False,False,True
7,False,False,False,True


In [17]:
pd.get_dummies(df_imc['imc_cat'],drop_first=True)

Unnamed: 0,acima,muito_abaixo,normal
0,True,False,False
1,True,False,False
2,True,False,False
3,False,True,False
4,False,True,False
5,False,False,False
6,False,False,True
7,False,False,True


Dummie OMS

In [20]:
dummies = pd.get_dummies(df_imc['imc_cat'])

In [21]:
df_imc = pd.concat([df_imc, dummies], axis=1)
df_imc

Unnamed: 0,nome,imc,imc_cat,imc_cat_2,imc_cat_3,abaixo,acima,muito_abaixo,normal,abaixo.1,acima.1,muito_abaixo.1,normal.1
0,Fernando,27.0,acima,nao_saudavel,4o_quartil,False,True,False,False,False,True,False,False
1,Maria,26.0,acima,nao_saudavel,4o_quartil,False,True,False,False,False,True,False,False
2,Felipe,25.0,acima,nao_saudavel,3o_quartil,False,True,False,False,False,True,False,False
3,Pedro,16.0,muito_abaixo,nao_saudavel,1o_quartil,False,False,True,False,False,False,True,False
4,Bianca,16.7,muito_abaixo,nao_saudavel,1o_quartil,False,False,True,False,False,False,True,False
5,Beatriz,17.5,abaixo,nao_saudavel,2o_quartil,True,False,False,False,True,False,False,False
6,Patricia,18.6,normal,saudavel,2o_quartil,False,False,False,True,False,False,False,True
7,Lucia,24.0,normal,saudavel,3o_quartil,False,False,False,True,False,False,False,True


Dummie Saudável

In [22]:
dummies_2 = pd.get_dummies(df_imc['imc_cat_2'])
pd.concat([df_imc, dummies_2], axis=1)

Unnamed: 0,nome,imc,imc_cat,imc_cat_2,imc_cat_3,abaixo,acima,muito_abaixo,normal,abaixo.1,acima.1,muito_abaixo.1,normal.1,nao_saudavel,saudavel
0,Fernando,27.0,acima,nao_saudavel,4o_quartil,False,True,False,False,False,True,False,False,True,False
1,Maria,26.0,acima,nao_saudavel,4o_quartil,False,True,False,False,False,True,False,False,True,False
2,Felipe,25.0,acima,nao_saudavel,3o_quartil,False,True,False,False,False,True,False,False,True,False
3,Pedro,16.0,muito_abaixo,nao_saudavel,1o_quartil,False,False,True,False,False,False,True,False,True,False
4,Bianca,16.7,muito_abaixo,nao_saudavel,1o_quartil,False,False,True,False,False,False,True,False,True,False
5,Beatriz,17.5,abaixo,nao_saudavel,2o_quartil,True,False,False,False,True,False,False,False,True,False
6,Patricia,18.6,normal,saudavel,2o_quartil,False,False,False,True,False,False,False,True,False,True
7,Lucia,24.0,normal,saudavel,3o_quartil,False,False,False,True,False,False,False,True,False,True


Dummie Quartil

In [24]:
dummies_3 = pd.get_dummies(df_imc['imc_cat_3'])
pd.concat([df_imc, dummies_3], axis=1)

Unnamed: 0,nome,imc,imc_cat,imc_cat_2,imc_cat_3,abaixo,acima,muito_abaixo,normal,abaixo.1,acima.1,muito_abaixo.1,normal.1,1o_quartil,2o_quartil,3o_quartil,4o_quartil
0,Fernando,27.0,acima,nao_saudavel,4o_quartil,False,True,False,False,False,True,False,False,False,False,False,True
1,Maria,26.0,acima,nao_saudavel,4o_quartil,False,True,False,False,False,True,False,False,False,False,False,True
2,Felipe,25.0,acima,nao_saudavel,3o_quartil,False,True,False,False,False,True,False,False,False,False,True,False
3,Pedro,16.0,muito_abaixo,nao_saudavel,1o_quartil,False,False,True,False,False,False,True,False,True,False,False,False
4,Bianca,16.7,muito_abaixo,nao_saudavel,1o_quartil,False,False,True,False,False,False,True,False,True,False,False,False
5,Beatriz,17.5,abaixo,nao_saudavel,2o_quartil,True,False,False,False,True,False,False,False,False,True,False,False
6,Patricia,18.6,normal,saudavel,2o_quartil,False,False,False,True,False,False,False,True,False,True,False,False
7,Lucia,24.0,normal,saudavel,3o_quartil,False,False,False,True,False,False,False,True,False,False,True,False
