# pandas.cut

Doc: [pandas.cut()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html)

Neste Notebook iremos converter dados numéricos em dados categóricos.

Considere a coluna __age__ abaixo com as idades. Para cada grupo de idade, iremos adicionar uma categoria:
* __de 0 até 20__: Jr
* __de 21 até 35__: Pleno
* __de 36 até 110__: Senior

In [1]:
import pandas as pd

df = pd.read_csv('dados.csv')
df

Unnamed: 0,user,age
0,Leo,0
1,Ju,19
2,Douglas,20
3,Hudson,21
4,Barth,34
5,Vanessa,35
6,Kris,36
7,Ana,58


Observe o parâmetro __bins__. <br>
Este parâmetro recebe uma lista com os intervalos das idades. <br>
Devo destacar que os intervalos são interpretados da seguinte forma: o valor da esquerda não é incluído no intervalo, por exemplo:
1. __-1, 20__ deve ser interpretado como de 0 até 20.
2. __20, 35__ deve ser interpretado como de 21 até 35.
3. __35, 110__ deve ser interpretado como de 36 até 110.

In [2]:
df['age_label'] = pd.cut(df['age'], bins=[-1, 20, 35, 110], labels=['Jr', 'Pleno', 'Senior'])
df

Unnamed: 0,user,age,age_label
0,Leo,0,Jr
1,Ju,19,Jr
2,Douglas,20,Jr
3,Hudson,21,Pleno
4,Barth,34,Pleno
5,Vanessa,35,Pleno
6,Kris,36,Senior
7,Ana,58,Senior


Nós podemos alterar o comportamento do método cut() definindo o  parâmetro __right=False__. Por padrão, este parâmetro é True: exclui os valores da esquerda e inclui os valores da direita. <br>
Ao definir __right=False__, teremos o oposto: incluíremos os valores da esquerda e excluíremos os valores da direta, portanto teremos os seguintes grupos:

1. __0, 20__ deve ser interpretado como de 0 até 19.
2. __20, 35__ deve ser interpretado como de 20 até 34.
3. __35, 110__ deve ser interpretado como de 35 até 109.

Curiosamente, é desta forma que estamos acostumados a trabalhar com list no python. Faria muito mais sentido manter por padrão right=False, não?

In [3]:
df['age_label'] = pd.cut(df['age'], bins=[0, 20, 35, 110], labels=['Jr', 'Pleno', 'Senior'], right=False)
df

Unnamed: 0,user,age,age_label
0,Leo,0,Jr
1,Ju,19,Jr
2,Douglas,20,Pleno
3,Hudson,21,Pleno
4,Barth,34,Pleno
5,Vanessa,35,Senior
6,Kris,36,Senior
7,Ana,58,Senior
