# cut() - Definição

Essa função divide valores em intervalos discretos. É útil quando precisamos segmentar e classificar dados em compartimentos. É útil também quando vamos de uma variável contínua para uma variável categórica. Por exemplo, este método poderia converter idades em grupos de idades.

NÃO PULAR ETAPAS
NÃO PULAR ETAPAS 
VOCÊ VAI CHEGAR LÁ
RESILIÊNCIA
RESILIÊNCIA

# Sintaxe

    pandas.cut(x, bins)

* x: array de entrada a ser dividida em intervalos discretos

* bins: inteiros, sequência de escalares ou intervalo de índices

## Exemplos

### Exemplo 1) Discretiza em três intervalos de mesmo tamanho

In [63]:
import numpy as np
import pandas as pd

pd.cut(np.array([1, 7, 5, 4, 6, 3]), 3)

[(0.994, 3.0], (5.0, 7.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], (0.994, 3.0]]
Categories (3, interval[float64, right]): [(0.994, 3.0] < (3.0, 5.0] < (5.0, 7.0]]

<u>Interpretando o resultado</u>

* O valor 1 está entre (0.994, 3.0]
* O valor 7 está entre (5.0, 7.0]
* O valor 5 está entre (3.0, 5.0]

...

Podemos também personalizar os intervalos usando o parâmetro bins diretamente:

In [64]:
# Dividindo em intervalos personalizados
pd.cut(np.array([1, 7, 5, 4, 6, 3]), bins=[0, 3, 5, 7])

[(0, 3], (5, 7], (3, 5], (3, 5], (5, 7], (0, 3]]
Categories (3, interval[int64, right]): [(0, 3] < (3, 5] < (5, 7]]

No exemplo acima, os intervalos foram definidos como [0, 3], [3, 5], [5, 7]

### Exemplo 2) Atribuindo rótulos a bins

In [65]:
pd.cut(x=np.array([1, 7, 5, 4, 6, 3]), bins=3)

[(0.994, 3.0], (5.0, 7.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], (0.994, 3.0]]
Categories (3, interval[float64, right]): [(0.994, 3.0] < (3.0, 5.0] < (5.0, 7.0]]

In [66]:
pd.cut(x=np.array([1, 7, 5, 4, 6, 3]), bins=3, labels=["bad", "medium", "good"])

['bad', 'good', 'medium', 'medium', 'good', 'bad']
Categories (3, object): ['bad' < 'medium' < 'good']

# Exercício 1) Divisão em intervalos iguais

Tarefa:

1. Use o pd.cut para dividir os valores em 4 intervalos iguais.

2. Exiba os intervalos categóricos e verifique em qual intervalo cada valor pertence.

In [67]:
valores = np.array([10, 20, 15, 35, 50, 45, 60])

In [68]:
pd.cut(x=valores, bins=4)

[(9.95, 22.5], (9.95, 22.5], (9.95, 22.5], (22.5, 35.0], (47.5, 60.0], (35.0, 47.5], (47.5, 60.0]]
Categories (4, interval[float64, right]): [(9.95, 22.5] < (22.5, 35.0] < (35.0, 47.5] < (47.5, 60.0]]

In [69]:
# exibindo os intervalos categóricos
pd.cut(x=valores, bins=4).categories

IntervalIndex([(9.95, 22.5], (22.5, 35.0], (35.0, 47.5], (47.5, 60.0]], dtype='interval[float64, right]')

# Exercício 2) Intervalos Personalizados

Tarefa:

1. Divida as idades nos seguintes intervalos: [0-18], [19-35], [36-60], [61-80].

2. Atribua os intervalos como rótulos (labels): Infância, Juventude, Adulto, Idoso.

3. Exiba o resultado mostrando as idades e seus respectivos rótulos.

In [70]:
idades = np.array([12, 25, 30, 45, 50, 65, 75])

In [71]:
pd.cut(x=idades, bins=[0, 18, 35, 60, 80], labels=['Infância', 'Juventude', 'Adulto', 'Idoso'])

['Infância', 'Juventude', 'Juventude', 'Adulto', 'Adulto', 'Idoso', 'Idoso']
Categories (4, object): ['Infância' < 'Juventude' < 'Adulto' < 'Idoso']

In [72]:
valores = pd.cut(x=idades, bins=[0, 18, 35, 60, 80], labels=['Infância', 'Juventude', 'Adulto', 'Idoso'])
valores

['Infância', 'Juventude', 'Juventude', 'Adulto', 'Adulto', 'Idoso', 'Idoso']
Categories (4, object): ['Infância' < 'Juventude' < 'Adulto' < 'Idoso']

In [73]:
# criando lista com as categorias para cada idade
lista_rotulos = [i for i in valores]
lista_rotulos

['Infância', 'Juventude', 'Juventude', 'Adulto', 'Adulto', 'Idoso', 'Idoso']

In [74]:
idades

array([12, 25, 30, 45, 50, 65, 75])

In [77]:
# mostrando as idades e seus respectivos rótulos
dicionario = pd.DataFrame({'Idade': idades,
              'Categoria': lista_rotulos})
dicionario

Unnamed: 0,Idade,Categoria
0,12,Infância
1,25,Juventude
2,30,Juventude
3,45,Adulto
4,50,Adulto
5,65,Idoso
6,75,Idoso


# Exercício 3) Avaliação por Faixa

Tarefa:

1. Divida as notas em 3 categorias: Reprovado, Recuperação, Aprovado.
    * Reprovado: notas de 0 a 50.
    * Recuperação: notas de 51 a 75.
    * Aprovado: notas acima de 75.

2. Use o pd.cut para criar essas categorias.

3. Exiba as notas e suas respectivas classificações.

In [80]:
notas = np.array([50, 70, 85, 90, 40, 100, 65, 78])

In [84]:
valores = pd.cut(x=notas, bins=[0, 51, 76, 100], labels=['Reprovado', 'Recuperação', 'Aprovado'])
valores

['Reprovado', 'Recuperação', 'Aprovado', 'Aprovado', 'Reprovado', 'Aprovado', 'Recuperação', 'Aprovado']
Categories (3, object): ['Reprovado' < 'Recuperação' < 'Aprovado']

In [85]:
lista_rotulos = [i for i in valores]
lista_rotulos

['Reprovado',
 'Recuperação',
 'Aprovado',
 'Aprovado',
 'Reprovado',
 'Aprovado',
 'Recuperação',
 'Aprovado']

In [86]:
notas

array([ 50,  70,  85,  90,  40, 100,  65,  78])

In [87]:
dicionario = pd.DataFrame({'Nota': notas,
              'Situação': lista_rotulos})
dicionario

Unnamed: 0,Nota,Situação
0,50,Reprovado
1,70,Recuperação
2,85,Aprovado
3,90,Aprovado
4,40,Reprovado
5,100,Aprovado
6,65,Recuperação
7,78,Aprovado
