In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# #12.1 (Categorical Data)

* Background and Motivation

In [None]:
import random

In [44]:
# A funcão take reconhece um Series como um parâmtro de identificação de outro Series

# Vamos supor que somos donos de uma hamburgueria e servimos três lanches (x-salada, x-egg e x-bacon)
# Cada lanche terá o seu próprio código
d = {'x-salada' : 0, 'x-egg': 1, 'x-bacon' : 2}
produtos = pd.Series([produto for produto in d.keys()])

# Com o nosso Series de produtos criado, vamos criar um Series de um dia de vendas de lanches
# Cada vez que um produto é vendido, seu código é computado em um Series do pandas
# Portanto, vamos ter, para um dia em que vendemos 20 lanches:
pedidos = pd.Series([np.random.randint(0, 3) for i in range(20)])
pedidos.sort_values(inplace=True)

# Agora, vamos traduzir cada código do Series de pedidos para o seu respectivo lanche

produtos.take(pedidos)


0    x-salada
0    x-salada
0    x-salada
1       x-egg
1       x-egg
1       x-egg
1       x-egg
1       x-egg
1       x-egg
1       x-egg
2     x-bacon
2     x-bacon
2     x-bacon
2     x-bacon
2     x-bacon
2     x-bacon
2     x-bacon
2     x-bacon
2     x-bacon
2     x-bacon
dtype: object

* Categorical Type in pandas

In [65]:
# O pandas possui uma espécie de modalidade de agrupamento de dados conhecido como pd.Categorical
# Ele é capaz de categorizar dados de um DF ou Series numericamente

# Como prática, vamos utilizar a lista de atletas que participaram da última Olimpíada de Tóquio
atletas = pd.read_excel('Athletes.xlsx')

# Nas Olimpíadas, cada atleta aqui compete por um determinado esporte
# Nesse sentido, podemos categorizar cada esporte olímpico com um número!

atletas['Discipline'] = atletas['Discipline'].astype('category')

# Acabamos de converter a coluna Disciplines para o tipo category!
atletas.dtypes

# As 46 modalidades de esporte foram categorizadas com sucesso!
atletas['Discipline']

0               Cycling Road
1        Artistic Gymnastics
2                     Rowing
3                 Basketball
4                 Basketball
                ...         
11080                 Hockey
11081           Canoe Slalom
11082               Shooting
11083                Sailing
11084                Archery
Name: Discipline, Length: 11085, dtype: category
Categories (46, object): ['3x3 Basketball', 'Archery', 'Artistic Gymnastics', 'Artistic Swimming', ..., 'Volleyball', 'Water Polo', 'Weightlifting', 'Wrestling']

In [75]:
# Voltando ao exemplo da hamburgueria, podemos categorizar cada lanche com um determindo código
d = {'x-salada' : 0, 'x-egg': 1, 'x-bacon' : 2}
produtos = [produto for produto in d.keys()]
pedidos = [np.random.randint(0, len(produtos)) for i in range(20)]
print(pedidos)

pd.Categorical.from_codes(pedidos, produtos)

[1, 0, 2, 0, 1, 0, 1, 1, 0, 1, 2, 1, 2, 2, 2, 0, 2, 1, 2, 2]


['x-egg', 'x-salada', 'x-bacon', 'x-salada', 'x-egg', ..., 'x-salada', 'x-bacon', 'x-egg', 'x-bacon', 'x-bacon']
Length: 20
Categories (3, object): ['x-salada', 'x-egg', 'x-bacon']

In [93]:
# Podemos também ordenar as categorias criadas
# Digamos que, em um jogo de tiro, temos quatro ranking de jogadores (bronze, prata, ouro, diamante)
# No entanto, um bug ocorreu no jogo, ao invés de mostrar o nome da categoria, o resultado final de uma partida
# está mostrando apenas o código de categoria dos jogadores

# Vamos consertar o erro!
deathmatch = pd.read_csv('deathmatch.csv', index_col=0, sep=',', skipinitialspace=True)
categories = ['Bronze', 'Silver', 'Gold', 'Diamond']
display(deathmatch)

# Vamos impor uma hierarquia em nossa categotização
deathmatch.rename(columns={'Category_Code':'Category'}, inplace=True)
deathmatch['Category'] = pd.Categorical.from_codes(deathmatch['Category'], categories)
deathmatch

Unnamed: 0_level_0,Category_Code,Team,Kills,Deaths
Player,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Pedro,3,Blue,23,5
Guilherme,0,Blue,12,6
João L.,1,Red,1,8
Kássio F.,2,Blue,12,3
Luís,1,Red,14,2
Olivio,3,Blue,20,0
Felipe V.,2,Red,12,3
Lauro,0,Blue,6,5
Pedro M.,1,Blue,11,3
Fabricio,2,Blue,1,3


Unnamed: 0_level_0,Category,Team,Kills,Deaths
Player,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Pedro,Diamond,Blue,23,5
Guilherme,Bronze,Blue,12,6
João L.,Silver,Red,1,8
Kássio F.,Gold,Blue,12,3
Luís,Silver,Red,14,2
Olivio,Diamond,Blue,20,0
Felipe V.,Gold,Red,12,3
Lauro,Bronze,Blue,6,5
Pedro M.,Silver,Blue,11,3
Fabricio,Gold,Blue,1,3
