# Dados Categorizados

### O tipo Categorical do Pandas é um objeto usado para representar qualquer outro tipo de dado por meio de inteiros, sendo o custo computacional para se trabalhar com Categorical, em vez dos dados em si, relativamente baixo. Os dados categorizados são amplamente usados nos modelos de Machine Learning, sendo a presença de um certo dado representada pelo inteiro 1, e a ausência por 0.

## Bibliotecas

In [1]:
import pandas as pd
import numpy as np

## Criando um objeto Categorical

### pd.Categorical()
#### Cria um objeto Categorical

In [2]:
cat1 = pd.Categorical(['bmw', 'honda', 'kawasaki', 'suzuki'])
cat1

['bmw', 'honda', 'kawasaki', 'suzuki']
Categories (4, object): ['bmw', 'honda', 'kawasaki', 'suzuki']

In [3]:
type(cat1) # Tipo Categorical.

pandas.core.arrays.categorical.Categorical

In [4]:
cod = [1, 2, 3, 0, 2]

# Criando uma categoria ordenada a partir de uma lista de códigos e outra categoria.
pd.Categorical.from_codes(cod, cat1, ordered=True)

['honda', 'kawasaki', 'suzuki', 'bmw', 'kawasaki']
Categories (4, object): ['bmw' < 'honda' < 'kawasaki' < 'suzuki']

### astype('category')
#### Cria uma Series categórica com base na instância.

In [5]:
frutas = pd.Series(['laranja', 'maçã', 'melão', 'maçã'] * 2)
frutas

0    laranja
1       maçã
2      melão
3       maçã
4    laranja
5       maçã
6      melão
7       maçã
dtype: object

In [6]:
frutas_cat = frutas.astype('category')
frutas_cat

0    laranja
1       maçã
2      melão
3       maçã
4    laranja
5       maçã
6      melão
7       maçã
dtype: category
Categories (3, object): ['laranja', 'maçã', 'melão']

In [7]:
type(frutas_cat) # Ainda é uma Series.

pandas.core.series.Series

In [8]:
# O atributo especial cat permite que usemos atributos de objetos Categorical em Series.
frutas_cat.cat.categories

Index(['laranja', 'maçã', 'melão'], dtype='object')

In [9]:
frutas_cat.cat.codes

0    0
1    1
2    2
3    1
4    0
5    1
6    2
7    1
dtype: int8

In [10]:
v = frutas_cat.values
v

['laranja', 'maçã', 'melão', 'maçã', 'laranja', 'maçã', 'melão', 'maçã']
Categories (3, object): ['laranja', 'maçã', 'melão']

In [11]:
type(v)

pandas.core.arrays.categorical.Categorical

### dtype='category'
#### Pode-se criar um série categórica ao passar o tipo dtype='category' como argumento em um método contrutivo de Series.

In [12]:
s1 = pd.Series(['Brasil', 'Argentina', 'Chile', 'Ilhas Maldivas'], dtype='category')
s1

0            Brasil
1         Argentina
2             Chile
3    Ilhas Maldivas
dtype: category
Categories (4, object): ['Argentina', 'Brasil', 'Chile', 'Ilhas Maldivas']

### Categorical com pd.cut()/pd.qcut()
#### As funções pd.cut() e pd.qcut() retornam objetos Categorical.

In [13]:
s2 = pd.Series(np.random.randn(1000) * 10) # 1000 valores.
s2[:10]

0     6.111098
1   -16.206420
2    -6.487411
3     9.584813
4    -1.690331
5     6.161233
6    15.995411
7     2.137640
8    12.312193
9     2.941417
dtype: float64

In [14]:
cat2 = pd.qcut(s2, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
cat2[:10]

0    Q3
1    Q1
2    Q1
3    Q4
4    Q2
5    Q3
6    Q4
7    Q3
8    Q4
9    Q3
dtype: category
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [15]:
resultado = s2.groupby(cat2).agg([('Quantidade', 'count'), 
                                  ('Média', 'mean'), 
                                  ('Mínimo', 'min'), 
                                  ('Máximo', 'max')]).reset_index().rename(columns={'index': 'Quartil'})
resultado

Unnamed: 0,Quartil,Quantidade,Média,Mínimo,Máximo
0,Q1,250,-12.459991,-34.30633,-6.37205
1,Q2,250,-3.120186,-6.364648,0.21029
2,Q3,250,3.432167,0.239357,7.114624
3,Q4,250,13.630762,7.194396,29.67771


In [16]:
cat3 = pd.Series(['casa', 'carro', 'moto', 'gasolina', 'remédios'] * 100000) # 500000 valores.
cat4 = cat3.astype('category')
cat4

0             casa
1            carro
2             moto
3         gasolina
4         remédios
            ...   
499995        casa
499996       carro
499997        moto
499998    gasolina
499999    remédios
Length: 500000, dtype: category
Categories (5, object): ['carro', 'casa', 'gasolina', 'moto', 'remédios']

In [17]:
# Comparando o uso de memória de dados comuns e dados categorizados.
cat3.memory_usage(), cat4.memory_usage()

(4000128, 500328)

-------------------------------------------------------------------------------------------------------

## Métodos para Categoricals

### set_categories()
#### Atualizada as categorias de um Categorical.

In [18]:
cod = [0, 1, 2, 1] * 2
cat5 = pd.Categorical.from_codes(cod, ['laranja', 'maçã', 'melão'])
cat5

['laranja', 'maçã', 'melão', 'maçã', 'laranja', 'maçã', 'melão', 'maçã']
Categories (3, object): ['laranja', 'maçã', 'melão']

In [19]:
cat6 = cat5.set_categories(['laranja', 'maçã', 'pêra', 'abacaxi'])
cat6

['laranja', 'maçã', NaN, 'maçã', 'laranja', 'maçã', NaN, 'maçã']
Categories (4, object): ['laranja', 'maçã', 'pêra', 'abacaxi']

### value_counts()
#### Conta os valores por categoria.

In [20]:
cat6.value_counts()

laranja    2
maçã       4
pêra       0
abacaxi    0
dtype: int64

### remove_unused_categories()
#### Exclui categorias que não são usadas.

In [21]:
cat6.remove_unused_categories()

['laranja', 'maçã', NaN, 'maçã', 'laranja', 'maçã', NaN, 'maçã']
Categories (2, object): ['laranja', 'maçã']