# Capítulo 5: Dados categóricos

[Referência](https://riptutorial.com/pandas)

### Introdução

Categóricos são um tipo de dados pandas, que correspondem a variáveis categóricas em estatísticas: uma variável, que pode assumir apenas um número limitado e geralmente fixo de valores possíveis (categorias; níveis em R). Os exemplos são gênero, classe social, tipo sanguíneo, afiliação de país, tempo de observação ou classificações por meio de escalas Likert. 

### Exemplos

Criação de Objetos

In [2]:
import pandas as pd

In [3]:
s = pd.Series(["a","b","c","a","c"], dtype="category")

s

0    a
1    b
2    c
3    a
4    c
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [4]:
df = pd.DataFrame({"A":["a","b","c","a", "c"]})

df

Unnamed: 0,A
0,a
1,b
2,c
3,a
4,c


In [5]:
df["B"] = df["A"].astype('category')

df

Unnamed: 0,A,B
0,a,a
1,b,b
2,c,c
3,a,a
4,c,c


In [6]:
df["C"] = pd.Categorical(df["A"])

df

Unnamed: 0,A,B,C
0,a,a,a
1,b,b,b
2,c,c,c
3,a,a,a
4,c,c,c


In [7]:
df.dtypes

A      object
B    category
C    category
dtype: object

### Criação de grandes conjuntos de dados aleatórios

In [8]:
import numpy as np

In [9]:
df = pd.DataFrame(np.random.choice(['foo','bar','baz'], size=(100000,3)))

df

Unnamed: 0,0,1,2
0,bar,bar,baz
1,foo,foo,baz
2,baz,foo,baz
3,bar,baz,foo
4,bar,bar,bar
...,...,...,...
99995,bar,baz,baz
99996,baz,baz,bar
99997,foo,bar,foo
99998,bar,foo,bar


In [10]:
df = df.apply(lambda col: col.astype('category'))

df

Unnamed: 0,0,1,2
0,bar,bar,baz
1,foo,foo,baz
2,baz,foo,baz
3,bar,baz,foo
4,bar,bar,bar
...,...,...,...
99995,bar,baz,baz
99996,baz,baz,bar
99997,foo,bar,foo
99998,bar,foo,bar


In [11]:
df.head()

Unnamed: 0,0,1,2
0,bar,bar,baz
1,foo,foo,baz
2,baz,foo,baz
3,bar,baz,foo
4,bar,bar,bar


In [12]:
df.dtypes

0    category
1    category
2    category
dtype: object

In [13]:
df.shape

(100000, 3)

Leia os [dados categóricos](https://riptutorial.com/pandas/topic/3887/categorical-data) online.