# pandas.api.types.CategoricalDtype

Doc: [pandas.api.types.CategoricalDtype](https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.api.types.CategoricalDtype.html)

Defina uma ordem para as variáveis categóricas.

No DataFrame a seguir temos a coluna __Escolaridade__. Nosso objetivo é definir a seguinte ordem de categorias:
* Fundamental < Médio < Graduação < Pós-graduação < Mestrado < Doutorado

In [1]:
import pandas as pd

df = pd.read_excel('data.xlsx', index_col='ID')
df

Unnamed: 0_level_0,Escolaridade,Ano
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Pós-graduação,2018
2,Doutorado,2018
3,Fundamental,2001
4,Médio,2004
5,Graduação,2012
6,Doutorado,2019
7,Mestrado,2016
8,Mestrado,2018
9,Pós-graduação,2014
10,Pós-graduação,2017


In [2]:
from pandas.api.types import CategoricalDtype

# Criação do objeto com a ordem das categorias
categorical_dtype = CategoricalDtype(['Fundamental', 'Médio', 'Graduação', 'Pós-graduação', 'Mestrado', 'Doutorado'], ordered=True)

# Definando o tipo para a coluna Escolaridade
df.Escolaridade = df.Escolaridade.astype(categorical_dtype)

## Exemplo 1
Ordenamos nosso DataFrame pelo nível de Escolaridade.

In [3]:
df.sort_values('Escolaridade')

Unnamed: 0_level_0,Escolaridade,Ano
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
3,Fundamental,2001
4,Médio,2004
5,Graduação,2012
1,Pós-graduação,2018
9,Pós-graduação,2014
10,Pós-graduação,2017
7,Mestrado,2016
8,Mestrado,2018
11,Mestrado,2017
2,Doutorado,2018


## Exemplo 2
Selecionamos os usuários com nível de escolaridade igual ou superior a "Pós-graduação".

In [4]:
df[df.Escolaridade >= 'Pós-graduação'] \
    .sort_values(by='Escolaridade')

Unnamed: 0_level_0,Escolaridade,Ano
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Pós-graduação,2018
9,Pós-graduação,2014
10,Pós-graduação,2017
7,Mestrado,2016
8,Mestrado,2018
11,Mestrado,2017
2,Doutorado,2018
6,Doutorado,2019
