In [2]:
import pandas as pd

# Aqui está um exemplo. Vamos criar um dataframe de notas de letras em ordem decrescente. Também podemos definir um índice
#valor e aqui vamos apenas fazer um julgamento humano de quão bom um aluno foi, como "excelente" ou "bom"
df=pd.DataFrame(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D'],
                index=['excellent', 'excellent', 'excellent', 'good', 'good', 'good', 
                       'ok', 'ok', 'ok', 'poor', 'poor'],
               columns=["Grades"])
df

Unnamed: 0,Grades
excellent,A+
excellent,A
excellent,A-
good,B+
good,B
good,B-
ok,C+
ok,C
ok,C-
poor,D+


In [4]:
# Agora, se verificarmos o tipo de dados desta coluna, veremos que é apenas um objeto, pois definimos valores de string
df.dtypes

Grades    object
dtype: object

In [5]:
# Podemos, no entanto, dizer aos pandas que queremos alterar o tipo para categoria, usando a função astype()
df["Grades"].astype("category").head()

excellent    A+
excellent     A
excellent    A-
good         B+
good          B
Name: Grades, dtype: category
Categories (11, object): ['A', 'A+', 'A-', 'B', ..., 'C+', 'C-', 'D', 'D+']

In [7]:
# Vemos agora que existem onze categorias, e os pandas estão cientes de quais são essas categorias. Mais
# interessante é que nossos dados não são apenas categóricos, mas também ordenados. Ou seja, um A- vem
# depois de um B+, e B vem antes de um B+. Podemos dizer aos pandas que os dados são ordenados criando primeiro um novo
# tipo de dados categórico com a lista das categorias (em ordem) e o sinalizador order=True
my_categories=pd.CategoricalDtype(categories=['D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+', 'A-', 'A', 'A+'], 
                           ordered=True)

#agora vamos passar a lista para nossa função astype()
grades=df["Grades"].astype(my_categories)
grades.head()

excellent    A+
excellent     A
excellent    A-
good         B+
good          B
Name: Grades, dtype: category
Categories (11, object): ['D' < 'D+' < 'C-' < 'C' ... 'B+' < 'A-' < 'A' < 'A+']

In [8]:
# Agora vemos que os pandas não estão apenas cientes de que existem 11 categorias, mas também estão cientes da ordem de
# essas categorias. Então, o que você pode fazer com isso? Bem, porque há um pedido, isso pode ajudar
# comparações e mascaramento booleano. Por exemplo, se tivermos uma lista de nossas notas e as compararmos com um “C”
# vemos que a comparação lexicográfica retorna resultados que não pretendíamos.
df[df["Grades"]>"C"]

Unnamed: 0,Grades
ok,C+
ok,C-
poor,D+
poor,D


In [9]:
# Então um C+ é melhor que um C, mas um C- e um D certamente não são. No entanto, se transmitirmos pelo dataframe
# que tem o tipo definido como um categórico ordenado pela lista que criamos
grades[grades>"C"]

excellent    A+
excellent     A
excellent    A-
good         B+
good          B
good         B-
ok           C+
Name: Grades, dtype: category
Categories (11, object): ['D' < 'D+' < 'C-' < 'C' ... 'B+' < 'A-' < 'A' < 'A+']

In [10]:
# Vemos que o operador funciona como esperávamos. Podemos então usar um certo conjunto de operadores matemáticos,
# como mínimo, máximo, etc., nos dados ordinais.

In [12]:
# Às vezes é útil representar valores categóricos como cada um sendo uma coluna com um verdadeiro ou um falso para
# se a categoria se aplica. Isso é especialmente comum na extração de recursos, que é um tópico nos dados
#curso de mineração. Variáveis ​​com um valor booleano são normalmente chamadas de variáveis ​​fictícias, e pandas tem um
# na função chamada get_dummies que irá converter os valores de uma única coluna em várias colunas de
# zeros e uns indicando a presença da variável dummy. Raramente uso, mas quando uso é muito
# acessível.

In [14]:

# Há mais uma operação baseada em escala comum sobre a qual gostaria de falar, e é a conversão de uma escala de
# algo que está na escala de intervalo ou razão, como uma nota numérica, em uma que é categórica. Agora,
# isso pode parecer um pouco contra intuitivo para você, já que você está perdendo informações sobre o valor. Mas é
# comumente feito em alguns lugares. Por exemplo, se você estiver visualizando as frequências de categorias,
# esta pode ser uma abordagem extremamente útil, e os histogramas são usados ​​regularmente com intervalo ou proporção convertidos
# dados. Além disso, se você estiver usando uma abordagem de classificação de aprendizado de máquina em dados, precisará usar
# dados categóricos, portanto, reduzir a dimensionalidade pode ser útil apenas para aplicar uma determinada técnica. Pandas tem um
# função chamada cut que recebe como argumento alguma estrutura tipo array como uma coluna de um dataframe ou um
# Series. Também são necessários vários compartimentos para serem usados, e todos os compartimentos são mantidos com espaçamento igual.
 
# Vamos voltar aos nossos dados do censo para dar um exemplo. Vimos que poderíamos agrupar por estado e depois agregar para obter um
# lista do tamanho médio do condado por estado. Se aplicarmos mais corte a isso com, digamos, dez caixas, podemos ver
# os estados listados como categóricos usando o tamanho médio do condado.

# vamos trazer numpy
import numpy as np

# nosso dataset 
df=pd.read_csv("/content/census.csv")

# e pegar apenas o SUMLEV == 50
df=df[df['SUMLEV']==50]

# e vamos olhar para um grupo
df=df.set_index('STNAME').groupby(level=0)['CENSUS2010POP'].agg(np.average)

df.head()

STNAME
Alabama        71339.343284
Alaska         24490.724138
Arizona       426134.466667
Arkansas       38878.906667
California    642309.586207
Name: CENSUS2010POP, dtype: float64

In [15]:
# Agora, se quisermos apenas fazer "bins" de cada um deles, podemos usar cut()
pd.cut(df,10)

STNAME
Alabama                   (11706.087, 75333.413]
Alaska                    (11706.087, 75333.413]
Arizona                 (390320.176, 453317.529]
Arkansas                  (11706.087, 75333.413]
California              (579312.234, 642309.586]
Colorado                 (75333.413, 138330.766]
Connecticut             (390320.176, 453317.529]
Delaware                (264325.471, 327322.823]
District of Columbia    (579312.234, 642309.586]
Florida                 (264325.471, 327322.823]
Georgia                   (11706.087, 75333.413]
Hawaii                  (264325.471, 327322.823]
Idaho                     (11706.087, 75333.413]
Illinois                 (75333.413, 138330.766]
Indiana                   (11706.087, 75333.413]
Iowa                      (11706.087, 75333.413]
Kansas                    (11706.087, 75333.413]
Kentucky                  (11706.087, 75333.413]
Louisiana                 (11706.087, 75333.413]
Maine                    (75333.413, 138330.766]
Maryland     

In [None]:
# Aqui vemos que estados como o alabama e o alasca se enquadram na mesma categoria, enquanto a Califórnia e o
# distrito de columbia se enquadra em uma categoria muito diferente.

# Agora, cortar é apenas uma maneira de construir categorias a partir de seus dados, e existem muitos outros métodos. Por
# instância, cut fornece dados de intervalo, onde o espaçamento entre cada categoria é de tamanho igual. Mas às vezes
# você deseja formar categorias com base na frequência - você deseja que o número de itens em cada caixa seja o
# mesmo, em vez do espaçamento entre os compartimentos. Isso realmente depende de qual é a forma de seus dados e quais
# você está planejando fazer com isso.