# Scales

## Categorías (Enumerados de toda la vida)
en pandas, el método astype('category') se utiliza para convertir una columna de un DataFrame a tipo categórico. Los tipos categóricos son útiles para representar variables que pueden tomar un número limitado de valores distintos (categorías). Utilizar tipos categóricos en lugar de tipos de texto (como 'object') generalmente mejora el rendimiento y reduce el uso de memoria, especialmente cuando se tiene un conjunto de datos grande con muchas repeticiones de las mismas categorías.

In [5]:
import pandas as pd
import numpy as np

# Crear un DataFrame con notas aleatorias para 50 estudiantes
np.random.seed(0)  # Para la reproducibilidad
notas = np.random.choice(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D', 'D-'], size=50)
df = pd.DataFrame({
    'Estudiante': [f'Estudiante_{i+1}' for i in range(50)],
    'Nota': notas
})

print("DataFrame original:")
print(df.head())  # Mostrar las primeras 5 filas

# Convertir la columna 'Nota' a tipo categórico
df['Nota'] = df['Nota'].astype('category')
df.dtypes

mis_categorias = pd.CategoricalDtype(
    categories=['D-', 'D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+', 'A-', 'A', 'A+'],
    ordered=True
)

df['Nota'] = df['Nota'].astype(mis_categorias)

DataFrame original:
     Estudiante Nota
0  Estudiante_1   B-
1  Estudiante_2   A+
2  Estudiante_3   B+
3  Estudiante_4   D-
4  Estudiante_5   B+


Importante notar que este orden puesto en la categoria de la columna luego nos servirá para hacer consultas de tipo, dame los alumnos que tenga 

## Transformar valores continuos en conjuntos discretos

La función pd.cut en pandas es una herramienta muy útil para segmentar y clasificar los valores en diferentes contenedores o "bins". Esta función se usa a menudo para transformar variables continuas en variables categóricas discretas. Los bins son creados con base en valores que tú especifiques, intervalos o frecuencias.

In [7]:

import pandas as pd

#Datos de ejemplo: notas numéricas de 50 estudiantes
notas = [85, 90, 77, 60, 49, 73, 95, 92, 88, 76,
         60, 74, 80, 55, 98, 78, 52, 91, 89, 68,
         76, 72, 94, 79, 64, 70, 85, 93, 88, 66,
         57, 82, 81, 51, 69, 78, 90, 83, 77, 75,
         58, 94, 68, 84, 64, 91, 63, 70, 59, 87]

df = pd.DataFrame({'Nota_num': notas})

# Definir los límites de los bins
bins = [0, 59, 69, 79, 89, 100]

# Definir las etiquetas para los bins
labels = ['F', 'D', 'C', 'B', 'A']

# Crear una nueva columna con las categorías
df['Nota_letra'] = pd.cut(df['Nota_num'], bins=bins, labels=labels)

print(df)


    Nota_num Nota_letra
0         85          B
1         90          A
2         77          C
3         60          D
4         49          F
5         73          C
6         95          A
7         92          A
8         88          B
9         76          C
10        60          D
11        74          C
12        80          B
13        55          F
14        98          A
15        78          C
16        52          F
17        91          A
18        89          B
19        68          D
20        76          C
21        72          C
22        94          A
23        79          C
24        64          D
25        70          C
26        85          B
27        93          A
28        88          B
29        66          D
30        57          F
31        82          B
32        81          B
33        51          F
34        69          D
35        78          C
36        90          A
37        83          B
38        77          C
39        75          C
40        58    

In [8]:
import pandas as pd
(pd.Timestamp('11/29/2019') + pd.offsets.MonthEnd()).weekday()

5

In [9]:
import pandas as pd
pd.Period('01/12/2019', 'M') + 5

Period('2019-06', 'M')