#### Tipos de datos y Escalas

Pandas soporta una variedad de tipos de datos computacionales como cadenas, enteros y números de coma flotante. Sin embargo, estos tipos no siempre capturan completamente la escala o naturaleza de los datos. Existen cuatro escalas importantes: proporciones, intervalos, ordinales y nominales.

    1- Escala de Proporciones: Las unidades de medida están igualmente espaciadas y todas las operaciones matemáticas (suma, resta, multiplicación, división) son válidas. Ejemplos incluyen altura y peso.

    2- Escala de Intervalos: Las unidades de medida están igualmente espaciadas, pero no hay un cero verdadero, por lo que las operaciones como la multiplicación y la división no son aplicables. Ejemplos son la temperatura en Celsius o Fahrenheit.

    3- Escala Ordinal: El orden de los valores es significativo, pero las diferencias entre valores no son uniformes. Un ejemplo es el sistema de calificación con letras donde las categorías tienen un orden, pero las diferencias entre las letras pueden variar.

    4- Escala Nominal: Los datos son categóricos y el orden no tiene significado inherente. Ejemplos son los nombres de equipos en deportes.

Comprender estas escalas es crucial para aplicar pruebas estadísticas avanzadas y algoritmos de aprendizaje automático. Las diferencias en las escalas pueden afectar la interpretación de los datos y la selección de métodos analíticos adecuados.

Pandas ofrece soporte para datos categóricos a través del método .astype('category'). Esto permite tratar datos como categorías ordenadas o no ordenadas, lo cual es útil para comparaciones y operaciones específicas en análisis de datos.

##### Operaciones y transformaciones especificas

    Variables Ficticias: La función get_dummies() de Pandas convierte variables categóricas en columnas de 0s y 1s, facilitando su uso en algoritmos de aprendizaje automático y minería de datos.

    Transformación de Escalas: La función cut() se utiliza para convertir datos de escala de intervalo o proporción en datos categóricos. Esto es útil para visualizaciones o análisis donde la representación categórica es preferida.



In [None]:
import pandas as pd

df=pd.DataFrame(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D'],
                index=['excellent', 'excellent', 'excellent', 'good', 'good', 'good', 
                       'ok', 'ok', 'ok', 'poor', 'poor'],
               columns=["Grades"])


In [None]:
df.dtypes

In [None]:
# pd.CategoricalDtype: Esta función de Pandas crea un tipo de datos categórico ordenado. Se le 
# pasa una lista de categorías (categories) que representan las diferentes calificaciones, desde 
# 'D' hasta 'A+'.

# ordered=True: Indica que estas categorías tienen un orden definido, lo cual es crucial para 
# interpretaciones como comparaciones y operaciones que dependen del orden de las categorías.

my_categories=pd.CategoricalDtype(categories=['D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+', 'A-', 'A', 'A+'], 
                           ordered=True)

grades=df["Grades"].astype(my_categories)
grades.head()

In [None]:
# al tener orden nos permite usar operadores de comparación
df[df["Grades"]>"C"]

In [None]:
import numpy as np

df=pd.read_csv("../datasets/census.csv")
df=df[df['SUMLEV']==50]

df=df.set_index('STNAME').groupby(level=0)['CENSUS2010POP'].agg(np.average)
df.head()
pd.cut(df,10)

In [None]:
# pd.cut(df, 10): Divide los valores en la serie df en 10 intervalos iguales. Esta 
# función es útil para crear categorías discretas (bins) basadas en valores numéricos 
# continuos, como en este caso, la población promedio del censo.

pd.cut(df,10)