### 📘 Talleres de Ingeniería de Datos con Pandas y Polars 🐼🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars   
📓 Estos talleres constarán de 3 niveles (Básico-Intermedio-Avanzado)   
🔍 Abarcará temas desde Fundamentos de Data Wrangling hacia Casos de Uso Avanzado   
📝 Cada ejercicio presenta su enunciado, dataset, resultado esperado y solución.   


#### FUNDAMENTOS DE DATA WRANGLING (MANIPULACIÓN DE DATOS)

##### 🥉 NIVEL BÁSICO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ Solución
df_uno = sns.load_dataset("titanic")
# df_uno.head()
# df_uno[["age","embarked","deck"]].isnull().sum() ## ➡️ Cantidad de datos nulos: age(177) - embarked(2) - deck(688)

"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = pd.DataFrame(dict_data)
# df_dos.head()
# df_dos.shape[0] ## ➡️ Cantidad de datos: 7
df_dos.drop_duplicates(subset=["id","nombre","edad"],keep="first",inplace=True)
# df_dos.head()
df_dos.shape[0] ## ➡️ Cantidad de datos: 5


"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = sns.load_dataset("penguins")
# df_tres.head()
# df_tres["bill_length_mm"].isnull().sum() ## ➡️ Cantidad de datos nulos: 2
media_bill_length_mm = float(np.mean(df_tres["bill_length_mm"].dropna()).round(2))
df_tres.fillna({"bill_length_mm":media_bill_length_mm},inplace=True)
df_tres["bill_length_mm"].isnull().sum() ## ➡️ Cantidad de datos nulos: 0



np.int64(0)

###### POLARS 🐻‍❄️

In [None]:
import polars as pl
import numpy as np
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ Solución
df_uno = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_uno.head()
df_uno.null_count()

"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = pl.DataFrame(dict_data)
# df_dos.head()
df_dos = df_dos.unique(keep="first")
df_dos.head()

"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = pl.read_csv("../datasets/penguins.csv",separator=",")
# df_tres.head()
# df_tres["bill_length_mm"].null_count() ## ➡️ Cantidad Nulos: 2
media_bill_length_mm = df_tres["bill_length_mm"].mean().__round__(2)
media_bill_length_mm
df_tres = df_tres.with_columns(
    pl.col("bill_length_mm").fill_null(media_bill_length_mm).alias("bill_length_mm")
)
# df_tres.head()
df_tres["bill_length_mm"].null_count() ## ➡️ Cantidad Nulos: 0

0

##### 🥈 NIVEL INTERMEDIO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np

"""
4. Imputación condicional de valores faltantes

🗃️ Dataset: TITANIC
🗒️ Enunciado: Completa los valores faltantes de age con la edad promedio por clase (pclass).
✍️ Resultado esperado: columna age sin valores nulos, imputada según clase de pasajero.

"""
## ✔️ Solución
df_cuatro = sns.load_dataset("titanic")
# df_cuatro.head()
# df_cuatro["age"].isnull().sum() ## ➡️ Cantidad de datos nulos: 177
edad_promedio_por_clase = df_cuatro.groupby("pclass",as_index=False,observed=True)["age"].mean().round(2)
edad_promedio_por_clase
# df_cuatro["age"].isnull().sum() ## ➡️ Cantidad de datos nulos: 177

df_cuatro_clean = df_cuatro.copy()
df_cuatro_clean[df_cuatro_clean["pclass"]==1] = df_cuatro_clean[df_cuatro_clean["pclass"]==1].fillna({
    "age":float(edad_promedio_por_clase.query('pclass==1')["age"][0])
})
df_cuatro[df_cuatro["pclass"]==2] = df_cuatro[df_cuatro["pclass"]==2].fillna({
    "age":float(edad_promedio_por_clase.query('pclass==2')["age"][1])
})
df_cuatro[df_cuatro["pclass"]==3] = df_cuatro[df_cuatro["pclass"]==3].fillna({
    "age":float(edad_promedio_por_clase.query("pclass==3")["age"][2])
})
# df_cuatro_clean[df_cuatro_clean["pclass"]==1].isnull().sum() ## Cantidad: 0
# df_cuatro_clean[df_cuatro_clean["pclass"]==2].isnull().sum() ## Cantidad: 0
# df_cuatro_clean[df_cuatro_clean["pclass"]==3].isnull().sum() ## Cantidad: 0


"""
5. Detección de outliers usando IQR

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica los valores de ventas que son outliers según el rango intercuartílico (IQR).
✍️ Resultado esperado: listado de los productos que presentan valores anómalos.

"""
## ✔️ Solución
diccionario_cinco = {
 "producto": ["A","B","C","D","E","F"],
 "ventas": [120, 130, 115, 1000, 140, 135]
}
df_cinco = pd.DataFrame(diccionario_cinco)
# df_cinco.head()
# df_cinco.describe()
q1_ventas = float(np.quantile(df_cinco["ventas"],0.25))
q3_ventas = float(np.quantile(df_cinco["ventas"],0.75))
iqr_ventas = q3_ventas-q1_ventas
lower_bound_ventas = q1_ventas - 1.5 * iqr_ventas
upper_bound_ventas = q3_ventas + 1.5 * iqr_ventas
df_cinco_outliers = df_cinco[(df_cinco["ventas"]<lower_bound_ventas) | (df_cinco["ventas"]>upper_bound_ventas)]
# df_cinco_outliers.head()
df_cinco_outliers.shape[0] ## CANTIDAD DE OUTLIERS EN COLUMNA VENTAS: 1


"""
6. Eliminación selectiva de duplicados

🗃️ Dataset: Diamonds
🗒️ Enunciado: En el dataset de diamantes, elimina duplicados basados solo en las columnas carat y price.
✍️ Resultado esperado: DataFrame sin duplicados en esas dos columnas, pero manteniendo el resto de filas.

"""
## ✔️ Solución
df_seis = sns.load_dataset("diamonds")
df_seis.head()
# df_seis.shape[0] ## 53940 DATOS
# df_seis["carat"].duplicated().sum() ## 53 667 DATOS DUPLICADOS EN ESTA COLUMNA
# df_seis["price"].duplicated().sum() ## 42 338 DATOS DUPLICADOS EN ESTA COLUMNA
# df_seis.drop_duplicates(subset=["carat","price"],inplace=True)
# df_seis.shape[0] ## 28988 DATOS DESPUES DE REMOVER DUPLICADOS


"""
7. Relleno de valores faltantes con interpolación

🗃️ Dataset: Diccionario
🗒️ Enunciado: Rellena los valores nulos de la columna temperatura mediante interpolación lineal.
✍️ Resultado esperado: columna completa sin valores nulos, con estimaciones suaves.

"""
## ✔️ Solución
diccionario_siete = {
    "fecha": pd.date_range("2024-01-01", periods=10),
    "temperatura": [21,22,None,24,25,None,None,28,29,30]
}
df_siete = pd.DataFrame(diccionario_siete)
df_siete_interpolado = df_siete.copy()
df_siete_interpolado = df_siete_interpolado.interpolate(method="linear")
df_siete_interpolado.head()



"""
8. Conteo de valores faltantes combinados

🗃️ Dataset: Penguins
🗒️ Enunciado: Calcula el número de registros que tienen valores nulos simultáneamente
    en las columnas bill_length_mm y bill_depth_mm.
✍️ Resultado esperado: un número entero que indique cuántos registros cumplen esta condición.

"""
## ✔️ Solución
df_ocho = sns.load_dataset("penguins")
# df_ocho.head()
df_ocho[["bill_length_mm","bill_depth_mm"]].isnull().sum() ## ⬅️ Cantidad de datos nulos en ambas columnas (bill_length_mm:2 - bill_depth_mm: 2).
df_ocho_nulos = df_ocho[(df_ocho["bill_length_mm"].isnull()==True) & (df_ocho["bill_depth_mm"].isnull()==True)]
df_ocho_nulos.shape[0] ## ⬅️ Cantidad de valores nulos simultaneos en ambas columnas: 2

#--- En caso no haya entendido el concepto, te dejo este otro ejemplo 👍.
df_example = pd.DataFrame(data=[[1,None],[None,2],[None,None]],columns=["A","B"])
# df_example.head() ## ⬅️ Como podremos observar hay un match en dos registros de la fila A y B que son nulos.
cantidad_nulos = df_example[(df_example["A"].isnull()==True) & (df_example["B"].isnull()==True)]
cantidad_nulos.shape[0] ## ⬅️ Cantidad de valores nulos simultaneos en ambas columnas: 1



1

###### POLARS 🐻‍❄️

In [None]:
import polars as pl
import pandas as pd
import numpy as np
"""
4. Imputación condicional de valores faltantes

🗃️ Dataset: TITANIC
🗒️ Enunciado: Completa los valores faltantes de age con la edad promedio por clase (pclass).
✍️ Resultado esperado: columna age sin valores nulos, imputada según clase de pasajero.

"""
## ✔️ Solución
df_cuatro = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_cuatro.head()
# df_cuatro["age"].null_count() ## ➡️ Cantidad de datos nulos: 177
def llenar_nulos_pclass_edad(dataframe):
    df = dataframe
    edad_promedio_por_clase = df_cuatro.group_by("pclass").agg(
        pl.col("age").drop_nulls().mean().round(2).alias("avg_age_pclass")
    )
    
    for pclass,media in edad_promedio_por_clase.iter_rows():
        df = df.with_columns(
            pl.when(
                (pl.col("pclass")==pclass) & (pl.col("age").is_null())
            ).then(pl.lit(media))
            .otherwise(pl.col("age")).alias("age")
        )
    return df
df_cuatro_clean = llenar_nulos_pclass_edad(df_cuatro)
df_cuatro_clean[["age"]].null_count() ## ➡️ Cantidad de datos nulos: 0 


"""
5. Detección de outliers usando IQR

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica los valores de ventas que son outliers según el rango intercuartílico (IQR).
✍️ Resultado esperado: listado de los productos que presentan valores anómalos.

"""
## ✔️ Solución
diccionario_cinco = {
 "producto": ["A","B","C","D","E","F"],
 "ventas": [120, 130, 115, 1000, 140, 135]
}
df_cinco = pl.DataFrame(diccionario_cinco)
# df_cinco.head()
q1_ventas = df_cinco["ventas"].quantile(0.25)
q1_ventas


"""
6. Eliminación selectiva de duplicados

🗃️ Dataset: Diamonds
🗒️ Enunciado: En el dataset de diamantes, elimina duplicados basados solo en las columnas carat y price.
✍️ Resultado esperado: DataFrame sin duplicados en esas dos columnas, pero manteniendo el resto de filas.

"""
## ✔️ Solución
df_seis = pl.read_csv("../datasets/diamonds.csv",separator=",")
# df_seis.head()
df_seis = df_seis.unique(subset=["carat","price"],keep="first")
df_seis.head()


"""
7. Relleno de valores faltantes con interpolación

🗃️ Dataset: Diccionario
🗒️ Enunciado: Rellena los valores nulos de la columna temperatura mediante interpolación lineal.
✍️ Resultado esperado: columna completa sin valores nulos, con estimaciones suaves.

"""
## ✔️ Solución
diccionario_siete  = {
 "fecha": pd.date_range("2024-01-01", periods=10),
 "temperatura": [21,22,None,24,25,None,None,28,29,30]
}
df_siete = pl.DataFrame(diccionario_siete)
df_siete = df_siete.select(pl.col("fecha"),pl.col("temperatura").interpolate().alias("temperatura"))
df_siete.head()


"""
8. Conteo de valores faltantes combinados

🗃️ Dataset: Penguins
🗒️ Enunciado: Calcula el número de registros que tienen valores nulos simultáneamente
    en las columnas bill_length_mm y bill_depth_mm.
✍️ Resultado esperado: un número entero que indique cuántos registros cumplen esta condición.

"""
## ✔️ Solución
df_ocho = pl.read_csv("../datasets/penguins.csv",separator=",")
# df_ocho.head()
# df_ocho[["bill_length_mm","bill_depth_mm"]].null_count() ## ➡️ Cantidad de Valores Nulos
nulos_consecutivos = df_ocho.filter(
    (pl.col("bill_length_mm").is_null() & pl.col("bill_depth_mm").is_null())
)
# nulos_consecutivos.head() ## ⬅️ Verificamos nulos simulares en ambas columnas
# nulos_consecutivos.shape[0] ## ⬅️ Cantidad de nulos simulares en ambas columnas: 2

#--- En caso no haya entendido el concepto, te dejo este otro ejemplo 👍.
df_example = pl.DataFrame(data=[[1,None],[None,2],[None,None]],schema=["A","B"],orient="row")
# df_example.head() ## ⬅️ Verificamos que existen nulos en columnas similares
nulos_consecutivos_2 = df_example.filter(
    (pl.col("A").is_null() & pl.col("B").is_null())
)
# nulos_consecutivos_2.head() ## ⬅️ Verificamos nulos simulares en ambas columnas
nulos_consecutivos_2.shape[0] ## ⬅️ Cantidad de nulos simulares en ambas columnas: 1

1

##### 🥇 NIVEL AVANZADO

###### PANDAS 🐼

In [22]:

import pandas as pd
import seaborn as sns
import numpy as np

"""
9. Winsorización de outliers

🗃️ Dataset: Diccionario
🗒️ Enunciado: Aplica winsorización al 5% superior e inferior en la
   columna nota para reducir el impacto de valores extremos.
✍️ Resultado esperado: columna nota ajustada, sin eliminar registros.

💡 La winsorinización permite mejorar la integridad y confiabilidad de datos
    evitando valores extremos a los limites de quartil que tiene cada columna.
    Por ejemplo: valores mayores a 10, se establecen como 10 y valores
    menores a 5, se establecen como 5.

"""
## ✔️ Solución
diccionario_nueve = {
 "alumno": ["A","B","C","D","E","F","G"],
 "nota": [10, 12, 15, 100, 11, 13, 200]
}

df_nueve = pd.DataFrame(diccionario_nueve)
# df_nueve.head()
limite_5_pct_inferior = float(np.quantile(df_nueve["nota"],0.05)) ## ➡️ Quartil 5%: 10.3
# limite_5_pct_inferior
limite_5_pct_superior = float(np.quantile(df_nueve["nota"],0.95).round(2)) ## ➡️ Quartil 95%: 170.0
# limite_5_pct_superior
condiciones_valores = [
    (df_nueve["nota"]<limite_5_pct_inferior), ## Condicina que, si el valor es menor al límite 5% inferior
    (df_nueve["nota"]>limite_5_pct_superior)  ## Condicina que, si el valor es mayor al límite 95% superior
]
values = np.array([limite_5_pct_inferior,limite_5_pct_superior]) ## Se establece los valores de las condiciones
df_nueve_winzorizacion = df_nueve.copy()
df_nueve_winzorizacion["nota_winsorizacion"] = np.select(condiciones_valores,values,default=df_nueve["nota"])
df_nueve_winzorizacion.head(7)


"""
10. Detección de inconsistencias de tipado en columnas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica las filas con tipos incorrectos  y conviértelas al tipo correcto.
✍️ Resultado esperado: Un dataset con tipos de datos correcto en cada columna

"""
## ✔️ Solución
diccionario_diez = {
    "ID":[1,"2",3,"004","5"],
    "Venta":["12254",1450,1200.00,"300",120.00]
}
df_diez = pd.DataFrame(diccionario_diez)
df_diez["ID"] = df_diez["ID"].astype(dtype="int") ## Casteamos el tipo de dato a int
df_diez["Venta"] = df_diez["Venta"].astype(dtype="float") ## Casteamos el tipo de dato a float
# df_diez.head()
df_diez.dtypes ##  ✅ Verificamos los tipos de dato correctamente casteados.


"""
11. Identificación de duplicados aproximados (fuzzy matching)

🗃️ Dataset: Diccionario
🗒️ Enunciado: Detecta nombres de clientes que parecen duplicados
    por errores tipográficos (ejemplo: "Luis" vs "luiz").
✍️ Resultado esperado: listado de pares de valores sospechosos de ser duplicados.

"""
## ✔️ Solución
diccionario_once = {
 "cliente": ["Ana", "Ana ", "Luis", "Luz", "luiz", "Pedro", "pedro"]
}

import difflib ## Módulo que permite encontrar diferencias/similitudes en secuencias.

nombres = [i.replace(' ','') for i in diccionario_once["cliente"]] ## List comprenhension que limpiar espacios en blanco

sospechosos_duplicados = {} ## Diccionario para almacenar duplicados sospechosos

for nombre in nombres: ## Iteramos en a lista anterior.
    ## .get_close_matches() Retorna las palabras similares a la primera que encuentre.
    similares = difflib.get_close_matches(word=nombre,possibilities=nombres,n=3,cutoff=0.8)
    ## word: Palabra a encontrar
    ## possibilities: Lista de palabras similares
    ## n: Cantidad de coincidencias
    ## cutoff: Valor de similitud (Como requerimos las que sean casi similar usamos un 0.8=80%)
    sospechosos_duplicados[nombre] = similares ## Almacenamos en el diccionario
sospechosos_duplicados ## Imprimimos el diccionario


"""
12. Validación y limpieza de rangos válidos

🗃️ Dataset: Titanic
🗒️ Enunciado: Valida que la columna "age" esté en un rango lógico (0 a 100 años).
               Detecta y corrige/descarta valores fuera de rango.
✍️ Resultado esperado: columna age sin valores inválidos, garantizando integridad de negocio.

"""
## ✔️ Solución
df_doce = sns.load_dataset("titanic")
# df_doce.shape[0] ## ➡️ Cantidad de datos originales: 891
df_doce_clean = df_doce.query('age>0 and age<100') ## ✅ Filtramos la información y almacenamos en un nuevo dataset.
df_doce_clean.shape[0] ## ➡️ Cantidad de datos originales: 714
# df_doce.head()

"""
13. Normalización de categorías inconsistentes

🗃️ Dataset: Diccionario
🗒️ Enunciado: Detecta y unifica las categorías inconsistentes aplicando reglas 
              de limpieza (case folding, corrección de errores).
✍️ Resultado esperado: Dataset con categorías únicas y estandarizadas.

"""
## ✔️ Solución
diccionario_trece = {
    "Ciudad":["Lima","lima","LIMA","Lma",]
}

categorias_validas = ["Lima"] ## ➡️ Palabras válidas para su estandarización

def normalizar_ciudad(valor):
    match = difflib.get_close_matches(valor, categorias_validas, n=1, cutoff=0.6)
    return match[0] if match else valor ## Verifica que sí la palabra ingresada
                                        ## tiene una palabra válida similar, entonces
                                        ## retorna esa palabra similar en una lista (accedemos a su posición).
df_trece = pd.DataFrame(diccionario_trece)
df_trece["Ciudad"] = df_trece["Ciudad"].str.title()
df_trece["Ciudad"] = df_trece["Ciudad"].apply(normalizar_ciudad)
df_trece.head()
 


Unnamed: 0,Ciudad
0,Lima
1,Lima
2,Lima
3,Lima


###### POLARS 🐻‍❄️

In [None]:

import polars as pl
import numpy as np

"""
9. Winsorización de outliers

🗃️ Dataset: Diccionario
🗒️ Enunciado: Aplica winsorización al 5% superior e inferior en la
   columna nota para reducir el impacto de valores extremos.
✍️ Resultado esperado: columna nota ajustada, sin eliminar registros.

💡 La winsorinización permite mejorar la integridad y confiabilidad de datos
    evitando valores extremos a los limites de quartil que tiene cada columna.
    Por ejemplo: valores mayores a 10, se establecen como 10 y valores
    menores a 5, se establecen como 5.

"""
## ✔️ Solución
diccionario_nueve = {
 "alumno": ["A","B","C","D","E","F","G"],
 "nota": [10, 11, 75, 100, 11, 13, 200]
}

df_nueve = pl.DataFrame(diccionario_nueve)
# df_nueve.head(7)
limite_5_pct_inferior = float(np.quantile(df_nueve["nota"],0.05)) ## ➡️ Límite 5% inferior: 10.3
# limite_5_pct_inferior
limite_5_pct_superior = float(np.quantile(df_nueve["nota"],0.95).round(2)) ## ➡️ Límite 5% superior: 170.0 
# limite_5_pct_superior
df_nueve = df_nueve.with_columns(
    pl.when(
        pl.col("nota")<limite_5_pct_inferior
    ).then(pl.lit(limite_5_pct_inferior))
    .when(
        pl.col("nota")>limite_5_pct_superior
    ).then(pl.lit(limite_5_pct_superior))
    .otherwise(pl.col("nota")).alias("nota_estandarizada")
)
df_nueve.head(7)

"""
10. Detección de inconsistencias de tipado en columnas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica las filas con tipos incorrectos  y conviértelas al tipo correcto.
✍️ Resultado esperado: Un dataset con tipos de datos correcto en cada columna

"""
## ✔️ Solución
diccionario_diez = {
    "ID":[1,"2",3,"004","5"],
    "Venta":["12254",1450,1200.00,"300",120.00]
}
df_diez = pl.DataFrame(diccionario_diez,schema={"ID":pl.Object,"Venta":pl.Object})
"""💡 En este caso definimos las columnas al tipo Object(permite datos de diversos tipos)
   para poder manejar el error de inconsistencia de datos en las columnas."""
# df_diez.head()
# df_diez_cast = df_diez.with_columns(
#     pl.col("ID").map_elements(lambda x:int(x),return_dtype=pl.Int64).alias("ID"),
#     pl.col("Venta").map_elements(lambda x:float(x),return_dtype=pl.Float64).alias("Venta")
# )
# df_diez_cast.head()
"""
💡 Para esta solución, Polars indica que map_elements es ineficiente al castear
    estos datos debido a que evalua fila a fila la función. Sin embargo, son estas
    casuísticas que nos permiten optar por estas soluciones.
"""

"""
11. Identificación de duplicados aproximados (fuzzy matching)

🗃️ Dataset: Diccionario
🗒️ Enunciado: Detecta nombres de clientes que parecen duplicados
    por errores tipográficos (ejemplo: "Luis" vs "luiz").
✍️ Resultado esperado: listado de pares de valores sospechosos de ser duplicados.

"""
## ✔️ Solución
diccionario_once = {
 "cliente": ["Ana", "Ana ", "Luis", "Luz", "luiz", "Pedro", "pedroo"]
}
import difflib
nombres_estandarizados = [i.replace(' ','') for i in diccionario_once["cliente"]]
# nombres_estandarizados
sospechosos_duplicados = {}
for nombre in nombres_estandarizados:
    sospechoso = difflib.get_close_matches(nombre,nombres_estandarizados,n=3,cutoff=0.8)
    sospechosos_duplicados[nombre] = sospechoso
sospechosos_duplicados 

"""
12. Validación y limpieza de rangos válidos

🗃️ Dataset: Titanic
🗒️ Enunciado: Valida que la columna "age" esté en un rango lógico (0 a 100 años).
               Detecta y corrige/descarta valores fuera de rango.
✍️ Resultado esperado: columna age sin valores inválidos, garantizando integridad de negocio.

"""
## ✔️ Solución
df_doce = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_doce.head()
df_doce.shape[0] ## ➡️ Cantidad de datos iniciales: 891
df_doce_clean = df_doce.filter(
    ((pl.col("age")>0) & (pl.col("age")<100))
)
# df_doce_clean.head()
df_doce_clean.shape[0] ## ➡️ Cantidad de datos filtrados: 714


"""
13. Normalización de categorías inconsistentes

🗃️ Dataset: Diccionario
🗒️ Enunciado: Detecta y unifica las categorías inconsistentes aplicando reglas 
              de limpieza (case folding, corrección de errores).
✍️ Resultado esperado: Dataset con categorías únicas y estandarizadas.

"""
## ✔️ Solución
diccionario_trece = {
    "Ciudad":["Lima","lima","LIMA","Lma",]
}
import difflib
df_trece = pl.DataFrame(diccionario_trece)
# df_trece.head()
ciudades_estandarizadas = ["Lima"] # Lista de ciudades estandarizadas
def estandarizar_ciudad(valor):
    similar = difflib.get_close_matches(valor,ciudades_estandarizadas,n=1,cutoff=0.6)
    return similar[0] if similar else valor
df_trece = df_trece.with_columns(
    pl.col("Ciudad").str.to_titlecase().map_batches(estandarizar_ciudad).alias("Ciudad")
)
df_trece.head()

#### FEATURE ENGINEERING (INGENIERÍA DE CARACTERÍSTICAS)

##### 🥉 NIVEL BÁSICO

###### PANDAS 🐼

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

"""
1. Variables dummies simples

🗃️ Dataset: Titanic
🗒️ Enunciado: Convierte la columna sex en variables dummies
✍️ Resultado esperado: Dos columnas adicionales (sex_male, sex_female) con valores binarios 0/1.

"""
## ✔️ Solución
df_uno = sns.load_dataset("titanic")
# df_uno.head()
df_dummies_sex = pd.get_dummies(data=df_uno["sex"],columns=["sex"])
df_uno_final = pd.concat([df_uno,df_dummies_sex],axis=1)
df_uno_final
## 💡 Esta es una téncica de pre-procesamiento de datos llamada "OneHot-Encoding"
##    la cuál permite transformar datos en valores óptimos para modelos de Machine Learning (ML).

"""
2. Binning por intervalos fijos

🗃️ Dataset: Tips
🗒️ Enunciado: Agrupa la columna total_bill en 3 intervalos: bajo(<10), medio(>=10 y <20), alto(>=20).
✍️ Resultado esperado: Nueva columna total_bill_bin con categorías: "Bajo", "Medio", "Alto".

"""
## ✔️ Solución
df_dos = sns.load_dataset("tips")
# df_dos.head()
condiciones = [
    (df_dos["total_bill"]<10),
    (df_dos["total_bill"]>=10) & (df_dos["total_bill"]<20),
    (df_dos["total_bill"]>20)
]
valores = np.array(["Bajo","Medio","Alto"],dtype=object)
df_dos["total_bill_bin"] = np.select(condlist=condiciones,choicelist=valores,default="F")
df_dos.head()


"""
3. Normalización min-max

🗃️ Dataset: Diccionario
🗒️ Enunciado: Normaliza la columna ventas entre 0 y 1 usando min-max.
✍️ Resultado esperado: Nueva columna ventas_norm con valores escalados entre 0 y 1.

"""
## ✔️ Solución
diccionario_tres = {
    "producto":["A","B","C"],
    "ventas":[100,300,500]
}
df_tres = pd.DataFrame(diccionario_tres)
# df_tres.head()
df_tres["ventas_normalizada"] = ((df_tres["ventas"]-df_tres["ventas"].min())/(df_tres["ventas"].max()-df_tres["ventas"].min()))
df_tres.head()
## 💡 Esta es una téncica de pre-procesamiento de datos llamada "Normalización Min-Max"
##    la cuál permite establecer en un rango de 0 y 1 valores que permitan a modelos de ML
##    aprener los patrones de los datos, pero con variables en escalas comparables mejorando su rendimiento.


"""
4. Extracción de año y mes de fechas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Enunciado: Extrae el año y mes de la columna fecha.
✍️ Resultado esperado: Dos nuevas columnas: año y mes.

"""
## ✔️ Solución
diccionario_cuatro = {
    "id":[1,2,3],
    "fecha":["2021-05-12","2022-01-20","2023-07-15"]
}
df_cuatro = pd.DataFrame(data=diccionario_cuatro)
# df_cuatro.head()
df_cuatro["fecha"] = pd.to_datetime(df_cuatro["fecha"]) ## ⬅️ Convertir la columna fecha (str) a tipo datetime
df_cuatro["año"] = df_cuatro["fecha"].dt.year ## ⬅️ Extraer el Año
df_cuatro["mes"] = df_cuatro["fecha"].dt.month ## ⬅️ Extraer el Mes
df_cuatro.head()

"""
5. Longitud de cadenas de texto

🗃️ Dataset: Diccionario
🗒️ Enunciado: Crea una columna con la longitud de caracteres de cada comentario.
✍️ Resultado esperado: Columna longitud con número de caracteres por fila.

"""
## ✔️ Solución
diccionario_cinco = {
    "comentario":["Excelente servicio","Muy caro","Aceptable"]
}
df_cinco = pd.DataFrame(diccionario_cinco)
# df_cinco.head()
df_cinco["longitud_comentario"] = df_cinco["comentario"].str.len()
df_cinco.head(5)


Unnamed: 0,comentario,longitud_comentario
0,Excelente servicio,18
1,Muy caro,8
2,Aceptable,9


###### POLARS 🐻‍❄️

In [46]:
import polars as pl
import numpy as np

"""
1. Variables dummies simples

🗃️ Dataset: Titanic
🗒️ Enunciado: Convierte la columna sex en variables dummies
✍️ Resultado esperado: Dos columnas adicionales (sex_male, sex_female) con valores binarios 0/1.

"""
## ✔️ Solución
df_uno = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_uno.head()

df_sex_dummies = df_uno.to_dummies(columns=["sex"])
df_uno_final = pl.concat([df_uno,df_sex_dummies[["sex_male","sex_female"]]],how="horizontal")
df_uno_final
## 💡 Esta es una téncica de pre-procesamiento de datos llamada "OneHot-Encoding"
##    la cuál permite transformar datos en valores óptimos para modelos de Machine Learning (ML).

"""
2. Binning por intervalos fijos

🗃️ Dataset: Tips
🗒️ Enunciado: Agrupa la columna total_bill en 3 intervalos: bajo(<10), medio(>=10 y <20), alto(>=20).
✍️ Resultado esperado: Nueva columna total_bill_bin con categorías: "Bajo", "Medio", "Alto".

"""
## ✔️ Solución
df_dos = pl.read_csv("../datasets/tips.csv",separator=",")
# df_dos.head()
df_dos = df_dos.with_columns(
    pl.when(
        pl.col("total_bill")<10
    ).then(
        pl.lit("Bajo")
    ).when(
        (pl.col("total_bill")>=10) & (pl.col("total_bill")<20)
    ).then(pl.lit("Medio"))
    .otherwise(pl.lit("Alto"))
)
df_dos.head()

"""
3. Normalización min-max

🗃️ Dataset: Diccionario
🗒️ Enunciado: Normaliza la columna ventas entre 0 y 1 usando min-max.
✍️ Resultado esperado: Nueva columna ventas_norm con valores escalados entre 0 y 1.

"""
## ✔️ Solución
diccionario_tres = {
    "producto":["A","B","C"],
    "ventas":[100,300,500]
}
df_tres = pl.DataFrame(diccionario_tres)
# df_tres.head()
df_tres = df_tres.with_columns(
    ((pl.col("ventas")-pl.col("ventas").min())/(pl.col("ventas").max()-pl.col("ventas").min())).alias("ventas_normalizada")
)
df_tres.head()

# ## 💡 Esta es una téncica de pre-procesamiento de datos llamada "Normalización Min-Max"
# ##    la cuál permite establecer en un rango de 0 y 1 valores que permitan a modelos de ML
# ##    aprener los patrones de los datos, pero con variables en escalas comparables mejorando su rendimiento.


"""
4. Extracción de año y mes de fechas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Enunciado: Extrae el año y mes de la columna fecha.
✍️ Resultado esperado: Dos nuevas columnas: año y mes.

"""
## ✔️ Solución
diccionario_cuatro = {
    "id":[1,2,3],
    "fecha":["2021-05-12","2022-01-20","2023-07-15"]
}
df_cuatro = pl.DataFrame(diccionario_cuatro)
# df_cuatro.head()
df_cuatro = df_cuatro.with_columns(
    pl.col("fecha").cast(dtype=pl.Date).dt.year().alias("Año"),
    pl.col("fecha").cast(dtype=pl.Date).dt.month().alias("Mes")
)
df_cuatro.head()

"""
5. Longitud de cadenas de texto

🗃️ Dataset: Diccionario
🗒️ Enunciado: Crea una columna con la longitud de caracteres de cada comentario.
✍️ Resultado esperado: Columna longitud con número de caracteres por fila.

"""
## ✔️ Solución
diccionario_cinco = {
    "comentario":["Excelente servicio","Muy caro","Aceptable"]
}
df_cinco = pl.DataFrame(diccionario_cinco)
# df_cinco.head()
df_cinco = df_cinco.with_columns(
    pl.col("comentario").str.len_chars().alias("longitud_caracter")
)
df_cinco.head()


comentario,longitud_caracter
str,u32
"""Excelente servicio""",18
"""Muy caro""",8
"""Aceptable""",9


##### 🥈 NIVEL INTERMEDIO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns

"""
6. Variables dummies múltiples

🗃️ Dataset: Titanic
🗒️ Enunciado: Convierte embarked en variables dummies.
✍️ Resultado esperado: Nuevas columnas (embarked_C, embarked_Q, embarked_S) con valores 0/1.

"""
## ✔️ Solución
df_seis = sns.load_dataset("titanic")
# df_seis.head()
df_seis_embarked = pd.get_dummies(data=df_seis["embarked"],prefix="embarked")
# df_seis_embarked.head()
df_seis_final = pd.concat([df_seis,df_seis_embarked],axis=1)
df_seis_final.head()

"""
7. Binning por cuantiles

🗃️ Dataset: Diamonds
🗒️ Enunciado: Divide la columna price en 4 categorías según sus cuartiles.
✍️ Resultado esperado: Nueva columna price_bin con categorías Q1, Q2, Q3, Q4.

"""
## ✔️ Solución
df_siete = sns.load_dataset("diamonds")
# df_siete.head()
df_siete["price_bin"] = pd.qcut(df_siete["price"],q=4,labels=["Q1","Q2","Q3","Q4"])
df_siete.head()
## 💡 La división de una columna en quantiles permite mantener la relación entre
##    los datos originales y su clasificación por quantiles.

"""
8. Estandarización (Z-score)

🗃️ Dataset: Diccionario
🗒️ Enunciado: Calcula el Z-score de las notas.
✍️ Resultado esperado: Nueva columna notas_zscore con valores centrados en media 0 y desviación estándar 1.

"""
## ✔️ Solución
lista_ocho = [
    12, 14, 13, 15, 16, 11, 14, 13, 15, 12,  # Notas normales
    14, 16, 13, 15, 14, 12, 13, 16, 15, 14,  # Más notas normales
    3,   # Nota muy baja (Outlier)
    19   # Nota muy lta (Outlier)
]

df_ocho = pd.DataFrame({
    "Estudiante": [f"Estudiante {i+1}" for i in range(len(lista_ocho))],
    "Nota":lista_ocho
})
# df_ocho.head()

## ✅ Calcular Z-SCORE
##---- Importamos: from scipy import stats
from scipy import stats

df_ocho["notas_zscore"] = stats.zscore(df_ocho["Nota"])
df_ocho.head()
## 💡 La estandarización con z-score es una transformación estándar 
##    en ciencia de datos que "normaliza" los datos sin cambiar su distribución, solo su escala.

"""
9. Día de la semana desde fecha

🗃️ Dataset: Diccionario
🗒️ Enunciado: Extrae el día de la semana de cada fecha.
✍️ Resultado esperado: Columna dia_semana con valores tipo: "Viernes", "Sábado", "Domingo".

"""
## ✔️ Solución
diccionario_nueve = {
    "id":[1,2,3],
    "fecha":["2023-05-12","2023-05-13","2023-05-14"]
}
df_nueve = pd.DataFrame(diccionario_nueve)
# df_nueve.head()
df_nueve["fecha"] = pd.to_datetime(df_nueve["fecha"])
# df_nueve.head()
df_nueve["dia_semana"] = df_nueve["fecha"].dt.day_name(locale="")
df_nueve.head()

"""
10. Conteo de palabras en texto

🗃️ Dataset: Diccionario
🗒️ Enunciado: Crea una columna con el número de palabras por comentario.
✍️ Resultado esperado: Columna num_palabras con valores 4, 4, 3.

"""
## ✔️ Solución

diccionario_diez = {
    "comentario":["Me gusta el servicio","Precio alto pero bueno","No lo recomiendo"]
}

df_diez = pd.DataFrame(diccionario_diez)
# df_diez.head()
df_diez["num_palabras"] = df_diez["comentario"].apply(lambda x:len(x.split(" ")))
df_diez.head()


Unnamed: 0,comentario,num_palabras
0,Me gusta el servicio,4
1,Precio alto pero bueno,4
2,No lo recomiendo,3


###### POLARS 🐻‍❄️

In [30]:
import polars as pl

"""
6. Variables dummies múltiples

🗃️ Dataset: Titanic
🗒️ Enunciado: Convierte embarked en variables dummies.
✍️ Resultado esperado: Nuevas columnas (embarked_C, embarked_Q, embarked_S) con valores 0/1.

"""
## ✔️ Solución
df_seis = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_seis.head()
df_seis_dummies = df_seis.select(pl.col("embarked").drop_nulls()).to_dummies(columns=["embarked"])
# df_seis_dummies.head()
df_seis_final = pl.concat([df_seis,df_seis_dummies],how="horizontal")
df_seis_final.head()

"""
7. Binning por cuantiles

🗃️ Dataset: Diamonds
🗒️ Enunciado: Divide la columna price en 4 categorías según sus cuartiles.
✍️ Resultado esperado: Nueva columna price_bin con categorías Q1, Q2, Q3, Q4.

"""
## ✔️ Solución
df_siete = pl.read_csv("../datasets/diamonds.csv",separator=",")
# df_siete.head()
df_siete = df_siete.with_columns(
    pl.col("price").qcut(quantiles=4,labels=["Q1","Q2","Q3","Q4"]).alias("price_bin")
)
df_siete.head()


"""
8. Estandarización (Z-score)

🗃️ Dataset: Diccionario
🗒️ Enunciado: Calcula el Z-score de las notas.
✍️ Resultado esperado: Nueva columna notas_zscore con valores centrados en media 0 y desviación estándar 1.

"""
## ✔️ Solución

lista_ocho = [
    12, 14, 13, 15, 16, 11, 14, 13, 15, 12,  # Notas normales
    14, 16, 13, 15, 14, 12, 13, 16, 15, 14,  # Más notas normales
    3,   # Nota muy baja (Outlier)
    19   # Nota muy lta (Outlier)
]

df_ocho = pl.DataFrame({
    "Estudiante": [f"Estudiante {i+1}" for i in range(len(lista_ocho))],
    "Nota":lista_ocho
})
# df_ocho.head()

## ✅ Calcular Z-SCORE
##---- Importamos: from scipy import stats
from scipy import stats
### --- Extraemos la columna como serie Numpy
nota = df_ocho["Nota"].to_numpy()
### --- Calculamos el z-score.
serie_nota_zscore = stats.zscore(nota)
df_ocho = df_ocho.with_columns(
    pl.Series("nota_zscore",serie_nota_zscore) ## Agregamos la serie como columna de Polars
)
df_ocho.head()

"""
9. Día de la semana desde fecha

🗃️ Dataset: Diccionario
🗒️ Enunciado: Extrae el día de la semana de cada fecha.
✍️ Resultado esperado: Columna dia_semana con valores tipo: "Viernes", "Sábado", "Domingo".

"""
## ✔️ Solución
diccionario_nueve = {
    "id":[1,2,3],
    "fecha":["2023-05-12","2023-05-13","2023-05-14"]
}
df_nueve = pl.DataFrame(diccionario_nueve)
# df_nueve.head()
df_nueve = df_nueve.with_columns(
    pl.col("fecha").cast(dtype=pl.Date).alias("fecha")
)
df_nueve = df_nueve.with_columns(
    pl.col("fecha").dt.to_string(format="%A").alias("nombre_dia")
)
df_nueve.head()
## 💡 Es importante conocer los diversos formatos de fechas.

"""
10. Conteo de palabras en texto

🗃️ Dataset: Diccionario
🗒️ Enunciado: Crea una columna con el número de palabras por comentario.
✍️ Resultado esperado: Columna num_palabras con valores 4, 4, 3.

"""
## ✔️ Solución

diccionario_diez = {
    "comentario":["Me gusta el servicio","Precio alto pero bueno","No lo recomiendo"]
}

df_diez = pl.DataFrame(diccionario_diez)
# df_diez.head()
df_diez = df_diez.with_columns(
    pl.col("comentario").map_elements(lambda x:len(x.split(" ")),return_dtype=pl.Int64).alias("s")
)
df_diez.head()


comentario,s
str,i64
"""Me gusta el servicio""",4
"""Precio alto pero bueno""",4
"""No lo recomiendo""",3


##### 🥇 NIVEL AVANZADO

###### PANDAS 🐼

In [53]:
import pandas as pd
import seaborn as sns
import numpy as np

"""
11. Variables categóricas cruzadas

🗃️ Dataset: Titanic
🗒️ Enunciado: Crea una nueva variable categórica que combine pclass y sex (ejemplo: "1_female", "3_male").
✍️ Resultado esperado: Columna clase_sexo con las combinaciones únicas.

"""
## ✔️ Solución
df_once = sns.load_dataset("titanic")
# df_once.head()

## -- ✅ Creamos la variable que permita las combinaciones de datos en ambas columnas.
df_once["clase_sexo"] = df_once["pclass"].astype(str)+'_'+df_once["sex"]
# df_once.head()

## -- ✅ Categorizamos las variables de esa columna.
dummies_pclass_sex = pd.get_dummies(data=df_once[["clase_sexo"]],prefix="")
# dummies_pclass_sex

## -- ✅ Unificamos al dataframe original
df_once_final = pd.concat([df_once,dummies_pclass_sex],axis="columns")
df_once_final.head()

"""
12. Binning desigual basado en reglas

🗃️ Dataset: Tips
🗒️ Enunciado: Clasifica tip en categorías: "Bajo" (<2), "Medio" (2 - 5), "Alto" (>5).
✍️ Resultado esperado: Nueva columna tip_categoria con esas 3 categorías.

"""
## ✔️ Solución
df_doce = sns.load_dataset("tips")
# df_doce.head()
condiciones_valores = [
    (df_doce["tip"]<2),
    (df_doce["tip"]>=2) & (df_doce["tip"]<=5),
    (df_doce["tip"]>5)
]
values = np.array(["Bajo","Medio","Alto"],object)
df_doce["tip_categoria"] = np.select(condlist=condiciones_valores,choicelist=values,default="F")
df_doce.head()

"""
13. Normalización robusta

🗃️ Dataset: Diccionario
🗒️ Enunciado: Aplica una normalización robusta (usando mediana e IQR).
✍️ Resultado esperado: Columna ventas_robust que reduzca la influencia de outliers.

"""
## ✔️ Solución
diccionario_trece = {
    "producto":["A","B","C","D"],
    "ventas":[10,200,1000,10000]
}
df_trece = pd.DataFrame(diccionario_trece)
# df_trece.head()

##  ✅ Hallamos los Quartiles (columna ventas)
q1_ventas = float(np.quantile(df_trece["ventas"],0.25))
# q1_ventas
q3_ventas = float(np.quantile(df_trece["ventas"],0.75))
# q3_ventas

## ✅ Hallamos IQR (Rango Interquartil - columnas ventas)
iqr_ventas = q3_ventas - q1_ventas
# iqr_ventas

## ✅ Hallamos mediana (columna ventas)
mediana_ventas = float(df_trece["ventas"].median())
# mediana_ventas

## ✅ Calculamos Normalización robusta
df_trece["ventas_robust"] = ((df_trece["ventas"] - mediana_ventas) / iqr_ventas).round(2)
df_trece.head()

## 💡 La normalización robusta es una técnica de preprocesamiento de datos
##    que escala las características utilizando estadísticas que son menos
##    sensibles a valores atípicos (outliers) que la normalización estándar.

"""
14. Extracción de partes avanzadas de fecha

🗃️ Dataset: Diccionario
🗒️ Enunciado: Extrae la hora, el minuto y el nombre del día de la semana.
✍️ Resultado esperado: Tres nuevas columnas: hora, minuto, dia_semana.

"""
## ✔️ Solución
diccionario_catorce = {
    "id":[1,2,3],
    "fecha":["2021-05-12 14:35:00","2021-05-12 20:10:00","2021-05-13 08:45:00"]
}

df_catorce = pd.DataFrame(diccionario_catorce)
# df_catorce.head()
df_catorce["fecha"] = pd.to_datetime(df_catorce["fecha"])
# df_catorce.head()
df_catorce["hora"] = df_catorce["fecha"].dt.hour
df_catorce["minuto"] = df_catorce["fecha"].dt.minute
df_catorce["dia_semana"] = df_catorce["fecha"].dt.day_name(locale="")
df_catorce.head()


"""
15. Extracción de features de texto (tokens únicos)

🗃️ Dataset: Diccionario
🗒️ Enunciado: Crea una columna con el número de palabras únicas en cada comentario.
✍️ Resultado esperado: Columna palabras_unicas con valores (3, 2, 4).

"""
## ✔️ Solución
diccionario_quince = {
    "comentario":["Muy buen buen servicio","Servicio aceptable aceptable","No me gustó el servicio"]
}
df_quince = pd.DataFrame(diccionario_quince)
df_quince["palabras_unicas"] = df_quince["comentario"].apply(lambda x:len(set(x.split(" "))))
df_quince.head()



Unnamed: 0,comentario,palabras_unicas
0,Muy buen buen servicio,3
1,Servicio aceptable aceptable,2
2,No me gustó el servicio,5


###### POLARS 🐻‍❄️

In [81]:
import polars as pl

"""
11. Variables categóricas cruzadas

🗃️ Dataset: Titanic
🗒️ Enunciado: Crea una nueva variable categórica que combine pclass y sex (ejemplo: "1_female", "3_male").
✍️ Resultado esperado: Columna clase_sexo con las combinaciones únicas.

"""
## ✔️ Solución
df_once = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_once.head()

## -- ✅ Creamos la variable que permita las combinaciones de datos en ambas columnas.
df_once = df_once.with_columns(
    (pl.col("pclass").cast(pl.String)+"-"+pl.col("sex")).alias("clase_sexo")
)
# df_once.head()

## -- ✅ Categorizamos las variables de esa columna.
dummies_pclass_sex = df_once.select(pl.col("clase_sexo")).to_dummies(columns=["clase_sexo"])
dummies_pclass_sex

## -- ✅ Unificamos al dataframe original
df_once_final = pl.concat([df_once,dummies_pclass_sex],how="horizontal")
df_once_final.head()


"""
12. Binning desigual basado en reglas

🗃️ Dataset: Tips
🗒️ Enunciado: Clasifica tip en categorías: "Bajo" (<2), "Medio" (2 - 5), "Alto" (>5).
✍️ Resultado esperado: Nueva columna tip_categoria con esas 3 categorías.

"""
## ✔️ Solución
df_doce = pl.read_csv("../datasets/tips.csv",separator=",")
# df_doce.head()
df_doce = df_doce.with_columns(
    pl.when(
        pl.col("tip")<2
    ).then(pl.lit("Bajo"))
    .when(
        (pl.col("tip")>=2) & (pl.col("tip")<=5)
    ).then(pl.lit("Medio"))
    .otherwise(pl.lit("Alto"))
)
df_doce.head()

"""
13. Normalización robusta

🗃️ Dataset: Diccionario
🗒️ Enunciado: Aplica una normalización robusta (usando mediana e IQR).
✍️ Resultado esperado: Columna ventas_robust que reduzca la influencia de outliers.

"""
## ✔️ Solución
diccionario_trece = {
    "producto":["A","B","C","D"],
    "ventas":[10,200,1000,10000]
}
df_trece = pl.DataFrame(diccionario_trece)
# df_trece.head()

##  ✅ Hallamos los Quartiles (columna ventas)
q1_ventas = df_trece["ventas"].quantile(0.25)
# q1_ventas
q3_ventas = df_trece["ventas"].quantile(0.75)
# q3_ventas

## ✅ Hallamos IQR (Rango Interquartil - columnas ventas)
iqr_ventas = q3_ventas - q1_ventas
# iqr_ventas

## ✅ Hallamos mediana (columna ventas)
mediana_ventas = float(df_trece["ventas"].median())
# mediana_ventas

## ✅ Calculamos Normalización robusta
df_trece = df_trece.with_columns(
    ((pl.col("ventas") - mediana_ventas)/iqr_ventas).round(2).alias("ventas_robust")
)
df_trece.head()

## 💡 La normalización robusta es una técnica de preprocesamiento de datos
##    que escala las características utilizando estadísticas que son menos
##    sensibles a valores atípicos (outliers) que la normalización estándar.

"""
14. Extracción de partes avanzadas de fecha

🗃️ Dataset: Diccionario
🗒️ Enunciado: Extrae la hora, el minuto y el nombre del día de la semana.
✍️ Resultado esperado: Tres nuevas columnas: hora, minuto, dia_semana.

"""
## ✔️ Solución
diccionario_catorce = {
    "id":[1,2,3],
    "fecha":["2021-05-12 14:35:00","2021-05-12 20:10:00","2021-05-13 08:45:00"]
}

df_catorce = pl.DataFrame(diccionario_catorce)
# df_catorce.head()
df_catorce = df_catorce.with_columns(
    pl.col("fecha").str.to_datetime().alias("fecha")
)
df_catorce = df_catorce.with_columns(
    pl.col("fecha").dt.hour().alias("hora"),
    pl.col("fecha").dt.minute().alias("minuto"),
    pl.col("fecha").dt.strftime(format="%A").alias("dia_semana")
)
df_catorce.head()

"""
15. Extracción de features de texto (tokens únicos)

🗃️ Dataset: Diccionario
🗒️ Enunciado: Crea una columna con el número de palabras únicas en cada comentario.
✍️ Resultado esperado: Columna palabras_unicas con valores (3, 2, 4).

"""
## ✔️ Solución
diccionario_quince = {
    "comentario":["Muy buen buen servicio","Servicio aceptable aceptable","No me gustó el servicio"]
}
df_quince = pl.DataFrame(diccionario_quince)
df_quince = df_quince.with_columns(
    pl.col("comentario").map_elements(lambda x:len(set(x.split(" "))),return_dtype=pl.Int64).alias("palabras_unicas")
)
df_quince.head()

comentario,palabras_unicas
str,i64
"""Muy buen buen servicio""",3
"""Servicio aceptable aceptable""",2
"""No me gustó el servicio""",5


#### AGREGACIONES Y AGRUPACIONES

##### 🥉 NIVEL BÁSICO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns

"""
1. Suma por categoría

🗃️ Dataset: Tips
🗒️ Enunciado: Calcula el total de total_bill por cada valor de day.
✍️ Resultado esperado: Tabla con días (Thur, Fri, etc.) y la suma total de total_bill para cada uno.

"""
## ✔️ Solución
df_uno = sns.load_dataset("tips")
# df_uno.head()
df_uno_agrupado = df_uno.groupby("day",as_index=False,observed=True)["total_bill"].sum().reset_index(drop=True,level=0)
df_uno_agrupado.head()


"""
2. Media por dos columnas

🗃️ Dataset: Titanic
🗒️ Enunciado: Obtén el promedio de age agrupado por sex y pclass.
✍️ Resultado esperado: Tabla con índice jerárquico (sex/pclass) y columna con la edad promedio.

"""
## ✔️ Solución
df_dos = sns.load_dataset("titanic")
# df_dos.head()
df_dos_agrupado = df_dos.groupby(["sex","pclass"],as_index=True,observed=True)["age"].mean().round(2)
df_dos_agrupado.head()

"""
3. Conteo de pasajeros por puerto

🗃️ Dataset: Titanic
🗒️ Enunciado: Cuenta cuántos pasajeros embarcaron en cada embarked.
✍️ Resultado esperado: Serie con embarked como índice y conteo de pasajeros.

"""
## ✔️ Solución
df_tres = sns.load_dataset("titanic")
# df_tres.head()
df_tres_agrupado = df_tres.groupby("embarked",as_index=True,observed=True).size()
df_tres_agrupado.head()
# print(type(df_tres_agrupado)) ## El tipo de estructura que devuelve es una "Serie"


"""
4. Pivot table simple

🗃️ Dataset: Tips
🗒️ Enunciado: Crea una tabla pivote que muestre el promedio de tip por day.
✍️ Resultado esperado: Tabla con días como filas y una columna con el promedio de propina.

"""
## ✔️ Solución
df_cuatro = sns.load_dataset("tips")
# df_cuatro.head()
df_cuatro_pivot = df_cuatro.pivot_table(index="day",values="tip",aggfunc="mean",observed=True).round(2).rename({"tip":"avg_tip"},axis=1)
df_cuatro_pivot.head()


"""
5. Promedio ponderado básico

🗃️ Dataset: Diccionario
🗒️ Enunciado: Calcula el precio promedio ponderado según las ventas.
✍️ Resultado esperado: Valor único representando el precio medio considerando el peso de las ventas.

"""
## ✔️ Solución
diccionario_cinco = {
    "producto":["A","B","C"],
    "precio":[10,20,30],
    "ventas":[100,50,20]
}
df_cinco = pd.DataFrame(diccionario_cinco)
# df_cinco.head()
df_cinco["precio_ventas"] = df_cinco["precio"]*df_cinco["ventas"]
# df_cinco.head()
suma_precio_ventas = float(df_cinco["precio_ventas"].sum())
# suma_valor_peso
suma_pesos_ventas = float(df_cinco["ventas"].sum())
# suma_pesos_ventas
precio_ponderado = round((suma_precio_ventas/suma_pesos_ventas),2)
precio_ponderado



15.29

###### POLARS 🐻‍❄️

In [21]:
import polars as pl

## ✅ En esta ocasión usaremos los LazyFrames de Polars (en algunos ejercicios) !!!

"""
1. Suma por categoría

🗃️ Dataset: Tips
🗒️ Enunciado: Calcula el total de total_bill por cada valor de day.
✍️ Resultado esperado: Tabla con días (Thur, Fri, etc.) y la suma total de total_bill para cada uno.

"""
## ✔️ Solución
df_uno = pl.scan_csv("../datasets/tips.csv",separator=",")
# df_uno.collect()
df_uno_agrupado = df_uno.group_by("day").agg(
    pl.col("total_bill").sum().alias("total_bill_day")
)
df_uno_agrupado.collect()

"""
2. Media por dos columnas

🗃️ Dataset: Titanic
🗒️ Enunciado: Obtén el promedio de age agrupado por sex y pclass.
✍️ Resultado esperado: Tabla con índice jerárquico (sex/pclass) y columna con la edad promedio.

"""
## ✔️ Solución
df_dos = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_dos.head()

df_dos_agrupado = df_dos.group_by(["sex","pclass"]).agg(
    pl.col("age").mean().round(2).alias("avg_age")
)
df_dos_agrupado.head()

"""
3. Conteo de pasajeros por puerto

🗃️ Dataset: Titanic
🗒️ Enunciado: Cuenta cuántos pasajeros embarcaron en cada embarked.
✍️ Resultado esperado: Serie con embarked como índice y conteo de pasajeros.

"""
## ✔️ Solución
df_tres = pl.scan_csv("../datasets/titanic.csv",separator=",")
# df_tres.collect()
df_tres = df_tres.filter(pl.col("embarked").is_not_null())
df_tres_agrupado = df_tres.group_by("embarked").agg(
    pl.col("survived").count().alias("total_pasajeros")
)
df_tres_agrupado.collect()


"""
4. Pivot table simple

🗃️ Dataset: Tips
🗒️ Enunciado: Crea una tabla pivote que muestre el promedio de tip por day.
✍️ Resultado esperado: Tabla con días como filas y una columna con el promedio de propina.

"""
## ✔️ Solución
df_cuatro = pl.read_csv("../datasets/tips.csv",separator=",")
# df_cuatro.head()
df_cuatro_result = df_cuatro.group_by("day").agg(
    pl.col("tip").mean().round(2).alias("avg_tip")
)
df_cuatro_result.head()

"""
5. Promedio ponderado básico

🗃️ Dataset: Diccionario
🗒️ Enunciado: Calcula el precio promedio ponderado según las ventas.
✍️ Resultado esperado: Valor único representando el precio medio considerando el peso de las ventas.

"""
## ✔️ Solución
diccionario_cinco = {
    "producto":["A","B","C"],
    "precio":[10,20,30],
    "ventas":[100,50,20]
}
df_cinco = pl.DataFrame(diccionario_cinco)
df_cinco.head()
df_cinco = df_cinco.with_columns(
    (pl.col("precio")*pl.col("ventas")).alias("precio_ventas")
)
df_cinco.head()
suma_precio_ventas = df_cinco.select(pl.col("precio_ventas").sum()).item(0,0)
# suma_precio_ventas
suma_pesos_ventas = df_cinco.select(pl.col("ventas").sum()).item(0,0)
# suma_pesos_ventas
precio_ponderado = round((suma_precio_ventas/suma_pesos_ventas),2)
precio_ponderado

15.29

##### 🥈 NIVEL INTERMEDIO

###### PANDAS 🐼

In [85]:
import pandas as pd
import numpy as np
import seaborn as sns

"""
6. GroupBy con múltiples agregaciones

🗃️ Dataset: Tips
🗒️ Enunciado: Agrupa por day y calcula: promedio de total_bill y suma de tip en una sola operación.
✍️ Resultado esperado: DataFrame con day como índice y dos columnas: total_bill_mean y tip_sum.

"""
## ✔️ Solución
df_seis = sns.load_dataset("tips")
# df_seis.head()
df_seis_agrupado = df_seis.groupby("day",as_index=True,observed=True).agg(
    avg_total_bill = pd.NamedAgg(column="total_bill",aggfunc="mean"),
    sum_tip = pd.NamedAgg(column="tip",aggfunc="sum")
).round(2)
df_seis_agrupado.head()


"""
7. Agregación personalizada con lambda

🗃️ Dataset: Titanic
🗒️ Enunciado: Agrupa por pclass y calcula el rango (máx - mín) de fare usando una función lambda.
✍️ Resultado esperado: Serie con pclass y el rango de tarifas.

"""
## ✔️ Solución
df_siete = sns.load_dataset("titanic")
# df_siete.head()
df_siete_agrupado = df_siete.groupby("pclass",as_index=False,observed=True)["fare"].aggregate(lambda x:
                                            (max(x)-min(x))
                                            ).round(2).rename({"fare":"rango_fare"},axis=1)
df_siete_agrupado.head()

"""
8. Multi-index avanzado

🗃️ Dataset: Diamonds
🗒️ Enunciado: Agrupa por cut y color, obteniendo la mediana de price.
✍️ Resultado esperado: DataFrame con índice jerárquico (cut/color) y columna price_median.

"""
## ✔️ Solución
df_ocho = sns.load_dataset("diamonds")
# df_ocho.head()
df_ocho_agrupado = df_ocho.groupby(["cut","color"],as_index=True,observed=True)["price"].agg("median")
df_ocho_agrupado.head(20)


"""
9. Pivot table con agregación múltiple

🗃️ Dataset: Tips
🗒️ Enunciado: Crea una tabla pivote que muestre por day el promedio y la suma de total_bill.
✍️ Resultado esperado: Tabla con day como filas y dos columnas: avg_total_bill y sum_total_bill.

"""
## ✔️ Solución
df_nueve = sns.load_dataset("tips")
# df_nueve.head()
df_nueve_pivoteado = df_nueve.pivot_table(index="day",values="total_bill",aggfunc=["mean","sum"],observed=True).round(2)
df_nueve_pivoteado.head()


"""
10. Weighted average por categoría

🗃️ Dataset: Diccionario
🗒️ Enunciado: Enunciado: Calcula el precio promedio ponderado por región, usando ventas como peso.
✍️ Resultado esperado: Serie con region como índice y el precio ponderado.

"""
## ✔️ Solución
diccionario_diez = {
    "region":["Norte","Norte","Sur","Sur"],
    "ventas":[100,150,80,120],
    "precio":[10,12,8,15]
}
df_diez = pd.DataFrame(diccionario_diez)
# df_diez.head()
df_diez["ventas_precio"] = (df_diez["ventas"]*df_diez["precio"])
# df_diez.head()
def precio_ponderado_region(df,regiones):
    serie_region = pd.Series(data=["",""],index=regiones)
    for i,region in enumerate(regiones):
        df_region = df.query(f"region=='{region}'")        
        suma_ventas_precio_region = float(df_region["ventas_precio"].sum())
        suma_pesos_ventas_region = float(df_region["ventas"].sum())
        precio_ponderado = round(suma_ventas_precio_region/suma_pesos_ventas_region,2)
        serie_region.iloc[i]=precio_ponderado
    return serie_region
serie_ponderado_regiones = precio_ponderado_region(df_diez,df_diez["region"].unique().tolist())
serie_ponderado_regiones

Norte    11.2
Sur      12.2
dtype: object

###### POLARS 🐻‍❄️

In [None]:
import polars as pl

"""
6. GroupBy con múltiples agregaciones

🗃️ Dataset: Tips
🗒️ Enunciado: Agrupa por day y calcula: promedio de total_bill y suma de tip en una sola operación.
✍️ Resultado esperado: DataFrame con day como índice y dos columnas: total_bill_mean y tip_sum.

"""
## ✔️ Solución
df_seis = pl.scan_csv("../datasets/tips.csv",separator=",")
# df_seis.collect()
df_seis_agrupado = df_seis.group_by("day").agg(
    pl.col("total_bill").mean().round(2).alias("avg_total_bill"),
    pl.col("tip").sum().round(2).alias("sum_tip")
)
df_seis_agrupado.collect()

"""
7. Agregación personalizada con lambda

🗃️ Dataset: Titanic
🗒️ Enunciado: Agrupa por pclass y calcula el rango (máx - mín) de fare usando una función lambda.
✍️ Resultado esperado: Serie con pclass y el rango de tarifas.

"""
## ✔️ Solución
df_siete = pl.scan_csv("../datasets/titanic.csv",separator=",")
# df_siete.collect()
df_siete_agrupado = df_siete.group_by("pclass").agg(
    pl.col("fare").map_elements(lambda x:max(x)-min(x),return_dtype=pl.Float64).round(2).alias("rango_max_min_fare")
)
df_siete_agrupado.collect()

"""
8. Multi-index avanzado

🗃️ Dataset: Diamonds
🗒️ Enunciado: Agrupa por cut y color, obteniendo la mediana de price.
✍️ Resultado esperado: DataFrame con índice jerárquico (cut/color) y columna price_median.

"""
## ✔️ Solución
df_ocho = pl.scan_csv("../datasets/diamonds.csv",separator=",")
# df_ocho.collect()
df_ocho_agrupado = df_ocho.group_by(["cut","color"]).agg(
    pl.col("price").median().round(2).alias("median_price")
)
df_ocho_agrupado.collect()

"""
9. Pivot table con agregación múltiple

🗃️ Dataset: Tips
🗒️ Enunciado: Crea una tabla pivote que muestre por day el promedio y la suma de total_bill.
✍️ Resultado esperado: Tabla con day como filas y dos columnas: avg_total_bill y sum_total_bill.

"""
## ✔️ Solución
df_nueve = pl.read_csv("../datasets/tips.csv",separator=",")
# df_nueve.head()
df_nueve_pivoteado = df_nueve.group_by("day").agg(
    pl.col("total_bill").mean().round(2).alias("avg_total_bill"),
    pl.col("total_bill").sum().round(2).alias("sum_total_bill")
)
df_nueve_pivoteado.head()

""".
10. Weighted average por categoría

🗃️ Dataset: Diccionario
🗒️ Enunciado: Calcula el precio promedio ponderado por región, usando ventas como peso.
✍️ Resultado esperado: Serie con region como índice y el precio ponderado.

"""
## ✔️ Solución
diccionario_diez = {
    "region":["Norte","Norte","Sur","Sur"],
    "ventas":[100,150,80,120],
    "precio":[10,12,8,15]
}
df_diez = pl.DataFrame(diccionario_diez)
# df_diez.head()
df_diez = df_diez.with_columns(
    (pl.col("ventas")*pl.col("precio")).alias("ventas_precio")
)
regiones = [i[0] for i in df_diez.select(pl.col("region").unique()).iter_rows()]
def precio_ponderado_region(df,regiones):
    df_region = []
    dicccionario = dict()
    for region in regiones:
        df2 = df.filter(pl.col("region")==region)
        df2.head()
        suma_ventas_precio = df2.select(pl.col("ventas_precio").sum()).item()
        suma_pesos_ventas = df2.select(pl.col("ventas").sum()).item()
        precio_ponderado = round((suma_ventas_precio/suma_pesos_ventas),2)
        dicccionario[region] = precio_ponderado
        df_temp = pl.DataFrame({
            "region":region,
            "precio_ponderado":precio_ponderado
        })
        df_region.append(df_temp)
    if df_region:
        return pl.concat(df_region)
    else:
        return pl.DataFrame({"region":[],"precio_ponderado":[]})
df = precio_ponderado_region(df=df_diez,regiones=regiones)
df.head()


region,precio_ponderado
str,f64
"""Sur""",12.2
"""Norte""",11.2


##### 🥇 NIVEL AVANZADO

###### PANDAS 🐼

In [73]:
import pandas as pd
import seaborn as sns
import numpy as np

"""
11. GroupBy con múltiples funciones y columnas

🗃️ Dataset: Titanic
🗒️ Enunciado: Agrupa por pclass y sex, calculando:

    . Promedio de age

    . Desviación estándar de fare

    . Conteo de pasajeros
    
✍️ Resultado esperado: DataFrame con multi-index (pclass, sex) y tres columnas con las métricas.
"""
## ✔️ Solución
df_once = sns.load_dataset("titanic")
# df_once.head()
df_once_agrupado = df_once.groupby(["pclass","sex"],observed=True,as_index=True).aggregate(
    av_age = pd.NamedAgg(column="age",aggfunc="mean"),
    std_fare = pd.NamedAgg(column="fare",aggfunc="std"),
    count_passengers = pd.NamedAgg(column="survived",aggfunc="count")
).round(2)
df_once_agrupado.head()


"""
12. Agregación condicional con lambda

🗃️ Dataset: Tips
🗒️ Enunciado: Por cada day, calcula la suma de total_bill solo para registros donde size > 2, usando una función personalizada.    
✍️ Resultado esperado: Serie con el total de total_bill por día filtrado.

"""
## ✔️ Solución
df_doce = sns.load_dataset("tips")
# df_doce.head()

def sum_total_bill(df):
    df = df.query('size>2')
    df_ag = df.groupby("day",as_index=False,observed=True)["total_bill"].sum()
    return df_ag.set_index("day")["total_bill"] ## Retorna una serie, basándose en una columna e índice

df_doce_agrupado = sum_total_bill(df=df_doce)
df_doce_agrupado.head()


"""
13. Pivot table dinámica con columnas múltiples

🗃️ Dataset: Diamonds
🗒️ Enunciado: Crea una tabla pivote que muestre para cada cut (filas) y color (columnas) el precio promedio.   
✍️ Resultado esperado: Matriz con cut en filas, color en columnas y valores de price promedio.

"""
## ✔️ Solución

df_trece = sns.load_dataset("diamonds")
# df_trece.head()
df_trece_pivot = df_trece.pivot_table(index="cut",columns="color",values="price",aggfunc="mean",observed=True).round(2)
df_trece_pivot.head()


"""
14. Promedio ponderado dentro de un groupby

🗃️ Dataset: Diccionario
🗒️ Enunciado: Calcula el promedio ponderado de valor para cada categoria, usando peso como peso. 
✍️ Resultado esperado: Serie con categoria y su promedio ponderado.

"""
## ✔️ Solución
diccionario_catorce = {
    "categoria":["A","A","B","B"],
    "peso":[2,3,5,1],
    "valor":[10,20,30,40]
}
df_catorce = pd.DataFrame(diccionario_catorce)
df_catorce["peso_valor"] = df_catorce["peso"]*df_catorce["valor"]
# df_catorce.head()
def valor_ponderado(df,categorias):
    serie = pd.Series(name="precio_ponderado_categorias")
    for categoria in categorias:
        df_categoria = df.query(f'categoria=="{categoria}"')
        suma_peso_valor = df_categoria["peso_valor"].sum()
        suma_pesos = df_categoria["peso"].sum()
        valor_ponderado_categoria = round(suma_peso_valor/suma_pesos,2)
        serie[categoria] = valor_ponderado_categoria
    return serie
df_catorce_final = valor_ponderado(df_catorce,df_catorce["categoria"].unique())
df_catorce_final.head()

"""
15. GroupBy con orden y top N

🗃️ Dataset: Tips
🗒️ Enunciado: Para cada day, encuentra el máximo de total_bill y muestra los 2 días con mayor valor máximo.
✍️ Resultado esperado: Serie ordenada con los 2 días que tienen las cuentas más altas.

"""
## ✔️ Solución
df_quince = sns.load_dataset("tips")
# df_quince.head()
df_quince_agrupado = df_quince.groupby("day",as_index=True,observed=True)["total_bill"].max()
df_quince_agrupado.sort_values(ascending=False).head(2)

day
Sat    50.81
Sun    48.17
Name: total_bill, dtype: float64

###### POLARS 🐻‍❄️

In [45]:
import polars as pl

"""
11. GroupBy con múltiples funciones y columnas

🗃️ Dataset: Titanic
🗒️ Enunciado: Agrupa por pclass y sex, calculando:

    . Promedio de age

    . Desviación estándar de fare

    . Conteo de pasajeros
    
✍️ Resultado esperado: DataFrame con multi-index (pclass, sex) y tres columnas con las métricas.
"""
## ✔️ Solución
df_once = pl.scan_csv("../datasets/titanic.csv",separator=",")
# df_once.collect()
df_once_agrupado = df_once.group_by(["pclass","sex"]).agg(
    pl.col("age").mean().round(2).alias("avg_age"),
    pl.col("fare").std().round(2).alias("std_fare"),
    pl.col("survived").len().alias("total_pasajeros")
)
df_once_agrupado.collect()


"""
12. Agregación condicional con lambda

🗃️ Dataset: Tips
🗒️ Enunciado: Por cada day, calcula la suma de total_bill solo para registros donde size > 2, usando una función personalizada.    
✍️ Resultado esperado: Serie con el total de total_bill por día filtrado.

"""
## ✔️ Solución
df_doce = pl.read_csv("../datasets/tips.csv",separator=",")
# df_doce.head()
def total_bill_calculo(df):
    df = df.filter(
        pl.col("size")>2
    )
    df_agg = df.group_by("day").agg(
        pl.col("total_bill").sum().alias("sum_total_bill")
    ) 
    return df_agg
df_doce_agrupado = total_bill_calculo(df_doce)
df_doce_agrupado.head()

"""
13. Pivot table dinámica con columnas múltiples

🗃️ Dataset: Diamonds
🗒️ Enunciado: Crea una tabla pivote que muestre para cada cut (filas) y color (columnas) el precio promedio.   
✍️ Resultado esperado: Matriz con cut en filas, color en columnas y valores de price promedio.

"""
## ✔️ Solución
df_trece = pl.read_csv("../datasets/diamonds.csv",separator=",")
# df_trece.headt()
df_trece_pivot = df_trece.pivot(index="cut",on="color",values="price",aggregate_function=pl.element().mean().round(2))
df_trece_pivot.head()

"""
14. Promedio ponderado dentro de un groupby

🗃️ Dataset: Diccionario
🗒️ Enunciado: Calcula el promedio ponderado de valor para cada categoria, usando peso como peso. 
✍️ Resultado esperado: Serie con categoria y su promedio ponderado.

"""
## ✔️ Solución
diccionario_catorce = {
    "categoria":["A","A","B","B"],
    "peso":[2,3,5,1],
    "valor":[10,20,30,40]
}
df_catorce =  pl.DataFrame(diccionario_catorce)
# df_catorce.head()
df_catorce = df_catorce.with_columns(
    (pl.col("peso")*pl.col("valor")).alias("peso_ventas")
)
# df_catorce.head()
def peso_ponderado_categoria(df,categorias):
    df_cat = []
    for categoria in categorias:
        df_categoria = df.filter(pl.col("categoria")==categoria[0])
        suma_peso_valor = df_categoria.select(pl.col("peso_ventas").sum()).item()
        suma_pesos = df_categoria.select(pl.col("peso").sum()).item()
        peso_ponderado = round((suma_peso_valor/suma_pesos),2)
        df_temp = pl.DataFrame({
            "categoria":categoria,
            "peso_ponderado":peso_ponderado
        })
        df_cat.append(df_temp)
    if df_cat:
        return pl.concat(df_cat)
    else:
        return pl.DataFrame({"categoria":[],"peso_ponderado":[]})
df = peso_ponderado_categoria(df_catorce,df_catorce.select(pl.col("categoria").unique()).iter_rows())
df.head()

"""
15. GroupBy con orden y top N

🗃️ Dataset: Tips
🗒️ Enunciado: Para cada day, encuentra el máximo de total_bill y muestra los 2 días con mayor valor máximo.
✍️ Resultado esperado: Serie ordenada con los 2 días que tienen las cuentas más altas.

"""
## ✔️ Solución
df_quince = pl.read_csv("../datasets/tips.csv",separator=",")
# df_quince.head()
df_quince_agrupado = df_quince.group_by("day").agg(
    pl.col("total_bill").max().alias("max_total_bill")
).sort(by="max_total_bill",descending=True)
df_quince_agrupado.head(2)


day,max_total_bill
str,f64
"""Sat""",50.81
"""Sun""",48.17
