### 📘 Talleres de Ingeniería de Datos con Pandas y Polars 🐼🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars   
📓 Estos talleres constarán de 3 niveles (Básico-Intermedio-Avanzado)   
🔍 Abarcará temas desde Fundamentos de Data Wrangling hacia Casos de Uso Avanzado   
📝 Cada ejercicio presenta su enunciado, dataset, resultado esperado y solución.   


#### FUNDAMENTOS DE DATA WRANGLING (MANIPULACIÓN DE DATOS)

##### 🥉 NIVEL BÁSICO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ Solución
df_uno = sns.load_dataset("titanic")
# df_uno.head()
# df_uno[["age","embarked","deck"]].isnull().sum() ## ➡️ Cantidad de datos nulos: age(177) - embarked(2) - deck(688)

"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = pd.DataFrame(dict_data)
# df_dos.head()
# df_dos.shape[0] ## ➡️ Cantidad de datos: 7
df_dos.drop_duplicates(subset=["id","nombre","edad"],keep="first",inplace=True)
# df_dos.head()
df_dos.shape[0] ## ➡️ Cantidad de datos: 5


"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = sns.load_dataset("penguins")
# df_tres.head()
# df_tres["bill_length_mm"].isnull().sum() ## ➡️ Cantidad de datos nulos: 2
media_bill_length_mm = float(np.mean(df_tres["bill_length_mm"].dropna()).round(2))
df_tres.fillna({"bill_length_mm":media_bill_length_mm},inplace=True)
df_tres["bill_length_mm"].isnull().sum() ## ➡️ Cantidad de datos nulos: 0



np.int64(0)

###### POLARS 🐻‍❄️

In [None]:
import polars as pl
import numpy as np
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ Solución
df_uno = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_uno.head()
df_uno.null_count()

"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = pl.DataFrame(dict_data)
# df_dos.head()
df_dos = df_dos.unique(keep="first")
df_dos.head()

"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = pl.read_csv("../datasets/penguins.csv",separator=",")
# df_tres.head()
# df_tres["bill_length_mm"].null_count() ## ➡️ Cantidad Nulos: 2
media_bill_length_mm = df_tres["bill_length_mm"].mean().__round__(2)
media_bill_length_mm
df_tres = df_tres.with_columns(
    pl.col("bill_length_mm").fill_null(media_bill_length_mm).alias("bill_length_mm")
)
# df_tres.head()
df_tres["bill_length_mm"].null_count() ## ➡️ Cantidad Nulos: 0

0

##### 🥈 NIVEL INTERMEDIO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np

"""
4. Imputación condicional de valores faltantes

🗃️ Dataset: TITANIC
🗒️ Enunciado: Completa los valores faltantes de age con la edad promedio por clase (pclass).
✍️ Resultado esperado: columna age sin valores nulos, imputada según clase de pasajero.

"""
## ✔️ Solución
df_cuatro = sns.load_dataset("titanic")
# df_cuatro.head()
# df_cuatro["age"].isnull().sum() ## ➡️ Cantidad de datos nulos: 177
edad_promedio_por_clase = df_cuatro.groupby("pclass",as_index=False,observed=True)["age"].mean().round(2)
edad_promedio_por_clase
# df_cuatro["age"].isnull().sum() ## ➡️ Cantidad de datos nulos: 177

df_cuatro_clean = df_cuatro.copy()
df_cuatro_clean[df_cuatro_clean["pclass"]==1] = df_cuatro_clean[df_cuatro_clean["pclass"]==1].fillna({
    "age":float(edad_promedio_por_clase.query('pclass==1')["age"][0])
})
df_cuatro[df_cuatro["pclass"]==2] = df_cuatro[df_cuatro["pclass"]==2].fillna({
    "age":float(edad_promedio_por_clase.query('pclass==2')["age"][1])
})
df_cuatro[df_cuatro["pclass"]==3] = df_cuatro[df_cuatro["pclass"]==3].fillna({
    "age":float(edad_promedio_por_clase.query("pclass==3")["age"][2])
})
# df_cuatro_clean[df_cuatro_clean["pclass"]==1].isnull().sum() ## Cantidad: 0
# df_cuatro_clean[df_cuatro_clean["pclass"]==2].isnull().sum() ## Cantidad: 0
# df_cuatro_clean[df_cuatro_clean["pclass"]==3].isnull().sum() ## Cantidad: 0


"""
5. Detección de outliers usando IQR

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica los valores de ventas que son outliers según el rango intercuartílico (IQR).
✍️ Resultado esperado: listado de los productos que presentan valores anómalos.

"""
## ✔️ Solución
diccionario_cinco = {
 "producto": ["A","B","C","D","E","F"],
 "ventas": [120, 130, 115, 1000, 140, 135]
}
df_cinco = pd.DataFrame(diccionario_cinco)
# df_cinco.head()
# df_cinco.describe()
q1_ventas = float(np.quantile(df_cinco["ventas"],0.25))
q3_ventas = float(np.quantile(df_cinco["ventas"],0.75))
iqr_ventas = q3_ventas-q1_ventas
lower_bound_ventas = q1_ventas - 1.5 * iqr_ventas
upper_bound_ventas = q3_ventas + 1.5 * iqr_ventas
df_cinco_outliers = df_cinco[(df_cinco["ventas"]<lower_bound_ventas) | (df_cinco["ventas"]>upper_bound_ventas)]
# df_cinco_outliers.head()
df_cinco_outliers.shape[0] ## CANTIDAD DE OUTLIERS EN COLUMNA VENTAS: 1


"""
6. Eliminación selectiva de duplicados

🗃️ Dataset: Diamonds
🗒️ Enunciado: En el dataset de diamantes, elimina duplicados basados solo en las columnas carat y price.
✍️ Resultado esperado: DataFrame sin duplicados en esas dos columnas, pero manteniendo el resto de filas.

"""
## ✔️ Solución
df_seis = sns.load_dataset("diamonds")
df_seis.head()
# df_seis.shape[0] ## 53940 DATOS
# df_seis["carat"].duplicated().sum() ## 53 667 DATOS DUPLICADOS EN ESTA COLUMNA
# df_seis["price"].duplicated().sum() ## 42 338 DATOS DUPLICADOS EN ESTA COLUMNA
# df_seis.drop_duplicates(subset=["carat","price"],inplace=True)
# df_seis.shape[0] ## 28988 DATOS DESPUES DE REMOVER DUPLICADOS


"""
7. Relleno de valores faltantes con interpolación

🗃️ Dataset: Diccionario
🗒️ Enunciado: Rellena los valores nulos de la columna temperatura mediante interpolación lineal.
✍️ Resultado esperado: columna completa sin valores nulos, con estimaciones suaves.

"""
## ✔️ Solución
diccionario_siete = {
    "fecha": pd.date_range("2024-01-01", periods=10),
    "temperatura": [21,22,None,24,25,None,None,28,29,30]
}
df_siete = pd.DataFrame(diccionario_siete)
df_siete_interpolado = df_siete.copy()
df_siete_interpolado = df_siete_interpolado.interpolate(method="linear")
df_siete_interpolado.head()



"""
8. Conteo de valores faltantes combinados

🗃️ Dataset: Penguins
🗒️ Enunciado: Calcula el número de registros que tienen valores nulos simultáneamente
    en las columnas bill_length_mm y bill_depth_mm.
✍️ Resultado esperado: un número entero que indique cuántos registros cumplen esta condición.

"""
## ✔️ Solución
df_ocho = sns.load_dataset("penguins")
# df_ocho.head()
df_ocho[["bill_length_mm","bill_depth_mm"]].isnull().sum() ## ⬅️ Cantidad de datos nulos en ambas columnas (bill_length_mm:2 - bill_depth_mm: 2).
df_ocho_nulos = df_ocho[(df_ocho["bill_length_mm"].isnull()==True) & (df_ocho["bill_depth_mm"].isnull()==True)]
df_ocho_nulos.shape[0] ## ⬅️ Cantidad de valores nulos simultaneos en ambas columnas: 2

#--- En caso no haya entendido el concepto, te dejo este otro ejemplo 👍.
df_example = pd.DataFrame(data=[[1,None],[None,2],[None,None]],columns=["A","B"])
# df_example.head() ## ⬅️ Como podremos observar hay un match en dos registros de la fila A y B que son nulos.
cantidad_nulos = df_example[(df_example["A"].isnull()==True) & (df_example["B"].isnull()==True)]
cantidad_nulos.shape[0] ## ⬅️ Cantidad de valores nulos simultaneos en ambas columnas: 1



1

###### POLARS 🐻‍❄️

In [None]:
import polars as pl
import pandas as pd
import numpy as np
"""
4. Imputación condicional de valores faltantes

🗃️ Dataset: TITANIC
🗒️ Enunciado: Completa los valores faltantes de age con la edad promedio por clase (pclass).
✍️ Resultado esperado: columna age sin valores nulos, imputada según clase de pasajero.

"""
## ✔️ Solución
df_cuatro = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_cuatro.head()
# df_cuatro["age"].null_count() ## ➡️ Cantidad de datos nulos: 177
def llenar_nulos_pclass_edad(dataframe):
    df = dataframe
    edad_promedio_por_clase = df_cuatro.group_by("pclass").agg(
        pl.col("age").drop_nulls().mean().round(2).alias("avg_age_pclass")
    )
    
    for pclass,media in edad_promedio_por_clase.iter_rows():
        df = df.with_columns(
            pl.when(
                (pl.col("pclass")==pclass) & (pl.col("age").is_null())
            ).then(pl.lit(media))
            .otherwise(pl.col("age")).alias("age")
        )
    return df
df_cuatro_clean = llenar_nulos_pclass_edad(df_cuatro)
df_cuatro_clean[["age"]].null_count() ## ➡️ Cantidad de datos nulos: 0 


"""
5. Detección de outliers usando IQR

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica los valores de ventas que son outliers según el rango intercuartílico (IQR).
✍️ Resultado esperado: listado de los productos que presentan valores anómalos.

"""
## ✔️ Solución
diccionario_cinco = {
 "producto": ["A","B","C","D","E","F"],
 "ventas": [120, 130, 115, 1000, 140, 135]
}
df_cinco = pl.DataFrame(diccionario_cinco)
# df_cinco.head()
q1_ventas = df_cinco["ventas"].quantile(0.25)
q1_ventas


"""
6. Eliminación selectiva de duplicados

🗃️ Dataset: Diamonds
🗒️ Enunciado: En el dataset de diamantes, elimina duplicados basados solo en las columnas carat y price.
✍️ Resultado esperado: DataFrame sin duplicados en esas dos columnas, pero manteniendo el resto de filas.

"""
## ✔️ Solución
df_seis = pl.read_csv("../datasets/diamonds.csv",separator=",")
# df_seis.head()
df_seis = df_seis.unique(subset=["carat","price"],keep="first")
df_seis.head()


"""
7. Relleno de valores faltantes con interpolación

🗃️ Dataset: Diccionario
🗒️ Enunciado: Rellena los valores nulos de la columna temperatura mediante interpolación lineal.
✍️ Resultado esperado: columna completa sin valores nulos, con estimaciones suaves.

"""
## ✔️ Solución
from datetime import date
diccionario_siete  = {
 "fecha": pd.date_range("2024-01-01", periods=10),
 "temperatura": [21,22,None,24,25,None,None,28,29,30]
}
df_siete = pl.DataFrame(diccionario_siete)
df_siete = df_siete.select(pl.col("fecha"),pl.col("temperatura").interpolate().alias("temperatura"))
df_siete.head()


"""
8. Conteo de valores faltantes combinados

🗃️ Dataset: Penguins
🗒️ Enunciado: Calcula el número de registros que tienen valores nulos simultáneamente
    en las columnas bill_length_mm y bill_depth_mm.
✍️ Resultado esperado: un número entero que indique cuántos registros cumplen esta condición.

"""
## ✔️ Solución
df_ocho = pl.read_csv("../datasets/penguins.csv",separator=",")
# df_ocho.head()
# df_ocho[["bill_length_mm","bill_depth_mm"]].null_count() ## ➡️ Cantidad de Valores Nulos
nulos_consecutivos = df_ocho.filter(
    (pl.col("bill_length_mm").is_null() & pl.col("bill_depth_mm").is_null())
)
# nulos_consecutivos.head() ## ⬅️ Verificamos nulos simulares en ambas columnas
# nulos_consecutivos.shape[0] ## ⬅️ Cantidad de nulos simulares en ambas columnas: 2

#--- En caso no haya entendido el concepto, te dejo este otro ejemplo 👍.
df_example = pl.DataFrame(data=[[1,None],[None,2],[None,None]],schema=["A","B"],orient="row")
# df_example.head() ## ⬅️ Verificamos que existen nulos en columnas similares
nulos_consecutivos_2 = df_example.filter(
    (pl.col("A").is_null() & pl.col("B").is_null())
)
# nulos_consecutivos_2.head() ## ⬅️ Verificamos nulos simulares en ambas columnas
nulos_consecutivos_2.shape[0] ## ⬅️ Cantidad de nulos simulares en ambas columnas: 1

1

##### 🥇 NIVEL AVANZADO

###### PANDAS 🐼

In [22]:

import pandas as pd
import seaborn as sns
import numpy as np

"""
9. Winsorización de outliers

🗃️ Dataset: Diccionario
🗒️ Enunciado: Aplica winsorización al 5% superior e inferior en la
   columna nota para reducir el impacto de valores extremos.
✍️ Resultado esperado: columna nota ajustada, sin eliminar registros.

💡 La winsorinización permite mejorar la integridad y confiabilidad de datos
    evitando valores extremos a los limites de quartil que tiene cada columna.
    Por ejemplo: valores mayores a 10, se establecen como 10 y valores
    menores a 5, se establecen como 5.

"""
## ✔️ Solución
diccionario_nueve = {
 "alumno": ["A","B","C","D","E","F","G"],
 "nota": [10, 12, 15, 100, 11, 13, 200]
}

df_nueve = pd.DataFrame(diccionario_nueve)
# df_nueve.head()
limite_5_pct_inferior = float(np.quantile(df_nueve["nota"],0.05)) ## ➡️ Quartil 5%: 10.3
# limite_5_pct_inferior
limite_5_pct_superior = float(np.quantile(df_nueve["nota"],0.95).round(2)) ## ➡️ Quartil 95%: 170.0
# limite_5_pct_superior
condiciones_valores = [
    (df_nueve["nota"]<limite_5_pct_inferior), ## Condicina que, si el valor es menor al límite 5% inferior
    (df_nueve["nota"]>limite_5_pct_superior)  ## Condicina que, si el valor es mayor al límite 95% superior
]
values = np.array([limite_5_pct_inferior,limite_5_pct_superior]) ## Se establece los valores de las condiciones
df_nueve_winzorizacion = df_nueve.copy()
df_nueve_winzorizacion["nota_winsorizacion"] = np.select(condiciones_valores,values,default=df_nueve["nota"])
df_nueve_winzorizacion.head(7)


"""
10. Detección de inconsistencias de tipado en columnas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica las filas con tipos incorrectos  y conviértelas al tipo correcto.
✍️ Resultado esperado: Un dataset con tipos de datos correcto en cada columna

"""
## ✔️ Solución
diccionario_diez = {
    "ID":[1,"2",3,"004","5"],
    "Venta":["12254",1450,1200.00,"300",120.00]
}
df_diez = pd.DataFrame(diccionario_diez)
df_diez["ID"] = df_diez["ID"].astype(dtype="int") ## Casteamos el tipo de dato a int
df_diez["Venta"] = df_diez["Venta"].astype(dtype="float") ## Casteamos el tipo de dato a float
# df_diez.head()
df_diez.dtypes ##  ✅ Verificamos los tipos de dato correctamente casteados.


"""
11. Identificación de duplicados aproximados (fuzzy matching)

🗃️ Dataset: Diccionario
🗒️ Enunciado: Detecta nombres de clientes que parecen duplicados
    por errores tipográficos (ejemplo: "Luis" vs "luiz").
✍️ Resultado esperado: listado de pares de valores sospechosos de ser duplicados.

"""
## ✔️ Solución
diccionario_once = {
 "cliente": ["Ana", "Ana ", "Luis", "Luz", "luiz", "Pedro", "pedro"]
}

import difflib ## Módulo que permite encontrar diferencias/similitudes en secuencias.

nombres = [i.replace(' ','') for i in diccionario_once["cliente"]] ## List comprenhension que limpiar espacios en blanco

sospechosos_duplicados = {} ## Diccionario para almacenar duplicados sospechosos

for nombre in nombres: ## Iteramos en a lista anterior.
    ## .get_close_matches() Retorna las palabras similares a la primera que encuentre.
    similares = difflib.get_close_matches(word=nombre,possibilities=nombres,n=3,cutoff=0.8)
    ## word: Palabra a encontrar
    ## possibilities: Lista de palabras similares
    ## n: Cantidad de coincidencias
    ## cutoff: Valor de similitud (Como requerimos las que sean casi similar usamos un 0.8=80%)
    sospechosos_duplicados[nombre] = similares ## Almacenamos en el diccionario
sospechosos_duplicados ## Imprimimos el diccionario


"""
12. Validación y limpieza de rangos válidos

🗃️ Dataset: Titanic
🗒️ Enunciado: Valida que la columna "age" esté en un rango lógico (0 a 100 años).
               Detecta y corrige/descarta valores fuera de rango.
✍️ Resultado esperado: columna age sin valores inválidos, garantizando integridad de negocio.

"""
## ✔️ Solución
df_doce = sns.load_dataset("titanic")
# df_doce.shape[0] ## ➡️ Cantidad de datos originales: 891
df_doce_clean = df_doce.query('age>0 and age<100') ## ✅ Filtramos la información y almacenamos en un nuevo dataset.
df_doce_clean.shape[0] ## ➡️ Cantidad de datos originales: 714
# df_doce.head()

"""
13. Normalización de categorías inconsistentes

🗃️ Dataset: Diccionario
🗒️ Enunciado: Detecta y unifica las categorías inconsistentes aplicando reglas 
              de limpieza (case folding, corrección de errores).
✍️ Resultado esperado: Dataset con categorías únicas y estandarizadas.

"""
## ✔️ Solución
diccionario_trece = {
    "Ciudad":["Lima","lima","LIMA","Lma",]
}

categorias_validas = ["Lima"] ## ➡️ Palabras válidas para su estandarización

def normalizar_ciudad(valor):
    match = difflib.get_close_matches(valor, categorias_validas, n=1, cutoff=0.6)
    return match[0] if match else valor ## Verifica que sí la palabra ingresada
                                        ## tiene una palabra válida similar, entonces
                                        ## retorna esa palabra similar en una lista (accedemos a su posición).
df_trece = pd.DataFrame(diccionario_trece)
df_trece["Ciudad"] = df_trece["Ciudad"].str.title()
df_trece["Ciudad"] = df_trece["Ciudad"].apply(normalizar_ciudad)
df_trece.head()
 


Unnamed: 0,Ciudad
0,Lima
1,Lima
2,Lima
3,Lima


###### POLARS 🐻‍❄️

In [None]:

import polars as pl
import numpy as np

"""
9. Winsorización de outliers

🗃️ Dataset: Diccionario
🗒️ Enunciado: Aplica winsorización al 5% superior e inferior en la
   columna nota para reducir el impacto de valores extremos.
✍️ Resultado esperado: columna nota ajustada, sin eliminar registros.

💡 La winsorinización permite mejorar la integridad y confiabilidad de datos
    evitando valores extremos a los limites de quartil que tiene cada columna.
    Por ejemplo: valores mayores a 10, se establecen como 10 y valores
    menores a 5, se establecen como 5.

"""
## ✔️ Solución
diccionario_nueve = {
 "alumno": ["A","B","C","D","E","F","G"],
 "nota": [10, 11, 75, 100, 11, 13, 200]
}

df_nueve = pl.DataFrame(diccionario_nueve)
# df_nueve.head(7)
limite_5_pct_inferior = float(np.quantile(df_nueve["nota"],0.05)) ## ➡️ Límite 5% inferior: 10.3
# limite_5_pct_inferior
limite_5_pct_superior = float(np.quantile(df_nueve["nota"],0.95).round(2)) ## ➡️ Límite 5% superior: 170.0 
# limite_5_pct_superior
df_nueve = df_nueve.with_columns(
    pl.when(
        pl.col("nota")<limite_5_pct_inferior
    ).then(pl.lit(limite_5_pct_inferior))
    .when(
        pl.col("nota")>limite_5_pct_superior
    ).then(pl.lit(limite_5_pct_superior))
    .otherwise(pl.col("nota")).alias("nota_estandarizada")
)
df_nueve.head(7)

"""
10. Detección de inconsistencias de tipado en columnas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica las filas con tipos incorrectos  y conviértelas al tipo correcto.
✍️ Resultado esperado: Un dataset con tipos de datos correcto en cada columna

"""
## ✔️ Solución
diccionario_diez = {
    "ID":[1,"2",3,"004","5"],
    "Venta":["12254",1450,1200.00,"300",120.00]
}
df_diez = pl.DataFrame(diccionario_diez,schema={"ID":pl.Object,"Venta":pl.Object})
"""💡 En este caso definimos las columnas al tipo Object(permite datos de diversos tipos)
   para poder manejar el error de inconsistencia de datos en las columnas."""
# df_diez.head()
# df_diez_cast = df_diez.with_columns(
#     pl.col("ID").map_elements(lambda x:int(x),return_dtype=pl.Int64).alias("ID"),
#     pl.col("Venta").map_elements(lambda x:float(x),return_dtype=pl.Float64).alias("Venta")
# )
# df_diez_cast.head()
"""
💡 Para esta solución, Polars indica que map_elements es ineficiente al castear
    estos datos debido a que evalua fila a fila la función. Sin embargo, son estas
    casuísticas que nos permiten optar por estas soluciones.
"""

"""
11. Identificación de duplicados aproximados (fuzzy matching)

🗃️ Dataset: Diccionario
🗒️ Enunciado: Detecta nombres de clientes que parecen duplicados
    por errores tipográficos (ejemplo: "Luis" vs "luiz").
✍️ Resultado esperado: listado de pares de valores sospechosos de ser duplicados.

"""
## ✔️ Solución
diccionario_once = {
 "cliente": ["Ana", "Ana ", "Luis", "Luz", "luiz", "Pedro", "pedroo"]
}
import difflib
nombres_estandarizados = [i.replace(' ','') for i in diccionario_once["cliente"]]
# nombres_estandarizados
sospechosos_duplicados = {}
for nombre in nombres_estandarizados:
    sospechoso = difflib.get_close_matches(nombre,nombres_estandarizados,n=3,cutoff=0.8)
    sospechosos_duplicados[nombre] = sospechoso
sospechosos_duplicados 

"""
12. Validación y limpieza de rangos válidos

🗃️ Dataset: Titanic
🗒️ Enunciado: Valida que la columna "age" esté en un rango lógico (0 a 100 años).
               Detecta y corrige/descarta valores fuera de rango.
✍️ Resultado esperado: columna age sin valores inválidos, garantizando integridad de negocio.

"""
## ✔️ Solución
df_doce = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_doce.head()
df_doce.shape[0] ## ➡️ Cantidad de datos iniciales: 891
df_doce_clean = df_doce.filter(
    ((pl.col("age")>0) & (pl.col("age")<100))
)
# df_doce_clean.head()
df_doce_clean.shape[0] ## ➡️ Cantidad de datos filtrados: 714


"""
13. Normalización de categorías inconsistentes

🗃️ Dataset: Diccionario
🗒️ Enunciado: Detecta y unifica las categorías inconsistentes aplicando reglas 
              de limpieza (case folding, corrección de errores).
✍️ Resultado esperado: Dataset con categorías únicas y estandarizadas.

"""
## ✔️ Solución
diccionario_trece = {
    "Ciudad":["Lima","lima","LIMA","Lma",]
}
import difflib
df_trece = pl.DataFrame(diccionario_trece)
# df_trece.head()
ciudades_estandarizadas = ["Lima"] # Lista de ciudades estandarizadas
def estandarizar_ciudad(valor):
    similar = difflib.get_close_matches(valor,ciudades_estandarizadas,n=1,cutoff=0.6)
    return similar[0] if similar else valor
df_trece = df_trece.with_columns(
    pl.col("Ciudad").str.to_titlecase().map_batches(estandarizar_ciudad).alias("Ciudad")
)
df_trece.head()