### 📘 Talleres de Ingeniería de Datos con Pandas y Polars 🐼🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars   
📓 Estos talleres constarán de 3 niveles (Básico-Intermedio-Avanzado)   
🔍 Abarcará temas desde Fundamentos de Data Wrangling hacia Casos de Uso Avanzado   
📝 Cada ejercicio presenta su enunciado, dataset, resultado esperado y solución.   


#### FUNDAMENTOS DE DATA WRANGLING (MANIPULACIÓN DE DATOS)

##### 🥉 NIVEL BÁSICO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ Solución
df_uno = sns.load_dataset("titanic")
# df_uno.head()
# df_uno[["age","embarked","deck"]].isnull().sum() ## ➡️ Cantidad de datos nulos: age(177) - embarked(2) - deck(688)

"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = pd.DataFrame(dict_data)
# df_dos.head()
# df_dos.shape[0] ## ➡️ Cantidad de datos: 7
df_dos.drop_duplicates(subset=["id","nombre","edad"],keep="first",inplace=True)
# df_dos.head()
df_dos.shape[0] ## ➡️ Cantidad de datos: 5


"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = sns.load_dataset("penguins")
# df_tres.head()
# df_tres["bill_length_mm"].isnull().sum() ## ➡️ Cantidad de datos nulos: 2
media_bill_length_mm = float(np.mean(df_tres["bill_length_mm"].dropna()).round(2))
df_tres.fillna({"bill_length_mm":media_bill_length_mm},inplace=True)
df_tres["bill_length_mm"].isnull().sum() ## ➡️ Cantidad de datos nulos: 0



np.int64(0)

###### POLARS 🐻‍❄️

In [None]:
import polars as pl
import numpy as np
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ Solución
df_uno = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_uno.head()
df_uno.null_count()

"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = pl.DataFrame(dict_data)
# df_dos.head()
df_dos = df_dos.unique(keep="first")
df_dos.head()

"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = pl.read_csv("../datasets/penguins.csv",separator=",")
# df_tres.head()
# df_tres["bill_length_mm"].null_count() ## ➡️ Cantidad Nulos: 2
media_bill_length_mm = df_tres["bill_length_mm"].mean().__round__(2)
media_bill_length_mm
df_tres = df_tres.with_columns(
    pl.col("bill_length_mm").fill_null(media_bill_length_mm).alias("bill_length_mm")
)
# df_tres.head()
df_tres["bill_length_mm"].null_count() ## ➡️ Cantidad Nulos: 0

0

##### 🥈 NIVEL INTERMEDIO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np

"""
4. Imputación condicional de valores faltantes

🗃️ Dataset: TITANIC
🗒️ Enunciado: Completa los valores faltantes de age con la edad promedio por clase (pclass).
✍️ Resultado esperado: columna age sin valores nulos, imputada según clase de pasajero.

"""
## ✔️ Solución
df_cuatro = sns.load_dataset("titanic")
# df_cuatro.head()
# df_cuatro["age"].isnull().sum() ## ➡️ Cantidad de datos nulos: 177
edad_promedio_por_clase = df_cuatro.groupby("pclass",as_index=False,observed=True)["age"].mean().round(2)
edad_promedio_por_clase
# df_cuatro["age"].isnull().sum() ## ➡️ Cantidad de datos nulos: 177

df_cuatro_clean = df_cuatro.copy()
df_cuatro_clean[df_cuatro_clean["pclass"]==1] = df_cuatro_clean[df_cuatro_clean["pclass"]==1].fillna({
    "age":float(edad_promedio_por_clase.query('pclass==1')["age"][0])
})
df_cuatro[df_cuatro["pclass"]==2] = df_cuatro[df_cuatro["pclass"]==2].fillna({
    "age":float(edad_promedio_por_clase.query('pclass==2')["age"][1])
})
df_cuatro[df_cuatro["pclass"]==3] = df_cuatro[df_cuatro["pclass"]==3].fillna({
    "age":float(edad_promedio_por_clase.query("pclass==3")["age"][2])
})
# df_cuatro_clean[df_cuatro_clean["pclass"]==1].isnull().sum() ## Cantidad: 0
# df_cuatro_clean[df_cuatro_clean["pclass"]==2].isnull().sum() ## Cantidad: 0
# df_cuatro_clean[df_cuatro_clean["pclass"]==3].isnull().sum() ## Cantidad: 0


"""
5. Detección de outliers usando IQR

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica los valores de ventas que son outliers según el rango intercuartílico (IQR).
✍️ Resultado esperado: listado de los productos que presentan valores anómalos.

"""
## ✔️ Solución
diccionario_cinco = {
 "producto": ["A","B","C","D","E","F"],
 "ventas": [120, 130, 115, 1000, 140, 135]
}
df_cinco = pd.DataFrame(diccionario_cinco)
# df_cinco.head()
# df_cinco.describe()
q1_ventas = float(np.quantile(df_cinco["ventas"],0.25))
q3_ventas = float(np.quantile(df_cinco["ventas"],0.75))
iqr_ventas = q3_ventas-q1_ventas
lower_bound_ventas = q1_ventas - 1.5 * iqr_ventas
upper_bound_ventas = q3_ventas + 1.5 * iqr_ventas
df_cinco_outliers = df_cinco[(df_cinco["ventas"]<lower_bound_ventas) | (df_cinco["ventas"]>upper_bound_ventas)]
# df_cinco_outliers.head()
df_cinco_outliers.shape[0] ## CANTIDAD DE OUTLIERS EN COLUMNA VENTAS: 1


"""
6. Eliminación selectiva de duplicados

🗃️ Dataset: Diamonds
🗒️ Enunciado: En el dataset de diamantes, elimina duplicados basados solo en las columnas carat y price.
✍️ Resultado esperado: DataFrame sin duplicados en esas dos columnas, pero manteniendo el resto de filas.

"""
## ✔️ Solución
df_seis = sns.load_dataset("diamonds")
df_seis.head()
# df_seis.shape[0] ## 53940 DATOS
# df_seis["carat"].duplicated().sum() ## 53 667 DATOS DUPLICADOS EN ESTA COLUMNA
# df_seis["price"].duplicated().sum() ## 42 338 DATOS DUPLICADOS EN ESTA COLUMNA
# df_seis.drop_duplicates(subset=["carat","price"],inplace=True)
# df_seis.shape[0] ## 28988 DATOS DESPUES DE REMOVER DUPLICADOS


"""
7. Relleno de valores faltantes con interpolación

🗃️ Dataset: Diccionario
🗒️ Enunciado: Rellena los valores nulos de la columna temperatura mediante interpolación lineal.
✍️ Resultado esperado: columna completa sin valores nulos, con estimaciones suaves.

"""
## ✔️ Solución
diccionario_siete = {
    "fecha": pd.date_range("2024-01-01", periods=10),
    "temperatura": [21,22,None,24,25,None,None,28,29,30]
}
df_siete = pd.DataFrame(diccionario_siete)
df_siete_interpolado = df_siete.copy()
df_siete_interpolado = df_siete_interpolado.interpolate(method="linear")
df_siete_interpolado.head()



"""
8. Conteo de valores faltantes combinados

🗃️ Dataset: Penguins
🗒️ Enunciado: Calcula el número de registros que tienen valores nulos simultáneamente
    en las columnas bill_length_mm y bill_depth_mm.
✍️ Resultado esperado: un número entero que indique cuántos registros cumplen esta condición.

"""
## ✔️ Solución
df_ocho = sns.load_dataset("penguins")
# df_ocho.head()
df_ocho[["bill_length_mm","bill_depth_mm"]].isnull().sum() ## ⬅️ Cantidad de datos nulos en ambas columnas (bill_length_mm:2 - bill_depth_mm: 2).
df_ocho_nulos = df_ocho[(df_ocho["bill_length_mm"].isnull()==True) & (df_ocho["bill_depth_mm"].isnull()==True)]
df_ocho_nulos.shape[0] ## ⬅️ Cantidad de valores nulos simultaneos en ambas columnas: 2

#--- En caso no haya entendido el concepto, te dejo este otro ejemplo 👍.
df_example = pd.DataFrame(data=[[1,None],[None,2],[None,None]],columns=["A","B"])
# df_example.head() ## ⬅️ Como podremos observar hay un match en dos registros de la fila A y B que son nulos.
cantidad_nulos = df_example[(df_example["A"].isnull()==True) & (df_example["B"].isnull()==True)]
cantidad_nulos.shape[0] ## ⬅️ Cantidad de valores nulos simultaneos en ambas columnas: 1



1

###### POLARS 🐻‍❄️

In [None]:
import polars as pl
import pandas as pd
import numpy as np
"""
4. Imputación condicional de valores faltantes

🗃️ Dataset: TITANIC
🗒️ Enunciado: Completa los valores faltantes de age con la edad promedio por clase (pclass).
✍️ Resultado esperado: columna age sin valores nulos, imputada según clase de pasajero.

"""
## ✔️ Solución
df_cuatro = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_cuatro.head()
# df_cuatro["age"].null_count() ## ➡️ Cantidad de datos nulos: 177
def llenar_nulos_pclass_edad(dataframe):
    df = dataframe
    edad_promedio_por_clase = df_cuatro.group_by("pclass").agg(
        pl.col("age").drop_nulls().mean().round(2).alias("avg_age_pclass")
    )
    
    for pclass,media in edad_promedio_por_clase.iter_rows():
        df = df.with_columns(
            pl.when(
                (pl.col("pclass")==pclass) & (pl.col("age").is_null())
            ).then(pl.lit(media))
            .otherwise(pl.col("age")).alias("age")
        )
    return df
df_cuatro_clean = llenar_nulos_pclass_edad(df_cuatro)
df_cuatro_clean[["age"]].null_count() ## ➡️ Cantidad de datos nulos: 0 


"""
5. Detección de outliers usando IQR

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica los valores de ventas que son outliers según el rango intercuartílico (IQR).
✍️ Resultado esperado: listado de los productos que presentan valores anómalos.

"""
## ✔️ Solución
diccionario_cinco = {
 "producto": ["A","B","C","D","E","F"],
 "ventas": [120, 130, 115, 1000, 140, 135]
}
df_cinco = pl.DataFrame(diccionario_cinco)
# df_cinco.head()
q1_ventas = df_cinco["ventas"].quantile(0.25)
q1_ventas


"""
6. Eliminación selectiva de duplicados

🗃️ Dataset: Diamonds
🗒️ Enunciado: En el dataset de diamantes, elimina duplicados basados solo en las columnas carat y price.
✍️ Resultado esperado: DataFrame sin duplicados en esas dos columnas, pero manteniendo el resto de filas.

"""
## ✔️ Solución
df_seis = pl.read_csv("../datasets/diamonds.csv",separator=",")
# df_seis.head()
df_seis = df_seis.unique(subset=["carat","price"],keep="first")
df_seis.head()


"""
7. Relleno de valores faltantes con interpolación

🗃️ Dataset: Diccionario
🗒️ Enunciado: Rellena los valores nulos de la columna temperatura mediante interpolación lineal.
✍️ Resultado esperado: columna completa sin valores nulos, con estimaciones suaves.

"""
## ✔️ Solución
from datetime import date
diccionario_siete  = {
 "fecha": pd.date_range("2024-01-01", periods=10),
 "temperatura": [21,22,None,24,25,None,None,28,29,30]
}
df_siete = pl.DataFrame(diccionario_siete)
df_siete = df_siete.select(pl.col("fecha"),pl.col("temperatura").interpolate().alias("temperatura"))
df_siete.head()


"""
8. Conteo de valores faltantes combinados

🗃️ Dataset: Penguins
🗒️ Enunciado: Calcula el número de registros que tienen valores nulos simultáneamente
    en las columnas bill_length_mm y bill_depth_mm.
✍️ Resultado esperado: un número entero que indique cuántos registros cumplen esta condición.

"""
## ✔️ Solución
df_ocho = pl.read_csv("../datasets/penguins.csv",separator=",")
# df_ocho.head()
# df_ocho[["bill_length_mm","bill_depth_mm"]].null_count() ## ➡️ Cantidad de Valores Nulos
nulos_consecutivos = df_ocho.filter(
    (pl.col("bill_length_mm").is_null() & pl.col("bill_depth_mm").is_null())
)
# nulos_consecutivos.head() ## ⬅️ Verificamos nulos simulares en ambas columnas
# nulos_consecutivos.shape[0] ## ⬅️ Cantidad de nulos simulares en ambas columnas: 2

#--- En caso no haya entendido el concepto, te dejo este otro ejemplo 👍.
df_example = pl.DataFrame(data=[[1,None],[None,2],[None,None]],schema=["A","B"],orient="row")
# df_example.head() ## ⬅️ Verificamos que existen nulos en columnas similares
nulos_consecutivos_2 = df_example.filter(
    (pl.col("A").is_null() & pl.col("B").is_null())
)
# nulos_consecutivos_2.head() ## ⬅️ Verificamos nulos simulares en ambas columnas
nulos_consecutivos_2.shape[0] ## ⬅️ Cantidad de nulos simulares en ambas columnas: 1

1