### 📘 Talleres de Ingeniería de Datos con Pandas y Polars 🐼🐻‍❄️

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Pandas y Polars   
📓 Estos talleres constarán de 3 niveles (Básico-Intermedio-Avanzado)   
🔍 Abarcará temas desde Fundamentos de Data Wrangling hacia Casos de Uso Avanzado   
📝 Cada ejercicio presenta su enunciado, dataset, resultado esperado y solución.   


#### FUNDAMENTOS DE DATA WRANGLING (MANIPULACIÓN DE DATOS)

##### 🥉 NIVEL BÁSICO

###### PANDAS 🐼

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ Solución
df_uno = sns.load_dataset("titanic")
# df_uno.head()
# df_uno[["age","embarked","deck"]].isnull().sum() ## ➡️ Cantidad de datos nulos: age(177) - embarked(2) - deck(688)

"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = pd.DataFrame(dict_data)
# df_dos.head()
# df_dos.shape[0] ## ➡️ Cantidad de datos: 7
df_dos.drop_duplicates(subset=["id","nombre","edad"],keep="first",inplace=True)
# df_dos.head()
df_dos.shape[0] ## ➡️ Cantidad de datos: 5


"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = sns.load_dataset("penguins")
# df_tres.head()
# df_tres["bill_length_mm"].isnull().sum() ## ➡️ Cantidad de datos nulos: 2
media_bill_length_mm = float(np.mean(df_tres["bill_length_mm"].dropna()).round(2))
df_tres.fillna({"bill_length_mm":media_bill_length_mm},inplace=True)
df_tres["bill_length_mm"].isnull().sum() ## ➡️ Cantidad de datos nulos: 0



np.int64(0)

###### POLARS 🐻‍❄️

In [None]:
import polars as pl
import numpy as np
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ Solución
df_uno = pl.read_csv("../datasets/titanic.csv",separator=",")
# df_uno.head()
df_uno.null_count()

"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = pl.DataFrame(dict_data)
# df_dos.head()
df_dos = df_dos.unique(keep="first")
df_dos.head()

"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = pl.read_csv("../datasets/penguins.csv",separator=",")
# df_tres.head()
# df_tres["bill_length_mm"].null_count() ## ➡️ Cantidad Nulos: 2
media_bill_length_mm = df_tres["bill_length_mm"].mean().__round__(2)
media_bill_length_mm
df_tres = df_tres.with_columns(
    pl.col("bill_length_mm").fill_null(media_bill_length_mm).alias("bill_length_mm")
)
# df_tres.head()
df_tres["bill_length_mm"].null_count() ## ➡️ Cantidad Nulos: 0

0