### 📘 Talleres de Ingeniería de Datos con Pyspark en Databricks 🐍🧱

---

👨‍💻 Autor: Brayan Neciosup  
📍 Portafolio: [brayanneciosup](https://bryanneciosup626.wixsite.com/brayandataanalitics)  
🔗 LinkedIn: [linkedin.com/brayanneciosup](https://www.linkedin.com/in/brayan-rafael-neciosup-bola%C3%B1os-407a59246/)  
💻 GitHub: [github.com/BrayanR03](https://github.com/BrayanR03)  
📚 Serie: Fundamentos de Apache Spark - PySpark 
📓 Estos talleres constarán de 3 niveles (Básico-Intermedio-Avanzado)   
🔍 Abarcará temas desde Fundamentos de Data Wrangling hacia Casos de Uso Avanzado   
📝 Cada ejercicio presenta su enunciado, dataset, resultado esperado y solución.   


#### FUNDAMENTOS DE DATA WRANGLING (MANIPULACIÓN DE DATOS)

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
spark = SparkSession.builder.appName("TalleresPySparkDE").getOrCreate()
### 💡 CABE RESALTAR QUE LOS DATASETS UTILIZADOS ESTAN ALMACENADOS EN UNITY CATALOG.

##### 🥉 NIVEL BÁSICO

In [0]:
"""
1. Detección de valores nulos en columnas principales

🗃️ Dataset: TITANIC
🗒️ Enunciado: Identifica cuántos valores faltantes hay en las columnas age, embarked y deck.
✍️ Resultado esperado: un conteo por columna con la cantidad de valores nulos.

"""
## ✔️ SOLUCIÓN
df_uno = spark.sql("SELECT * FROM workspace.exercises.titanic")
# df_uno.show(5)
cantidad_datos_nulos = df_uno.select([
  sum(when(col(c).isNull(),1).otherwise(0)).alias(c)
  for c in df_uno.columns
])
cantidad_datos_nulos.show() ## ➡️ Cantidad de datos nulos: age(177) - embarked(2) - deck(688)


In [0]:
"""
2. Eliminación de filas duplicadas

🗃️ Dataset: Diccionario
🗒️ Enunciado: Elimina las filas duplicadas y conserva solo la primera aparición de cada registro.
✍️ Resultado esperado: un DataFrame sin filas repetidas.

"""
## ✔️ Solución
dict_data = {
 "id": [1,2,2,3,4,4,5],
 "nombre": ["Ana","Luis","Luis","María","Pedro","Pedro","Sofía"],
 "edad": [23,30,30,22,40,40,29]
}
df_dos = spark.createDataFrame(data=list(zip(*dict_data.values())),schema=list(dict_data.keys()))
# df_dos.show()
print(df_dos.count()) ## Cantidad de datos originales: 7
df_dos_clean = df_dos.drop_duplicates(subset=["id","nombre","edad"])
# df_dos_clean.show()
print(df_dos_clean.count()) ## Cantidad de datos después de eliminar nulos: 5

In [0]:
"""
3. Reemplazo simple de valores faltantes

🗃️ Dataset: PENGUINS
🗒️ Enunciado: Reemplaza los valores nulos en la columna bill_length_mm con la media de esa misma columna.
✍️ Resultado esperado: columna sin valores nulos en bill_length_mm.

"""
## ✔️ Solución
df_tres = spark.sql("SELECT * FROM workspace.exercises.penguins")
# df_tres.show(5)
cantidad_nulos_df_tres = df_tres.select([
    sum(when(col(c).isNull(),1).otherwise(0)).alias(c)
    for c in df_tres.columns
    if c=='bill_length_mm'
])
# cantidad_nulos_df_tres.show() ## Cantidad de nulos: 2
media_columna_bill_length_mm = df_tres.select(round(mean(col("bill_length_mm")),2)).collect()[0][0]
media_columna_bill_length_mm ## Valor de la media: 43.92
df_tres = df_tres.fillna(value=media_columna_bill_length_mm,subset=["bill_length_mm"])

cantidad_nulos_df_tres = df_tres.select([
    sum(when(col(c).isNull(),1).otherwise(0)).alias(c)
    for c in df_tres.columns
    if c=='bill_length_mm'
])
cantidad_nulos_df_tres.show() ## Cantidad de nulos: 0

##### 🥈 NIVEL INTERMEDIO

In [0]:
import numpy as np
"""
4. Imputación condicional de valores faltantes

🗃️ Dataset: TITANIC
🗒️ Enunciado: Completa los valores faltantes de age con la edad promedio por clase (pclass).
✍️ Resultado esperado: columna age sin valores nulos, imputada según clase de pasajero.

"""
## ✔️ Solución
df_cuatro = spark.sql("SELECT * FROM workspace.exercises.titanic")
# df_cuatro.show()
cantidad_datos_nulos_df_cuatro = df_cuatro.select([
    sum(when(col(c).isNull(),1).otherwise(0)).alias(c)
    for c in df_cuatro.columns
])
# cantidad_datos_nulos_df_cuatro.select(col("age")).show() ## Cantidad de nulos: 177
promedio_edad_pclass = df_cuatro.groupBy(col("pclass")).agg(
    round(avg(col("age")),2).alias("avg_edad_pclass")
)
# promedio_edad_pclass.show()
def valor_avg_edad_pclass(pclass):
    return promedio_edad_pclass.filter(
        col("pclass")==pclass
    ).collect()[0][1]
df_cuatro_clean = df_cuatro.withColumn(
    "age",
    when(
        (col("age").isNull()==True) & (col("pclass")==1),lit(valor_avg_edad_pclass(1))
    ).when(
        (col("age").isNull()==True) & (col("pclass")==2),lit(valor_avg_edad_pclass(2))
    ).when(
        (col("age").isNull()==True) & (col("pclass")==3),lit(valor_avg_edad_pclass(3))
    ).otherwise(col("age"))
)
# df_cuatro_clean.show(5)
cantidad_datos_nulos_df_cuatro_clean = df_cuatro_clean.select([
    sum(when(col(c).isNull(),1).otherwise(0)).alias(c)
    for c in df_cuatro_clean.columns
])
# cantidad_datos_nulos_df_cuatro_clean.show() ## Cantidad de nulos: 0

In [0]:
"""
5. Detección de outliers usando IQR

🗃️ Dataset: Diccionario
🗒️ Enunciado: Identifica los valores de ventas que son outliers según el rango intercuartílico (IQR).
✍️ Resultado esperado: listado de los productos que presentan valores anómalos.

"""
## ✔️ Solución
diccionario_cinco = {
 "producto": ["A","B","C","D","E","F"],
 "ventas": [120, 130, 115, 1000, 140, 135]
}

df_cinco = spark.createDataFrame(data=list(zip(*diccionario_cinco.values())),schema=list(diccionario_cinco.keys()))
# df_cinco.show()
df_cinco_quartiles = df_cinco.agg(
    expr('percentile(ventas,array(0.25))')[0].alias("q1"),
    expr('percentile(ventas,array(0.75))')[0].alias("q3")
)
# df_cinco_quartiles.show()
q1_ventas = df_cinco_quartiles.select(col("q1")).collect()[0][0]
# q1_ventas
q3_ventas = df_cinco_quartiles.select(col("q3")).collect()[0][0]
# q3_ventas
iqr_ventas = q3_ventas - q1_ventas
lower_bound_ventas = q1_ventas - 1.5 * iqr_ventas
upper_bound_ventas = q3_ventas + 1.5 * iqr_ventas
# print(lower_bound_ventas)
# print(upper_bound_ventas)
df_cinco_outliers = df_cinco.filter(
    (col("ventas")<lower_bound_ventas) |
    (col("ventas")>upper_bound_ventas) 
)
# df_cinco_outliers.show() ## Valores outilers
# df_cinco_outliers.count() ## Cantidad de valores outilers: 1

In [0]:
"""
6. Eliminación selectiva de duplicados

🗃️ Dataset: Diamonds
🗒️ Enunciado: En el dataset de diamantes, elimina duplicados basados solo en las columnas carat y price.
✍️ Resultado esperado: DataFrame sin duplicados en esas dos columnas, pero manteniendo el resto de filas.

"""
## ✔️ Solución
df_seis = spark.sql("SELECT * FROM workspace.exercises.df_diamonds")
# df_seis.show(5)
# df_seis.count() ## Cantidad inicial de datos: 53940
df_seis_clean = df_seis.dropDuplicates(subset=["carat","price"])
# df_seis_clean.show(5)
df_seis_clean.count() ## Cantidad después de eliminar duplicados: 28988

In [0]:
"""
7. Relleno de valores faltantes con interpolación

🗃️ Dataset: Diccionario
🗒️ Enunciado: Rellena los valores nulos de la columna temperatura mediante la mediana de las temepraturas.
✍️ Resultado esperado: columna completa sin valores nulos.

"""
## ✔️ Solución
## Utilizaremos pandas para generar fechas
diccionario_siete  = {
 "fecha": ["2024-01-01","2024-01-02","2024-01-03","2024-01-04","2024-01-05","2024-01-06","2024-01-07","2024-01-08","2024-01-09","2024-01-10"],
 "temperatura": [21,22,None,24,25,None,None,28,29,30]
}
df_siete = spark.createDataFrame(data=list(zip(*diccionario_siete.values())),schema=list(diccionario_siete.keys()))
# df_siete.show()
mediana_ventas = df_siete.select(median(col("temperatura")).alias("mediana")).collect()[0][0]
# mediana_ventas
df_siete = df_siete.fillna({"temperatura":mediana_ventas})
df_siete.show()

In [0]:
"""
8. Conteo de valores faltantes combinados

🗃️ Dataset: Penguins
🗒️ Enunciado: Calcula el número de registros que tienen valores nulos simultáneamente
    en las columnas bill_length_mm y bill_depth_mm.
✍️ Resultado esperado: un número entero que indique cuántos registros cumplen esta condición.

"""
## ✔️ Solución
df_ocho = spark.sql("SELECT * FROM workspace.exercises.penguins")
# df_ocho.show(5)
df_ocho_nulos_simultaneos = df_ocho.filter(
    (col("bill_length_mm").isNull() & col("bill_depth_mm").isNull())
)
# df_ocho_nulos_simultaneos.show() ## Valores nulos simultáneos en: "bill_length_mm" y "bill_depth_mm"
df_ocho_nulos_simultaneos.count() ## Cantidad de datos que tengan valores nulos simultáneos: 2