# 📘 Sesión 9 — UDFs en PySpark: Ejercicio con datos ficticios

En este ejercicio vamos a:

- Generar un DataFrame con datos simulados (nombre, país, edad).
- Crear **2 funciones UDF personalizadas**.
- Aplicarlas sobre columnas del DataFrame para enriquecer y clasificar los datos.

In [0]:
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType, IntegerType
import random

# ------------------------------
# 🔹 1. Crear datos ficticios
# ------------------------------
nombres = ["Ana", "Luis", "Carlos", "Lucía", "María", "Pedro", "Sofía", "Miguel"]
paises = ["Argentina", "Brasil", "Chile", "Perú", "Uruguay", "México", "Colombia"]

# Generar 10 registros aleatorios
data = [(random.choice(nombres), random.choice(paises), random.randint(18, 60)) for _ in range(10)]
df = spark.createDataFrame(data, ["nombre", "pais", "edad"])
display(df)

In [0]:
# ------------------------------
# 🔹 2. Definir funciones UDF
# ------------------------------
# UDF para abreviar el nombre del país (ej: "Argentina" → "AR")
def abreviar_pais(pais):
    return pais[:2].upper()

# UDF para clasificar la edad
def clasificar_edad(edad):
    if edad < 25:
        return "Joven"
    elif edad < 45:
        return "Adulto"
    else:
        return "Senior"

# Registrar UDFs
udf_abreviar = udf(abreviar_pais, StringType())
udf_clasificar = udf(clasificar_edad, StringType())

# ------------------------------
# 🔹 3. Aplicar las UDFs
# ------------------------------
df_resultado = df.withColumn("pais_abrev", udf_abreviar("pais")) \
                 .withColumn("categoria_edad", udf_clasificar("edad"))

# ------------------------------
# 🔹 4. Mostrar resultados
# ------------------------------
df_resultado.show(truncate=False)

# 📘 Sesión 9 — Ejercicio Práctico: Crear una UDF personalizada

## 🎯 Objetivo

Aprender a definir y aplicar una **User Defined Function (UDF)** en PySpark para categorizar datos personalizados dentro de un DataFrame.

---

## 🧱 Dataset simulado

Trabajaremos con un conjunto de datos ficticios de **clientes y su nivel de gasto anual**:

| clienteID | nombre  | país      | gasto_anual |
|-----------|---------|-----------|-------------|
| 1         | Ana     | Argentina | 850         |
| 2         | Luis    | México    | 4500        |
| 3         | Carla   | Chile     | 1700        |
| 4         | Pedro   | Colombia  | 350         |
| 5         | Sofía   | Perú      | 9200        |

---

## 🔧 Actividad

### Pasos a seguir:

1. Crear un **DataFrame** a partir de los datos anteriores.
2. Definir una función Python que clasifique el `gasto_anual` en 3 niveles:
   - `🟢 Bajo`: gasto menor a 1000
   - `🟡 Medio`: entre 1000 y 4999
   - `🔴 Alto`: 5000 o más
3. Registrar esta función como una **UDF**.
4. Aplicar la UDF sobre el DataFrame para crear una nueva columna `nivel_consumo`.
5. Mostrar el resultado final.

---

## 🧠 Pista para la función

```python
def clasificar_consumo(gasto):
    if gasto < 1000:
        return "🟢 Bajo"
    elif gasto < 5000:
        return "🟡 Medio"
    else:
        return "🔴 Alto"
```
       

In [0]:
# Escribe tu codigo aqui