# Crear DataFrame y aplicar UDFs en PySpark

## Contexto
Los UDFs (User Defined Functions) permiten extender SparkSQL para cubrir transformaciones específicas.  
Esta actividad te entrena para combinar lógica propia con procesamiento estructurado.

## Consigna
Crea un DataFrame manualmente en PySpark, define una función personalizada y regístrala como UDF.  
Aplica la función sobre una columna del DataFrame.

## Paso a Paso

1. Crea una lista de tuplas (por ejemplo, nombre y salario).
2. Convierte esa lista en un DataFrame usando `spark.createDataFrame()`.
3. Define una función en Python (por ejemplo, para categorizar salarios: alto, medio, bajo).
4. Regístrala como UDF usando `udf()`.
5. Aplícala usando `.withColumn()` o en una consulta SQL.
6. Muestra los resultados.


In [1]:
from pyspark.sql import SparkSession

# Crear SparkSession
spark = SparkSession.builder \
    .appName("ExploracionDataFrame") \
    .getOrCreate()


In [5]:
# Lista de tuplas (nombre, salario)
datos = [("Juan", 1200), ("María", 2500), ("Pedro", 800), ("Ana", 1800)]


In [6]:
# Crear DataFrame
df = spark.createDataFrame(datos, ["Nombre", "Salario"])


In [7]:
df.show()


+------+-------+
|Nombre|Salario|
+------+-------+
|  Juan|   1200|
| María|   2500|
| Pedro|    800|
|   Ana|   1800|
+------+-------+



In [8]:
def categoria_salario(salario):
    if salario < 1000:
        return "Bajo"
    elif salario < 2000:
        return "Medio"
    else:
        return "Alto"


In [9]:
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

# Registrar la función como UDF
categoria_udf = udf(categoria_salario, StringType())


In [10]:
df = df.withColumn("Categoria", categoria_udf(df["Salario"]))


In [11]:
df.show()


+------+-------+---------+
|Nombre|Salario|Categoria|
+------+-------+---------+
|  Juan|   1200|    Medio|
| María|   2500|     Alto|
| Pedro|    800|     Bajo|
|   Ana|   1800|    Medio|
+------+-------+---------+

