# User Defined Functions (UDFs)

Un UDF (User Defined Function) te permite crear una funci√≥n personalizada en Python (o Scala, etc.) que se puede usar en expresiones SQL o DataFrame API.

##### Configuraci√≥n del entorno

In [None]:
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("PySpark04").getOrCreate()
# Cargar el dataset de viajes
yellow_df = spark.read.parquet("../../data/yellow_tripdata_2023-01.parquet")
yellow_df.createOrReplaceTempView("yellow_trips")

#### Creaci√≥n y aplicaci√≥n de una UDF

In [None]:
# Define una funci√≥n en Python
def clasificar_viaje(distancia):
    if distancia < 2:
        return 'short'
    elif distancia <= 10:
        return 'medium'
    else:
        return 'long'

# Se registra como UDF
clasificar_udf = udf(clasificar_viaje, StringType())

# Se aplica a un DataFrame
df = yellow_df.withColumn("trip_type", clasificar_udf("trip_distance"))
df.select("trip_distance", "trip_type").show()

Tambi√©n puedes registrarla para usarla en SQL:

In [None]:
spark.udf.register("clasificar_udf", clasificar_viaje, StringType())

spark.sql("""
    SELECT trip_distance, clasificar_udf(trip_distance) AS trip_type
    FROM yellow_trips
""").show()

## Persistencia de UDFs

Las UDFs en PySpark se definen y viven en la sesi√≥n actual del SparkSession o script donde se crean. No se persisten autom√°ticamente en disco ni entre sesiones, como podr√≠a pasar con una funci√≥n SQL en una base de datos relacional.

Sin embargo, cuando trabajas a nivel de producci√≥n con Spark en cl√∫steres (como Databricks o EMR), puedes definir UDFs como funciones registradas en un paquete JAR, y cargarlas como funciones permanentes en Hive Metastore.

üëâ Esto es m√°s com√∫n con UDFs escritas en Scala (m√°s eficientes que las de Python).

## Buenas pr√°cticas con UDFs

En un enfoque est√°ndar de ingenier√≠a de datos, es muy com√∫n crear un archivo _.py_ (Por ejemplo: _utils.py_) para reutilizar el c√≥digo de las funciones en distintas sesiones. Sin tener que escribirlo en cada notebook.

Simplemente tendr√≠amos que llamar a la funci√≥n que queremos importar desde cada notebook de la siguiente manera:

```python
from utils.py import clasificar_udf




Nuestro archivo _utils.py_ tendr√≠a un aspecto similar a este:
```python
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

def clasificar_viaje(distancia):
    if distancia < 2:
        return 'short'
    elif distancia <= 10:
        return 'medium'
    else:
        return 'long'

clasificar_udf = udf(clasificar_viaje, StringType())

## Puntos clave de Spark SQL vs. API DataFrame

| Spark SQL                                    | DataFrame API                                    |
| -------------------------------------------- | ------------------------------------------------ |
| Muy familiar si vienes de SQL                | M√°s expresivo y flexible en l√≥gica compleja      |
| √ötil para prototipar y explorar              | Mejores herramientas de depuraci√≥n en Python     |
| Puedes usar `.sql()` sobre vistas temporales | Puedes encadenar transformaciones m√°s f√°cilmente |
| Igual de optimizado (Catalyst optimizer)     | Igual de r√°pido                                  |

Ambos se compilan al mismo plan l√≥gico, as√≠ que rendimiento ‚âà igual.
Es m√°s una cuesti√≥n de preferencia y legibilidad.

##### Detenemos la sesi√≥n de Spark

In [None]:
spark.stop()