# UDF

As UDFs (User-Defined Functions) no PySpark são funções personalizadas que você pode criar para aplicar operações complexas a colunas em um DataFrame. Elas permitem estender a funcionalidade do PySpark para realizar transformações de dados personalizadas.

Aqui está um exemplo de como criar e usar uma UDF no PySpark:

```python
from pyspark.sql import SparkSession
from pyspark.sql.functions import udf
from pyspark.sql.types import IntegerType

# Inicialize uma sessão Spark
spark = SparkSession.builder.appName("ExemploUDF").getOrCreate()

# Crie um DataFrame de exemplo
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Nome", "Idade"])

# Defina uma função Python que será usada como UDF
def dobrar_idade(idade):
    return idade * 2

# Registre a função Python como uma UDF
dobrar_idade_udf = udf(dobrar_idade, IntegerType())

# Aplique a UDF à coluna 'Idade' e crie uma nova coluna 'IdadeDobrada'
df = df.withColumn("IdadeDobrada", dobrar_idade_udf(df["Idade"]))

# Mostre o DataFrame resultante
df.show()
```

# Vamos estar fazendo todo o processamento da tabela air_cia e estaremos utilizando UDfs em partes dela

In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Exemplo").config("spark.jars.packages", "org.postgresql:postgresql:42.2.24").getOrCreate()

In [7]:
%%sh
pip install unidecode

Collecting unidecode
  Downloading Unidecode-1.3.7-py3-none-any.whl (235 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.7


In [13]:
from unidecode import unidecode

air_cia_snake = (
    df
    .toDF(*[unidecode(str(a).replace('-','').replace(' _','_').replace(' ','_').lower()) for a in df.columns])
)

air_cia_snake.printSchema()

root
 |-- razao_social: string (nullable = true)
 |-- icao_iata: string (nullable = true)
 |-- cnpj: string (nullable = true)
 |-- atividades_aereas: string (nullable = true)
 |-- endereco_sede: string (nullable = true)
 |-- telefone: string (nullable = true)
 |-- email: string (nullable = true)
 |-- decisao_operacional: string (nullable = true)
 |-- data_decisao_operacional: string (nullable = true)
 |-- validade_operacional: string (nullable = true)



In [None]:
 def remove_caracters_special(string):
    if string:
        return unidecode(string)
    else:
        None

In [None]:
from pyspark.sql.functions import udf

convert_name_udf = udf(remove_caracters_special, StringType())

# Udf com decorator

In [None]:
@udf (returnType = StringType())
def cnpj_transforming(string):
    if string:
        return string.replace('.','').replace('/','').replace('-','')
    else:
        return None

@udf (returnType = StringType())
def telefone_transforming(string):
    if string:
        return string.replace('(','').replace(')','').replace(' ','').replace('-','').replace("|Fax:","/")
    else:
        return None

air_cia_snake_type_final =(
    air_cia_snake_type
    .withColumn("icao", split(col("icao_iata"), " ")[0])
    .withColumn("iata", split(col("icao_iata"), " ")[1])
    .drop(col("icao_iata"))
    .withColumn("cnpj", cnpj_transforming(col("cnpj")))
    .withColumn("telefone", split(telefone_transforming(col('telefone')),"/"))
    #.withColumn("decisao_operacional", regexp_replace('decisao_operacional',"DECISÃO Nº ",'').cast("int"))
    .withColumn("data_decisao_operacional" , to_date(col('data_decisao_operacional'),'dd/MM/yyyy'))
    .withColumn("validade_operacional" , to_date(col('validade_operacional'),'dd/MM/yyyy'))
    .withColumn("atividades_aereas", split("atividades_aereas", ","))
    .drop_duplicates()
)
air_cia_snake_type_final.show(30, truncate=False)