🧩 Challenge: “Retrasos y destinos de vuelos”

🎯 Objetivo

Analizar los retrasos en vuelos de Norteamérica y enriquecer los datos con información de aeropuertos, aplicando transformaciones, uniones y funciones personalizadas (UDF) en PySpark dentro de Databricks.

🧾 Descripción del reto
1. Lectura de datos
  - Cargar dos archivos desde dbfs:/databricks-datasets/flights/:
  - departuredelays.csv: contiene información sobre vuelos, fechas, retrasos, distancias, aeropuertos de origen y destino.
  - airport-codes-na.txt: contiene información de aeropuertos (ciudad, estado, país e IATA).
  - Configurar correctamente las opciones de lectura considerando encabezados, tipos de datos y delimitadores.
2. Exploración inicial
  - Visualizar los esquemas de ambos DataFrames.
  - Contar registros y revisar algunas filas para verificar el formato.
  - Identificar si hay columnas con valores nulos o inconsistentes.
3. Limpieza y estandarización
  - Asegurarse de que los nombres de columnas estén normalizados (por ejemplo, en minúsculas).
  - Convertir las columnas numéricas a sus tipos correctos (por ejemplo, delay y distance).
  - Renombrar columnas cuando sea necesario para facilitar las uniones (por ejemplo, IATA → iata).
4. Integración de datos
  - Unir el dataset de vuelos con el de aeropuertos dos veces:
  - Una para obtener la información del aeropuerto de origen. Para agregar la información del aeropuerto de origen, realiza una unión entre: df_vuelos.origin = df_aeropuertos.iata
  - Otra para obtener la información del aeropuerto de destino. Para agregar la información del aeropuerto de destino, realiza otra unión entre: df_vuelos.destination = df_aeropuertos.iata
  - Verificar que las uniones se hayan realizado correctamente y que la información de origen y destino sea coherente.
5. Análisis exploratorio
  - Calcular indicadores básicos como:
    - Cantidad de vuelos retrasados por aeropuerto de origen.
    - Promedio de retraso por estado.
    - Promedio de distancia de los vuelos con retraso superior a cierto umbral (por ejemplo, 2 horas).
    - Ordenar los resultados para identificar los aeropuertos con más retrasos.
6. Creación y uso de una UDF (User Defined Function)
  - Definir una función personalizada en Python que clasifique los vuelos según su nivel de retraso (por ejemplo: A tiempo, Leve, Moderado, Grave). ≤ 0 -> "A tiempo", 1 a 30 Leve, 31 - 120 Moderado, > 120 Crtitco
  - Registrar esta función como UDF en PySpark.
  - Aplicarla al DataFrame para generar una nueva columna con el nivel de retraso correspondiente.
  - Visualizar algunos resultados para comprobar que la clasificación sea correcta.
7. Resultados finales
  - Guardar el DataFrame final en formato Delta o Parquet.
  - Crear una vista temporal en Databricks para realizar consultas SQL sobre los resultados.
  - Explorar visualmente los tipos de retraso en un gráfico de barras o torta.
9. Análisis final
  - Crear una segunda UDF que asigne valores numéricos estimados según el tipo de retraso.
  - Analizar el retraso promedio por país de origen o destino.
  - Identificar el top 10 de aeropuertos con los retrasos más graves.