# Flights Data Exploration Challenge

In this challenge, you'll explore a real-world dataset containing flights data from the US Department of Transportation.

Let's start by loading and viewing the data.

The dataset contains observations of US domestic flights in 2013, and consists of the following fields:

- **Year**: The year of the flight (all records are from 2013)
- **Month**: The month of the flight
- **DayofMonth**: The day of the month on which the flight departed
- **DayOfWeek**: The day of the week on which the flight departed - from 1 (Monday) to 7 (Sunday)
- **Carrier**: The two-letter abbreviation for the airline.
- **OriginAirportID**: A unique numeric identifier for the departure aiport
- **OriginAirportName**: The full name of the departure airport
- **OriginCity**: The departure airport city
- **OriginState**: The departure airport state
- **DestAirportID**: A unique numeric identifier for the destination aiport
- **DestAirportName**: The full name of the destination airport
- **DestCity**: The destination airport city
- **DestState**: The destination airport state
- **CRSDepTime**: The scheduled departure time
- **DepDelay**: The number of minutes departure was delayed (flight that left ahead of schedule have a negative value)
- **DelDelay15**: A binary indicator that departure was delayed by more than 15 minutes (and therefore considered "late")
- **CRSArrTime**: The scheduled arrival time
- **ArrDelay**: The number of minutes arrival was delayed (flight that arrived ahead of schedule have a negative value)
- **ArrDelay15**: A binary indicator that arrival was delayed by more than 15 minutes (and therefore considered "late")
- **Cancelled**: A binary indicator that the flight was cancelled

Your challenge is to explore the flight data to analyze possible factors that affect delays in departure or arrival of a flight.

1. Start by cleaning the data.
    R - Identify any null or missing data, and impute appropriate replacement values.
    R - Identify and eliminate any outliers in the **DepDelay** and **ArrDelay** columns.
2. Explore the cleaned data.
    R - View summary statistics for the numeric fields in the dataset.
    R - Determine the distribution of the **DepDelay** and **ArrDelay** columns.
    - Use statistics, aggregate functions, and visualizations to answer the following questions:
        R - *What are the average (mean) departure and arrival delays?*
        R - *How do the carriers compare in terms of arrival delay performance?*
        R - *Is there a noticable difference in arrival delays for different days of the week?*
        R - *Which departure airport has the highest average departure delay?*
        * - *Do **late** departures tend to result in longer arrival delays than on-time departures?*
        * - *Which route (from origin airport to destination airport) has the most **late** arrivals?*
        R - *Which route has the highest average arrival delay?*
        
Add markdown and code cells as required to create your solution.


El conjunto de datos contiene observaciones de vuelos domésticos en los Estados Unidos en 2013, y consta de los siguientes campos:

- **Year**: El año del vuelo (todos los registros son de 2013).
- **Month**: El mes del vuelo.
- **DayofMonth**: El día del mes en que despegó el vuelo.
- **DayOfWeek**: El día de la semana en que despegó el vuelo, de 1 (lunes) a 7 (domingo).
- **Carrier**: La abreviatura de dos letras de la aerolínea.
- **OriginAirportID**: Un identificador numérico único para el aeropuerto de salida.
- **OriginAirportName**: El nombre completo del aeropuerto de salida.
- **OriginCity**: La ciudad del aeropuerto de salida.
- **OriginState**: El estado del aeropuerto de salida.
- **DestAirportID**: Un identificador numérico único para el aeropuerto de destino.
- **DestAirportName**: El nombre completo del aeropuerto de destino.
- **DestCity**: La ciudad del aeropuerto de destino.
- **DestState**: El estado del aeropuerto de destino.
- **CRSDepTime**: La hora programada de salida.
- **DepDelay**: El número de minutos de retraso en la salida (los vuelos que salieron antes de lo programado tienen un valor negativo).
- **DelDelay15**: Un indicador binario que muestra si la salida se retrasó más de 15 minutos (y por lo tanto se considera "tarde").
- **CRSArrTime**: La hora programada de llegada.
- **ArrDelay**: El número de minutos de retraso en la llegada (los vuelos que llegaron antes de lo programado tienen un valor negativo).
- **ArrDelay15**: Un indicador binario que muestra si la llegada se retrasó más de 15 minutos (y por lo tanto se considera "tarde").
- **Cancelled**: Un indicador binario que muestra si el vuelo fue cancelado.

Tu desafío es explorar los datos de los vuelos para analizar posibles factores que afecten los retrasos en la salida o llegada de un vuelo.

1. Comienza limpiando los datos.
    - Identifica cualquier dato nulo o faltante, e imputa los valores de reemplazo adecuados.
    - Identifica y elimina cualquier valor atípico en las columnas **DepDelay** y **ArrDelay**.
    
2. Explora los datos limpios.
    - Visualiza estadísticas descriptivas para los campos numéricos en el conjunto de datos.
    - Determina la distribución de las columnas **DepDelay** y **ArrDelay**.
    - Usa estadísticas, funciones de agregación y visualizaciones para responder las siguientes preguntas:
        - *¿Cuáles son los retrasos promedio (media) en la salida y llegada?*
        - *¿Cómo se comparan las aerolíneas en términos de desempeño de retrasos en la llegada?*
        - *¿Hay una diferencia notable en los retrasos de llegada según el día de la semana?*
        - *¿Qué aeropuerto de salida tiene el mayor retraso promedio en la salida?*
        - *¿Los despegues tardíos tienden a resultar en retrasos más largos en la llegada que los despegues a tiempo?*
        - *¿Qué ruta (del aeropuerto de origen al aeropuerto de destino) tiene más llegadas tardías?*
        - *¿Qué ruta tiene el mayor retraso promedio en la llegada?*


In [None]:
# Your code to explore the data

import pandas as pd

df_flights = pd.read_csv('flights.csv')
df_flights.head()

In [None]:
# 1. comienza limpiando los datos
# 1.1 Identifica cualquier null o missing data, y imputa los valores de reemplazo adecuados.
df_flights.isnull().sum()
df_flights['DepDelay'].fillna(df_flights['DepDelay'].mean(), inplace=True)
df_flights['ArrDelay'].fillna(df_flights['ArrDelay'].mean(), inplace=True)

# 1.2 Identifica y elimina cualquier outliers en las columnas DepDelay y ArrDelay.
df_flights = df_flights[(df_flights['DepDelay'] < 120) & (df_flights['ArrDelay'] < 120)]






In [None]:
# 2. Explora los datos limpios
# 2.1 Visualiza estadísticas descriptivas para los campos numéricos en el conjunto de datos.
df_flights.describe()

# 2.2 Determina la distribución de las columnas DepDelay y ArrDelay.
import matplotlib.pyplot as plt

plt.hist(df_flights['DepDelay'], bins=100)
plt.title('Distribución de Retrasos en Salida')
plt.xlabel('Retraso en Salida (minutos)')
plt.ylabel('Frecuencia')
plt.show()

plt.hist(df_flights['ArrDelay'], bins=100)
plt.title('Distribución de Retrasos en Llegada')
plt.xlabel('Retraso en Llegada (minutos)')
plt.ylabel('Frecuencia')
plt.show()

# 2.3 Usa estadísticas, funciones de agregación y visualizaciones para responder las siguientes preguntas:

# * ¿Cuáles son los retrasos promedio (media) en la salida y llegada?
mean_dep_delay = df_flights['DepDelay'].mean()
mean_arr_delay = df_flights['ArrDelay'].mean()
print(f'Retraso promedio en Salida: {mean_dep_delay:.2f} minutos')
print(f'Retraso promedio en Llegada: {mean_arr_delay:.2f} minutos')

# * ¿Cómo se comparan las aerolíneas en términos de desempeño de retrasos en la llegada?
carrier_delays = df_flights.groupby('Carrier')['ArrDelay'].mean()
print('Retrasos promedio por aerolínea:')   
print(carrier_delays)

# * ¿Hay una noticable diferencia en los retrasos de llegada para diferentes días de la semana?
df_flights['DayOfWeek'] = df_flights['DayOfWeek'].astype(int)
day_of_week_delays = df_flights.groupby('DayOfWeek')['ArrDelay'].mean()
print('Retrasos promedio por día de la semana:')
print(day_of_week_delays)   

# * ¿Qué aeropuerto de salida tiene el mayor retraso promedio en la salida?
airport_delays = df_flights.groupby('OriginAirportID')['DepDelay'].mean()
print('Aeropuertos con mayor retraso promedio en la salida:')
print(airport_delays)

# * ¿Los despegues tardíos tienden a resultar en retrasos más largos en la llegada que los despegues a tiempo
late_departures = df_flights[df_flights['DelDelay15'] == 1]
late_arrivals = df_flights[df_flights['ArrDelay15'] == 1]

# * ¿Qué ruta (del aeropuerto de origen al aeropuerto de destino) tiene la mayor cantidad de llegadas tardías?
route_delays = df_flights.groupby(['OriginAirportID', 'DestAirportID'])['ArrDelay'].mean()
print('Rutas con mayor retraso promedio en la llegada:')
print(route_delays)

# * ¿Qué ruta tiene el mayor retraso promedio en la llegada?   

