# Flights Data Exploration Challenge

In [3]:
import pandas as pd
'''
Podríamos utilizar el siguiente comando de tener a nuestro set de datos en la siguiente carpeta pra empezar a vizualizarlo
pero ahora utilizaremos un link dando la hubicación del archivo.
'''
#df_flights = pd.read_csv('data/flights.csv')
#df_flights.head()

In [4]:
url = "https://raw.githubusercontent.com/MicrosoftDocs/ml-basics/ee7bccccf5dd1a95f9d547b2e9e5fd68f61fe02e/challenges/data/flights.csv"
df_flights = pd.read_csv(url,delimiter=',',header='infer')
df_flights.head()

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,Carrier,OriginAirportID,OriginAirportName,OriginCity,OriginState,DestAirportID,DestAirportName,DestCity,DestState,CRSDepTime,DepDelay,DepDel15,CRSArrTime,ArrDelay,ArrDel15,Cancelled
0,2013,9,16,1,DL,15304,Tampa International,Tampa,FL,12478,John F. Kennedy International,New York,NY,1539,4,0.0,1824,13,0,0
1,2013,9,23,1,WN,14122,Pittsburgh International,Pittsburgh,PA,13232,Chicago Midway International,Chicago,IL,710,3,0.0,740,22,1,0
2,2013,9,7,6,AS,14747,Seattle/Tacoma International,Seattle,WA,11278,Ronald Reagan Washington National,Washington,DC,810,-3,0.0,1614,-7,0,0
3,2013,7,22,1,OO,13930,Chicago O'Hare International,Chicago,IL,11042,Cleveland-Hopkins International,Cleveland,OH,804,35,1.0,1027,33,1,0
4,2013,5,16,4,DL,13931,Norfolk International,Norfolk,VA,10397,Hartsfield-Jackson Atlanta International,Atlanta,GA,545,-1,0.0,728,-9,0,0


El conjunto de datos contiene observaciones de vuelos nacionales de EE. UU. en 2013 y consta de los siguientes campos:
- **Year**: El año del vuelo (todos los registros son de 2013)
- **Month**: El mes del vuelo
- **DayOfMonth**: El día del mes en que salió el vuelo
- **DayOfWeek**: El día de la semana en que salió el vuelo, del 1 (monday) al 7 (sunday)
- **Carrier**: La abreviatura de dos letras de la aerolínea
- **OriginAirportID**: Un identificador numérico único para el aeropuerto de salida
- **OriginAirportName**: El nombre completo del aeropuerto de salida
- **OriginCity**: La ciudad del aeropuerto de salida
- **OriginState**: El estado del aeropuerto de salida
- **DestAirportID**: Un identificador numérico único para el aeropuerto de destino
- **DestAriportName**: El nombre completo del aeropuerto de destino
- **DestCity**:La ciudad aeropuerto de destino
- **DestState**: El estado del aeropuerto de destino
- **CRCDepTime**: La hora de salida programada
- **DepDelay**: La cantidad de minutos que se retrasó la salida ( el vuelo que salió antes de lo previsto tiene un valor negativo)
- **DelDelay15**: Un indicador binario de que la salida se retrasó más de 15 minutos (y por lo tanto se consideró "tarde")
- **CRSArrTime**: La hora de llegada programada
- **ArrDelay**: La cantidad de minutos que se retrasó la llegada (el vuelo que llegó antes de lo previsto tiene un valor negativo)
- **ArrDelay15**: Un indicador binario de que la llegada se retrasó más de 15 minutos (y por lo tanto se consideró "tarde")
- Tu reto es explorar los datos de vuelo para analizar los posibles factores que inciden en los retrasos en la salida o llegada de un vuelo.

1. Comience por limpiar los datos.
- identifique cualquier dato nulo o faltante e impute los valores de reempñazo apropiados.
- Identifique y elimine cualquier valor atípico en las columnas **DepDelay** y **ArrDelay**
2. Explores los datos limpios
- Ver estadísticas de resumen para los campos numéricos en el conjunto de datos.
- Determine la distribución de las columnas **DepDelay** y **ArrDelay**
- Use estadíticas, funciones agregadas y visualizaciones para responder las siguientes preguntas:
	- ¿Cuáles son los restrasos promedio (media) de salida y llegada?
	- ¿Cómo se comparan los transportistas en términos de rendimiento de retraso de llegada?
	- ¿Hay una diferencia notable en los retrasos de llegada para los diferentes días de la semana?
	- ¿Qué aeropuesto de salida tiene el retraso medio de salida más alto?
	- ¿Las salidas tardías tienden a restultar en retrasos de llega mas prolongados que las salidas a tiempo?
	- ¿Qué ruta (de aeropuerto de origen al aeropuesto de destino) tiene más llegadas tardías?
	- ¿Qué ruta tiene el retraso de llegada promedio más alto?

## Limpiar valores faltantes 

Encuentre cuántos valores nulos hay para cada columna

In [5]:
df_flights.isnull().sum()

Year                    0
Month                   0
DayofMonth              0
DayOfWeek               0
Carrier                 0
OriginAirportID         0
OriginAirportName       0
OriginCity              0
OriginState             0
DestAirportID           0
DestAirportName         0
DestCity                0
DestState               0
CRSDepTime              0
DepDelay                0
DepDel15             2761
CRSArrTime              0
ArrDelay                0
ArrDel15                0
Cancelled               0
dtype: int64

Observamos que hay algunos indicadores nulos de DepDel15. Las salidas se consideran retrasadas si el retraso es de 15 minutos o más,  así que veamos los retrasos para las que tienen un indicador de retraso.

In [7]:
df_flights[df_flights.isnull().any(axis=1)][['DepDelay','DepDel15']]

Unnamed: 0,DepDelay,DepDel15
171,0,
359,0,
429,0,
545,0,
554,0,
...,...,...
271410,0,
271607,0,
271634,0,
271671,0,


In [11]:
'''
Aquí podríamos ocupar esta línea de código para así reempñazar los datos nulos por el promedio de esa fila pero 
en este caso como solo son 2761 filas que representan el 1 % de nuestros datos.
df_flights.DepDel15 = df_flight.DepDel15.fillna(df_DepDel15.mean()

Pero como solo representan el uno por ciento de nuestros datos pues lo que hacemos es presindir de ellos aunque igual podría tomarse la ruta de ocuparlos

'''

df_flights = df_flights.dropna(axis=0, how='any')
df_flights

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,Carrier,OriginAirportID,OriginAirportName,OriginCity,OriginState,DestAirportID,DestAirportName,DestCity,DestState,CRSDepTime,DepDelay,DepDel15,CRSArrTime,ArrDelay,ArrDel15,Cancelled
0,2013,9,16,1,DL,15304,Tampa International,Tampa,FL,12478,John F. Kennedy International,New York,NY,1539,4,0.0,1824,13,0,0
1,2013,9,23,1,WN,14122,Pittsburgh International,Pittsburgh,PA,13232,Chicago Midway International,Chicago,IL,710,3,0.0,740,22,1,0
2,2013,9,7,6,AS,14747,Seattle/Tacoma International,Seattle,WA,11278,Ronald Reagan Washington National,Washington,DC,810,-3,0.0,1614,-7,0,0
3,2013,7,22,1,OO,13930,Chicago O'Hare International,Chicago,IL,11042,Cleveland-Hopkins International,Cleveland,OH,804,35,1.0,1027,33,1,0
4,2013,5,16,4,DL,13931,Norfolk International,Norfolk,VA,10397,Hartsfield-Jackson Atlanta International,Atlanta,GA,545,-1,0.0,728,-9,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
271935,2013,9,20,5,VX,13204,Orlando International,Orlando,FL,12892,Los Angeles International,Los Angeles,CA,1730,1,0.0,1945,18,1,0
271936,2013,4,19,5,FL,10397,Hartsfield-Jackson Atlanta International,Atlanta,GA,11697,Fort Lauderdale-Hollywood International,Fort Lauderdale,FL,1020,24,1.0,1218,61,1,0
271937,2013,10,26,6,WN,12191,William P Hobby,Houston,TX,10821,Baltimore/Washington International Thurgood Ma...,Baltimore,MD,1540,30,1.0,1935,15,1,0
271938,2013,5,7,2,HA,13830,Kahului Airport,Kahului,HI,12173,Honolulu International,Honolulu,HI,609,-5,0.0,641,-6,0,0
