# Desafío de exploración de datos de vuelos

En este desafío, explorará un conjunto de datos del mundo real que contiene datos de vuelos del Departamento de Transporte de EE. UU.

Comencemos por cargar y ver los datos.

In [9]:
import pandas as pd

df_flights = pd.read_csv('data/flights.csv')
df_flights.head()

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,Carrier,OriginAirportID,OriginAirportName,OriginCity,OriginState,DestAirportID,DestAirportName,DestCity,DestState,CRSDepTime,DepDelay,DepDel15,CRSArrTime,ArrDelay,ArrDel15,Cancelled
0,2013,9,16,1,DL,15304,Tampa International,Tampa,FL,12478,John F. Kennedy International,New York,NY,1539,4,0.0,1824,13,0,0
1,2013,9,23,1,WN,14122,Pittsburgh International,Pittsburgh,PA,13232,Chicago Midway International,Chicago,IL,710,3,0.0,740,22,1,0
2,2013,9,7,6,AS,14747,Seattle/Tacoma International,Seattle,WA,11278,Ronald Reagan Washington National,Washington,DC,810,-3,0.0,1614,-7,0,0
3,2013,7,22,1,OO,13930,Chicago O'Hare International,Chicago,IL,11042,Cleveland-Hopkins International,Cleveland,OH,804,35,1.0,1027,33,1,0
4,2013,5,16,4,DL,13931,Norfolk International,Norfolk,VA,10397,Hartsfield-Jackson Atlanta International,Atlanta,GA,545,-1,0.0,728,-9,0,0


El conjunto de datos contiene observaciones de vuelos nacionales de EE. UU. en 2013 y consta de los siguientes campos:

- **Year**: El año del vuelo (todos los registros son de 2013)
- **Month**: El mes del vuelo
- **DayofMonth**: El día del mes en que salió el vuelo
- **DayOfWeek**: El día de la semana en que salió el vuelo - del 1 (lunes) al 7 (domingo)
- **Carrier**: La abreviatura de dos letras de la aerolínea.
- **OriginAirportID**: Un identificador numérico único para el aeropuerto de salida
- **OriginAirportName**: El nombre completo del aeropuerto de salida
- **OriginCity**: La ciudad del aeropuerto de salida
- **OriginState**: El estado del aeropuerto de salida
- **DestAirportID**: un identificador numérico único para el aeropuerto de destino
- **DestAirportName**: El nombre completo del aeropuerto de destino
- **DestCity**: La ciudad del aeropuerto de destino
- **DestState**: El estado del aeropuerto de destino
- **CRSDepTime**: La hora de salida programada
- **DepDelay**: La cantidad de minutos que se retrasó la salida (el vuelo que salió antes de lo previsto tiene un valor negativo)
- **DelDelay15**: Un indicador binario de que la salida se retrasó más de 15 minutos (y por lo tanto se consideró "tarde")
- **CRSArrTime**: La hora de llegada programada
- **ArrDelay**: La cantidad de minutos que se retrasó la llegada (el vuelo que llegó antes de lo previsto tiene un valor negativo)
- **ArrDelay15**: un indicador binario de que la llegada se retrasó más de 15 minutos (y por lo tanto se consideró "tarde")
- **Cancelled**: Un indicador binario de que el vuelo fue cancelado

Tu reto es explorar los datos de vuelo para analizar los posibles factores que inciden en los retrasos en la salida o llegada de un vuelo.

1. Comience por limpiar los datos.
    - Identificar cualquier dato nulo o faltante e imputar valores de reemplazo apropiados.
    - Identifique y elimine cualquier valor atípico en las columnas **DepDelay** y **ArrDelay**.
2. Explore los datos limpios.
    - Ver estadísticas de resumen para los campos numéricos en el conjunto de datos.
    - Determinar la distribución de las columnas **DepDelay** y **ArrDelay**.
    - Use estadísticas, funciones agregadas y visualizaciones para responder las siguientes preguntas:
        - *¿Cuáles son los retrasos promedio (promedio) de salida y llegada?*
        - *¿Cómo se comparan los transportistas en términos de rendimiento de retrasos en la llegada?*
        - *¿Hay una diferencia notable en los retrasos de llegada para los diferentes días de la semana?*
        - *¿Qué aeropuerto de salida tiene el promedio de retraso de salida más alto?*
        - *¿Las salidas **late** tienden a provocar retrasos de llegada más prolongados que las salidas puntuales?*
        - *¿Qué ruta (del aeropuerto de origen al aeropuerto de destino) tiene más llegadas **late**?*
        - *¿Qué ruta tiene el promedio de retraso de llegada más alto?*
        
Agregue celdas de descuento y código según sea necesario para crear su solución.

> **Nota**: No existe una única solución "correcta". Se proporciona una solución de muestra en [01 - Flight Challenge.ipynb](01%20-%20Flights%20Solution.ipynb).


Usando el procedimiento propuesto en el link [Link](https://www.miamioh.edu/cads/students/coding-tutorials/python/data-cleaning/index.html).
# Comprension de los datos.
Antes de limpiar los datos, hay un par de cosas que nos gustaría saber: por ejemplo, las dimensiones de un conjunto de datos, el tipo de datos de cada variable, tal vez un vistazo a las primeras filas y las últimas filas de los datos (para ver cómo se ve y confirmar que coincide con nuestras expectativas), el nombre de cada variable, etc.

Código|Descripción|Ejemplo
------|-----------|-------
df.shape|imension del conjunto de datos <fila, columnas> (df.shape)|df_flights.shape
df.shape[0]|Cantidad de filas|df_flights.shape[0]
df.shape[1]|Cantidad de columnas|df_flights.shape[1]
df.dtypes|Ver los tipos de datos para cada columna|df_flights.dtypes
df.head()|Muestra las primeras cinco filas|df_flights.head()
df.tail()|Muestra las últimas cinco filas|df_flights.tail()
df.columns.values|Devolver una matriz de nombre de columna|df_flights.columns.values
df.columns.values.tolist()|Devuelve una lista de nombres de columna|df_flights.columns.values.tolist()

In [77]:
# Ejecuta el ejemplo...
df_flights.shape

(271940, 20)

# Verificación de valores faltantes.
A continuación, nos gustaría comprobar si faltan valores. Para verificar esto, podemos usar la función **dataframe.isnull()** en pandas. Regresará *True* por componentes faltantes y *False* por celdas que no falten. Sin embargo, cuando la dimensión de un conjunto de datos es grande, podría ser difícil determinar la existencia de valores faltantes. En general, es posible que solo queramos saber si falta algún valor antes de intentar encontrar dónde están. La función **dataframe.isnull().values.any()** devuelve *True* cuando falta al menos un valor en los datos. La función **dataframe.isnull().sum().sum()** devuelve el número de valores faltantes en el conjunto de datos.

Código|Descripción|Ejemplo
------|-----------|-------
df.isnull()|Devuelve el Df con, *True* si el valor en esa celda es nulo, y *False* si el valor es no nulo..|df_flights.isnull()
df.notnull()|Devuelve el Df con, *True* si el valor en esa celda es no nulo y *False* si el valor es nulo.|df_flights.notnull()
df.isnull().values.any()|Devuelve *True* si al verifica en el df, encuentra al menos un valor nulo.|df_flights.isnull().values.any()
df.isnull().sum().sum()|Devuelve la cantidad total de *true* en el DF|df_flights.isnull().sum().sum()
df.isnull().sum()|Devuelve la cantidad de *True* por columna|df_flights.isnull().sum()
df[df["NombreColumna"].<not/is>null()]|Devuelve las filas donde la columna "NombreColumna" es o no es nula|df_flights[df_flights["DepDel15"].isnull()]

In [94]:
# Ejecuta el ejemplo...
#df_flights.isnull().sum().sum()
df_flights.isnull().sum()

Year                 0
Month                0
DayofMonth           0
DayOfWeek            0
Carrier              0
OriginAirportID      0
OriginAirportName    0
OriginCity           0
OriginState          0
DestAirportID        0
DestAirportName      0
DestCity             0
DestState            0
CRSDepTime           0
DepDelay             0
DepDel15             0
CRSArrTime           0
ArrDelay             0
ArrDel15             0
Cancelled            0
dtype: int64

# obtenga información sobre los valores faltantes
Podríamos dividir los datos en función de los valores faltantes y crear un nuevo marco de datos para contener todas las filas.
Código|Descripción|Ejemplo
------|-----------|-------
no_missing = df.dropna()|Crea DF 'no_missing' sin las filas que contienen valores nulos|no_missing = df_flights.dropna(), #print(no_missing), #no_missing.head(), no_missing.shape
no_missing = no_missing.reset_index(drop=True)|Restablecer el índice del DF no_missing después de haber eliminado filas con valores nulos.|no_missing = no_missing.reset_index(drop=True)


In [93]:
#no_missing = df_flights.dropna()
#print(no_missing)
#no_missing.head()
#no_missing.shape
#no_missing = no_missing.reset_index(drop=True)
no_missing.shape

(269179, 20)

También puede establecer un umbral de valores perdidos. En el siguiente ejemplo, descarta filas que contienen menos de 20 valores no faltantes, es decir, si hay 20 valores no nulos mantiene la fila, si tiene menos de 20 la elimina. Considero que son 20 columnas.

Código|Descripción|Ejemplo
------|-----------|-------
Threshold_missing = df.dropna(thresh=x)|Elimina las filas que poseen menos de 'x' valore no nulos|threshold_missing = df_flights.dropna(thresh=20)

In [75]:
threshold_missing = df_flights.dropna(thresh=20)
#threshold_missing.isnull().sum()
#threshold_missing.head()
threshold_missing.shape

(269179, 20)

Si usamos dataframe.dropna(thresh=20) para colocar filas que contienen menos de 20 valores no faltantes, no cambiamos los datos originales. Podemos asignar la salida a una nueva variable o guardar los cambios en los datos originales de inmediato usando dataframe.dropna(thresh=20, inplace=True) . Para nuestro ejemplo, sería df.dropna(thresh=20, inplace=True).

# Complete los valores que faltan
Para las variables cuantitativas, podemos reemplazar los valores faltantes con la media de la muestra, la moda, la mediana u otros números. Para las variables categóricas, podemos crear una nueva categoría para los valores perdidos reemplazando los valores perdidos con una cadena.

Reemplace los valores faltantes con 0.

Código|Descripción|Ejemplo
------|-----------|-------
Fill_no = df.fillna(0)| completa lo faltan con '0' y guarda en df Fill_no|Fill_no = df_flights.fillna(0)
df['DataFrame Columna'] = df['DataFrame Columna'].fillna(0)|Completa lo que falta en una columna en especifico|df_flights['DepDel15']=df_flights['DepDel15'].fillna(0)

In [None]:
#Fill_no = df_flights.fillna(0)
#Fill_no.shape
#Fill_no.isnull().sum()
#df_flights['DepDel15']=df_flights['DepDel15'].fillna(0)


Reemplace todo lo que falta con la cadena que falta.

In [None]:
#df.fillna("missing") fill in missing with a string: "missing" and the data to Fill_srt
#df["NombreColumna"].fillna(df["nombreColumna"].mean(), inplace=True) #fill missing values with the sample mean

# Descartar datos
Es posible que deseemos eliminar las filas duplicadas, si las hay, y guardar los cambios en los datos originales.

In [None]:
#df.drop_duplicates(inplace=True)

También es posible que deseemos eliminar algunas observaciones o algunas columnas.

In [None]:
#df = df.drop(df.index[[1,1,3]]) Drow the first second and third row
#df = df.drop(df.index[(1,11)]) Drow the 2nd to the 10th row
#df.drop(["NombreColumna"], axis = 1) Drop the NombreColumna column from the data
#df.drop([["NombreColumna", "NombreColumna2"]], axis = 1) Drop the height and season columns from the dataset

# creación de subconjuntos
iloc significa ubicación de enteros. Ayuda a crear subconjuntos de datos mediante el uso de números enteros. Su equivalente loc usa cadenas para encontrar datos dentro de su conjunto de datos.

In [None]:
df.iloc[0] Show the first row of information
df.iloc[[0,1,2]] show the first second and third row
df.iloc[:,0] print the first column
df.iloc[:,0:5] print the first columns
df.iloc[0:5,0:3] a subset of the first 3 columns and 5 rows
df.loc[0] show the first rows
df.[["NombreColumna","NombreColumna1","NombreColumna2"]] Subset of NombreColumna NombreColumna1 and NombreColumna2.
df.sample(n=100) #Random sample of 100 rows
df.sample(frac=0.1, replace=True) A random sample of 10% of the data with replacement