# LATAM Airlines

**"Probabilidad de atraso de los vuelos que aterriza o despegan"**

El problema consiste en predecir la probabilidad de atraso de los vuelos que aterrizan o despegan del aeropuerto de Santiago de Chile (SCL).

Para eso les entregamos un dataset usando datos públicos y reales donde cada fila corresponde a un vuelo que aterrizó o despegó de SCL.

# Instalar las dependencias


In [None]:
!pip install -r requirements.txt

Defaulting to user installation because normal site-packages is not writeable
Collecting ipywidgets>=7.6.5


In [None]:
#!pip install pycaret

# Entendimiento inicial de los datos

## Cargar Librerias

In [None]:
%matplotlib inline

import re
import random
from collections import Counter

import numpy as np
import pandas as pd
pd.set_option('max_columns', 100)
pd.set_option('max_rows', 1000)

from scipy.stats import kstest

import matplotlib.pyplot as plt
import seaborn as sns
#sns.set(color_codes=True)
sns.set(style='darkgrid')

from graphviz import Source
from sklearn.tree import export_graphviz
from IPython.display import SVG

from sklearn.preprocessing import StandardScaler, MinMaxScaler,OrdinalEncoder

#from pycaret.classification import *

from sklearn.model_selection import train_test_split,cross_val_score,StratifiedKFold,GridSearchCV,ParameterGrid

from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb

from sklearn import metrics as mt
from sklearn.metrics import  roc_curve, auc, silhouette_score, recall_score, precision_score, confusion_matrix, accuracy_score

## Definición de funciones

In [None]:
def cross_target(data,var,target):
    """Calcula los porcentajes de conversión del target por cada categoria de la variable"""
    
    base = data[[var,target]]#.fillna("NULOS")
    print("----------------------------------------------------------------")
    print("---- Var: ",var)
    print(pd.concat([pd.DataFrame(base[:][var].value_counts(dropna=False).index, columns = ['Atributo']),
           pd.DataFrame(base[:][var].value_counts(dropna=False).values, columns = ['Cantidad']),
           pd.DataFrame(100*base[:][var].value_counts(dropna=False).values/len(base), columns = ['%Total'])], axis = 1))
    
    temp = pd.DataFrame(np.array(base.groupby(var, as_index = False, axis = 0)[target].mean()), 
                         columns = [var,"% ratio_conv"])
    temp["% ratio_conv"] = temp["% ratio_conv"]*100
    temp = temp.sort_values(by = ['% ratio_conv'], ascending = [False])
    print("")
    print(temp)


def plot_graph_initial(df, meta):
  """Graficos para el analisis univariado"""
  
  import matplotlib
  matplotlib.rcParams.update({'font.size': 16})
  for i in range(len(meta)) :
      plt.figure(figsize=(35,7))
      v=meta.iloc[i].variable #print(meta.iloc[i].variable)
      t=meta.iloc[i].tipo
      if (t.__class__.__name__=="CategoricalDtype"):
          fa=df[v].value_counts() 
          fr=fa/len(df[v]) 
          #Barras
          plt.subplot(1,2,1)
          plt.bar(fa.index,fa)
          plt.xticks(fa.index,rotation=90)
          plt.title(v)
          #Pie
          plt.subplot(1,2,2)
          plt.pie(fr,autopct='%1.1f%%', shadow=True, startangle=90)
          plt.legend(fr.index,loc="center left",bbox_to_anchor=(1, 0, 0.5, 1))
          plt.title(v)
          #Guardar
          #plt.savefig(v+".jpg")

      else:
          #Histograma
          plt.subplot(1,2,1)
          plt.hist(df[v].dropna(),bins=100)
          plt.title(v)
          #Boxplot
          plt.subplot(1,2,2)
          plt.boxplot(df[v])
          plt.title(v)
          #Guardar
          #plt.savefig(v+".jpg")
      plt.show()


def plot_graph_bivariable(df2, meta, y):
  """Graficos para el analisis bivariado"""
  
  import matplotlib
  matplotlib.rcParams.update({'font.size': 16})
  for i in range(len(meta)) :
      plt.figure(figsize=(35,7))
      v=meta.iloc[i].variable #print(meta.iloc[i].variable)
      t=meta.iloc[i].tipo
      if v==y: break
      print(v)
      if (t.__class__.__name__=="CategoricalDtype"):        
          g=df2.groupby([df2[y],v]).size().unstack(0)
          tf= g[1]/(g[0]+g[1])
          #tf=tf.sort_values(ascending=False)
          c1 = g[0]
          c2 = g[1]
          width = 0.9   # the width of the bars: can also be len(x) sequence

          p1 = plt.bar(g.index, c1, width)
          p2 = plt.bar(g.index, c2, width,bottom=c1)

          plt.ylabel('Freq')
          plt.title('Bivariado')
          plt.xticks(g.index,rotation=90)
          plt.legend((p1[0], p2[0]), ('0', '1'),loc='lower left',bbox_to_anchor=(1, 1))

          plt.twinx().plot(tf.values,linestyle='-', linewidth=2.0,color='red',marker ="o")
          plt.ylabel(y)
          #Guardar
          #plt.savefig("Bivariado_"+ v + ".jpg")
      else:
          d=pd.qcut(df2[v], 10, duplicates='drop',labels=False)     
          g=df2.groupby([y, d]).size().unstack(0)   
          N = len(g)
          mMeans = g[0]
          wMeans = g[1]
          tf= g[1]/(g[0]+g[1])
          ind = np.arange(N)    # the x locations for the groups

          width = 0.9       # the width of the bars: can also be len(x) sequence        
          p1 = plt.bar(ind, mMeans, width)
          p2 = plt.bar(ind, wMeans, width,
                       bottom=mMeans)

          plt.ylabel('Freq')
          plt.xlabel("Deciles " + v)
          plt.title('Bivariado: ' + v + " vs " + y)
          plt.xticks(ind, np.arange(1,10,1),rotation=90)
          plt.legend((p1[0], p2[0]), ('0', '1'),loc='lower left',bbox_to_anchor=(1, 1))

          plt.twinx().plot(tf.values,linestyle='-', linewidth=2.0,color='red')
          plt.ylabel(y)
          #Guardar
          #plt.savefig("Bivariado_"+ v + ".jpg")
      plt.show()



def fx_porc_missings(data, only_missings = False):
    """Calcula los porcentajes de valores vacios en cada variable"""
    
    df_vars_missings = pd.concat([pd.DataFrame(data.isnull().sum(), columns = ['n_nulos']),
           pd.DataFrame(100*data.isnull().sum()/len(data), columns = ['%Total'])], axis = 1)
    if only_missings:
        return(df_vars_missings[df_vars_missings["n_nulos"]!=0])
    else:
        return(df_vars_missings)


def clean_outlier_perc(df, column, value_perc):
  """Genera el reemplazo de valores outliers superiores por un percentile personalizado"""
  
  top_value = df[column].quantile(value_perc) 
  df.loc[df[column] >= top_value, column] = top_value


def correlation_heatmap(df):
    """Función para plotear las correlaciones de las variables de un dataset"""
    
    _ , ax = plt.subplots(figsize =(20, 18))
    colormap = sns.diverging_palette(220, 10, as_cmap = True)
    
    _ = sns.heatmap(
        df.corr(), 
        cmap = colormap,
        square=True, 
        cbar_kws={'shrink':.9 }, 
        ax=ax,
        annot=True, 
        linewidths=0.1,vmax=1.0, linecolor='white',
        annot_kws={'fontsize':12 }
    )
    plt.title('Pearson Correlation of Features', y=1.05, size=15)


## Lectura y validación de datos

Ruta donde se encuentra alojado el dataset del caso

In [None]:
url_data='../data/'

**Lectura y carga de la data**

In [None]:
dfVuelos=pd.read_csv(url_data+'dataset_SCL.csv', na_values='?', low_memory=False)

**Validar la correcta lectura del dataframe**

Se observa que se tienen **68206 filas** y **18 columnas** de los tipos int64(3), object(15). Se tiene que modificar el tipo de dato de las variables **Fecha-I** y **Fecha-O** para su posterior tratamiento

In [None]:
dfVuelos.info()

Mostrar los 5 primeros registros

In [None]:
dfVuelos.head(5)

## Estudiar las dimensiones del dataset

In [None]:
dfVuelos.shape

Se tienen 68206 filas y 18 columnas

In [None]:
dfVuelos.size

No se tiene un **id** correspondiente a cada vuelo. Como parte de las indicaciones cada fila corresponde a un vuelo que aterrizó o despegó de SCL, por lo que cada fila será tomado como un único registro

## Evaluar el tipo de Problema

**Vemos que es un caso de aprendizaje supervisado de clasificación para predecir la probabilidad de atraso de los vuelos que aterrizan o despegan del aeropuerto de Santiago de Chile (SCL)**

In [None]:
dfVuelos.head(3)

## Variable Objetivo

**Armado del target**

Se debe construir el target **atraso_15** en base a una nueva variable llamada **dif_min**. La definición del target obedece:

*   dif_min<15    : Si la diferencia en minutos entre Fecha-O y Fecha-I es menor de 15 minutos entonces atraso_15=0
*   dif_min>15    : Si la diferencia en minutos entre Fecha-O y Fecha-I es mayor de 15 minutos entonces atraso_15=1

Finalmente tomando en cuenta una diferencia de 15 min se construye el target **atraso_15**. Esta variable **bivariada** será usada para predecir si un vuelo se retrasa o no.

Se convierten los campos **Fecha-O** y **Fecha-I** en variables del tipo *datetime* para su posterior tratamiento.

In [None]:
dfVuelos['Fecha-O']=pd.to_datetime(dfVuelos['Fecha-O'])
dfVuelos['Fecha-I']=pd.to_datetime(dfVuelos['Fecha-I'])

Crear la variables **dif_min** tomando las variables **Fecha-O** y **Fecha-I**

In [None]:
dfVuelos['dif_min']=dfVuelos['Fecha-O']-dfVuelos['Fecha-I']
dfVuelos['dif_min']=dfVuelos['dif_min']/np.timedelta64(1,'m')

Se crea la variable **atraso_15** en base a la variable **dif_min**

In [None]:
dfVuelos['atraso_15'] = dfVuelos['dif_min'].map(lambda x: '1' if x>15 else '0')

Se valida la cantidad de valores para cada categoría del target. Se observa que 12614 (**~18,4%**) corresponde el target de análisis

In [None]:
# Validación
dfVuelos['atraso_15'].value_counts()

In [None]:
dfVuelos[['dif_min','atraso_15']]

## Describir el Dataset

El primer alcance descriptivo de los datos es el siguiente:

*   **Viernes** es el dia de la semana con más fechas programadas de vuelo. Representa el **15%**

*   **Grupo LATAM** es el operador con la mayor cantidad de vuelos operados. Representa el **60%**.

*   **TIPOVUELO**. Los vuelos Nacionales(N) representan el **54%** del total de vuelos

*   **SIGLAORI**. Todos los vuelos salen de la ciudad de Santiago, esta variable con una única categoría será eliminada posteriormente ya que por tener **cero varianza** no aporta en el proceso de aprendizaje.

*   La variable **Vlo-O** tiene un valor nulo, el resto de variables no tiene valores vacios.

*   **DIANOM** que obedece al día de la semana es correspondiente al valor de la variable **DIA**. Para fines descriptivos se usará **DIANOM**

*   **MES** y **AÑO** necesitan ser transformados en variables categóricas, con ello  la posibilidad de conocer el mes y el año que tiene menos y más vuelos programados y operados.


In [None]:
dfVuelos.describe(include =['int64','object','float64'])

# Data Wrangling

## Registros Repetidos

In [None]:
dfVuelos.shape

In [None]:
dfVuelos.drop_duplicates(inplace = True)

In [None]:
dfVuelos.shape

## Renombramiento de variables

In [None]:
dfVuelos.columns

Se renombra las variables para un mejor entendimiento

In [None]:
dfVuelos.rename(columns={
   'Fecha-I':'fecVuelProg',
   'Vlo-I':'nroVuelProg',
   'Ori-I': 'codCiudadOrigProg',
   'Des-I': 'codCiudadDestProg',
   'Emp-I': 'codAerolineaVuelProg',
   'Fecha-O':'fecVuelOperado',
   'Vlo-O':'nroVuelOperado',
   'Ori-O': 'codCiudadOrigOperado',
   'Des-O': 'codCiudadDestOperado',
   'Emp-O': 'codAerolineaVuelOperado',
   'DIA': 'diaVuelOperado',
   'MES': 'mesVuelOperado',
   'AÑO': 'anioVuelOperado',
   'DIANOM':'diaSemVuelOperado',
   'TIPOVUELO': 'tipVuelo',
   'OPERA': 'nombAerolineaOperado',
   'SIGLAORI': 'nombCiudadOrig',
   'SIGLADES': 'nombCiudadDest'},inplace=True)

In [None]:
dfVuelos.columns

## Remover nulos

In [None]:
fx_porc_missings(dfVuelos, only_missings=True)

La variable **nroVuelOperado** es una variable cualitativa. Para este caso se **imputa por su moda**

In [None]:
dfVuelos['nroVuelOperado'].mode()[0]

In [None]:
dfVuelos['nroVuelOperado'].fillna(dfVuelos['nroVuelOperado'].mode()[0],inplace=True)

Se observan que todo el dataframe no contiene variables con valores nulos

In [None]:
fx_porc_missings(dfVuelos, only_missings=True)

## Creación de nuevas variables

En este paso se crear las dos variables restantes solicitadas en el desafío: **temporada_alta** y **periodo_dia**, con el fin de darles posterior tratamiento. Las variables **dif_min** y **atraso_15** han sido creadas en la sección **Variable Objetivo**

### Se crea la variable **temporada_alta**

In [None]:
dfVuelos["temporada_alta"]='0'

cond1 =( (dfVuelos['fecVuelProg'] >= dfVuelos['fecVuelProg'].dt.year.apply(str) + '-12-15') & \
 (dfVuelos['fecVuelProg']  <= dfVuelos['fecVuelProg'].dt.year.apply(lambda x: x+1).apply(str) + '-03-03') )
cond2 = ( (dfVuelos['fecVuelProg'] >= dfVuelos['fecVuelProg'].dt.year.apply(str) + '-07-15') & \
 (dfVuelos['fecVuelProg']  <= dfVuelos['fecVuelProg'].dt.year.apply(str) + '-07-31') )
cond3 = ( (dfVuelos['fecVuelProg'] >= dfVuelos['fecVuelProg'].dt.year.apply(str) + '-09-11') & \
 (dfVuelos['fecVuelProg']  <= dfVuelos['fecVuelProg'].dt.year.apply(str) + '-09-30') )
dfVuelos.loc[(cond1 | cond2 | cond3) , 'temporada_alta'] = '1'

In [None]:
# Validación
dfVuelos['temporada_alta'].value_counts()

### Se crea la variable **periodo_dia**

In [None]:
dfVuelos['periodo_dia'] = ""

index = pd.DatetimeIndex(dfVuelos['fecVuelProg'])
dfVuelos.loc[index.indexer_between_time('5:00','11:59'),"periodo_dia"]="mañana"
dfVuelos.loc[index.indexer_between_time('12:00','18:59'),"periodo_dia"]="tarde"
dfVuelos.loc[index.indexer_between_time('19:00','04:59'),"periodo_dia"]="noche"

Validación para ver si las horas corresponden correctamente con la variable **periodo_dia** creada

In [None]:
dfVuelos['horaFecI']=dfVuelos['fecVuelProg'].dt.hour
dfVuelos.groupby(by=['periodo_dia','horaFecI']).size()

Se verifica que las horas corresponden de manera correcta con las partes del día.

In [None]:
dfVuelos["periodo_dia"].value_counts(normalize = True)*100

Se observa que se tiene un porcentaje menor (**~25%**) de personas que vuelan durante la noche. Siendo un porcentaje mayor durante la mañana y la tarde

### Exportar las variables creadas

Se guarda y se exporta los variables creadas en el archivo **synthetic_features.csv**. Se mantiene el index para posteriores cruces

In [None]:
dfVuelos[['temporada_alta','dif_min','atraso_15','periodo_dia']].to_csv(url_data+'synthetic_features.csv',sep=',')

In [None]:
dfVuelos.head(5)

Eliminar la variable **horaFecI** que no será empleada para el análisis posterior

In [None]:
dfVuelos.drop('horaFecI', axis=1, inplace=True)

# EDA

## Analisis Preliminar Univariado

In [None]:
df_analisis = dfVuelos.copy()

In [None]:
df_analisis.head(5)

### Origen de los vuelos

Se realiza el análisis de las siguientes variables:

* **codCiudadOrigProg**
* **codCiudadOrigOperado**
* **nombCiudadOrig**

In [None]:
df_analisis[['codCiudadOrigProg','codCiudadOrigOperado','nombCiudadOrig']].describe(include='all')

Algunas consideraciones relacionadas con las variables:

- **Todos los vuelos parten de Santiago de Chile**. No existen cambios en el origen de los vuelos operados con respecto a los vuelos programados.
- Las variables: **codCiudadOrigProg** y **codCiudadOrigOperado** que describen el código de ciudad de origen programado y codigo de ciudad de origen de operación por tener un único valor se comportan como una **columna constante de varianza nula**, en ese sentido, esta columna será eliminada posteriormente ya que no aporta en la diferenciación de una clase(1) con otra(0). 
- El origen del vuelo programado y operado es el mismo, lo que evidencia que se realiza lo programado
- Nos quedaremos con **nombCiudadOrig** para el análisis exploratorio de los datos, sin embargo para el entrenamiento del modelo será igualmente eliminada, por ser una **columna constante de varianza nula**

In [None]:
df_analisis.drop('codCiudadOrigProg', axis=1, inplace=True)
df_analisis.drop('codCiudadOrigOperado', axis=1, inplace=True)

**Número de vuelos por Origen**

Como se menciona **Todos los vuelos parten de Santiago de Chile**. No existen cambios en el origen de los vuelos operados con respecto a los vuelos programados.

### Destino de los Vuelos

Se realiza el análisis de las siguientes variables:

* **codCiudadDestProg**
* **codCiudadDestOperado**
* **nombCiudadDest**

In [None]:
df_analisis[['codCiudadDestProg','codCiudadDestOperado','nombCiudadDest']].describe(include='all')

In [None]:
groupped_data = df_analisis.groupby(['nombCiudadDest','codCiudadDestProg','codCiudadDestOperado']).agg({'atraso_15': 'count'})
groupped_data["%"] = groupped_data.apply(lambda x:  100*x / x.sum())
groupped_data

Algunas consideraciones relacionadas con las variables:

- Existen algunos cambios en el **destino** de los vuelos operados con respecto a los vuelos programados
- Algunas **ciudades de destino** agrupan uno o más codigos de destino programado y operado

**Número de vuelos por Destino**

In [None]:
groupped_data = df_analisis.groupby(['nombCiudadDest'],as_index=False).agg({'atraso_15': 'count'})
groupped_data.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
groupped_data.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
groupped_data["% Total"] = groupped_data['nro_vuelos']/len(df_analisis)*100
groupped_data.head(5)

In [None]:
groupped_data.tail(5)

In [None]:
plt.figure(figsize=(30,10))
ax=sns.countplot(data=df_analisis,x='nombCiudadDest',
                 order=df_analisis['nombCiudadDest'].value_counts().index)
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")

total = len(df_analisis)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%\n'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='center')
plt.tight_layout()
plt.show()

- Los destinos más frecuentes son **Buenos Aires(9,3%), Antofagasta(8.5%), Lima(7.7%) y Calama(7.5%)**. Estas ciudades se encuentran dentro de los países: **Argentina, Chile y Perú**
- Los destinos menos frecuentes son **Washington, Pisco - Peru, Puerto Stanley y Cochabamba**


**Agrupación de las ciudades en PAIS, REGION**

In [None]:
#Pendiente
#Crear una nueva variable
#Se debe relacionar esto con respecto al origen y destino. 
#Esto permite mirar la frecuencia de un lugar a otro. Mirar cuales son las rutas más frecuentes

### Número de vuelos por año, mes y dia de la semana

#### Vuelos por año

In [None]:
data_agrupada = df_analisis.groupby(['anioVuelOperado'],as_index=False).agg({'atraso_15': 'count'})
data_agrupada.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
data_agrupada["% Total"] = data_agrupada['nro_vuelos']/len(df_analisis)*100
data_agrupada

In [None]:
plt.figure(figsize=(11,6))
ax=sns.countplot(data=df_analisis,x='anioVuelOperado',
                 order=df_analisis['anioVuelOperado'].value_counts().index)
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")

total = len(df_analisis)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%\n'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='center')
plt.tight_layout()
plt.show()

Se observa que la mayor cantidad de vuelos operados corresponden al año 2017. Esta variable se puede considerar así mismo como una **columna constante de varianza nula** ya que el 99.99% de sus valores se encuentran sobre una única categoria por lo que será eliminado.

In [None]:
df_analisis.drop('anioVuelOperado', axis=1, inplace=True)

#### Vuelos por mes

In [None]:
data_agrupada = df_analisis.groupby(['mesVuelOperado'],as_index=False).agg({'atraso_15': 'count'})
data_agrupada.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
data_agrupada["% Total"] = data_agrupada['nro_vuelos']/len(df_analisis)*100
data_agrupada

In [None]:
plt.figure(figsize=(20,7))
ax=sns.countplot(data=df_analisis,x='mesVuelOperado')
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")

total = len(df_analisis)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%\n'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='center')
plt.tight_layout()
plt.show()

Se observa lo siguiente:

*   **Enero** y **Diciembre** son los meses con la mayor cantidad de vuelos operados
*   **Abril** y **Junio** registran la menor cantidad de vuelos operados
*   El **segundo trimestre** del año (Abr. May. Jun.) tiene el menor número de vuelos operados
*   **Enero**, **Julio** y **Diciembre** registran una subida en el número de vuelos operados con respecto a los meses anteriores.
*   El **último trimestre** del año (Oct. Nov. Dic.) tiene un mayor número de vuelos operados con respecto al resto de trimestres




#### Vuelos por día de la semana

In [None]:
data_agrupada = df_analisis.groupby(['diaSemVuelOperado'],as_index=False).agg({'atraso_15': 'count'})
data_agrupada.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
data_agrupada["% Total"] = data_agrupada['nro_vuelos']/len(df_analisis)*100
data_agrupada


In [None]:
plt.figure(figsize=(20,7))
ax=sns.countplot(data=df_analisis,x='diaSemVuelOperado',
                 order=df_analisis['diaSemVuelOperado'].value_counts().index)
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")

total = len(df_analisis)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%\n'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='center')
plt.tight_layout()
plt.show()

Se observa lo siguiente:
- Los **Sábados** es el dia con la menor cantidad de vuelos. Representa el **12.2%** de los vuelos operados
- Los **Viernes** y **Jueves** y **Lunes** son los días con la mayor cantidad de vuelos. Cada uno representa más del **15%**.

In [None]:
df_analisis.drop('diaVuelOperado', axis=1, inplace=True)

### Número de vuelos por tipo y nombre de la aerolínea

#### Vuelos por tipo de vuelo

In [None]:
data_agrupada = df_analisis.groupby(['tipVuelo'],as_index=False).agg({'atraso_15': 'count'})
data_agrupada.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
data_agrupada["% Total"] = data_agrupada['nro_vuelos']/len(df_analisis)*100
data_agrupada


In [None]:
plt.figure(figsize=(11,6))
ax=sns.countplot(data=df_analisis,x='tipVuelo',
                 order=df_analisis['tipVuelo'].value_counts().index)
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")

total = len(df_analisis)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%\n'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='center')
plt.tight_layout()
plt.show()

Del total de vuelos operados el **54.2%** son vuelos **Nacionales** 10% más que los vuelos Internacionales **45.8%**.

#### Vuelos por nombre de la aerolínea que opera

In [None]:
data_agrupada = df_analisis.groupby(['nombAerolineaOperado'],as_index=False).agg({'atraso_15': 'count'})
data_agrupada.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
data_agrupada["% Total"] = data_agrupada['nro_vuelos']/len(df_analisis)*100
data_agrupada.head(10)

In [None]:
plt.figure(figsize=(20,7))
ax=sns.countplot(data=df_analisis,x='nombAerolineaOperado',
                 order=df_analisis['nombAerolineaOperado'].value_counts().index)
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")

total = len(df_analisis)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%\n'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='center')
plt.tight_layout()
plt.show()

Se observa lo siguiente:
- La aerolinea con más vuelos es el **Grupo LATAM** con 40892 vuelos, esto representa el **59.9%** del total de vuelos operados. Seguido de **Sky Airlines** con el **20.9%**.
- **Más del 80%** del total de vuelos operados está conformado por las aerolíneas Grupo LATAM y Sky Airlines.
- **Cerca de 10%** está conformado por **Aerolineas Argentinas (2.85%), Copa Air (2.7%), Latin American Wings (2.4%), Avianca (1.6%)**.

### Número de vuelos por temporada y periodo

#### Vuelos por temporada

In [None]:
data_agrupada = df_analisis.groupby(['temporada_alta'],as_index=False).agg({'atraso_15': 'count'})
data_agrupada.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
data_agrupada["% Total"] = data_agrupada['nro_vuelos']/len(df_analisis)*100
data_agrupada

In [None]:
plt.figure(figsize=(11,6))
ax=sns.countplot(data=df_analisis,x='temporada_alta',
                 order=df_analisis['temporada_alta'].value_counts().index)
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")

total = len(df_analisis)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%\n'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='center')
plt.tight_layout()
plt.show()

Se observa que el **85.11%** de los vuelos **no** se realizan en temporada alta, es decir entre 15-Dic y 3-Mar, o 15-Jul y 31-Jul, o 11-Sep y 30-Sep.

#### Vuelos por periodo dia

In [None]:
data_agrupada = df_analisis.groupby(['periodo_dia'],as_index=False).agg({'atraso_15': 'count'})
data_agrupada.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
data_agrupada["% Total"] = data_agrupada['nro_vuelos']/len(df_analisis)*100
data_agrupada

In [None]:
plt.figure(figsize=(11,6))
ax=sns.countplot(data=df_analisis,x='periodo_dia',
                 order=df_analisis['periodo_dia'].value_counts().index)
ax.set_xticklabels(ax.get_xticklabels(), rotation=40, ha="right")

total = len(df_analisis)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%\n'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='center')
plt.tight_layout()
plt.show()

Se observa que se tiene un porcentaje menor **(25.4%)** de personas que vuelan durante la **noche**. Siendo un porcentaje **mayor** durante la **tarde(37.4%)** y la **mañana(37.2)**

### Distribución de la tasa de atraso (min)

In [None]:
plt.figure(figsize=(25,10))
sns.histplot(data=df_analisis, x='dif_min',kde=True,hue='atraso_15',bins=60)
plt.show()

Se observa lo siguiente:
- La variable **dif_min** presenta un histograma asimetrico con cola hacia la derecha, lo que evidencia que se tiene la presencia de pocos altos valores de atraso de un vuelo.
- La diferencia en minutos para la variable **atraso_15** de **valor igual a 1**, tiene un histograma achatado asimetrico de cola hacia a la derecha, lo que evidencia que se tiene la presencia de pocos altos valores de atraso de un vuelo. Esto genera una alta desviación estandar con respecto a la media.
- La diferencia en minutos para la variable **atraso_15** de **valor igual a 0**, tiene un histograma apuntado con baja desviación estandar ya que sus valores se encuentran concentrados cerca de la media.
- La desviación estandar de la variable **atraso_15** de **valor igual a 0** es mayor que la variable **atraso_15** de **valor igual a 1**, esto evidencia una mayor variabilidad en cuanto a sus valores con respecto a la media para los vuelos retrasados.

Se observa una ligera **asimetria a la derecha (Cola a la derecha)**. Através de este histograma tambien podemos validar la presencia de algunos valores fuera del rango normal de distribución. Veamos un BOXPLOT para analizar estos puntos.

In [None]:
plt.figure(figsize=(15,6))
sns.boxplot(df_analisis['dif_min'])
plt.title("Boxpot de la variable dif_min ")
plt.show()

A través del boxplot podemos ver claramente que existen algunos valores a la derecha que pueden no favorecer en el comportamiento habitual de los datos. Veamos un análisis por PERCENTILES

In [None]:
vector_percentiles = [0,0.5,1,2.5,5,10,25,50,75,90,92.5,95,97.5,98,98.5,99,99.5,100]
vector_valores_percentiles=np.percentile(df_analisis['dif_min'],vector_percentiles)

pd.concat([pd.DataFrame(vector_percentiles, columns = ['Percentile']),
           pd.DataFrame(vector_valores_percentiles, columns = ['Valor'])], axis = 1)

Lo que se busca son **grandes variaciones por percentil**. Por ejemplo para esta variable el percentil **98.5** tiene un valor de **86** sin embargo el percentil 100 tiene un valor **161**, casi el doble. es decir solo un **1.5%** concentra valores mayores que **86**; se observa una amplia variación de un percentil a otro. Este será nuestro criterio para imputar cada variable.

Se analizaron los percentiles de la variable y se definió en base la punto de corte correspondiente:

In [None]:
#clean_outlier_perc(df_analisis,'dif_min', 0.98)

Para este caso primero analizaremos si esta variable le aporta al modelo, de lo contrario no tiene sentido retirar los valores outliers con la función **clean_outlier_perc** ya que le añade más sesgo al modelo

### Reporte Univariado

Se realiza la conversión en los tipos de datos para realizar el reporte univariado

In [None]:
df_analisis_uni = df_analisis.copy()

In [None]:
feat_numerical_uni = ['dif_min']

feat_categorical_uni = [
 'codCiudadDestProg',
 'codAerolineaVuelProg',
 'codCiudadDestOperado',
 'codAerolineaVuelOperado',
 'diaSemVuelOperado',
 'mesVuelOperado',
 'tipVuelo',
 'nombAerolineaOperado',
 'nombCiudadDest',
 'atraso_15',
 'temporada_alta',
 'periodo_dia']

In [None]:
for var in feat_categorical_uni:
  df_analisis_uni[var] = df_analisis_uni[var].astype('category')

In [None]:
v=pd.DataFrame({"variable": df_analisis_uni.columns.values})
t=pd.DataFrame({"tipo": df_analisis_uni.dtypes.values})
meta=pd.concat([v, t], axis=1)
meta=meta.loc[(meta['tipo']=='category')|(meta['tipo']=='float64'),:]
meta

In [None]:
# Reporte Univariado
plot_graph_initial(df_analisis_uni, meta)

En el siguiente reporte se muestra lo siguiente:
- Para las variables cualitativas un gráfico de barras ordenado según la cantidad de vuelos, así como un digrama de pastel que indica el porcentaje de cada categoria.
- Para la única variable cuantitativa se muestra su histograma y boxplot.

## Analisis Preliminar Bivariado


*  Se tomará en cuenta como parte del análisis la **mediana** y la **media** teniendo en cuenta que los valores de la media son afectados por los valores outliers de la variable **dif_min**
*  Se debe de tomar en cuenta la cantidad de valores por cada categoría
*  La intensidad de color en cada boxplot ayudaría a saber la concentración de valores en cada boxplot (densidad)
*  El gráfico del tipo Violinplot será empleado ya que ayudará a reflejar esta característica




### Análisis de los minutos de atraso por vuelo

Se realiza el análisis correspondiente de los **minutos de atraso** por destino, aerolínea, tipo de vuelo, dia de la semana, mes del año, temporada y periodo. En ese sentido se necesita convertir las variables **mesVuelOperado** y **diaSemVuelOperado** a tipo *'category'* para un correcto análisis

In [None]:
df_analisis['diaSemVuelOperado'] = df_analisis['diaSemVuelOperado'].astype('object')
df_analisis['mesVuelOperado'] = df_analisis['mesVuelOperado'].astype('object')

#### Minutos de Atraso por destino

Se divide el siguiente análisis por el número de vuelos para un mejor entendimiento

**Número de vuelos <= 6**

In [None]:
data_agrupada = df_analisis.groupby(['nombCiudadDest'],as_index=False).agg({'atraso_15': 'count','dif_min': ['mean','median','std']})
data_agrupada.columns = ['_'.join(map(str,col)).strip() for col in data_agrupada.columns.values]
data_agrupada.rename(columns={'nombCiudadDest_':'nombCiudadDest','atraso_15_count':'nro_vuelos'},inplace=True)
data_agrupada=data_agrupada.sort_values(by=['nro_vuelos','dif_min_median'],ascending=True)
data_agrupada=data_agrupada.loc[data_agrupada.nro_vuelos<=6,:]
data_agrupada

Se osbserva que existen destinos con poca cantidad de vuelos como **Puerto Stanley (1)**, **Cochabamba(1)** y **Quito(2)** cuyo promedio y mediana de minutos de atraso si bien son altos estos valores estan siendo afectados por la poca cantidad de número de vuelos. En ese sentido se separa los vuelos que tienen **menos y más de 6 vuelos** para un mejor entendimiento.

Se puede apreciar que estos 10 últimos destinos (menos de 6 vuelos) presentan **características climatológicas** particulares como la **altura de Cochabamba-Bolivia y Quito-Ecuador**

**Número de vuelos > 6**

In [None]:
data_filtrada=df_analisis.loc[~df_analisis.nombCiudadDest.isin(list(data_agrupada.nombCiudadDest.values)),:]
data_filtrada.shape

In [None]:
data_agrupada = df_analisis.groupby(['nombCiudadDest'],as_index=False).agg({'atraso_15': 'count','dif_min': ['mean','median','std']})
data_agrupada.columns = ['_'.join(map(str,col)).strip() for col in data_agrupada.columns.values]
data_agrupada.rename(columns={'nombCiudadDest_':'nombCiudadDest','atraso_15_count':'nro_vuelos'},inplace=True)
data_agrupada=data_agrupada.sort_values(by=['dif_min_median'],ascending=False)
data_agrupada=data_agrupada.loc[data_agrupada.nro_vuelos>6,:]
data_agrupada.head(10)

In [None]:
data_agrupada.tail(10)

In [None]:
fig, ax = plt.subplots(1, figsize=(30,15))
sns.violinplot(x=data_filtrada['nombCiudadDest'], y=data_filtrada['dif_min'],
            order = data_filtrada.groupby(by=["nombCiudadDest"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.show()

Se observa lo siguiente:
- **Sydney**, **Melbourne** y **Rosario** son las destinos que presentan altos valores de minutos de atraso a diferencia del resto de destinos. Teniendo una mediana de 19, 17 y 12 así como un promedio de minutos de atraso 26, 19, 19 respectivamente.
- **Ciudad de Mexico**, **Puerto Natales**, **Calama** son los destinos que presentan bajos valores de minutos de atraso a diferencia del resto de destinos. Teniendo una mediana de 0, 1 y 2 así como un promedio de minutos de atraso 15, 12, 15 respectivamente.
- El rango de minutos de atraso del destino **Sydney** es amplia desde el primer al tercer cuartil. Es el destino con la mayor promedio (26.9) y mediana (19) de minutos de retraso que el resto de destinos. Tiene una alta desviación estandár (28.21) ya que sus valores no son próximos a la media debido a la presencia de valores atipicos. Su **densidad o concentración de valores** **es baja** en comparación con **Cancun**, **Sao Paulo**, **Punta Arenas**, **Puerto Montt.**, **Serena** y **Calama** y **Antofagasta** que presentan mayor cantidad de vuelos con menor promedio y mediana de minutos de retraso. Algunos de estos destinos centran su atractivo turistico por sus **playas, numerosos resorts y vida nocturna**.
- Si bien los siguientes destinos **Melbourne** y **Rosario** presentan una baja concentración de valores su promedio y mediana de minutos de atraso son altos con respecto al resto de destinos.

#### Minutos de atraso por aerolínea operada

In [None]:
data_agrupada = df_analisis.groupby(['nombAerolineaOperado'],as_index=False).agg({'atraso_15': 'count','dif_min': ['mean','median','std']})
data_agrupada.columns = ['_'.join(map(str,col)).strip() for col in data_agrupada.columns.values]
data_agrupada.rename(columns={'nombAerolineaOperado_':'nombAerolineaOperado','atraso_15_count':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['dif_min_median'],ascending=False)

In [None]:
fig, ax = plt.subplots(1, figsize=(30,15))
sns.violinplot(x=df_analisis['nombAerolineaOperado'], y=df_analisis['dif_min'],
            order = df_analisis.groupby(by=["nombAerolineaOperado"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.show()

Se observa lo siguiente:

- **Plus Ultra Líneas Aereas**, **Qantas Airways**, **Air Canada** son las aerolíneas que presentan altos valores de minutos de atraso a diferencia del resto de aerolíneas. Teniendo una mediana de 22,19 y 13 así como un promedio de minutos de atraso 31,26,22 respectivamente.
- **Oceanair Linhas Aereas**, **Lacsa**, **Sky Airline** son las aerolíneas que presentan bajos valores de minutos de atraso a diferencia del resto de aerolíneas. Teniendo una mediana de 0,0 y 2 así como un promedio de minutos de atraso 6,4,8 respectivamente.
- El rango de amplitud de minutos de atraso de la areolínea española **Plus Ultra Línea Aéreas** es amplia desde el primer al tercer cuartil, cuya mediana (22) es alta en comparación con el resto de aerolíneas. La desviación estandár (34.57) de los minutos de atraso es alta en comparación con el resto de aerolíneas debido a su alta dispersión de valores con respecto a la media, así como la presencia de valores outliers.
- El volumen de minutos (concentración) de atraso de la aerolínea **Grupo LATAM** es amplia **desde los 0 hasta los 5 minutos de atraso**. Tiene una alta desviación estandár ya que sus valores no son próximos a la media debido a la dispersión de sus valores


#### Minutos de atraso por tipo de vuelo

In [None]:
data_agrupada = df_analisis.groupby(['tipVuelo'],as_index=False).agg({'atraso_15': 'count','dif_min': ['mean','median','std']})
data_agrupada.columns = ['_'.join(map(str,col)).strip() for col in data_agrupada.columns.values]
data_agrupada.rename(columns={'tipVuelo_':'tipVuelo','atraso_15_count':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['dif_min_median'],ascending=False)

In [None]:
fig, ax = plt.subplots(1, figsize=(15,8))
sns.violinplot(x=df_analisis['tipVuelo'], y=df_analisis['dif_min'],
            order = df_analisis.groupby(by=["tipVuelo"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.show()

Se observa lo siguiente:
- Se tiene una concentración en los minutos de atraso para los **Vuelos Nacionales** desde los 0 hasta los 3 min.
- Se tiene un mayor rango en los minutos de atraso para los **Vuelos Internacionales** debido a la variabilidad de sus valores, esto se evidencia con el alto valor de su desviación estandar (21.57 min)

#### Minutos de atraso por dia de la semana

In [None]:
data_agrupada = df_analisis.groupby(['diaSemVuelOperado'],as_index=False).agg({'atraso_15': 'count','dif_min': ['mean','median','std']})
data_agrupada.columns = ['_'.join(map(str,col)).strip() for col in data_agrupada.columns.values]
data_agrupada.rename(columns={'diaSemVuelOperado_':'diaSemVuelOperado','atraso_15_count':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['dif_min_median'],ascending=False)

In [None]:
fig, ax = plt.subplots(1, figsize=(15,8))
sns.violinplot(x=df_analisis['diaSemVuelOperado'], y=df_analisis['dif_min'],
            order = df_analisis.groupby(by=["diaSemVuelOperado"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.show()

Se observa que la proporción de viajes en cuanto al **dia de semana** no tiene mucha diferencia, son proporciones muy equitativas. Sin embargo la cantidad de minutos de atraso es mayor los **Lunes, Jueves y Viernes** que los **Martes, Miercoles, Sabado y Domingo**

#### Minutos de atraso por mes del año

In [None]:
data_agrupada = df_analisis.groupby(['mesVuelOperado'],as_index=False).agg({'atraso_15': 'count','dif_min': ['mean','median','std']})
data_agrupada.columns = ['_'.join(map(str,col)).strip() for col in data_agrupada.columns.values]
data_agrupada.rename(columns={'mesVuelOperado_':'mesVuelOperado','atraso_15_count':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['dif_min_median'],ascending=False)

In [None]:
fig, ax = plt.subplots(1, figsize=(20,8))
sns.violinplot(x=df_analisis['mesVuelOperado'], y=df_analisis['dif_min'],
            order = df_analisis.groupby(by=["mesVuelOperado"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.show()

Se observa lo siguiente:
- El **mes de Julio registra altos valores de minutos de atraso**. Teniendo una **mediana de 7 min** y un **promedio de 15.3 min de atraso**. El rango de amplitud de minutos de atraso es más amplio, lo que indica una mayor variabilidad, esto se comprueba con la **desviación estandár (25.45 min)**, la cual es la mayor con respecto al resto de los meses.
- **Marzo** y **Abril** son los meses que presentan bajos valores de minutos de atraso a diferencia del resto de meses. Ambos tienen una mediana de 2 min así como un **promedio 5.75 min. de atraso**. Por otro lado la **densidad** o concentración de puntos es muy amplio en los **2 min**.

In [None]:
fig, ax = plt.subplots(1, figsize=(20,8))
sns.boxplot(x=df_analisis['mesVuelOperado'], y=df_analisis['dif_min'],hue=df_analisis['atraso_15'],
               order = df_analisis.groupby(by=["mesVuelOperado"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.legend(loc='upper right')
plt.show()

Se observa lo siguiente:
- El **mes de Julio registra altos valores de minutos de atraso**. Teniendo una **mediana de 7 min** y un **promedio de minutos de atraso de 15.3 min**. El rango de amplitud de minutos de atraso para la clase 1 (atraso_15==1) es más amplio, yendo **desde los 30 hasta los 50 minutos de atraso**.
- [inusual nevada en Santiago de Chile en Julio del 2017](https://www.bbc.com/mundo/noticias-america-latina-40620874). En el 2017 Santiago de Chile vivió la mayor nevada en la última década en la madrugada del sábado.El fenómeno climático dejó una persona muerta, dos heridos y más de 300.000 hogares sin suministro eléctrico.
- **Esto permite tomar en cuenta que las condiciones climáticas afectan la tasa de atraso de un vuelo**. Así como se mencionó el análisis de las ciudad de destino.

#### Creación de la variable condición metereologica

Se crea la variable **cond_meteorologica** que permite describir inusual nevada en Santiago de Chile que provocó un muerto, dos heridos y más de 300.000 casas sin luz en Julio del 2017

In [None]:
def fx_cond_meteorologica_inusual(x):
  if x==7:
    return 'SI'
  else:
    return 'NO'

df_analisis['condMeteorologica'] = df_analisis['mesVuelOperado'].apply(lambda x: fx_cond_meteorologica_inusual(x))

In [None]:
df_analisis.condMeteorologica.value_counts()

In [None]:
df_analisis.mesVuelOperado.value_counts()

Se comprueba que se tiene la misma cantidad de números de vuelos que el mes de Julio

#### Minutos de atraso por temporada

In [None]:
data_agrupada = df_analisis.groupby(['temporada_alta'],as_index=False).agg({'atraso_15': 'count','dif_min': ['mean','median','std']})
data_agrupada.columns = ['_'.join(map(str,col)).strip() for col in data_agrupada.columns.values]
data_agrupada.rename(columns={'temporada_alta_':'temporada_alta','atraso_15_count':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['dif_min_median'],ascending=False)

In [None]:
fig, ax = plt.subplots(1, figsize=(15,8))
sns.violinplot(x=df_analisis['temporada_alta'], y=df_analisis['dif_min'],
            order = df_analisis.groupby(by=["temporada_alta"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.show()

In [None]:
plt.subplots(1, figsize=(20,8))
sns.violinplot(x=df_analisis['temporada_alta'], y=df_analisis['dif_min'],hue=df_analisis['atraso_15'],
               order = df_analisis.groupby(by=["temporada_alta"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.legend(loc='upper right')
plt.show()

Se observa lo siguiente:

- La variable definida como **temporada_alta** presenta una mayor cantidad de minutos de retraso. Su media y mediana son más altas que los vuelos de temporada baja.
- Ambos tiene una alta desviación estandar, sin embargo la variabilidad de los minutos de atraso para los vuelos de **temporada alta** es mayor. Teniendo una desviación estandar de 22.34 min frente a 18.68 min.
- El rango de amplitud de minutos de atraso de los vuelos de temporada alta para la clase 1 (atraso_15==1) es más amplio, yendo **desde los 25 hasta los 50 minutos de atraso**.
- La densidad de minutos de atraso de los vuelos de temporada baja para la clase 1 (atraso_15==1) está más concentrada en los 25 min.

#### Minutos de atraso por periodo

In [None]:
data_agrupada = df_analisis.groupby(['periodo_dia'],as_index=False).agg({'atraso_15': 'count','dif_min': ['mean','median','std']})
data_agrupada.columns = ['_'.join(map(str,col)).strip() for col in data_agrupada.columns.values]
data_agrupada.rename(columns={'periodo_dia_':'periodo_dia','atraso_15_count':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['dif_min_median'],ascending=False)

In [None]:
fig, ax = plt.subplots(1, figsize=(15,8))
sns.violinplot(x=df_analisis['periodo_dia'], y=df_analisis['dif_min'],
            order = df_analisis.groupby(by=["periodo_dia"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.show()

In [None]:
plt.subplots(1, figsize=(20,8))
sns.violinplot(x=df_analisis['periodo_dia'], y=df_analisis['dif_min'],hue=df_analisis['atraso_15'],
               order = df_analisis.groupby(by=["periodo_dia"])["dif_min"].median().sort_values().iloc[::-1].index)
plt.xticks(rotation = 90)
plt.legend(loc='upper right')
plt.show()

- Se observa que la mayoria de las personas prefiere viajar por la **mañana** y la **tarde**. 
- La cantidad de minutos de atraso es mayor en la tarde y en la noche.
- El rango de amplitud de minutos de atraso de los **vuelos de noche** para la clase 1 (atraso_15==1) es más amplio, yendo **desde los 25 hasta los 75 minutos de atraso**.
- La densidad de minutos de atraso de los **vuelos de la mañana** para la clase 1 (atraso_15==1) está más concentrada en los 25 min.

### Análisis de las rutas de mayor frecuencia (Grafos)

In [None]:
data_agrupada = df_analisis.groupby(['nombCiudadOrig','nombCiudadDest'],as_index=False).agg({'atraso_15': 'count'})
data_agrupada.rename(columns={'atraso_15':'nro_vuelos'},inplace=True)
data_agrupada.sort_values(by=['nro_vuelos'],ascending=False,inplace=True)
data_agrupada["% Total"] = data_agrupada['nro_vuelos']/len(df_analisis)*100
data_agrupada.head(10)

Se contempla el análisis de las rutas de mayor y menor frecuencia que indican cuales son los orígenes y destinos con más y menos número de vuelos (densidad), sin embargo como se aprecia la ciudad de origen es la misma para todos los vuelos. 

Este tipo de análisis puede ser de vital importancia en caso se tengan múltiples origenes, ya que permite saber cuales son las rutas de mayor y menor frecuencia

**Así mismo se podría considerar el análisis de las rutas mediante el análisis de grafos considerando como conectores:**
- Tasa de Atraso
- Cantidad de vuelos

Se puede implementar este tipo de análisis para una mejor comprensión de la densidad de los nodos.

In [None]:
df_analisis.drop('nombCiudadOrig', axis=1, inplace=True)

Se procede a eliminar esta variable ya que tiene un solo valor. No aporta nada en el proceso de aprendizaje ya que no permite diferenciar una clase de otra

### Análisis de los vuelos Programados vs Operados

Se realiza el análisis de las siguientes variables:
*   **nroVuelProg**
*   **codCiudadDestProg**
*   **codAerolineaVuelProg**


*   **nroVuelOperado**
*   **codCiudadDestOperado**
*   **codAerolineaVuelOperado**


In [None]:
df_analisis[['nroVuelProg','nroVuelOperado','codCiudadDestProg','codCiudadDestOperado','codAerolineaVuelProg','codAerolineaVuelOperado']].describe(include='all')

In [None]:
df_analisis.nroVuelProg.value_counts(normalize = True).head(30)*100

In [None]:
df_analisis.nroVuelOperado.value_counts(normalize = True).head(30)*100

Se puede observar muchas categorias en las variables **nroVuelProg** y **nroVuelOperado**, esto es un sintoma de mucha variabilidad que no ayuda en la diferencia de una clase con otra, por lo que se decide no tomarlas en cuenta para la etapa de aprendizaje

In [None]:
df_analisis.codCiudadDestProg.value_counts(normalize = True).head(30)*100

In [None]:
df_analisis.codCiudadDestOperado.value_counts(normalize = True).head(30)*100

A pesar que estas variables tienen bastantes categorias, agrupandolas según **CONVERSION CON RESPECTO AL TARGET(TASA DE RETRASO)** o **FRECUENCIA DE VUELOS** pueden resultar útiles para el modelo 

In [None]:
df_analisis.codAerolineaVuelProg.value_counts(normalize = True)*100

In [None]:
df_analisis.codAerolineaVuelOperado.value_counts(normalize = True)*100

A pesar que estas variables tienen bastantes categorias, agrupandolas según **CONVERSION CON RESPECTO AL TARGET(TASA DE RETRASO)** o **FRECUENCIA DE VUELOS** pueden resultar útiles para el modelo 

- El 75% de la variable **codAerolineaVuelProg** se reparte entre LAN y SKU, teniendo una frecuencia en el número de vuelos de 55% y 20% respectivamente
- El 73% de la variable **codAerolineaVuelOperado** se reparte entre LAN, LXP y SKU, teniendo una frecuencia en el número de vuelos de 31%, 21% y 21% respectivamente



#### Creacion de la hora en base a la Fecha operativa del vuelo

In [None]:
df_analisis['horaOperVuelo']=df_analisis['fecVuelOperado'].dt.hour

In [None]:
df_analisis["horaOperVuelo"]=df_analisis['horaOperVuelo'].astype('str')

In [None]:
df_analisis.horaOperVuelo.value_counts(normalize= True)*100

#### Creación de campos de validación para revisar si lo programado es igual a lo operado

In [None]:
# Validación para ver si lo programado es igual a lo operado
df_analisis['cambioNroVuelo'] = df_analisis.apply(lambda x: '0' if x['nroVuelProg']==x['nroVuelOperado'] else '1', axis=1)
df_analisis['cambioCodCiudadDest'] = df_analisis.apply(lambda x: '0' if x['codCiudadDestProg']==x['codCiudadDestOperado'] else '1', axis=1)
df_analisis['cambioCodAerolineaVuelo'] = df_analisis.apply(lambda x:'0' if x['codAerolineaVuelProg']==x['codAerolineaVuelOperado'] else '1', axis=1)

In [None]:
print(df_analisis.groupby(df_analisis['cambioNroVuelo']).size())
print("------------")
print(df_analisis.groupby(df_analisis['cambioCodCiudadDest']).size())
print("------------")
print(df_analisis.groupby(df_analisis['cambioCodAerolineaVuelo']).size())

- El **nroVuelProg** y **nroVuelOperado** se observa que tienen diferencias en sus categorias. El número de vuelo programado cambio con respecto al operado en un **6.6%** del total de vuelos.
- El **codCiudadDestProg** y **codCiudadDestOperado** se observa que tienen diferencias en sus categorias. La ciudad destino programado cambio con respecto al operado en un **0.04%%** del total de vuelos.
- El **codAerolineaVuelProg** y **codAerolineaVuelOperado** se observa que tienen diferencias en sus categorias. El código de la aerolínea programada cambio con respecto al operado en un **27.37%%** del total de vuelos

Las nuevas variables. **cambioNroVuelo**, **cambioCodAerolineaVuelo** tienen la posibilidad de ser empleadas en el proceso de entrenamiento. Por otro lado las variable **cambioCodCiudadDest** no serán usadas debido a la baja varianza.


In [None]:
df_analisis.drop('cambioCodCiudadDest', axis=1, inplace=True)

Se puede observar muchas categorias en las variables **nroVuelProg** y **nroVuelOperado** y ninguna de las categorias reune un porcentaje mayor con respecto a otra, esto es un sintoma de mucha variabilidad que no ayuda en la diferencia de una clase con otra. En ese sentido se omite las siguientes campos dado que tienen mucha variabilidad (se puede observar que existen demasiadas categorías en las variables) lo cual no ayudaria a hacer alguna distinción con el target:

nro. de categorias en **nroVuelProg**: 584

nro. de categorias en **nroVuelOperado** : 861

**Si no se desea omitir una alternativa es conversar con el negocio para que nos proporcione un mejor entendiminto de estas variables y asi poder considerarlas.**

In [None]:
df_analisis.drop('nroVuelProg', axis=1, inplace=True)
df_analisis.drop('nroVuelOperado', axis=1, inplace=True)

### Análisis de la tasa de atraso (Conversión con el target)

Para realizar el análisis de la tasa de atraso por categoría de cada variable cualitativa (pudiendo ser cuantitativa dividida en deciles) se emplea la tasa de conversión del target que me interesa (retraso_15=1). **Se calcula tomando la cantidad de valores de retraso_15=1 con respecto al total de valores de cada categoría**

In [None]:
# Se realiza una copia del dataframe de análisis
df_analisis_bi = df_analisis.copy()

In [None]:
# División de las variables según naturaleza
feat_numerical_bi = ['dif_min']

feat_categorical_bi = [
 'codCiudadDestProg',
 'codAerolineaVuelProg',
 'codCiudadDestOperado',
 'codAerolineaVuelOperado',
 'diaSemVuelOperado',
 'mesVuelOperado',
 'tipVuelo',
 'nombAerolineaOperado',
 'nombCiudadDest',
 'temporada_alta',
 'periodo_dia',
 'horaOperVuelo',
 'cambioNroVuelo',
 'cambioCodAerolineaVuelo',
 'condMeteorologica']

In [None]:
# Conversion del tipo de dato
df_analisis_bi['atraso_15']=df_analisis_bi['atraso_15'].astype('int64')

for var in feat_categorical_bi:
  df_analisis_bi[var] = df_analisis_bi[var].astype('category')

In [None]:
# Creación del dataframe meta
v=pd.DataFrame({"variable": df_analisis_bi.columns.values})
t=pd.DataFrame({"tipo": df_analisis_bi.dtypes.values})
meta=pd.concat([v, t], axis=1)
meta=meta.loc[(meta['tipo']=='category'),:]
meta

En el siguiente reporte se muestra el análisis de la tasa de atraso por categoría de cada variable cualitativa (pudiendo ser cuantitativa dividida en deciles) se emplea la tasa de conversión del target que me interesa (retraso_15=1). **Se calcula tomando la cantidad de valores de retraso_15=1 con respecto al total de valores de cada categoría**

In [None]:
# Reporte para conocer la tasa de atraso
plot_graph_bivariable(df_analisis_bi, meta,'atraso_15')

Este análisis nos permite visualizar por tipo categoria de la variable cualitativa y decil de la variable cuantitativa la tasa de atraso (su participación con respecto al target). Este análisis nos ayudará:
- **Cuales son las categorías de las variables que más influyeran en predecir atrasos**
- Conocer saber como podemos agrupar las variables, así como la representatividad con respecto al target de importancia.

Algunas insights obtenidos del análisis de la tasa de atraso:

- A pesar de tener menor proporción la categoria **Internacional** tiene un nivel alto de conversión, para predecir la probabilidad de atraso de los vuelos que aterrizan o despegan del aeropuerto de Santiago de Chile (SCL).
- La proporción de viajes en cuanto al **dia de semana** no tiene mucha diferencia, son proporciones muy equitativas. Sin embargo su tasa de atraso es mayor los **Lunes, Jueves y Viernes** que los **Martes, Miercoles, Sabado y Domingo**
- Se observa que la mayoria de las personas prefiere viajar por la **mañana** y la **tarde**. Siendo la de menor preferencia por la **noche**, sin embargo la esta categoria tiene un mayor ratio de conversión con respecto al target, **es decir tiene una mayor tasa de retraso**

# Preparación de los datos

In [None]:
df_prep= df_analisis.copy()

In [None]:
feat_numerical_ = ['dif_min']

feat_categorical_ = [
 'codCiudadDestProg',
 'codAerolineaVuelProg',
 'codCiudadDestOperado',
 'codAerolineaVuelOperado',
 'diaSemVuelOperado',
 'mesVuelOperado',
 'tipVuelo',
 'nombAerolineaOperado',
 'nombCiudadDest',
 'temporada_alta',
 'periodo_dia',
 'horaOperVuelo',
 'cambioNroVuelo',
 'cambioCodAerolineaVuelo',
 'condMeteorologica']

In [None]:
# Conversion del tipo de dato
df_prep['atraso_15']=df_prep['atraso_15'].astype('int64')

for var in feat_categorical_:
  df_prep[var] = df_prep[var].astype('category')

### Variables cualitativas de alta cardinalidad


Se busca que al moverme de una categoría a otra el porcentaje del target que me interesa **(atraso_15==1)** cambie favorablemente para diferenciar una clase de otra. En ese sentido este tipo de variables de alta cardinalidad se agrupan según:
- **Ratio del total de vuelos**
- **Tasa de Atraso (conversión con respecto al target)**

Se utiliza la función **cross_target** que calcula los porcentajes de conversión del target por cada categoria de la variable (También se denomina tasa de atraso)

#### Nombre de la ciudad Destino

In [None]:
cross_target(df_prep,'nombCiudadDest','atraso_15')

Se decide agrupar las categorías según su **ratio del total de vuelos**. Se construye la categoría **OTRO** tomando las categorías que tengan una **participación menor del 1%**

In [None]:
def fx_nombCiudadDest(x):
    if x in ['Buenos Aires','Antofagasta','Lima','Calama','Puerto Montt','Concepcion','Iquique','Sao Paulo','Temuco','Arica','La Serena','Punta Arenas','Ciudad de Panama',
             'Copiapo','Mendoza','Bogota','Rio de Janeiro','Montevideo','Cordoba','Miami','Madrid','Balmaceda','Valdivia','Ciudad de Mexico']:
        return x
    else:
        return 'OTRO'

df_prep['nombCiudadDest'] = df_prep['nombCiudadDest'].apply(lambda x: fx_nombCiudadDest(x))

In [None]:
cross_target(df_prep,'nombCiudadDest','atraso_15')

Se aprecia que **Buenos Aires** y **Lima**, dos destinos internacionales, tienen un alto porcentaje de valores así con un alto valor de conversión.

Por otro lado debido a que esta variable se convertirá en una variable del tipo dummy para evitar problemas con el nombre se realiza la siguiente transformación:

In [None]:
df_prep.loc[df_prep['nombCiudadDest']=='Buenos Aires',['nombCiudadDest']]='Buenos_Aires'
df_prep.loc[df_prep['nombCiudadDest']=='Puerto Montt',['nombCiudadDest']]='Puerto_Montt'
df_prep.loc[df_prep['nombCiudadDest']=='Sao Paulo',['nombCiudadDest']]='Sao_Paulo'
df_prep.loc[df_prep['nombCiudadDest']=='La Serena',['nombCiudadDest']]='La_Serena'
df_prep.loc[df_prep['nombCiudadDest']=='Sao Paulo',['nombCiudadDest']]='Sao_Paulo'
df_prep.loc[df_prep['nombCiudadDest']=='Punta Arenas',['nombCiudadDest']]='Punta_Arenas'
df_prep.loc[df_prep['nombCiudadDest']=='Ciudad de Panama',['nombCiudadDest']]='Ciudad_de_Panama'
df_prep.loc[df_prep['nombCiudadDest']=='Rio de Janeiro',['nombCiudadDest']]='Rio_de_Janeiro'
df_prep.loc[df_prep['nombCiudadDest']=='Ciudad de Mexico',['nombCiudadDest']]='Ciudad_de_Mexico'

In [None]:
cross_target(df_prep,'nombCiudadDest','atraso_15')

#### Codigo de la ciudad del destino programado

In [None]:
cross_target(df_prep,'codCiudadDestProg','atraso_15')

Se decide agrupar las categorías según su **ratio del total de vuelos**. Se construye la categoría **OTRO** tomando las categorías que tengan una **participación menor del 1%**

In [None]:
def fx_codCiudadDestProg(x):
    if x in ['SCFA','SPJC','SCCF','SCTE','SCIE','SCDA','SBGR','SAEZ','SABE','SCQP','SCAR','SCSE',
             'SCCI','MPTO','SCAT','SAME','SKBO','SBGL','SUMU','SACO','KMIA','LEMD','SCBA','SCVD']:
        return x
    else:
        return 'OTRO'

df_prep['codCiudadDestProg'] = df_prep['codCiudadDestProg'].apply(lambda x: fx_codCiudadDestProg(x))

In [None]:
cross_target(df_prep,'codCiudadDestProg','atraso_15')

#### Codigo de la ciudad destino operado

In [None]:
cross_target(df_prep,'codCiudadDestOperado','atraso_15')

Se decide agrupar las categorías según su **ratio del total de vuelos**. Se construye la categoría **OTRO** tomando las categorías que tengan una **participación menor del 1%**

In [None]:
def fx_codCiudadDestOper(x):
    if x in ['SCFA','SPJC','SCCF','SCTE','SCIE','SCDA','SBGR','SAEZ','SABE','SCQP','SCAR','SCSE',
             'SCCI','MPTO','SCAT','SAME','SKBO','SBGL','SUMU','SACO','KMIA','LEMD','SCBA','SCVD']:
        return x
    else:
        return 'OTRO'

df_prep['codCiudadDestOperado'] = df_prep['codCiudadDestOperado'].apply(lambda x: fx_codCiudadDestOper(x))

In [None]:
cross_target(df_prep,'codCiudadDestOperado','atraso_15')

Al aplicar este tipo de tratamiento podemos observar que esta variable se comporta de la misma manera que la variable **codCiudadDestProg** en ese sentido eliminaremos una de ellas

In [None]:
df_prep.drop(['codCiudadDestProg'],axis=1,inplace=True)

#### Nombre de la aerolinea que opera

In [None]:
cross_target(df_prep,'nombAerolineaOperado','atraso_15')

Se decide no agrupar las categorías ya que mantiene una buena proporción en el número de vuelos y tasa de atraso

In [None]:
#def fx_aerolineaOpera(x):
#    if x in ['Grupo LATAM','Sky Airline']:
#        return x
#    else:
#        return 'OTRO'

#df_prep['nombAerolineaOperado'] = df_prep['nombAerolineaOperado'].apply(lambda x: fx_aerolineaOpera(x))

Se cambia el nombre de cada categoría por un nombre que no contenga espacios para un mejor tratamiento

In [None]:
df_prep['nombAerolineaOperado'] = df_prep['nombAerolineaOperado'].astype('object')

In [None]:
df_prep.loc[df_prep['nombAerolineaOperado']=='Grupo LATAM',['nombAerolineaOperado']]='Grupo_LATAM'
df_prep.loc[df_prep['nombAerolineaOperado']=='Sky Airline',['nombAerolineaOperado']]='Sky_Airline'
df_prep.loc[df_prep['nombAerolineaOperado']=='Aerolineas Argentinas',['nombAerolineaOperado']]='Aerolineas_Argentinas'
df_prep.loc[df_prep['nombAerolineaOperado']=='Copa Air',['nombAerolineaOperado']]='Copa_Air'
df_prep.loc[df_prep['nombAerolineaOperado']=='Latin American Wings',['nombAerolineaOperado']]='Latin_American_Wings'
df_prep.loc[df_prep['nombAerolineaOperado']=='JetSmart SPA',['nombAerolineaOperado']]='JetSmart_SPA'
df_prep.loc[df_prep['nombAerolineaOperado']=='Gol Trans',['nombAerolineaOperado']]='Gol_Trans'
df_prep.loc[df_prep['nombAerolineaOperado']=='American Airlines',['nombAerolineaOperado']]='American_Airlines'
df_prep.loc[df_prep['nombAerolineaOperado']=='Air Canada',['nombAerolineaOperado']]='Air_Canada'
df_prep.loc[df_prep['nombAerolineaOperado']=='Delta Air',['nombAerolineaOperado']]='Delta_Air'
df_prep.loc[df_prep['nombAerolineaOperado']=='Air France',['nombAerolineaOperado']]='Air_France'
df_prep.loc[df_prep['nombAerolineaOperado']=='United Airlines',['nombAerolineaOperado']]='United_Airlines'
df_prep.loc[df_prep['nombAerolineaOperado']=='Oceanair Linhas Aereas',['nombAerolineaOperado']]='Oceanair_Linhas_Aereas'
df_prep.loc[df_prep['nombAerolineaOperado']=='K.L.M.',['nombAerolineaOperado']]='K_L_M'
df_prep.loc[df_prep['nombAerolineaOperado']=='British Airways',['nombAerolineaOperado']]='British_Airways'
df_prep.loc[df_prep['nombAerolineaOperado']=='Qantas Airways',['nombAerolineaOperado']]='Qantas_Airways'
df_prep.loc[df_prep['nombAerolineaOperado']=='Plus Ultra Lineas Aereas',['nombAerolineaOperado']]='Plus_Ultra_Lineas_Aereas'

In [None]:
cross_target(df_prep,'nombAerolineaOperado','atraso_15')

- Se observa que la categoria **Grupo LATAM** tiene un **59.9%** del total de vuelos y un **17.86%** de conversión con respecto al target.
- Se observa que la categoria **Sky Airline** tiene un **20.9%** de total de vuelos y **17.7%** de conversión con respecto al target.



#### Codigo de la aerolínea del vuelo Operado

In [None]:
cross_target(df_prep,'codAerolineaVuelOperado','atraso_15')

Se decide agrupar las categorías según su **ratio del total de vuelos**. Se construye la categoría **OTRO** conformada por todos los codigo de aerolinea de vuelo programada que no son **LAN, LXP, SKU, TAM**. Se decide dejar la categoria TAM porque su tasa de atraso es alta.

In [None]:
def fx_codAeroVueloOper(x):
    if x in ['LAN','LXP','SKU','TAM']:
        return x
    else:
        return 'OTRO'

df_prep['codAerolineaVuelOperado'] = df_prep['codAerolineaVuelOperado'].apply(lambda x: fx_codAeroVueloOper(x))

In [None]:
cross_target(df_prep,'codAerolineaVuelOperado','atraso_15')

- Se observa que la categoria **LAN** tiene un **30%** del total de vuelos y un **18.4%** de conversión con respecto al target.
- Se observa que la categoria **SKU** tiene un **21%** de total de vuelos y **17.7%** de conversión con respecto al target.
- Se observa que la categoria **LXP** tiene un **21%** de total de vuelos y **14.2%** de conversión con respecto al target.
- Se observa que la categoria **TAM** tiene un **4.4%** del total de vuelos y un **25.7%** de conversión con respecto al target. Se aprecia que a pesar de tener una poca cantidad de registros, tiene un alto nivel de conversión con respecto al target, esto ayudará a diferenciar una clase de otra
- La categoria **OTRO** al ser agrupada paso a tener un alto ratio de conversión, esto es mejor que tener una alta variabilidad con el resto de categorias

Por otro lado se puede observar que el codigo de la aerolinea de programación y operación son diferentes una de otra es por eso que se creó la variable **cambioCodAerolineaVuelo** con el objetivo de medir esta variabilidad.

#### Codigo de la aerolínea del vuelo Programado

In [None]:
cross_target(df_prep,'codAerolineaVuelProg','atraso_15')

Se decide agrupar las categorías según su **ratio del total de vuelos**. Se construye la categoría **OTRO** conformada por todos los codigo de aerolinea de vuelo programada que no son **LAN, SKU, TAM**. Se decide dejar la categoria TAM porque su tasa de atraso es alta.

In [None]:
def fx_codAeroVueloProg(x):
    if x in ['LAN','SKU','TAM']:
        return x
    else:
        return 'OTRO'

df_prep['codAerolineaVuelProg'] = df_prep['codAerolineaVuelProg'].apply(lambda x: fx_codAeroVueloProg(x))

In [None]:
cross_target(df_prep,'codAerolineaVuelProg','atraso_15')

- Se observa que la categoria **LAN** tiene un **55%** del total de vuelos y un **17%** de conversión con respecto al target.
- Se observa que la categoria **SKU** tiene un **21%** de total de vuelos y **18%** de conversión con respecto al target.
- Se observa que la categoria **TAM** tiene un **4.4%** del total de vuelos y un **26%** de conversión con respecto al target. **Se aprecia que a pesar de tener una poca cantidad de registros, tiene un alto nivel de conversión con respecto al target, esto ayudará a diferenciar una clase de otra
- La categoria **OTRO** al ser agrupada paso a tener un alto ratio de conversión, esto es mejor que tener una alta variabilidad con el resto de categorias

### Variables constantes o de varianza nula

Acá se podría incluir las variables constante o de varianza nula como:
- **codCiudadOrigenProg**
- **codCiudadOrigenOperado**
- **nomCiudadOrigen**
- **anioVuelOperado**

Estas variables previamente ya han sido eliminados en la sección correspondiente, sin embargo podrían incluirse en este paso.

### Variables Binarias

Estos datos deben ser transformados en valores cuantitativas para que puedan ingresar al modelo

In [None]:
dicc_tipVuelo = {'N': 0,'I': 1}

df_prep['tipVuelo'] = df_prep['tipVuelo'].map(dicc_tipVuelo)
df_prep['tipVuelo'] = df_prep['tipVuelo'].astype('int64')

In [None]:
dicc_condMeteorologica = {'NO': 0,'SI': 1}

df_prep['condMeteorologica'] = df_prep['condMeteorologica'].map(dicc_condMeteorologica)
df_prep['condMeteorologica'] = df_prep['condMeteorologica'].astype('int64')

Transformacion de datos del tipo string a int64

In [None]:
df_prep['temporada_alta'] = df_prep['temporada_alta'].astype('int64')
df_prep['cambioNroVuelo'] = df_prep['cambioNroVuelo'].astype('int64')
df_prep['cambioCodAerolineaVuelo'] = df_prep['cambioCodAerolineaVuelo'].astype('int64')

### Variables según su naturaleza: Cualitativa ordinal

#### Dia de la semana

In [None]:
cross_target(df_prep,'diaSemVuelOperado','atraso_15')

La proporción de viajes en cuanto al dia de semana no tiene mucha diferencia, son proporciones muy equitativas. Sin embargo su ratio de conversión es mayor los **Lunes, Jueves y Viernes** que los **Martes, Miercoles, Sabado y Domingo**

Por otro lado observamos que la variable es del tipo ordinal, conservamos su naturaleza.

In [None]:
dicc_diaSem = {'Lunes': 0,
               'Martes': 1,
               'Miercoles':2,
               'Jueves':3,
               'Viernes':4,
               'Sabado': 5, 
               'Domingo':6
               }

df_prep['diaSemVuelOperado'] = df_prep['diaSemVuelOperado'].map(dicc_diaSem)
df_prep['diaSemVuelOperado'] = df_prep['diaSemVuelOperado'].astype('int64')

#### Partes del dia (periodo_dia)

In [None]:
cross_target(df_prep,'periodo_dia','atraso_15')

Se observa que la mayoria de las personas prefiere viajar por la **mañana** y la **tarde**. Siendo la de menor preferencia por la **noche**, sin embargo la esta categoria tiene un mayor ratio de conversión con respecto al target, **es decir tiene una mayor tasa de retraso**

In [None]:
dicc_periodo_dia = {'mañana': 0,
                    'tarde': 1,
                    'noche':2
                    }

df_prep['periodo_dia'] = df_prep['periodo_dia'].map(dicc_periodo_dia)
df_prep['periodo_dia'] = df_prep['periodo_dia'].astype('int64')

### Transformacion de Variables Categoricas Nominales a Dummies

In [None]:
df_prep.describe(include=['object','category'])

In [None]:
vars_str = df_prep.select_dtypes(include=['object','category']).columns.tolist()
for var in vars_str:
  print("N de",var,":",df_prep[var].nunique())

In [None]:
vars_to_dummies = [
#                  'codAerolineaVuelProg',
                   'codAerolineaVuelOperado'
                   ,'nombAerolineaOperado'
#                   ,'codCiudadDestOperado'
                    ,'nombCiudadDest'                
                    ,'mesVuelOperado'
                    ,'horaOperVuelo'
                   ]

In [None]:
df_prep = pd.get_dummies(df_prep, columns = vars_to_dummies,drop_first=True)
df_prep.describe(include='all')

Eliminamos estas variables ya que despues de varias iteraciones están variables guardan una relación lineal. 
- Se elimina **codAerolineaVuelProg** por **nombAerolineaOperado** y **codAerolineaVuelOperado**.
- Se elimina **codCiudadDestOperado** por **nombCiudadDest**.

In [None]:
df_prep.drop('codAerolineaVuelProg', axis=1, inplace=True)
df_prep.drop('codCiudadDestOperado', axis=1, inplace=True)

In [None]:
df_prep.shape

# Analisis de Correlación

In [None]:
var_cor=list(df_prep.columns)
var_cor.remove('fecVuelProg')
var_cor.remove('fecVuelOperado')

In [None]:
df_prep.corrwith(df_prep["atraso_15"]).sort_values()

Vamos a retirar la variable **dif_min** porque el **target** se calcula a partir de esta

In [None]:
df_prep.drop('dif_min', axis=1, inplace=True)

Se calcula un gráfico de correlación entre todas las variables

In [None]:
def correlation_heatmap(df):
    """Función para plotear las correlaciones de las variables de un dataset"""
    
    _ , ax = plt.subplots(figsize =(40, 40))
    colormap = sns.diverging_palette(220, 10, as_cmap = True)
    
    _ = sns.heatmap(
        df.corr(), 
        cmap = colormap,
        square=True, 
        cbar_kws={'shrink':.9 }
    )
    plt.title('Pearson Correlation of Features', y=1.05, size=15)

In [None]:
correlation_heatmap(df_prep)

Se retiran las variables que estan correlacionadas para no afectar la predictibilidad del modelo final. Se toman en cuenta una alta positiva correlación (color rojo intenso) y una alta negativa correlación (color verde intenso)

Estas variables serán retiradas automaticamente empleado pycaret con el parámetro **remove_multicollinearity=True** siendo el valor del **threshold de 0.8**

In [None]:
#df_prep.drop('mesVuelOperado_7', axis=1, inplace=True)
#df_prep.drop('mesVuelOperado_12', axis=1, inplace=True)
#df_prep.drop('codAerolineaVuelOperadp_LXP', axis=1, inplace=True)
#df_prep.drop('codAerolineaVuelOperado_SKU', axis=1, inplace=True)
#df_prep.drop('nombCiudadDest_Ciudad_de_Panana', axis=1, inplace=True)

# Modelado

#### Definir los datos del modelo

Se realiza una copia del dataframe empleado en la preparación de los datos

In [None]:
df_model = df_prep.copy()

In [None]:
df_model.shape

Seleccionando las variables empleadas para el modelado

In [None]:
var_to_select=list(df_model.columns)
var_to_select.remove('fecVuelProg')
var_to_select.remove('fecVuelOperado')

In [None]:
df_model = df_model[var_to_select]

In [None]:
df_model.shape

Para realizar la etapa de aprendizaje y evaluación se emplea la librería **pycaret**. Este framework automatiza el proceso de aprendizaje y evaluación ya que podemos crear un experimento definiendo los valores de un conjunto de hiperparamétros establecidos

#### Definir la configuración del experimento

Agrupar las variables por tipo de dato

In [None]:
feat_categorical_model=list(df_model.columns.values)
feat_categorical_model.remove('atraso_15')
#feat_numerical_model=['dif_min']

Definir los valores de los hiperparametros

In [None]:
from pycaret.classification import *

model_clf1 = setup(data=df_model,
                   target = 'atraso_15',
                   session_id=123,
                   train_size=0.75,
                   categorical_features=feat_categorical_model,
                   #numeric_features=feat_numerical_model,
                   remove_multicollinearity=True,
                   multicollinearity_threshold=0.7,
                   fold=5,
                   fold_shuffle=True,
                   fold_strategy='stratifiedkfold',
                   combine_rare_levels=True,
                   feature_selection=True,
                   fix_imbalance=True
                   )

#### Comparar los modelos

Una vez definido los valores de los hiperparametros del experimento se realiza la comparación con diferentes algoritmos de machine learning

In [None]:
compare_models()

Según el desafio se debe entrenar uno o varios modelos (usando los algoritmos de preferencia) para estimar la probabilidad de atraso de un vuelo. En ese sentido se utilizó pycaret para probar diferentes algoritmos de aprendizaje automatico de clasificación.

Tomando en cuenta dos algoritmos que nos ayudarán a entender mejor 

- El modelo **Light Gradient Boosting Machine (lightgbm)** presenta un alto valor de **Precisión**, sin embargo tiene un bajo valor de **Recall**
- El modelo **Logistic Regression (lr)** presenta un menor valor de **Precisión** pero un nivel mayor de **Recall**
- **lightgbm** presenta un mejor **roc-auc** que **lr**.

**Esta comparación nos permite conocer que algoritmo se debe elegir basado en las métricas que el negocio necesita optimizar**. 

#### Elegir el modelo final

En ese escenario elegimos el algoritmo de **regresión logistica** ya que queremos darle importancia al **recall**, COMO NEGOCIO ME PARECE IMPORTANTE DISMINUIR LOS FALSOS NEGATIVOS, CON ELLO AUMENTAR EL RECALL YA QUE NO ESTARÍA BIEN PREDECIR **NO-ATRASO** CUANDO EN LA REALIDAD TERMINA SIENDO **ATRASO**, ESTO ME PARECE MUCHO MÁS IMPORTANTE QUE PREDECIR ATRASO CUANDO EN LA REALIDAD TERMINE SIENDO NO-ATRASO

Así mismo esto ayudaría en mejorar el accuracy del modelo
 

In [None]:
lr_model = create_model('lr')

In [None]:
lr_model.estimators_


Tener en cuenta lo siguiente:

- **Precision**: la precisión es el ratio o porcentaje de clasificaciones correctas del clasificador. En otras palabras, **de todo lo que el clasificador clasifica como positivo, correcta o incorrectamente (TP + FP), cual es el ratio de clasificaciones correctas**.

- **Recall**: el recall o sensibilidad del modelo es el ratio de positivos detectado en el dataset por nuestro clasificador. En otras palabras, **de todos los positivos reales del dataset, detectados o no (TP + FN), cual es el ratio de positivos detectados**.

- **PR-curve** La curva PR es el resultado de dibujar la gráfica entre el precision y el recall. Esta gráfica nos permite ver a partir de qué recall tenemos una degradación de la precisión y viceversa. Lo ideal sería una curva que se acerque lo máximo posible a la esquina superior derecha (alta precisión y alto recall).

- **ROC-AUC** Relaciona el recall con el ratio de falsos positivos. Es decir relaciona la sensibilidad del modelo con los fallos optimistas (clasificar los negativos como positivos). Tiene sentido ya que, generalmente, si aumentamos el recall, el modelo tenderá a ser más optimista e introducirá mas falsos positivos en la clasificación. De manera similar al Average Precision, nos interesa que su valor se acerque lo máximo posible a 1.

- Finalmente Por lo general, usaremos la curva PR o el Average Precision cuando tengamos problemas de datasets no balanceados, es decir, cuando la clase positiva ocurre pocas veces. Cuando hay pocos ejemplos positivos, la curva ROC o el ROC AUC puede dar un valor alto, sin embargo, la curva PR estará lejos de su valor óptimo, poniendo de manifiesto un indicador de precisión relacionado con la baja probabilidad de la clase positiva. Será una opción interesante usar la curva ROC y el ROC AUC cuando tengamos un dataset más balanceado o queramos poner de manifiesto un indicador más relacionado con falsas alarmas (falsos positivos

# Analizar el modelo

**Curva ROC-AUC**

In [None]:
plot_model(lr_model)

Se observa que el área bajo la curva (AUC) es 0.71

**Matriz de confusión**

In [None]:
plot_model(lr_model, plot = 'confusion_matrix')

Como se menciona para fines del negocio quiero reducir los **FALSOS NEGATIVOS** para optimizar el **recall**.

# Referencias

- Pycaret official documentation: https://pycaret.gitbook.io/docs/
- Pycaret installation: https://pycaret.gitbook.io/docs/get-started/installation#install-from-pip
- PyCaret Classification Module:
[1](https://www.pycaret.org/classification)
[2](https://pycaret.readthedocs.io/en/stable/api/classification.html)

- Binary Classification Tutorial (Level Beginner) : https://pycaret.org/clf101/

- Binary Classification Tutorial (Level Intermediate) : https://pycaret.org/clf102/
- curve pr and auc-roc: https://medium.com/bluekiri/curvas-pr-y-roc-1489fbd9a527
- Nevada en chile en el 2017: https://www.bbc.com/mundo/noticias-america-latina-40620874