## Data Scientist Challenge - LATAM Airlines
### Instrucciones
En Advanced Analytics valoramos muchísimo el trabajo en equipo y la constante interacción entre los distintos roles que trabajan en
un producto basado en datos, como el Data Scientist, Machine Learning Engineering, Data Engineer, entre otros. Es por este motivo
que una habilidad esencial que buscamos a la hora de buscar nuevos integrantes es el manejo adecuado de git. **Este desafío
deberá ser entregado en la plataforma de git que más te acomode y que sea pública para que la podamos revisar**. Lo que
buscamos con esto es poder entender de mejor manera el desarrollo que generaste con tu código, cómo lo fuiste mejorando en el
tiempo y si tienes proyectos propios en este repositorio nos servirán para conocer mejor tu experiencia en base a tu propio.

### Problema

El problema consiste en predecir la probabilidad de atraso de los vuelos que aterrizan o despegan del aeropuerto de Santiago de
Chile (SCL). Para eso les entregamos un dataset usando datos públicos y reales donde cada fila corresponde a un vuelo que
aterrizó o despegó de SCL.

### Importando librerías

* **pycaret**
* **pandas**
* **os**
* **matplotlib**
* **numpy**
* **seaborn**

In [None]:
import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pycaret
os.getcwd()
import sys
import warnings

La siguiente celda se agrega  solo para eliminar las adevertencias (Warnings) del código

In [None]:
if not sys.warnoptions:
    warnings.simplefilter("ignore")

### Lectura de datos


* **Low_memory**:  Procesa internamente el archivo en fragmentos, lo que da como resultado un menor uso de la memoria durante el análisis.

* **Header** :  Los Número(s) de fila se  utilizan  como nombres de columna, y el inicio de los datos, la header=0 y los nombres de columna se infieren de la primera línea del archivo.

* **Parse_dates**: Función que se usará para convertir una secuencia de columnas de cadena en una matriz de instancias de fecha y hora.

In [None]:
df = pd.read_csv('data/dataset_SCL.csv', low_memory=False, header=0, parse_dates=True, dtype={'Vlo-O':str, 'Vlo-I':str})

### Descripción de Variables


* **Fecha-I** : Fecha y hora programada del vuelo.
* **Vlo-I** : Número de vuelo programado.
* **Ori-I** : Código de ciudad de origen programado.
* **Des-I** : Código de ciudad de destino programado.
* **Emp-I** : Código aerolínea de vuelo programado.
* **Fecha-O** : Fecha y hora de operación del vuelo.
* **Vlo-O** : Número de vuelo de operación del vuelo.
* **Ori-O** : Código de ciudad de origen de operación
* **Des-O** : Código de ciudad de destino de operación.
* **Emp-O** : Código aerolínea de vuelo operado.
* **DIA** : Día del mes de operación del vuelo.
* **MES** : Número de mes de operación del vuelo.
* **AÑO** : Año de operación del vuelo.
* **DIANOM** : Día de la semana de operación del vuelo.
* **TIPOVUELO** : Tipo de vuelo, I =Internacional, N =Nacional.
* **OPERA** : Nombre de aerolínea que opera.
* **SIGLAORI** : Nombre ciudad origen.
* **SIGLADES** : Nombre ciudad destino.

##### Análisis Exploratorio y distribución de los datos

En primera instancia, una vez que se lee el archivo .csv, se guarda en un dataframe llamado df y se verifica el despliegue de todas las variables

In [None]:
df

A continuación se verifica los los tipos de variables con los que contamos en la información proporcionada

In [None]:
df.info()

Verificamos con cuantos renglones y columnas tiene nuestro dataframe

In [None]:
df.shape

Así mismmo el nombre de las columnas que para nuestro análisis serán las variables

In [None]:
df.columns

Se conviente los nombres de las columnas a minusculas para una mejor manipulación

In [None]:
col_names = {col: col.lower().replace('-','_') for col in df .columns.values}
df.rename(columns=col_names, inplace=True)
df.head()

Se verifica los valores nulos y como resultado se ve que solo hay un valor nulo

In [None]:
df.isna().any()


Se porcede a borrarlo

In [None]:
df.dropna()

De esta manera, tenemos una data en principio limpia y lista para comenzar con el análisis exploratorio y ver como estan distribuidos nuestros datos en el dataframe

### Desafío

##### 1. ¿Cómo se distribuyen los datos? , ¿Qué te llama la atención o cuál es tu conclusión sobre esto?

A continuación se realiza una análisis de distribución de los datos para la comprensión de los mismos, se utiliza la librería **seaborn**, para realizar la viuslaización, así mismo se enfatiza que no es la única librería pera realizarlo. Se tomarán algunas variables de importancia para comprender un poco más los datos

* **AÑO** : Año de operación del vuelo.
* **MES** : Número de mes de operación del vuelo.
* **OPERA** : Nombre de aerolínea que opera.
* **SIGLADES** : Nombre ciudad destino.
* **TIPOVUELO** : Tipo de vuelo, I =Internacional, N =Nacional.
* **DIANOM** : Día de la semana de operación del vuelo.
* **Ori-I** : Código de ciudad de origen programado.
* **Des-I** : Código de ciudad de destino programado.

**Nota**: Las variables pueden tomarse en el orden que se requiera para su análsis

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 2)
df
gen_cnt = df['año'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='año', data=df)
plt.xticks(rotation = 360)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Año de operación del vuelo')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

plt.show()

In [None]:
df.año.value_counts()

En la figura y en el conteo anterior se observa que la cantidad de vuelos en el 2017 fueron mucho mayor que en el 2018, esto representa como un posible dato atípico, comparandolo con las cantidades que existen en ambos años

In [None]:
df

In [None]:

plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['mes'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='mes', data=df)
plt.xticks(rotation = 360)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Número de mes de operación del vuelo')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

plt.show()

In [None]:
df.mes.value_counts()

In [None]:

plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['opera'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='opera', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Agrupacion por mes')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

plt.show()



In [None]:
df['opera'].value_counts()

In [None]:

plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['siglades'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='siglades', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Nombre ciudad destino')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
df['siglades'].value_counts()

In [None]:
df['ori_i'].value_counts()

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['des_i'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='des_i', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Código de ciudad de destino programado')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

plt.show()




In [None]:
df['des_i'].value_counts()

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['siglades'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='siglades', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Nombre de ciudad destino')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

plt.show()

In [None]:
df['siglades'].value_counts()

 Con las siguinetes varaibles se puede determina si existen codidos de ciudades de destionos repeditas


* **Des-I** : Código de ciudad de destino programado.
* **SIGLADES** : Nombre ciudad destino.

En lo cal realizando el análisis se confirma que si existen codigos de ciudades repetidas

In [None]:
sing_dest = df.groupby(by=['siglades','des_i'])['des_i'].agg(['count']).reset_index()
sing_dest

Dada la situación anterior se observan los siguientes datos en cantidades unicas, como ejemmplo se toman las siguientes columnas pero se podría realizar para las de mayor interes

* **Vlo-I** : Número de vuelo programado.
* **Des-I** : Código de ciudad de destino programado
* **Vlo-O** : Número de vuelo de operación del vuelo.
* **Des-O** : Código de ciudad de destino de operación.


In [None]:
print('Numero de vuelos programados unicos:  ',len(df['des_i'].unique()))
print('Numero de vuelos operados unicos:  ',len(df['des_o'].unique()))
print('Numero de vuelos programados unicos:  ',len(df['vlo_i'].unique()))
print('Numero de vuelos operados unicos:  ',len(df['vlo_o'].unique()))

In [None]:

plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['tipovuelo'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='tipovuelo', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Tipo de vuelo, I =Internacional, N =Nacional')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
df['tipovuelo'].value_counts()

In [None]:

plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['dianom'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='dianom', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Día de la semana de operación del vuelo')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)


In [None]:
df['dianom'].value_counts()

#### 2. Genera las columnas adicionales y luego expórtelas en un archivo synthetic_features.csv :
* **temporada_alta** : 1 si Fecha-I está entre 15-Dic y 3-Mar, o 15-Jul y 31-Jul, o 11-Sep y 30-Sep, 0 si no.
* **dif_min** : diferencia en minutos entre Fecha-O y Fecha-I .
* **atraso_15** : 1 si dif_min > 15, 0 si no.
* **periodo_dia** : mañana (entre 5:00 y 11:59), tarde (entre 12:00 y 18:59) y noche (entre 19:00 y 4:59), en base a
Fecha-I

Para relaizar el paso de la variable **temporada_alta**, en el intervalo entre 15-Dic y 3-Mar se debe tener cuidado ya, se podría interpretar de la siguiente manera:
* 15 de Diciembre del 2017 al 3 Marzo del 2018, si se observa con anterioridad 2018 solo tiene 2 vuelos, por lo que se descarta
* Si se toma del 3 de Marzo del 2017 al 31 de Diciembre del 2017, se estaría incluyendo los intervalos de Julio y Septiembre y eso sumaría más datos al resultado (Este código comentado  representa lo que se describe  en este punto )
* Dado a que es solo 2017, se establece los intervalos del 15 de Diciembre al 31 del 2017 y después del 1 de Enero al 3 de Marzo del 2017.

**Nota**:  Aun así, se debe platicar con el cliente para aclarar dudas

In [None]:
df['temporada_alta'] = np.where((df['fecha_i'] >= '2017-12-15') & (df['fecha_i'] <= '2017-12-31') |
                                (df['fecha_i'] >= '2017-01-01') & (df['fecha_i'] <= '2017-03-03') |
                                (df['fecha_i'] >= '2017-07-15') & (df['fecha_i'] <= '2017-07-31') |
                                (df['fecha_i'] >= '2017-09-11') & (df['fecha_i'] <= '2017-09-30') , 1, 0)
pc_1 = pd.DataFrame(df.temporada_alta.value_counts(normalize=True))
print(pc_1)
df.head()

In [None]:
df['temporada_alta'].value_counts()

In [None]:
#df['temporada_alta'] = np.where((df['Fecha-I'] >= '2017-03-03') & (df['Fecha-I'] <= '2017-12-31') |
#                                (df['Fecha-I'] >= '2017-07-15') & (df['Fecha-I'] <= '2017-07-31') |
#                                (df['Fecha-I'] >= '2017-09-11') & (df['Fecha-I'] <= '2017-09-30') , 1, 0)

In [None]:
#df['temporada_alta'].value_counts()

Para determinar la diferencia en minutos entre estas dos variables es necesario cambiarlas a variable **datatime**, antes de tratar de hacer la conversión, esto es debido a como se visualizo anteriormente en la información de las variables **Fecha-I** y **Fecha-O**, están como objeto



* **Fecha-I** : Fecha y hora programada del vuelo.
* **Fecha-O** : Fecha y hora de operación del vuelo.

In [None]:
df['fecha_i'] = df['fecha_i'].astype('datetime64[ns]')
df['fecha_o'] = df['fecha_o'].astype('datetime64[ns]')
df['dif_min'] = (df['fecha_o'] - df['fecha_i'])/ pd.Timedelta(minutes=1)
df.head()

In [None]:
df['atraso_15'] = np.where(df['dif_min'] > 15, 1, 0)
df.head()

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['dif_min'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='dif_min', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Diferencia en minutos entre Fecha-O y Fecha-I')

# annotate
#ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
df['dif_min'].value_counts()

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['atraso_15'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='atraso_15', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Diferencia en minutos entre Fecha-O y Fecha-I')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
df['atraso_15'].value_counts()

In [None]:
#df = df.drop(['atraso_15'], axis=1)
df['atraso_15'] = df["dif_min"].apply(lambda x: 1 if int(x)> 15 else 0)
pc_atraso_15 = pd.DataFrame(df.atraso_15.value_counts(normalize=True))
print(pc_atraso_15)

# El 18.49% de los registro son atrasos cuando dif_min > 15

Para establecer los periodos de día con las variantes **mañana**, **tarde** y **noche**, se establecen tres variables temporales, las cuales, se concatenan en una columna llamada **periodo_dia**

In [None]:
T1 = df.set_index('fecha_i').between_time('05:00:00','11:59:00')
T1['periodo_dia'] = "mañana"


T2 = df.set_index('fecha_i').between_time('12:00:00','18:59:00')
T2['periodo_dia'] = "tarde"

T3 = df.set_index('fecha_i').between_time('19:00:00','04:59:00')
T3['periodo_dia'] = "noche"

In [None]:
df = pd.concat([T1,T2,T3], 0)


Se verifica que se encuentren añadidas las variables **temporada_alta** , **dif_min**, **atraso_15** y **periodo_dia** esten  con sus correctos resultados

**Nota**:  La verificación se puede hacer  teminando en cada celda, aunque el script final no lo llevará

In [None]:
df

In [None]:
df['periodo_dia'].value_counts()

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 1)
df
gen_cnt = df['periodo_dia'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.countplot(x='periodo_dia', data=df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Frequency')
plt.title('Diferencia en minutos entre Fecha-O y Fecha-I')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
dt_synthetic_features = df[['temporada_alta','dif_min','atraso_15','periodo_dia']]
dt_synthetic_features.to_csv("synthetic_features.csv", sep=',', encoding='utf-8')
dt_synthetic_features.head(5)

##### 3. ¿Cómo se compone la tasa de atraso por destino, aerolínea, mes del año, día de la semana, temporada, tipo de vuelo? ¿Qué variables esperarías que más influyeran en predecir atrasos?


* **Des-I** : Código de ciudad de destino programado.
* **OPERA** : Nombre de aerolínea que opera.
* **MES** : Número de mes de operación del vuelo.
* **AÑO** : Año de operación del vuelo.
* **DIANOM** : Día de la semana de operación del vuelo.
* **temporada**: Se toma la variable ya creada compo **temporada_alta**
* **TIPOVUELO** : Tipo de vuelo, I =Internacional, N =Nacional.

Para la variable t**emporada**, se tomará la columna ya creada (**temporada_alta**), tomando en cuenta que esta varible puede ser actualizada con otras fechas, mismas que serán valoradas para determinar si la temporada es alta o baja. 

Así mismo se genera una nueva variable llamda **atraso_gral** donde se concideran desde los 2 min ya un atraso en el vuelo, esta variable es a concidear ya que se puede utilizar la variable de los retrasos de **atraso_15**, de esta manera se procede a analizar como esta la tasa de atrasos por las variables ya indicadas

In [None]:
#df['atraso_gral'] = np.where(df['dif_min'] > 2, 1, 0)

In [None]:
pd.DataFrame(df.groupby(by=['des_i'])['atraso_15'].mean())


In [None]:
pd.DataFrame(df.groupby(by=['des_i'])['atraso_15'].mean().describe())

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 0.8)
df
gen_cnt = df['des_i'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.barplot(x = 'des_i', y = 'atraso_15', data = df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Atrasos 15')
plt.title('Tasa de atrasos por destino')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
pd.DataFrame(df.groupby(by=['opera'])['atraso_15'].mean())

In [None]:
pd.DataFrame(df.groupby(by=['opera'])['atraso_15'].mean().describe())

In [None]:

plt.figure(figsize=(20,10))
sns.set(font_scale = 0.8)
df
gen_cnt = df['opera'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.barplot(x = 'opera', y = 'atraso_15', data = df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Atrasos 15')
plt.title('Tasa de atrasos por operación')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
pd.DataFrame(df.groupby(by=['mes'])['atraso_15'].mean())

In [None]:
pd.DataFrame(df.groupby(by=['mes'])['atraso_15'].mean().describe())

In [None]:

plt.figure(figsize=(20,10))
sns.set(font_scale = 0.8)
df
gen_cnt = df['mes'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.barplot(x = 'mes', y = 'atraso_15', data = df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Atrasos 15')
plt.title('Tasa de atrasos por mes')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
pd.DataFrame(df.groupby(by=['dia'])['atraso_15'].mean())

In [None]:
pd.DataFrame(df.groupby(by=['dia'])['atraso_15'].mean().describe())

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 0.8)
df
gen_cnt = df['dia'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.barplot(x = 'dia', y = 'atraso_15', data = df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Atrasos 15')
plt.title('Tasa de atrasos por dia')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
pd.DataFrame(df.groupby(by=['temporada_alta'])['atraso_15'].mean())

In [None]:
pd.DataFrame(df.groupby(by=['temporada_alta'])['atraso_15'].mean().describe())

In [None]:

plt.figure(figsize=(20,10))
sns.set(font_scale = 0.8)
df
gen_cnt = df['temporada_alta'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.barplot(x = 'temporada_alta', y = 'atraso_15', data = df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Atrasos 15')
plt.title('Tasa de atrasos temporada alta')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)

In [None]:
pd.DataFrame(df.groupby(by=['tipovuelo'])['atraso_15'].mean())

In [None]:
pd.DataFrame(df.groupby(by=['tipovuelo'])['atraso_15'].mean().describe())

In [None]:
plt.figure(figsize=(20,10))
sns.set(font_scale = 0.8)
df
gen_cnt = df['tipovuelo'].value_counts().sort_values(ascending=False)
order=gen_cnt.index
ax = sns.barplot(x = 'tipovuelo', y = 'atraso_15', data = df)
plt.xticks(rotation = 75)
plt.yticks()
plt.ylabel('Atrasos 15')
plt.title('Tasa de atrasos por dia')

# annotate
ax.bar_label(ax.containers[0], label_type="edge")

# pad the spacing between the number and the edge of the figure
ax.margins(y=0.1)


Con respecto a **¿Qué variables esperarías que más influyeran en predecir atrasos?**, las variables se pueden clasificar por diferentes problematicas que acontinuación trataré de describir:

* **Aerolínea + Turnaround Local**: La causa del retraso  se debe a las circunstancias dentro del control local. Esto incluye las líneas aéreas u otras partes, tales como operadores de tierra que participan en el proceso de turnaround (por ejemplo, problemas de mantenimiento o de la tripulación, de limpieza de la aeronave, del equipaje de carga, abastecimiento de combustible, etc.). 
* **Tiempo Extremo** : Condiciones meteorológicas significativas (reales o previstas) que a juicio de la compañía, retrasa o impide la realización de un vuelo, como por ejemplo,  la formación de hielo, tornados, tormentas de nieve, o huracanes. En los EE.UU., esta categoría es utilizada por las compañías aéreas para eventos muy raros como los huracanes y no es útil para entender el día a día de los impactos del clima. Para realmente ver la importancia que tienen los retrasos debido a condiciones no extremas en el tiempo de EEUU se ha de observar la clasificación de retrasos por causas en el sistema ATM, que es donde éstas se conciben. 
* **Aeronaves que llegan tarde (o retraso reaccionario)**: Retraso a causa de la llegada tardía de la anterior aeronave, haciendo que el  vuelo continuo a éste se retrase sin poder recuperar el tiempo durante la fase de turnaround en el aeropuerto. 
* **Seguridad** : Retrasos causados por la evacuación de una terminal o zona determinada, re-acceso a las aeronaves debido a fallo de seguridad, equipos de control que no funcionan, y / u otras causas relacionadas con la seguridad.

* **Sistema ATM(retrasos ATFM / NAS)**: Los retrasos atribuibles a ATM se refieren a una amplia gama de condiciones, como las condiciones no extremas del clima, las operaciones aeroportuarias, el volumen de tráfico pesado, Control del Tráfico Aéreo(ATC). 

Por ejemplo: A continuación se muestra en la siguiente imagen todos los factores que puede influrir para que exista retardos en los vuelos, misma imagen que se  adquirión de el platica llamada **"Cómo LATAM AIRLINES creó un Programa de DS/ MLOps Durante la Crisis"**

<div>
<p style = 'text-align:center;'>
<img src="figuras/figura1.jpg" width="800" height="450">
</p>
</div>

#####  4. Entrena uno o varios modelos (usando el/los algoritmo(s) que prefieras) para estimar la probabilidad de atraso de un vuelo. Siéntete libre de generar variables adicionales y/o complementar con variables externas

Por otro lado, se cargan las librerías principales para poder crear modelos de predicción poder evaluarlos

**NOTA**:  Los modelos fueron elegidos para ver el comportamiento que los mismos tienen sobre los datos y poder análizarlos

In [None]:
from pycaret.classification import * 

In [None]:


pce = setup(data= df, target= 'atraso_15', session_id= 5, train_size= 0.8)
models()

In [None]:
best_model = compare_models()

In [None]:
pce1 = create_model('lr')

In [None]:
tune_pce1 = tune_model(pce1)

In [None]:
evaluate_model(tune_pce1)

In [None]:
predict_model(best_model)

In [None]:
save_model(best_model, './models/bestmodel_291222')

* Al momento de tratar de meter un algoritmo en X e Y, ocurre un problema puesto que sus atributos estan en String y para
predecir con algoritmos se necesita SOLO numeros, es por ello que se hace todo este proceso

* **labelencoder** Esto convierte de String a numero

* **X**: como X tienes muchas columnas, se hace la tranformacion por cada columna

* **y**: como y solo tiene una columna, con una es suficiente

La siguiente tabla nos muestra como de debe de interpretar la matriz de confución


<div>
<p style = 'text-align:center;'>
<img src="figuras/figura2.jpg" width="450" height="200">
</p>
</div>

Los valores de la diagonal principal a=10655 y d=2148 se corresponden con los valores estimados de forma correcta por el modelo, tanto los verdaderos positivos_ TP(d), como los verdaderos negativos_TN (a).

La otra diagonal, por tanto, representa los casos en los que el modelo «se ha equivocado (c=443 falsos negativos_FN, b=396 falsos positivos_FP).