# Data Scientist Challenge - LATAM Airlines

### Postulante: Jorge Allende Medrano

## Instructions
- At Advanced Analytics we highly value teamwork and the constant interaction between the different roles that work in a
data-based product, such as Data Scientists, Machine Learning Engineerings, and Data Engineers, to name a few. Our work is
collaborative by nature, and for this reason we look after proper use of Git as an essential skill in our newest members. This
challenge must be delivered through any git platform of your choice, with a small caveat: it must be public for us to see it and
evaluate it.We are looking to understand how you developed your codebase, and how you improved it through time;
additionally, if you have your own projects in this repository they will help us to better understand your experience based on
your own previous work.
Git Instructions:


In [1]:
#En primera instancia, importare las librerías que utilizaré para desarrollar este desafío
import pandas as pd
import numpy as np
from datetime import datetime, time
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
from funciones import *
warnings.filterwarnings("ignore", category=FutureWarning)


In [2]:
#Se crea un dataframe con el archivo en cuestión y se revisa el estado (df.head()).
df= pd.read_csv(r'C:\Users\4615018\Desktop\Latam\desaf\Challenge_Data_Scientist_LATAM\dataset_SCL.csv', low_memory=False)
df.head()

Unnamed: 0,Fecha-I,Vlo-I,Ori-I,Des-I,Emp-I,Fecha-O,Vlo-O,Ori-O,Des-O,Emp-O,DIA,MES,AÑO,DIANOM,TIPOVUELO,OPERA,SIGLAORI,SIGLADES
0,2017-01-01 23:30:00,226,SCEL,KMIA,AAL,2017-01-01 23:33:00,226,SCEL,KMIA,AAL,1,1,2017,Domingo,I,American Airlines,Santiago,Miami
1,2017-01-02 23:30:00,226,SCEL,KMIA,AAL,2017-01-02 23:39:00,226,SCEL,KMIA,AAL,2,1,2017,Lunes,I,American Airlines,Santiago,Miami
2,2017-01-03 23:30:00,226,SCEL,KMIA,AAL,2017-01-03 23:39:00,226,SCEL,KMIA,AAL,3,1,2017,Martes,I,American Airlines,Santiago,Miami
3,2017-01-04 23:30:00,226,SCEL,KMIA,AAL,2017-01-04 23:33:00,226,SCEL,KMIA,AAL,4,1,2017,Miercoles,I,American Airlines,Santiago,Miami
4,2017-01-05 23:30:00,226,SCEL,KMIA,AAL,2017-01-05 23:28:00,226,SCEL,KMIA,AAL,5,1,2017,Jueves,I,American Airlines,Santiago,Miami


### Variables

- Fecha-I: Scheduled date and time of the flight.
- Vlo-I : Scheduled flight number.
- Ori-I : Programmed origin city code.
- Des-I : Programmed destination city code.
- Emp-I : Scheduled flight airline code.
- Fecha-O : Date and time of flight operation.
- Vlo-O : Flight operation number of the flight.
- Ori-O : Operation origin city code
- Des-O : Operation destination city code.
- Emp-O : Airline code of the operated flight.
- DIA: Day of the month of flight operation.
- MES : Number of the month of operation of the flight.
- AÑO : Year of flight operation.
- DIANOM : Day of the week of flight operation.
- TIPOVUELO : Type of flight, I =International, N =National.
- OPERA : Name of the airline that operates.
- SIGLAORI: Name city of origin.
- SIGLADES: Destination city name.

In [3]:
#Se revisa la existencia de valores NaN en nuestro set datos.
val_nan = df.isna().sum()
print(val_nan)


Fecha-I      0
Vlo-I        0
Ori-I        0
Des-I        0
Emp-I        0
Fecha-O      0
Vlo-O        1
Ori-O        0
Des-O        0
Emp-O        0
DIA          0
MES          0
AÑO          0
DIANOM       0
TIPOVUELO    0
OPERA        0
SIGLAORI     0
SIGLADES     0
dtype: int64


In [None]:
#Se procede a eliminar aquellas rows donde se encuentran valores vacíos (solo 1).
df2 = df.dropna(axis=0)
df2.head()


In [None]:
#Observaremos los tipos de datos que tenemos en nuestro dataframe.
df.dtypes

In [None]:
#Revisamos el tamaño de nuestro dataset tanto de la cantidad de rows como columnas.
df2.shape

In [None]:
#Crearé 3 listas con variables de origin city code, departure city code y flight airline code con la intención de entender si existen variables que me esten entregando la misma info.
origen = ['Ori-I','Ori-O','SIGLAORI']
des = ['Des-I','Des-O','SIGLADES']
emp = ['Emp-O','Emp-I','OPERA']


In [None]:
#Se aplicará una función para conocer la distribución porcentual las variables de la lista origen
distribucion_porcentual(df2,origen)

In [None]:
#Se aplicará una función para conocer la distribución porcentual las variables de la lista des
distribucion_porcentual(df2,des)

In [None]:
#Podemos observar que tenemos un dato más en la variable Des-I, SARI, que solo esta presente una vez. Se anilazará quitarla. 
ld = (df2['Des-I'] != df2['Des-O']).sum()

print(f"Hay {ld} líneas distintas entre las columnas Des-I y Des-O.")     

In [None]:
#Se aplicará una función para conocer la distribución porcentual las variables de la lista emp
distribucion_porcentual(df2,emp)

In [None]:
#Crearé una lista de variables categoricas para graficar su distribución.
variables = ['DIANOM','DIA','MES','AÑO','TIPOVUELO','OPERA','SIGLADES','Des-I','Des-O','SIGLAORI','Emp-O','Emp-I','Vlo-I','Vlo-O']
#En primera instancia no se pudo graficar la variable 'Vlo-O' por lo que se analizará en particular
df2['Vlo-O'].unique()
#Se observa que tenemos 2 tipos de datos '940' y '582.0', se dejará como la primera de estas.
df2['Vlo-O'] = df['Vlo-O'].str.replace(r'\.0$', '')

In [None]:
countplot(df2,variables,20,35)

In [None]:
#Se observa, que existen dos lineas que indican que el vuelo es año 2018, podría existir la posibilidad de eliminarlas.
df2[df2['AÑO']==2018]

In [None]:
#Comparativa porcentual mercado nacional vs internacional
distribucion_porcentual(df2,['TIPOVUELO'])

In [None]:
des = df2[df2['SIGLADES'] == 'Buenos Aires']
des['Des-I'].value_counts('%')

## I) Analisis de datos base

- En primera instancia, podemos observar que las variables origin city code, es decir, 'Ori-I','Ori-O','SIGLAORI' son exactamente iguales, por lo que, en terminos de modelación se trabajará solo con una de las tres. De la misma forma, este caso casi se replica para las variables 'Des-O', 'Des-I', ya que, hay solo 28 líneas distintas entre las columnas Des-I y Des-O y además, esta última cuenta con un dato unico más, SARI, que está presente solo 1 vez en todo el set de datos.

- Con respecto las variables de tiempo, es decir, mes, año, día de la semana, día del mes tenemos los siguiente insights:
    - Existe un compartimiento de operacion de vuelo similar en los días de la semana a excepción de una baja notoria durante el día sabado.
    - Se observa una disminución de la operacion de vuelo para los últimos días del mes, es decir, 29, 30 y 31. Este ultimo puede explicarse porque no todos los meses tienen 31.
    - Existe un aumento en la operación de vuelo en los meses de julio y agosto. De la misma forma, a contar del mes de octubre en adelante comienzan a incrementar esos mismos, bajando levemente en enero.
    - Será interesante observar eliminar 2 datos asociados al año 2018, ya que, no son representativos a la cantidad de data.  
    
- Con respecto a las operaciones de vuelo llevadas a cabo tenemos los siguiente observaciones:
    - Podemos observar que el mercado de vuelo se distribuye relativamente similar con respecto a operaciones de vuelo nacionales (54%) e internacionales (46%).
    - Las ciudades internacionales con mayor operacion de vuelo son Buenos Aires, Lima y Sao Paulo.
    - Las ciudades nacionales con mayor operacion de vuelo son Antofagasta, Calama y Concepción.
    - Todos los vuelos salen del mismo y unico origen, Santiago de Chile. En adición, se puede observar que el grupo LATAM opera el 60% de los vuelos, seguido por Sky Airline con un 21%.

## II) Creación de variables binarias

In [None]:
#Hacemos una copia del dataframe en el que estamos trabajando para cambiar el formato de fecha
df3 = df2.copy()
df3['Fecha-I'] = pd.to_datetime(df3['Fecha-I'])
df3['Fecha-O'] = pd.to_datetime(df3['Fecha-O'])


In [None]:
#En este espacio se crearán las variables dummies

#Validador de temporada alta, la función se encuentra en el archivo funciones.py al igual que todas.
df3['high_season'] = df3['Fecha-I'].apply(validador_high_season)

#Variable entrega los minutos de diferencia entre la fecha de operacion de vuelo vs la agendada.
morning_i = time(5,0,0)
afternoon_i = time(12,0,0)
night_i = time(19,0,0)

df3['min_diff'] = (df3['Fecha-O'] - df3['Fecha-I']).dt.total_seconds() / 60

#Esta variable busca conocer si es que los minutos entre la operacion de vuelo y la agendada es mayor a 15 minutos.

df3['delay_15'] = np.where((df3['min_diff'] > 15),1,0)

#Esta variable me indica los periodos del día donde está operando un vuelo.

condiciones = [(df3['Fecha-O'].dt.time >= morning_i ) & (df3['Fecha-O'].dt.time < afternoon_i),(df3['Fecha-O'].dt.time >= afternoon_i  ) & (df3['Fecha-O'].dt.time < night_i)]

intervalos_period_day = ['morning', 'afternoon']

df3['period_day'] = np.select(condiciones, intervalos_period_day, default = 'night')

#Volvemos a graficar para conocer el estado de nuestras nuevas variables.
var_bin = ['delay_15','high_season','period_day']

#Se graficarán las nuevas variables.
countplot(df3,var_bin,10,8)




In [None]:
#distribución porcentual de las variables en cuestión.
distribucion_porcentual(df3,var_bin)

## III) Creación de variables categoricas.

- Se puede inferir que nuestra variable objetivo es delay_15, la cual está fuertemente desbalanceada, es decir, el porcentaje de distribución es de 81% cuando la la diferencia entre la hora de operación de vuelo y la agendada es menor a 15 minutos.
- El procentaje de vuelos en temporada baja cubre el 66% de la operación de vuelo. Sin embargo, el porcenta de tiempo del cual está habilitada la temporada alta es bastante más bajo.
- La operacion de vuelo se genera principalmente de tarde y de mañana con un 37% y 36% respectivamente.

In [None]:
col = ['DIANOM','MES','TIPOVUELO','OPERA','SIGLADES','high_season']
countplot(df3,col,20,15,'delay_15')

- En cuanto a las variables predictoras, se puede observar en las graficas los siguientes insights:
    - Los meses que existe temporada alta, se ve una clara presencia de delay. Julio (07) es el ejemplo grafica "Countplot de MES".
    - Sumado al punto anterior, se puede observar que cuando un vuelo es de caracter internacional, tiene una mayor probabilidad de tener delay, en la grafica "Countplot de SIGLADES", las ciudades de Buenas Aires, Lima y Sao Paulo ejemplifican lo señalado.
    - La tendencia de delay en temporada alta se enmarca bastante, según muestra el gráfico "Countplot de high_season".
    - Será importante evaluar la composición de la variable en la que se basa nuestro vector objetivo, es decir, 'min_diff' que contiene los minutos entre lo agendado para la operacion de vuelo y la operacion de vuelo.
    
- En resumen, se puede observar que el tipo de vuelo, la temporada y los meses son las variables que más pueden explicar un delay en una operación de vuelo.sns.boxplot(data=tips, x="day", y="total_bill")

In [None]:
#análisis de la variable 'min_diff', cuando los minutos son menores o igual a cero y mayores a cero.

#filtro de dataframe menor o igual a 0 con respecto a la variable 'min_diff'
df4 = df3[df3['min_diff']<=0]
#filtro de dataframe mayor a 0 con respecto a la variable 'min_diff'
df5 = df3[df3['min_diff']>0]

#Composición estadistica menor o igual a 0 con respecto a la variable 'min_diff
df4['min_diff'].describe()


In [None]:
#Composición estadistica con respecto a la variable 'min_diff
df3['min_diff'].describe()

In [None]:
#Composición estadistica mayor a 0 con respecto a la variable 'min_diff'
df5['min_diff'].describe()

In [None]:
#graficamos los 3 estados de la variable, es decir, de iziquierda a derecha en los casos cuando es menor igual 0, la variable sin filtrar y cuando es mayor 0.
dataframes = [df4,df3, df5]

minutos_diff(dataframes,'min_diff')

- Caso 'min_diff' <= 0:
    - Podemos observar que la media es -3 minutos y con una desviación estandar de 3 minutos.
    - La grafica presenta el 33% de la data, además se concentra entre -3 minutos y 0 minutos.
- Caso 'min_diff' completo.
    - Con el 100% de la data podemos observar que el 66% de la data está a la derecha de la linea verde, que representa 0 minutos. Además la media es de 9 minutos (linea roja).
- Caso 'min_diff' > 0:
    -Este caso concentra el 66% de la data y la media es de 15 minutos. En adición, el porcentaje de data que se encuentra a la derecha de la linea roja es del 18% con respecto al total lo que reafirma nuevamente que nuestra variable objetivo está desbalanceada.
    

In [None]:
#Dado la información señalada previamente, se estudiarán las variables asociadas al punto 3 en una perspectiva de boxplot
boxplot(df3,col,20,20,'min_diff','delay_15')

- Las graficas que se muestran seña