# Solución del desafío LATAM - Felipe Moya González

<br>

---

<br>

## Librerías necesarias

In [54]:
# Importamos las librerías a utilizar
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use("ggplot")
import seaborn as sns
from janitor import clean_names
pd.set_option("display.max_columns", None)

Dejaremos una semilla para que los resultados obtenidos sean reproducibles.

In [55]:
np.random.seed(201212189)

<br>

---

<br>

## Carga de datos

Lo primero que debemos hacer es cargar los datos. Cargamos `Vlo-I` y `Vlo-O` como texto, pues hay algunos valores que contienen la letra P.

In [56]:
# Definimos variables para las rutas de los archivo
input_path = "data/input"
output_path = "data/output" 

# Cargamos los datos entregados
vuelos = pd.read_csv(os.path.join(input_path, "dataset_SCL.csv"), dtype={1: object, 6: object}).clean_names()

# Definimos la cantidad de filas y de columnas de la base
filas, columnas = vuelos.shape

<br>

---

<br>

## Limpieza de datos y análisis exploratorio

Veamos alguna información de los datos:

In [57]:
# Veamos algunas observaciones de los datos
vuelos.head()

Unnamed: 0,fecha_i,vlo_i,ori_i,des_i,emp_i,fecha_o,vlo_o,ori_o,des_o,emp_o,dia,mes,ano,dianom,tipovuelo,opera,siglaori,siglades
0,2017-01-01 23:30:00,226,SCEL,KMIA,AAL,2017-01-01 23:33:00,226,SCEL,KMIA,AAL,1,1,2017,Domingo,I,American Airlines,Santiago,Miami
1,2017-01-02 23:30:00,226,SCEL,KMIA,AAL,2017-01-02 23:39:00,226,SCEL,KMIA,AAL,2,1,2017,Lunes,I,American Airlines,Santiago,Miami
2,2017-01-03 23:30:00,226,SCEL,KMIA,AAL,2017-01-03 23:39:00,226,SCEL,KMIA,AAL,3,1,2017,Martes,I,American Airlines,Santiago,Miami
3,2017-01-04 23:30:00,226,SCEL,KMIA,AAL,2017-01-04 23:33:00,226,SCEL,KMIA,AAL,4,1,2017,Miercoles,I,American Airlines,Santiago,Miami
4,2017-01-05 23:30:00,226,SCEL,KMIA,AAL,2017-01-05 23:28:00,226,SCEL,KMIA,AAL,5,1,2017,Jueves,I,American Airlines,Santiago,Miami


In [58]:
# Mostramos las dimensiones de los datos.
print(f"\n La base contiene {filas} observaciones y {columnas} columnas.")


 La base contiene 68206 observaciones y 18 columnas.


In [59]:
# Veamos si todas las variables tienen el tipo adecuado
vuelos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68206 entries, 0 to 68205
Data columns (total 18 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   fecha_i    68206 non-null  object
 1   vlo_i      68206 non-null  object
 2   ori_i      68206 non-null  object
 3   des_i      68206 non-null  object
 4   emp_i      68206 non-null  object
 5   fecha_o    68206 non-null  object
 6   vlo_o      68205 non-null  object
 7   ori_o      68206 non-null  object
 8   des_o      68206 non-null  object
 9   emp_o      68206 non-null  object
 10  dia        68206 non-null  int64 
 11  mes        68206 non-null  int64 
 12  ano        68206 non-null  int64 
 13  dianom     68206 non-null  object
 14  tipovuelo  68206 non-null  object
 15  opera      68206 non-null  object
 16  siglaori   68206 non-null  object
 17  siglades   68206 non-null  object
dtypes: int64(3), object(15)
memory usage: 9.4+ MB


Notamos que no todas las columnas tienen el tipo adecuado, así que ahora las pasamos al tipo adecuado: 

In [60]:
# Convertimos las variables en su tipo
vuelos["fecha_i"] = pd.to_datetime(vuelos["fecha_i"], format="%Y-%m-%d")
vuelos["fecha_o"] = pd.to_datetime(vuelos["fecha_o"], format="%Y-%m-%d")
 
# Pasamos la variable "tipovuelo" a dummie por su naturaleza categórica
vuelos = pd.get_dummies(vuelos, prefix="tipovuelo", columns=["tipovuelo"])

#### Valores faltantes:

Ahora revisaremos si es que hay valores faltantes en alguna de las columnas, para luego ver como encargarse de ellos.

In [61]:
# Valores faltantes por columna
vuelos.isna().sum()

fecha_i        0
vlo_i          0
ori_i          0
des_i          0
emp_i          0
fecha_o        0
vlo_o          1
ori_o          0
des_o          0
emp_o          0
dia            0
mes            0
ano            0
dianom         0
opera          0
siglaori       0
siglades       0
tipovuelo_I    0
tipovuelo_N    0
dtype: int64

Notamos que la única variable con valores faltantes es `vlo-o`. Veamos esa fila para tratar de entender porqué no tiene valor.

In [62]:
# Revisión fila con valor faltante
vuelos[vuelos["vlo_o"].isna()]

Unnamed: 0,fecha_i,vlo_i,ori_i,des_i,emp_i,fecha_o,vlo_o,ori_o,des_o,emp_o,dia,mes,ano,dianom,opera,siglaori,siglades,tipovuelo_I,tipovuelo_N
6068,2017-01-19 11:00:00,200,SCEL,SPJC,LAW,2017-01-19 11:03:00,,SCEL,SPJC,56R,19,1,2017,Jueves,Latin American Wings,Santiago,Lima,1,0


Es un vuelo de Santiago a Lima, que tiene un número de vuelo programado, pero no un número de vuelo real. Por lo tanto, podemos reemplazar el valor faltante por el valor de la columna `vlo-i`, es decir con el número de vuelo programado.

In [64]:
# Reemplazamos por el número de vuelo programado
vuelos.loc[vuelos["vlo_o"].isna(), "vlo_o"] = vuelos.loc[vuelos["vlo_o"].isna(), "vlo_i"]

<br>

---

<br>

# 1.) 

## Distribución de los datos: