In [None]:
! pip install -r requirements.txt

# Importando librerias

In [1]:
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

# Desafio

In [23]:
# Importando datos
'''
Cuando comencé a trabajar con el archivo 'dataset_SCL.csv' proporcionado y evidencié que
algunas lineas contenían el caracter ", sencillo o triple. Esto crea un error en esas lineas
al ser leido como pandas.DataFrame. Por ejemplo, las lineas 17.059 y 17.060 vienen con ese
problema.

Decidí elimnar esas lineas, en la lectura de los datos usando, el comment='"'.
El archivo original tiene 68.206 y quedó con 68.167.
Se eliminaron solamente 39 lineas, un tamaño infimo de datos para el tamaño original.

Usé dtype='object' porque siendo un desafio de clasificación, y dando una ojeada inicial 
a los datos, establezco que son pocos los tipos de datos diferentes a object.

Serian datetime solamente 'Fecha-I' y 'Fecha-O'.
Serian solamente int 'DIA', 'MES' y 'AÑO'
'''

df_initial = pd.read_csv('dataset_SCL.csv', dtype='object', comment='"', encoding='utf-8')
df_initial.head()

Unnamed: 0,Fecha-I,Vlo-I,Ori-I,Des-I,Emp-I,Fecha-O,Vlo-O,Ori-O,Des-O,Emp-O,DIA,MES,AÑO,DIANOM,TIPOVUELO,OPERA,SIGLAORI,SIGLADES
0,2017-01-01 23:30:00,226,SCEL,KMIA,AAL,2017-01-01 23:33:00,226,SCEL,KMIA,AAL,1,1,2017,Domingo,I,American Airlines,Santiago,Miami
1,2017-01-02 23:30:00,226,SCEL,KMIA,AAL,2017-01-02 23:39:00,226,SCEL,KMIA,AAL,2,1,2017,Lunes,I,American Airlines,Santiago,Miami
2,2017-01-03 23:30:00,226,SCEL,KMIA,AAL,2017-01-03 23:39:00,226,SCEL,KMIA,AAL,3,1,2017,Martes,I,American Airlines,Santiago,Miami
3,2017-01-04 23:30:00,226,SCEL,KMIA,AAL,2017-01-04 23:33:00,226,SCEL,KMIA,AAL,4,1,2017,Miercoles,I,American Airlines,Santiago,Miami
4,2017-01-05 23:30:00,226,SCEL,KMIA,AAL,2017-01-05 23:28:00,226,SCEL,KMIA,AAL,5,1,2017,Jueves,I,American Airlines,Santiago,Miami


In [25]:
# Comprobando que todas las columnas quedaron tipo object
df_initial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68167 entries, 0 to 68166
Data columns (total 18 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Fecha-I    68167 non-null  object
 1   Vlo-I      68167 non-null  object
 2   Ori-I      68167 non-null  object
 3   Des-I      68167 non-null  object
 4   Emp-I      68167 non-null  object
 5   Fecha-O    68167 non-null  object
 6   Vlo-O      68166 non-null  object
 7   Ori-O      68167 non-null  object
 8   Des-O      68167 non-null  object
 9   Emp-O      68167 non-null  object
 10  DIA        68167 non-null  object
 11  MES        68167 non-null  object
 12  AÑO        68167 non-null  object
 13  DIANOM     68167 non-null  object
 14  TIPOVUELO  68167 non-null  object
 15  OPERA      68167 non-null  object
 16  SIGLAORI   68167 non-null  object
 17  SIGLADES   68167 non-null  object
dtypes: object(18)
memory usage: 9.4+ MB


## Preparación y limpieza de los datos

### Arreglando problemas de tipo de datos

#### Fechas

In [26]:
# Transformando 'fechas' a datetime
df_initial['Fecha-I'] =  pd.to_datetime(df_initial['Fecha-I'], format='%Y-%m-%d %H:%M:%S')
df_initial['Fecha-O'] =  pd.to_datetime(df_initial['Fecha-O'], format='%Y-%m-%d %H:%M:%S')
df_initial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68167 entries, 0 to 68166
Data columns (total 18 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Fecha-I    68167 non-null  datetime64[ns]
 1   Vlo-I      68167 non-null  object        
 2   Ori-I      68167 non-null  object        
 3   Des-I      68167 non-null  object        
 4   Emp-I      68167 non-null  object        
 5   Fecha-O    68167 non-null  datetime64[ns]
 6   Vlo-O      68166 non-null  object        
 7   Ori-O      68167 non-null  object        
 8   Des-O      68167 non-null  object        
 9   Emp-O      68167 non-null  object        
 10  DIA        68167 non-null  object        
 11  MES        68167 non-null  object        
 12  AÑO        68167 non-null  object        
 13  DIANOM     68167 non-null  object        
 14  TIPOVUELO  68167 non-null  object        
 15  OPERA      68167 non-null  object        
 16  SIGLAORI   68167 non-null  object       

#### Enteros

In [27]:
# Transformando 'DIA', 'MES' y 'AÑO', para tipo int
df_initial = df_initial.astype({'DIA': 'int32', 'MES': 'int32', 'AÑO': 'int32'})
df_initial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68167 entries, 0 to 68166
Data columns (total 18 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Fecha-I    68167 non-null  datetime64[ns]
 1   Vlo-I      68167 non-null  object        
 2   Ori-I      68167 non-null  object        
 3   Des-I      68167 non-null  object        
 4   Emp-I      68167 non-null  object        
 5   Fecha-O    68167 non-null  datetime64[ns]
 6   Vlo-O      68166 non-null  object        
 7   Ori-O      68167 non-null  object        
 8   Des-O      68167 non-null  object        
 9   Emp-O      68167 non-null  object        
 10  DIA        68167 non-null  int32         
 11  MES        68167 non-null  int32         
 12  AÑO        68167 non-null  int32         
 13  DIANOM     68167 non-null  object        
 14  TIPOVUELO  68167 non-null  object        
 15  OPERA      68167 non-null  object        
 16  SIGLAORI   68167 non-null  object       

### Valores nulos

In [28]:
# Valores nulos?
df_initial.isnull().sum().sum()

1

In [29]:
# Fila del valor nulo?
row_nan = df_initial[df_initial.isnull().any(1)]
row_nan 

Unnamed: 0,Fecha-I,Vlo-I,Ori-I,Des-I,Emp-I,Fecha-O,Vlo-O,Ori-O,Des-O,Emp-O,DIA,MES,AÑO,DIANOM,TIPOVUELO,OPERA,SIGLAORI,SIGLADES
6068,2017-01-19 11:00:00,200,SCEL,SPJC,LAW,2017-01-19 11:03:00,,SCEL,SPJC,56R,19,1,2017,Jueves,I,Latin American Wings,Santiago,Lima


In [31]:
# El valor nan está en la columna 'Vlo-O'
# Colocaré el mismo valor de 'Vlo-I'
df_initial.loc[6068,'Vlo-O']='200'

In [32]:
# Rectificando valores nulos?
df_initial.isnull().sum().sum()

# No hay valores nulos

0

### Datos duplicados

In [33]:
# Existen datos duplicados?
df_initial.duplicated().any()

# No hay valores duplicados

False

### Concordancia de la información

In [34]:
# La información contenida tiene concordar con lo que significa
# Por ejemplo, encontrar una ciudad en tipo de vuelo

# Para esto calculó la cantidad de datos unicos por columna

df_initial.nunique()

Fecha-I      53232
Vlo-I          581
Ori-I            1
Des-I           61
Emp-I           30
Fecha-O      62742
Vlo-O          857
Ori-O            1
Des-O           60
Emp-O           32
DIA             31
MES             12
AÑO              2
DIANOM           7
TIPOVUELO        2
OPERA           23
SIGLAORI         1
SIGLADES        59
dtype: int64

In [35]:
# Tres columnas tienen valores unicos y se pueden eliminar
# Estas tres columnas se refieren al origen de los vuelos
# Todos los vuelos se originan desde Santiago

df_initial.drop(['Ori-I', 'Ori-O', 'SIGLAORI'], axis=1, inplace=True)

#### AÑO

In [36]:
# Hay dos valores en 'AÑO', pero parece que las 'fechas' son solo de 2017
# Comprobar los años de las fechas
df_initial['AÑO'].value_counts()

2017    68165
2018        2
Name: AÑO, dtype: int64

In [37]:
# Hay solo dos fechas con 'AÑO' de 2018
# Se puede comprobar manualmente

row_2018 = df_initial[df_initial['AÑO'] == 2018]
row_2018 

Unnamed: 0,Fecha-I,Vlo-I,Des-I,Emp-I,Fecha-O,Vlo-O,Des-O,Emp-O,DIA,MES,AÑO,DIANOM,TIPOVUELO,OPERA,SIGLADES
66891,2017-12-31 23:55:00,602,KLAX,LAN,2018-01-01 00:02:00,602.0,KLAX,LAN,1,1,2018,Lunes,I,Grupo LATAM,Los Angeles
66920,2017-12-31 23:40:00,622,MMMX,LAN,2018-01-01 00:12:00,622.0,MMMX,LAN,1,1,2018,Lunes,I,Grupo LATAM,Ciudad de Mexico


In [38]:
# Realmente corresponde a dos vuelos que operaron en 2018
# Pero, por la poca variabilidad de los datos de 'AÑO',
# esta columna se puede elimnar

df_initial.drop(['AÑO'], axis=1, inplace=True)

#### Codigo de vuelo con decimales

In [56]:
df_initial['Vlo-O'].unique()

array(['226', '912', '940', '92', '93', '401', '11', '1011', '1281',
       '1283', '1285', '1287', '1289', '1291', '2291', '98', '116', '176',
       '240', '295', '689', '250', '112', '118', '174', '249', '276',
       '495', '4495', '146', '7661', '7663', '9245', '9268', '9362',
       '6830', '702', '624', '28', '846', '709', '741', '8021', '8023',
       '8027', '8029', '8069', '8073', '8075', '8099', '8125', '8137',
       '8160', '8161', '9601', '9615', '9651', '9653', '9661', '9689',
       '9782', '9623', '1', '3', '7', '9', '13', '15', '17', '21', '23',
       '25', '41', '43', '51', '53', '55', '61', '71', '73', '75', '81',
       '83', '102', '104', '106', '108', '110', '120', '122', '128',
       '130', '132', '134', '140', '142', '150', '156', '160', '162',
       '164', '166', '170', '172', '180', '182', '184', '186', '188',
       '190', '192', '194', '196', '501', '503', '507', '521', '531',
       '551', '800', '802', '804', '1083', '14', '31', '35', '37', '57',
     

In [57]:
df_initial['Vlo-I'].unique()

array(['226', '912', '940', '92', '93', '401', '11', '1011', '1281',
       '1283', '1285', '1287', '1289', '1291', '2291', '98', '116', '176',
       '240', '295', '689', '250', '112', '118', '174', '249', '276',
       '495', '4495', '146', '7661', '7663', '9245', '9268', '9362',
       '6830', '702', '624', '28', '846', '709', '741', '8021', '8023',
       '8027', '8029', '8069', '8073', '8075', '8099', '8125', '8137',
       '8160', '8161', '9601', '9615', '9651', '9653', '9661', '9689',
       '9782', '9623', '1', '3', '7', '9', '13', '15', '17', '21', '23',
       '25', '41', '43', '51', '53', '55', '61', '71', '73', '75', '81',
       '83', '102', '104', '106', '108', '110', '120', '122', '128',
       '130', '132', '134', '140', '142', '150', '156', '160', '162',
       '164', '166', '170', '172', '180', '182', '184', '186', '188',
       '190', '192', '194', '196', '501', '503', '507', '521', '531',
       '551', '800', '802', '804', '1083', '14', '31', '35', '37', '57',
     

In [58]:
# Se pudo observar que algunos valores de 'Vlo-O' tienen numeros
# almacenados con decimales (.0). Por esto 'Vlo-O' tiene 857 valores
# unicos y 'Vlo-I' tiene solo 581 valores unicos

# Remplazar '.0' en 'Vlo-O'
df_initial['Vlo-O'] = df_initial['Vlo-O'].str.replace('.0','')
df_initial.nunique()

Fecha-I      53232
Vlo-I          581
Des-I           61
Emp-I           30
Fecha-O      62742
Vlo-O          444
Des-O           60
Emp-O           32
DIA             31
MES             12
DIANOM           7
TIPOVUELO        2
OPERA           23
SIGLADES        59
dtype: int64

In [66]:
# 'Vlo-O' pasó de 857 valores unicos a 444

# Problemas de los decimales solucionado
df_initial['Vlo-O'].unique()

array(['226', '912', '9', '92', '93', '1', '11', '1281', '1283', '1285',
       '1287', '1289', '1291', '2291', '98', '116', '176', '2', '295',
       '689', '112', '118', '174', '249', '276', '495', '4495', '146',
       '7661', '7663', '9245', '9268', '9362', '68', '624', '28', '846',
       '741', '21', '23', '27', '29', '69', '73', '75', '99', '8125',
       '8137', '81', '8161', '91', '9615', '9651', '9653', '9661', '9689',
       '9782', '9623', '3', '7', '13', '15', '17', '25', '41', '43', '51',
       '53', '55', '61', '71', '83', '4', '6', '8', '122', '128', '132',
       '134', '142', '156', '162', '164', '166', '172', '182', '184',
       '186', '188', '192', '194', '196', '521', '531', '551', '0', '14',
       '31', '35', '37', '57', '65', '67', '89', '97', '114', '124',
       '126', '136', '138', '144', '148', '152', '154', '168', '178',
       '211', '213', '215', '217', '219', '221', '231', '233', '235',
       '237', '239', '241', '247', '251', '257', '259', '261', '26

#### Concordancia de fechas

In [65]:
# 'DIA' está bien
df_initial['DIA'].unique()

array([ 1,  2,  3,  4,  5,  7,  8, 10, 12, 14, 16, 18, 21, 23, 25, 28, 30,
        6,  9, 11, 13, 15, 17, 19, 22, 24, 26, 27, 29, 31, 20],
      dtype=int32)

In [62]:
# 'MES' está bien
df_initial['MES'].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12], dtype=int32)

In [67]:
# 'DIANOM' está bien
df_initial['DIANOM'].unique()

array(['Domingo', 'Lunes', 'Martes', 'Miercoles', 'Jueves', 'Sabado',
       'Viernes'], dtype=object)

str

In [None]:
Cambio de diudad programado - operacion

: 

: 

In [None]:
# Adversarial Validation
# roc_auc_score

# Data makes the difference, not the model


: 

: 

: 

: 

: 

In [None]:
df_initial.to_pickle('df_2.pkl')

: 