# Carga de rutas (HC_RUTAS)

### Partimos del ficheros rutas.json
### Importamos las librerías y cargamos extensión SQL

In [1]:
import pandas as pd
import numpy as np
%load_ext sql

Creamos también la conexión a la BBDD, que utilizaremos luego para hacer consultas y cargar los datos tras su trasnformación:

In [2]:
%sql mysql+pymysql://root:admin123@localhost/DW_AERO
from sqlalchemy import create_engine

# Creamos el engine de SQLAlchemy
conn = create_engine("mysql+pymysql://root:admin123@localhost/DW_AERO")
conn

Engine(mysql+pymysql://root:***@localhost/DW_AERO)

### PASO 1: Lectura del fichero rutas.json y convertirlo a Dataframe de Pandas


In [16]:
df_grupo3_rutas1 = pd.read_json("input//rutas.json")
rslt_df = df_grupo3_rutas1[df_grupo3_rutas1['cod_aeropuerto_ori'] == 'Z999']
rslt_df.head(5)

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento
38,39,Z999,4029,00410,CR2
54,55,Z999,2937,01654,AN4
1163,1164,Z999,1824,17885,SU9
1714,1715,Z999,3832,Z9999,PA2
1715,1716,Z999,7115,Z9999,PA2


### PASO 2: Revisar si hay nulos en algunos de los campos. Revisar si hay nulos en algunos de los campos. Si hay nulos en algún campo sustituirlos por el valor indeterminado de tipo ‘Z9…9’ ajustado a la longitud del campo.

In [4]:
for col in df_grupo3_rutas1.columns:
    print("Revisando nulos: ", col)
    print(df_grupo3_rutas1[col].isnull().sum())

Revisando nulos:  cod_ruta
0
Revisando nulos:  cod_aeropuerto_ori
0
Revisando nulos:  cod_aeropuerto_des
0
Revisando nulos:  cod_aerolinea
0
Revisando nulos:  equipamiento
18


Revisión de nulos en col 'equipamiento'. Vemos que existen 18 rutas que no tienen datos en 'equipamiento':

In [5]:
df_grupo3_rutas1[ df_grupo3_rutas1['equipamiento'].isnull()]

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento
2963,2964,7098,5967,Z9999,
2964,2965,7090,5967,Z9999,
3571,3572,3682,3858,03976,
3583,3584,3442,7018,03976,
3593,3594,3858,3682,03976,
3602,3603,7018,3442,03976,
4722,4723,3673,3861,00024,
5909,5910,1881,1885,00024,
6147,6148,3861,3673,00024,
14417,14418,3682,3670,01355,


Reemplazamos los nulos con Z99 (longitud 3), utilizando el método de Pandas Pandas.Dataframe.Fillna(): https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html#

In [6]:
df_grupo3_rutas1['equipamiento'] = df_grupo3_rutas1['equipamiento'].fillna('Z99')

### PASO 3: Validación de integridad: Comprobar si los aeropuertos (origen y destino) de las rutas existen en la tabla DM_AEROPUERTOS. En caso de encontrar aeropuertos en el fichero de rutas que no estén en la tabla DM_AEROPUERTOS actualizarlos a ‘Z999’.


Consultamos a la BBDD DM_AEROPUERTOS y sacamos todos los datos de cod_aeropuerto, nombrándolo ligeramente distinto para que no tengamos problemas de compatibilidad cuando hagamos el merge más adelante:

In [7]:
df_grupo3_t_aeropuerto = pd.read_sql_query("SELECT cod_aeropuerto AS cod_aeropuerto_a FROM DM_AEROPUERTOS", conn)

Obtenemos de la consulta un DataFrame que posterioriormente utilizaremos en el merge con el DataFrame df_grupo3_rutas1

In [18]:
df_grupo3_t_aeropuerto[df_grupo3_t_aeropuerto['cod_aeropuerto_a'] == 'Z999']

Unnamed: 0,cod_aeropuerto_a
8107,Z999


Realizamos un cruce (merge) de los 2 DataFrames que hemos creado: df_grupo3_rutas1 y df_grupo3_t_aeropuerto. Mostramos por pantalla los 10 primeros registros del nuevo DataFrame llamado: df_grupo3_t_aeropuerto_merged1

In [9]:
df_grupo3_t_aeropuerto_merged1 = pd.merge(left=df_grupo3_rutas1, right=df_grupo3_t_aeropuerto,
                      how='left', left_on='cod_aeropuerto_ori', right_on='cod_aeropuerto_a')
df_grupo3_t_aeropuerto_merged1.head(10)

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento,cod_aeropuerto_a
0,1,2965,2990,410,CR2,2965
1,2,2966,2990,410,CR2,2966
2,3,2966,2962,410,CR2,2966
3,4,2968,2990,410,CR2,2968
4,5,2968,4078,410,CR2,2968
5,6,4029,2990,410,CR2,4029
6,7,4029,6969,410,CR2,4029
7,8,4029,Z999,410,CR2,4029
8,9,4029,6160,410,CR2,4029
9,10,6156,2952,410,CR2,6156


Para continuar con el test de integridad, comprobamos los nulos para el campo cod_aeropuerto_ori (que provenía de la tabla DM_AEROPUERTOS) en el nuevo DF. Después se reemplazan los nulos por el código 'Z999' en df_grupo3_t_aeropuerto_merged['cod_aeropuerto_ori'].

In [15]:
rslt_df = df_grupo3_rutas1[df_grupo3_rutas1['cod_aeropuerto_ori'] == 'Z999']
rslt_df.head(5)
##df_grupo3_t_aeropuerto_merged1[df_grupo3_t_aeropuerto_merged1['cod_aeropuerto_a'].isnull()]

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento
38,39,Z999,4029,00410,CR2
54,55,Z999,2937,01654,AN4
1163,1164,Z999,1824,17885,SU9
1714,1715,Z999,3832,Z9999,PA2
1715,1716,Z999,7115,Z9999,PA2


No observamos nulos. Aun así, implementamos la sustitución.

In [35]:
df_grupo3_t_aeropuerto_merged1['cod_aeropuerto_ori'] = np.where(df_grupo3_t_aeropuerto_merged1['cod_aeropuerto_a'].isnull(), 'Z999', df_grupo3_t_aeropuerto_merged1['cod_aeropuerto_ori'])
df_grupo3_t_aeropuerto_merged1.head(5)

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento,cod_aeropuerto_a
0,1,2965,2990,410,CR2,2965
1,2,2966,2990,410,CR2,2966
2,3,2966,2962,410,CR2,2966
3,4,2968,2990,410,CR2,2968
4,5,2968,4078,410,CR2,2968


Repetimos los mismos pasos para los aeropuertos destino 'cod_aeropuerto_des'

In [39]:
df_grupo3_t_aeropuerto_merged2 = df_grupo3_t_aeropuerto_merged1.drop(['cod_aeropuerto_a'],1)
df_grupo3_t_aeropuerto_merged2 = pd.merge(left=df_grupo3_t_aeropuerto_merged2, right=df_grupo3_t_aeropuerto,
                      how='left', left_on='cod_aeropuerto_des', right_on='cod_aeropuerto_a')
df_grupo3_t_aeropuerto_merged2.head(10)

  df_grupo3_t_aeropuerto_merged2 = df_grupo3_t_aeropuerto_merged1.drop(['cod_aeropuerto_a'],1)


Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento,cod_aeropuerto_a
0,1,2965,2990,410,CR2,2990
1,2,2966,2990,410,CR2,2990
2,3,2966,2962,410,CR2,2962
3,4,2968,2990,410,CR2,2990
4,5,2968,4078,410,CR2,4078
5,6,4029,2990,410,CR2,2990
6,7,4029,6969,410,CR2,6969
7,8,4029,Z999,410,CR2,Z999
8,9,4029,6160,410,CR2,6160
9,10,6156,2952,410,CR2,2952


In [None]:
Para continuar con el test de integridad, comprobamos los nulos para el campo cod_aeropuerto_des (que provenía de la tabla DM_AEROPUERTOS) en el nuevo DF. Después se reemplazan los nulos por el código 'Z999' en df_grupo3_t_aeropuerto_merged1['cod_aeropuerto_des'].

In [40]:
df_grupo3_t_aeropuerto_merged2[df_grupo3_t_aeropuerto_merged2['cod_aeropuerto_a'].isnull()]

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento,cod_aeropuerto_a


In [41]:
df_grupo3_t_aeropuerto_merged2['cod_aeropuerto_des'] = np.where(df_grupo3_t_aeropuerto_merged2['cod_aeropuerto_a'].isnull(), 'Z999', df_grupo3_t_aeropuerto_merged2['cod_aeropuerto_des'])

### Paso 4: Validación de integridad: Comprobar si las aerolíneas de las rutas existen en la tabla DM_AEROLINEAS. En caso de encontrar aerolineas en el fichero de rutas que no estén en la tabla DM_AEROLINEAS actualizarlosa ‘Z9999’.

Consultamos a la BBDD DM_AEROLINEAS y sacamos todos los datos de cod_aerolinea, nombrándolo ligeramente distinto para que no tengamos problemas de compatibilidad cuando hagamos el merge más adelante:

In [44]:
df_grupo3_t_aerolinea = pd.read_sql_query("SELECT cod_aerolinea AS cod_aerolinea_a FROM DM_AEROLINEAS", conn)

Obtenemos de la consulta un DataFrame que posterioriormente utilizaremos en el merge con el DataFrame df_grupo3_rutas1

In [45]:
df_grupo3_t_aerolinea.head(5)

Unnamed: 0,cod_aerolinea_a
0,1
1,2
2,3
3,4
4,5


Realizamos un cruce (merge) de los 2 DataFrames que hemos creado: df_grupo3_rutas1 y df_grupo3_t_aerolinea.
Mostramos por pantalla los 10 primeros registros del nuevo DataFrame llamado: df_grupo3_rutas_merged

In [46]:
df_grupo3_rutas1 = df_grupo3_t_aeropuerto_merged2.drop(['cod_aeropuerto_a'],1)
df_grupo3_rutas_merged = pd.merge(left=df_grupo3_rutas1, right=df_grupo3_t_aerolinea,
                      how='left', left_on='cod_aerolinea', right_on='cod_aerolinea_a')
df_grupo3_rutas_merged.head(10)

  df_grupo3_rutas1 = df_grupo3_t_aeropuerto_merged2.drop(['cod_aeropuerto_a'],1)


Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento,cod_aerolinea_a
0,1,2965,2990,410,CR2,410
1,2,2966,2990,410,CR2,410
2,3,2966,2962,410,CR2,410
3,4,2968,2990,410,CR2,410
4,5,2968,4078,410,CR2,410
5,6,4029,2990,410,CR2,410
6,7,4029,6969,410,CR2,410
7,8,4029,Z999,410,CR2,410
8,9,4029,6160,410,CR2,410
9,10,6156,2952,410,CR2,410


Para continuar con el test de integridad, comprobamos los nulos para el campo cod_aerolinea_p (que provenía de la tabla DM_AEROLINEAS) en el nuevo DF.
Después se reemplazan los nulos por el código 'Z9999' en df_grupo3_rutas_merged['cod_aerolinea'].

In [47]:
df_grupo3_rutas_merged[df_grupo3_rutas_merged['cod_aerolinea_a'].isnull()]

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento,cod_aerolinea_a
11,12,2922,6969,20410,CR2,


In [48]:
df_grupo3_rutas_merged['cod_aerolinea'] = np.where(df_grupo3_rutas_merged['cod_aerolinea_a'].isnull(), 'Z9999', df_grupo3_rutas_merged['cod_aerolinea'])

## PASO 5: Realizar volcado final a HC_RUTAS

Nos quedamos con a estructura definitiva:     
COD_RUTA INT NOT NULL,
COD_AEROLINEA VARCHAR(5) NULLABLE,
COD_AEROPUERTO_ORI VARCHAR(4) NULLABLE,
COD_AEROPUERTO_DES VARCHAR(4) NULLABLE

Para subir a la BBDD únicamente las columnas deseadas, creamos un último DF al que vamos a sacarle todas las columnas que no queremos que se envíen a MySQL:

In [50]:
df_grupo3_rutas_to_database = df_grupo3_rutas_merged.drop(['equipamiento','cod_aerolinea_a'],1)

  df_grupo3_rutas_to_database = df_grupo3_rutas_merged.drop(['equipamiento','cod_aerolinea_a'],1)


Por último, mediante el método to_dtabase.to_sql(), enviamos elo DF a MySQL:

In [52]:
df_grupo3_rutas_to_database.to_sql('HC_RUTAS', con = conn, if_exists = 'append', index=False)

## PASO adicional: Comprobaciones tras el volcado:

Conteo de entradas, lo podemos hacer en:

*   Desde el DF
*   Query de SQL

Ambos conteos deberían ser iguales.


In [53]:
df_grupo3_rutas_to_database.count()

cod_ruta              67663
cod_aeropuerto_ori    67663
cod_aeropuerto_des    67663
cod_aerolinea         67663
dtype: int64

In [54]:
%sql select count(*) from HC_RUTAS

 * mysql+pymysql://root:***@localhost/DW_AERO
1 rows affected.


count(*)
67663


Por último, se puede hacer una última comprbación de que la carga ha sido conforme mediante una query SQL con, por ejemplo, todas las entradas que tengan 'ESP' como co_pais (todos los aeropuertos de España)

In [55]:
%sql select * from HC_RUTAS where cod_aerolinea = '00410'

 * mysql+pymysql://root:***@localhost/DW_AERO
41 rows affected.


cod_ruta,cod_aerolinea,cod_aeropuerto_ori,cod_aeropuerto_des
1,410,2965,2990
2,410,2966,2990
3,410,2966,2962
4,410,2968,2990
5,410,2968,4078
6,410,4029,2990
7,410,4029,6969
8,410,4029,Z999
9,410,4029,6160
10,410,6156,2952


### PASO OPCIONAL:
### Obtener un dataframe que obtenga el número de rutas de cada aeropuerto origen (mostrar código aeropuerto). Ordenar el resultado de forma que aparezcan en los resultados en las primeras filas los aeropuertos con más rutas.

In [56]:
df_grupo3_rutas_opt1 = df_grupo3_rutas_merged.drop(['equipamiento','cod_aeropuerto_des','cod_aerolinea'],1)
df_grupo3_count = df_grupo3_rutas_opt1.groupby(['cod_aeropuerto_ori']).size().reset_index(name='nº rutas')
df_grupo3_count_sorted = df_grupo3_count.sort_values('nº rutas', ascending=False)
df_grupo3_count_sorted.head(10)

  df_grupo3_rutas_opt1 = df_grupo3_rutas_merged.drop(['equipamiento','cod_aeropuerto_des','cod_aerolinea'],1)


Unnamed: 0,cod_aeropuerto_ori,nº rutas
1791,3682,915
1867,3830,558
1628,3364,535
254,507,527
626,1382,524
191,340,497
1697,3484,492
1783,3670,469
1852,3797,456
281,580,453


###  Indicar qué pasos habría que realizar para ver estos mismos resultados, pero mostrando el nombre del aeropuerto. Este segundo paso basta con indicar los pasos no hace falta implementarlo.

1. Crear un DF 'df_grupo3_t_airport' desde la base de datos DM_AEROPUERTOS con los datos cod_aeropuerto y nombre
2. Hacemos un merge left entre el DF ordenado 'df_grupo3_count_sorted' con 'df_grupo3_t_airport', utilizando 'cod_aeropuerto_ori' como key del join.
3. utilizamos drop para dejar el df listo

In [57]:
df_grupo3_t_airport = pd.read_sql_query("SELECT cod_aeropuerto AS cod_aeropuerto_a, nombre_aeropuerto FROM DM_AEROPUERTOS", conn)
df_grupo3_t_airport

Unnamed: 0,cod_aeropuerto_a,nombre_aeropuerto
0,0001,Goroka
1,0002,Madang
2,0003,Mount Hagen
3,0004,Nadzab
4,0005,Port Moresby Jacksons Intl
...,...,...
8103,9538,Port McNeill Airport
8104,9539,Sullivan Bay Water Aerodrome
8105,9540,Deer Harbor Seaplane
8106,9541,San Diego Old Town Transit Center


In [58]:
df_grupo3_count_opt2 = pd.merge(left=df_grupo3_count_sorted, right=df_grupo3_t_airport,
                      how='left', left_on='cod_aeropuerto_ori', right_on='cod_aeropuerto_a')
df_grupo3_count_opt2.drop(['cod_aeropuerto_a'],1).head(10)

  df_grupo3_count_opt2.drop(['cod_aeropuerto_a'],1).head(10)


Unnamed: 0,cod_aeropuerto_ori,nº rutas,nombre_aeropuerto
0,3682,915,Hartsfield Jackson Atlanta Intl
1,3830,558,Chicago Ohare Intl
2,3364,535,Capital Intl
3,507,527,Heathrow
4,1382,524,Charles De Gaulle
5,340,497,Frankfurt Main
6,3484,492,Los Angeles Intl
7,3670,469,Dallas Fort Worth Intl
8,3797,456,John F Kennedy Intl
9,580,453,Schiphol


### PASO EXTRA:
### Calcular distancia de cada ruta entre aeropuertos

Instalamos el módulo necesario https://geopy.readthedocs.io/en/stable/#installation

On windows, go to Start -> Anaconda3 -> Anaconda Prompt
On mac, start Terminal.
On linux, open a bash shell.
Into this shell, type:

pip install geopy

Seleccionamos de 'df_grupo3_rutas_merged' las columnas 'cod_aeropuerto_ori'y 'cod_aeropuerto_des' de aeropuertos de cada ruta

In [59]:
df_grupo3_JD_airpots_dist_t = df_grupo3_rutas_merged[['cod_ruta','cod_aeropuerto_ori','cod_aeropuerto_des']]
df_grupo3_JD_airpots_dist_t.head(10)


Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des
0,1,2965,2990
1,2,2966,2990
2,3,2966,2962
3,4,2968,2990
4,5,2968,4078
5,6,4029,2990
6,7,4029,6969
7,8,4029,Z999
8,9,4029,6160
9,10,6156,2952


Seleccionamos las coordenadas correspondiente a cada aeropuerto desde la tabla DM_AEROPUERTOS

In [62]:
df_grupo3_t_airports = pd.read_sql_query("SELECT latitud AS latitud_a, longitud AS longitud_a, cod_aeropuerto AS cod_aeropuerto_a FROM DM_AEROPUERTOS", conn)
df_grupo3_t_airports.head(5)

Unnamed: 0,latitud_a,longitud_a,cod_aeropuerto_a
0,-6.081689,145.391881,1
1,-5.207083,145.7887,2
2,-5.826789,144.295861,3
3,-6.569828,146.726242,4
4,-9.443383,147.22005,5


1. mergeamos los aeropuertos de origen 'cod_aeropuerto_ori' con sus coordenadas

In [63]:
df_grupo3_t_airports_merged1 = pd.merge(left=df_grupo3_JD_airpots_dist_t, right=df_grupo3_t_airports,
                      how='left', left_on='cod_aeropuerto_ori', right_on='cod_aeropuerto_a')
df_grupo3_t_airports_merged1.head(5)

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,latitud_a,longitud_a,cod_aeropuerto_a
0,1,2965,2990,43.449928,39.956589,2965
1,2,2966,2990,46.283333,48.006278,2966
2,3,2966,2962,46.283333,48.006278,2966
3,4,2968,2990,55.305836,61.503333,2968
4,5,2968,4078,55.305836,61.503333,2968


2. mergeamos los aeropuertos de destino 'cod_aeropuerto_des' con sus coordenadas

In [64]:
df_grupo3_t_airports_merged2 = pd.merge(left=df_grupo3_t_airports_merged1, right=df_grupo3_t_airports,
                      how='left', left_on='cod_aeropuerto_des', right_on='cod_aeropuerto_a')
df_grupo3_t_airports_merged2.head(5)

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,latitud_a_x,longitud_a_x,cod_aeropuerto_a_x,latitud_a_y,longitud_a_y,cod_aeropuerto_a_y
0,1,2965,2990,43.449928,39.956589,2965,55.606186,49.278728,2990
1,2,2966,2990,46.283333,48.006278,2966,55.606186,49.278728,2990
2,3,2966,2962,46.283333,48.006278,2966,44.225072,43.081889,2962
3,4,2968,2990,55.305836,61.503333,2968,55.606186,49.278728,2990
4,5,2968,4078,55.305836,61.503333,2968,55.012622,82.650656,4078


Revisamos nulos en el dataframe 'df_grupo3_t_airports_merged2'

In [65]:
for col in df_grupo3_t_airports_merged2.columns:
    print("Revisando nulos: ", col)
    print(df_grupo3_t_airports_merged2[col].isnull().sum())

Revisando nulos:  cod_ruta
0
Revisando nulos:  cod_aeropuerto_ori
0
Revisando nulos:  cod_aeropuerto_des
0
Revisando nulos:  latitud_a_x
239
Revisando nulos:  longitud_a_x
239
Revisando nulos:  cod_aeropuerto_a_x
0
Revisando nulos:  latitud_a_y
242
Revisando nulos:  longitud_a_y
242
Revisando nulos:  cod_aeropuerto_a_y
0


Solo nos quedamos con aquellas rutas con datos de coordenadas completas

In [66]:
df_grupo3_t_airports_merged2 = df_grupo3_t_airports_merged2.dropna()

Calculamos la distancia entre coordenadas

In [67]:
from geopy.distance import geodesic

In [68]:
def distance_calc (row):
    start = (row['latitud_a_x'], row['longitud_a_x'])
    end = (row['latitud_a_y'], row['longitud_a_y'])

    return geodesic(start, end).km

In [69]:
df_grupo3_t_airports_merged2['distancia_ruta'] = df_grupo3_t_airports_merged2.apply (lambda row: distance_calc (row),axis=1)

Comprobamos los cambios:

In [71]:
df_grupo3_t_airports_merged2.drop(['latitud_a_x','longitud_a_x','cod_aeropuerto_a_x','latitud_a_y','longitud_a_y','cod_aeropuerto_a_y'],1).head(10)

  df_grupo3_t_airports_merged2.drop(['latitud_a_x','longitud_a_x','cod_aeropuerto_a_x','latitud_a_y','longitud_a_y','cod_aeropuerto_a_y'],1).head(10)


Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,distancia_ruta
0,1,2965,2990,1507.986742
1,2,2966,2990,1040.937999
2,3,2966,2962,449.039502
3,4,2968,2990,773.126233
4,5,2968,4078,1343.155128
5,6,4029,2990,718.100147
6,7,4029,6969,895.799286
8,9,4029,6160,954.641011
9,10,6156,2952,1175.219293
10,11,6156,2990,1010.81644
