# Actividad Semana 4
## Datos Rutas

Partimos del ficheros __rutas.json__

In [1]:
import pandas as pd
from sqlalchemy import create_engine

Creamos el objeto de conexión a la base de datos:

In [2]:
conn = create_engine("mysql+pymysql://root:password@localhost/DW_AERO")

Probamos la conexion a la base de datos:

In [3]:
try:
    if conn:
        cursor = conn.connect()
        print("conexion exitosa")
except Exception as ex:
    print(ex)
finally:
    cursor.close()

conexion exitosa


## Paso 1: 
Lectura fichero aeropuertos.csv y pasarlo a un dataframe de Pandas. 

In [4]:
df_am_rutas1 = pd.read_json("../ficheros/rutas.json")

In [5]:
df_am_rutas1.head()

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,equipamiento
0,1,2965,2990,410,CR2
1,2,2966,2990,410,CR2
2,3,2966,2962,410,CR2
3,4,2968,2990,410,CR2
4,5,2968,4078,410,CR2


## Paso 2: 
Revisar si hay nulos en algunos de los campos. Si hay nulos en campos sustituirlos por el valor indeterminado de tipo ‘Z9…9’ ajustado a la longitud del campo.

Realizamos un DESCRIBE de la tabla HC_RUTAS para conocer el tipo y longitud de los campos:

In [6]:
cursor = conn.connect()
descripcion_tabla = cursor.execute("DESCRIBE HC_RUTAS").fetchall()
cursor.close()
for elemento in descripcion_tabla:
    print("{:<20}{:<20}{}".format(elemento[0],elemento[1],elemento[2]))

cod_ruta            int(11)             NO
cod_aerolinea       varchar(5)          YES
cod_aeropuerto_ori  varchar(4)          YES
cod_aeropuerto_des  varchar(4)          YES


Revisamos si existe algun nulo en el datframe `df_am_rutas1`:

In [7]:
df_am_rutas1.isnull().values.any()

True

Una vez que conocemos que existen nulos en el dataframe, procedemos a conocer la cantidad total de ellos:

In [8]:
df_am_rutas1.isnull().values.sum()

18

Como son pocas columnas podemos hacer una revisión del la sumatoria de nulos por columna para ver en cuales variables se encuentran los mismos:

In [9]:
df_am_rutas1.isnull().sum()

cod_ruta               0
cod_aeropuerto_ori     0
cod_aeropuerto_des     0
cod_aerolinea          0
equipamiento          18
dtype: int64

### Opción 1:

Podemos ver que todos los nulos del dataframe se encuentran en la variable equipamiento. Si observamos con detenimiento, en nuestra tabla (`HC_RUTAS`) no existe una columna con ese nombre, y esto es porque en nuestro modelo de datos la relación entre rutas y equipamientos viene dada por una tabla adicional de nombre `CO_RUTAS_EQUIPAMIENTOS`. Con lo cual los datos de esta columna en el dataframe no son de utilidad, por lo que podemos prescindir de la misma. Y al hacer esto, pues no existirian nulos en nuestro dataframe por lo que no hace falta hacer ningun reemplazo.

Procedemos a eliminar la columna `equipamiento`:

In [10]:
df_am_rutas1.drop('equipamiento', axis=1, inplace=True)

In [11]:
df_am_rutas1.head()

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea
0,1,2965,2990,410
1,2,2966,2990,410
2,3,2966,2962,410
3,4,2968,2990,410
4,5,2968,4078,410


Como podemos comprobar ya no existen nulos en el dataframe

In [12]:
df_am_rutas1.isnull().values.any()

False

### Opción 2:

Primero determinamos la longitud del campo cod_equipamiento a partir de la revisión de la tabla `DM_EQUIPAMIENTOS`

In [13]:
cursor = conn.connect()
descripcion_tabla = cursor.execute("DESCRIBE DM_EQUIPAMIENTOS").fetchall()
cursor.close()
for elemento in descripcion_tabla:
    print("{:<20}{:<20}{}".format(elemento[0],elemento[1],elemento[2]))

cod_equipamiento    varchar(3)          NO
desc_equipamiento   varchar(100)        YES


Luego vamos a realizar la sustitución de los 18 valores nulos en el dataframe por el valor `Z99` (ya que el campo cod_equipamiento en la tabla `DM_EQUIPAMIENTOS` es de longitud 3) con el siguiente comando:

In [None]:
df_am_rutas1.loc[df_am_rutas1.equipamiento.isnull(), 'equipamiento'] = 'Z99'

Si nos fueramos por esta opción tendriamos que tener en cuenta eliminar la columna `equipamiento` antes de insertar a la base de datos.

## Paso 3:

Validación de integridad con los datos de aeropuertos:

Para realizar la comprobación de integridad, obtenemos los datos de aeropuertos a partir de la tabla `DM_AEROPUERTOS`:

In [14]:
df_am_tabla_aeropuertos = pd.read_sql_table('DM_AEROPUERTOS', conn)

In [15]:
df_am_tabla_aeropuertos.head()

Unnamed: 0,COD_AEROPUERTO,NOMBRE_AEROPUERTO,CIUDAD_AEROPUERTO,PAIS_AEROPUERTO,COD_PAIS,COD_IATA_FAA,COD_ICAO,LATITUD,LONGITUD,ALTITUD,ZONA_HORARIA,DST,ZONA_HORARIA_TZ
0,1,Goroka,Goroka,Papua New Guinea,PNG,GKA,AYGA,-6.081689,145.391881,5282.0,10.0,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,PNG,MAG,AYMD,-5.207083,145.7887,20.0,10.0,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,PNG,HGU,AYMH,-5.826789,144.295861,5388.0,10.0,U,Pacific/Port_Moresby
3,4,Nadzab,Nadzab,Papua New Guinea,PNG,LAE,AYNZ,-6.569828,146.726242,239.0,10.0,U,Pacific/Port_Moresby
4,5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,PNG,POM,AYPY,-9.443383,147.22005,146.0,10.0,U,Pacific/Port_Moresby


Para eviatar tomar columnas demas que no aporten valor y que despues sea necesario eliminar para hacer la inserción a base de datos, es preferible realizar una query con solo los campos que vamamos a necesitar,

In [16]:
df_am_aeropuertos = pd.read_sql_query('SELECT COD_AEROPUERTO as verificado_cod_aeropuerto, NOMBRE_AEROPUERTO as aeropuerto from DM_AEROPUERTOS', conn)

In [17]:
df_am_aeropuertos.head()

Unnamed: 0,verificado_cod_aeropuerto,aeropuerto
0,1,Goroka
1,2,Madang
2,3,Mount Hagen
3,4,Nadzab
4,5,Port Moresby Jacksons Intl


En este paso es necesario realizar un cruce con el df_am_aeropuertos, ya que queremeos verificar la existencia tanto de los aeropuertos de origen como los aeropuertos destino:

Primero hacemos un cruce por el código de los aeropuertos de origen:

In [18]:
df_am_rutas2 = pd.merge(left=df_am_rutas1, right=df_am_aeropuertos,
                      how='left', left_on='cod_aeropuerto_ori', right_on='verificado_cod_aeropuerto')

In [19]:
df_am_rutas2.head()

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,verificado_cod_aeropuerto,aeropuerto
0,1,2965,2990,410,2965,Sochi
1,2,2966,2990,410,2966,Astrakhan
2,3,2966,2962,410,2966,Astrakhan
3,4,2968,2990,410,2968,Balandino
4,5,2968,4078,410,2968,Balandino


Cambiamos el nombre de las columnas para hacer el dataframe más legible

In [20]:
df_am_rutas2.rename(columns={'verificado_cod_aeropuerto':'verificado_cod_aeropuerto_ori','aeropuerto':'aeropuerto_ori'}, inplace=True)

Realizamos un segundo cruce, ahora por el código del aeropuerto de destino

In [21]:
df_am_rutas3 = pd.merge(left=df_am_rutas2, right=df_am_aeropuertos,
                      how='left', left_on='cod_aeropuerto_des', right_on='verificado_cod_aeropuerto')

Nuevamente cambiamos el nombre de las columnas por legibilidad

In [22]:
df_am_rutas3.rename(columns={'verificado_cod_aeropuerto':'verificado_cod_aeropuerto_des','aeropuerto':'aeropuerto_des'}, inplace=True)

Finalmente vemos el dataframe resultante, donde podemos ver las 4 columnas agregadas, que nos muestra los nombres tanto de los aeropuertos de origen como de destino resultantes de los cruces anteriores.

In [24]:
df_am_rutas3.head()

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,verificado_cod_aeropuerto_ori,aeropuerto_ori,verificado_cod_aeropuerto_des,aeropuerto_des
0,1,2965,2990,410,2965,Sochi,2990,Kazan
1,2,2966,2990,410,2966,Astrakhan,2990,Kazan
2,3,2966,2962,410,2966,Astrakhan,2962,Mineralnyye Vody
3,4,2968,2990,410,2968,Balandino,2990,Kazan
4,5,2968,4078,410,2968,Balandino,4078,Tolmachevo


Procedemos a revisar si existe algun valor nulo en las columnas de verificación de codigo de aeropuerto de origen. Podriamos haber hecho lo mismo sobre la columna `aeropuerto_ori`.

In [25]:
df_am_rutas3.verificado_cod_aeropuerto_ori.isnull().sum()

0

Mismo paso anterior solo que sobre la columna del código de aeropuerto de destino

In [26]:
df_am_rutas3.verificado_cod_aeropuerto_des.isnull().sum()

0

Como no existen nulos en ninguno de los dos campos, no se realiza ningun reemplazo.

## Paso 4:

Realizamos los mismos procedimientos para la verificación de integridad de los aeropuertos de origen y destino, pero ahora sobre las aerolineas.

In [27]:
df_am_tabla_aerolineas = pd.read_sql_table('DM_AEROLINEAS', conn)

In [28]:
df_am_tabla_aerolineas.head()

Unnamed: 0,COD_AEROLINEA,NOMBRE_AEROLINEA,COD_PAIS,COD_IATA,COD_ICAO,IDENTIFICACION,PAIS_AEROLINEA,SW_ACTIVA
0,1,Private flight,Z99,Z9,Z99,I999,,1
1,2,135 Airways,USA,Z9,GNL,GENERAL,United States,0
2,3,1Time Airline,ZAF,1T,RNX,NEXTIME,South Africa,1
3,4,2 Sqn No 1 Elementary Flying Training School,GBR,Z9,WYT,I999,United Kingdom,0
4,5,213 Flight Unit,RUS,Z9,TFU,I999,Russia,0


Primero creamos un dataframe a partir de las columnas `COD_AEROLINEA` y `NOMBRE_AEROLINEA` de la tabla `DM_AEROLINEAS`

In [29]:
df_am_aerolineas = pd.read_sql_query('SELECT COD_AEROLINEA as verificado_cod_aerolinea, NOMBRE_AEROLINEA as aerolinea from DM_AEROLINEAS', conn)

In [30]:
df_am_aerolineas.head()

Unnamed: 0,verificado_cod_aerolinea,aerolinea
0,1,Private flight
1,2,135 Airways
2,3,1Time Airline
3,4,2 Sqn No 1 Elementary Flying Training School
4,5,213 Flight Unit


Realizamos el cruce entre nuetros dataframe utilizado para verificar la integridad de los aeropuertos con el dataframe de las aerolineas 

In [31]:
df_am_rutas4 = pd.merge(left=df_am_rutas3, right=df_am_aerolineas,
                      how='left', left_on='cod_aerolinea', right_on='verificado_cod_aerolinea')

In [32]:
df_am_rutas4

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,verificado_cod_aeropuerto_ori,aeropuerto_ori,verificado_cod_aeropuerto_des,aeropuerto_des,verificado_cod_aerolinea,aerolinea
0,1,2965,2990,00410,2965,Sochi,2990,Kazan,00410,Aerocondor
1,2,2966,2990,00410,2966,Astrakhan,2990,Kazan,00410,Aerocondor
2,3,2966,2962,00410,2966,Astrakhan,2962,Mineralnyye Vody,00410,Aerocondor
3,4,2968,2990,00410,2968,Balandino,2990,Kazan,00410,Aerocondor
4,5,2968,4078,00410,2968,Balandino,4078,Tolmachevo,00410,Aerocondor
...,...,...,...,...,...,...,...,...,...,...
67658,67659,6334,3341,04178,6334,Whyalla Airport,3341,Adelaide Intl,04178,Regional Express
67659,67660,4029,2912,19016,4029,Domododevo,2912,Manas,19016,Apache Air
67660,67661,2912,4029,19016,2912,Manas,4029,Domododevo,19016,Apache Air
67661,67662,2912,2913,19016,2912,Manas,2913,Osh,19016,Apache Air


Revisamos si existen nulos en la columna de verificación del código de aerolinea

In [33]:
df_am_rutas4.verificado_cod_aerolinea.isnull().sum()

1

Podemos ver que el resultado nos indica la presencia de un valor nulo, el cual vamos a identificar

In [34]:
df_am_rutas4[df_am_rutas4.verificado_cod_aerolinea.isnull()]

Unnamed: 0,cod_ruta,cod_aeropuerto_ori,cod_aeropuerto_des,cod_aerolinea,verificado_cod_aeropuerto_ori,aeropuerto_ori,verificado_cod_aeropuerto_des,aeropuerto_des,verificado_cod_aerolinea,aerolinea
11,12,2922,6969,20410,2922,Heydar Aliyev,6969,Begishevo,,


es el código de aerolinea 20410, el cual no existe en la tabla `DM_AEROLINEAS` y por lo tanto será reemplazado por el valor `Z9999`(ya que dicho campo es de longitud 5 como pudimos ver anteriormente )

In [35]:
df_am_rutas4.loc[df_am_rutas4.verificado_cod_aerolinea.isnull(), 'cod_aerolinea'] = 'Z9999'

Seleccionamos unicamente aquellas columnas del dataframe que coinciden con las de la tabla `HC_RUTAS` :

In [36]:
df_am_rutas4[['cod_ruta','cod_aeropuerto_ori','cod_aeropuerto_des','cod_aerolinea']].to_sql('HC_RUTAS', con = conn, if_exists = 'append', index=False)

67663

## Pasos Adicionales:

### Paso 6: 

Primero leemos los datos de la tabla `HC_RUTAS` y creamos un dataframe

In [37]:
df_am_paso6 = pd.read_sql_table('HC_RUTAS', conn)

In [38]:
df_am_paso6.head()

Unnamed: 0,cod_ruta,cod_aerolinea,cod_aeropuerto_ori,cod_aeropuerto_des
0,1,410,2965,2990
1,2,410,2966,2990
2,3,410,2966,2962
3,4,410,2968,2990
4,5,410,2968,4078


Despues procedemos a hacer una agregación por el código del aeropuerto de origen, realizando un recuento del numero de codigos de ruta asociado a dichos aeropuertos.

In [53]:
df_am_paso6_grouped = df_am_paso6.groupby('cod_aeropuerto_ori').agg(count_rutas = ('cod_ruta', 'count'))

In [54]:
df_am_paso6_grouped.head()

Unnamed: 0_level_0,count_rutas
cod_aeropuerto_ori,Unnamed: 1_level_1
1,5
2,8
3,10
4,11
5,52


Finalmente creamos un nuevo dataframe donde ordenamos los aeropuertos de origen de acuerdo al numero de rutas que tiene cada uno

In [41]:
df_am_paso6_grouped_sorted = df_am_paso6_grouped.sort_values('count_rutas', ascending=False)

In [42]:
df_am_paso6_grouped_sorted.head()

Unnamed: 0_level_0,count_rutas
cod_aeropuerto_ori,Unnamed: 1_level_1
3682,915
3830,558
3364,535
507,527
1382,524


Ahora vemos la forma de resolverlo utilizando directamente una query de SQL

In [43]:
query_paso6 = """
SELECT 
	cod_aeropuerto_ori, 
    COUNT(*) as count_rutas
FROM DW_AERO.HC_RUTAS
GROUP BY cod_aeropuerto_ori
ORDER BY count_rutas DESC;
"""

In [44]:
df_am_paso6_query = pd.read_sql_query(query_paso6, conn)

In [45]:
df_am_paso6_query.head()

Unnamed: 0,cod_aeropuerto_ori,count_rutas
0,3682,915
1,3830,558
2,3364,535
3,507,527
4,1382,524


### Paso 7:

Queremos obtener el mismo resultado anterior, pero con los nombres de los aeropuertos.

Primero procedemos a traernos la información de los nombres de aeropuertos a partir de la tabla `DM_AEROPUERTOS`

In [55]:
df_am_paso7_aeropuertos = pd.read_sql_table('DM_AEROPUERTOS', conn)

In [56]:
df_am_paso7_aeropuertos.head()

Unnamed: 0,COD_AEROPUERTO,NOMBRE_AEROPUERTO,CIUDAD_AEROPUERTO,PAIS_AEROPUERTO,COD_PAIS,COD_IATA_FAA,COD_ICAO,LATITUD,LONGITUD,ALTITUD,ZONA_HORARIA,DST,ZONA_HORARIA_TZ
0,1,Goroka,Goroka,Papua New Guinea,PNG,GKA,AYGA,-6.081689,145.391881,5282.0,10.0,U,Pacific/Port_Moresby
1,2,Madang,Madang,Papua New Guinea,PNG,MAG,AYMD,-5.207083,145.7887,20.0,10.0,U,Pacific/Port_Moresby
2,3,Mount Hagen,Mount Hagen,Papua New Guinea,PNG,HGU,AYMH,-5.826789,144.295861,5388.0,10.0,U,Pacific/Port_Moresby
3,4,Nadzab,Nadzab,Papua New Guinea,PNG,LAE,AYNZ,-6.569828,146.726242,239.0,10.0,U,Pacific/Port_Moresby
4,5,Port Moresby Jacksons Intl,Port Moresby,Papua New Guinea,PNG,POM,AYPY,-9.443383,147.22005,146.0,10.0,U,Pacific/Port_Moresby


Luego cruzamos nuestro dataframe agrupado y ordenado con el dataframe con la información de aeropuertos. Para evitra mostrar información innecesaria, solo seleccionamos las columnas que nos interesan: Nombre del aeropuerto y numero de rutas

In [57]:
df_am_paso7_grouped_sorted = pd.merge(left=df_am_paso6_grouped_sorted, right=df_am_paso7_aeropuertos,
                      how='left', left_on='cod_aeropuerto_ori', right_on='COD_AEROPUERTO')[['NOMBRE_AEROPUERTO', 'count_rutas']]

In [58]:
df_am_paso7_grouped_sorted.head()

Unnamed: 0,NOMBRE_AEROPUERTO,count_rutas
0,Hartsfield Jackson Atlanta Intl,915
1,Chicago Ohare Intl,558
2,Capital Intl,535
3,Heathrow,527
4,Charles De Gaulle,524


Ahora vemos la forma de resolverlo utilizando directamente una query de SQL

In [50]:
query_paso7 = """
SELECT 
	aeropuertos.NOMBRE_AEROPUERTO as nombre_aeropuerto_ori, 
    COUNT(*) as count_rutas
FROM DW_AERO.HC_RUTAS as rutas
JOIN DW_AERO.DM_AEROPUERTOS as aeropuertos on aeropuertos.COD_AEROPUERTO = rutas.cod_aeropuerto_ori 
GROUP BY nombre_aeropuerto
ORDER BY count_rutas DESC;
"""

In [51]:
df_am_paso7_query = pd.read_sql_query(query_paso7, conn)

In [52]:
df_am_paso7_query.head()

Unnamed: 0,nombre_aeropuerto_ori,count_rutas
0,Hartsfield Jackson Atlanta Intl,915
1,Chicago Ohare Intl,558
2,Capital Intl,535
3,Heathrow,527
4,Charles De Gaulle,524
