# CSV Generator

In [1]:
import pandas as pd
import numpy as np
from math import sin, cos, sqrt, atan2, radians

### Carga del archivo pickle

In [28]:
info_vuelos = pd.read_pickle('pkl/info_vuelos.pkl')
info_vuelos = info_vuelos.drop(columns=['vuelo', 'terminal_salida', 'puerta_salida', 'terminal_llegada', 'puerta_llegada'])
info_vuelos.sample(5)

Unnamed: 0,aerolinea,origen,destino,fecha_salida,horario_salida,fecha_llegada,horario_llegada
134505,Etihad,Abu Dabi,Pekín-Capital,"[sabado, 16, marzo]",21:18,"[domingo, 17, marzo]",23:29
20182,American,Chicago O'Hare,Toledo,"[viernes, 8, marzo]",16:40,"[viernes, 8, marzo]",18:38
52483,Aerolíneas Argentinas,Roma Fiumicino,Buenos Aires Ezeiza,"[jueves, 14, marzo]",20:43,"[viernes, 15, marzo]",00:38
65095,Alitalia,Clermont-Ferrand,París Charles de Gaulle,"[miercoles, 13, marzo]",19:54,"[miercoles, 13, marzo]",06:09
46866,AirAsia,Archipiélago Langkawi,Kuala Lumpur,"[martes, 12, marzo]",15:30,"[martes, 12, marzo]",18:35


In [29]:
info_vuelos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 344124 entries, 0 to 196239
Data columns (total 7 columns):
aerolinea          344124 non-null object
origen             344124 non-null object
destino            344124 non-null object
fecha_salida       344124 non-null object
horario_salida     344124 non-null object
fecha_llegada      344124 non-null object
horario_llegada    344124 non-null object
dtypes: object(7)
memory usage: 21.0+ MB


## Procesamiento de los datos

### Eliminación de espacios

In [30]:
info_vuelos['aerolinea'] = info_vuelos['aerolinea'].apply(lambda x: x.strip())
info_vuelos['origen'] = info_vuelos['origen'].apply(lambda x: x.strip())
info_vuelos['destino'] = info_vuelos['destino'].apply(lambda x: x.strip())
info_vuelos.sample(5)

Unnamed: 0,aerolinea,origen,destino,fecha_salida,horario_salida,fecha_llegada,horario_llegada
144581,Gol,Aracaju,São Paulo Guarulhos,"[viernes, 15, marzo]",06:50,"[viernes, 15, marzo]",10:49
10424,American,Florence,Charlotte,"[domingo, 10, marzo]",08:24,"[domingo, 10, marzo]",10:44
14332,American,Londres Heathrow,Bangalore,"[sabado, 9, marzo]",13:55,"[domingo, 10, marzo]",05:00
15631,American,Kansas City,Charlotte,"[viernes, 8, marzo]",19:00,"[viernes, 8, marzo]",20:25
71332,British Airways,Amán,Londres Heathrow,"[lunes, 11, marzo]",08:01,"[lunes, 11, marzo]",09:52


### Conversión de fechas y horarios para Neo4j

In [31]:
# Obtengo el numero del mes
def get_month_number(month):
    months = {'enero': '01', 'febrero': '02', 'marzo': '03', 'abril': '04', 'mayo': '05', 'junio': '06',\
              'julio': '07', 'agosto': '08', 'septiembre': '09]', 'octubre': 10, 'noviembre': 11, 'diciembre': 12}
    
    return months[month]

# Obtengo la fecha en str (YYYY-MM-DD)
def get_date(array):
    day = str(array[1])
    if len(day) == 1:
        day = '0' + day
    month = get_month_number(array[2])
    date = '2019' + '-' + month + '-' + day
    
    return date

# Actualizo los campos correspondientes
info_vuelos['fecha_salida'] = info_vuelos['fecha_salida'].apply(lambda x: get_date(x))
info_vuelos['fecha_llegada'] = info_vuelos['fecha_llegada'].apply(lambda x: get_date(x))

info_vuelos.sample(5)

Unnamed: 0,aerolinea,origen,destino,fecha_salida,horario_salida,fecha_llegada,horario_llegada
35004,Azul,São Paulo Viracopos,Belo Horizonte Confins,2019-03-09,20:55,2019-03-09,22:10
54153,Alaska,Juneau,Anchorage,2019-03-10,15:35,2019-03-10,17:40
75182,British Airways,Mánchester,Billund,2019-03-11,08:45,2019-03-11,15:20
40396,Air France,Indianápolis,Atlanta,2019-03-11,08:00,2019-03-11,09:10
95624,China Southern,Chongqing,Cantón,2019-03-12,17:00,2019-03-12,18:50


### Duración del vuelo (en minutos)

In [34]:
def get_duracion(departure_date, departure_hour, arrival_date, arrival_hour):
    dep_hour = int(departure_hour.replace(':', ''))
    arr_hour = int(arrival_hour.replace(':', ''))
    diff = arr_hour - dep_hour
    return diff

# TODO: completar esto
get_duracion('', '20:55', '', '22:10')

35

### Aeropuerto

In [7]:
aeropuertos = pd.read_csv('../csv/aeropuertos.csv', index_col=False, names=['codigo', 'aeropuerto', 'capital', 'pais', 'latitud', 'longitud', 'numero1', 'numero2', 'continente'])
aeropuertos.head(2)

Unnamed: 0,codigo,aeropuerto,capital,pais,latitud,longitud,numero1,numero2,continente
0,GKA,Goroka Airport,Goroka,Papua New Guinea,-6.08169,145.392,5282.0,10.0,Pacific/Port_Moresby
1,MAG,Madang Airport,Madang,Papua New Guinea,-5.20708,145.789,20.0,10.0,Pacific/Port_Moresby


### Info_vuelos

In [None]:
# TODO: borrar esto, ya cargo info_vuelos.pkl directamente en este notebook -- dps borrar info_vuelos.csv

In [9]:
info_vuelos = pd.read_csv("../csv/info_vuelos.csv")
info_vuelos.head(2)

Unnamed: 0,aerolinea,origen,destino,fecha_salida,horario_salida,fecha_llegada,horario_llegada
0,Georgian Airways,Ámsterdam,Tiflis,"['jueves', '7', 'marzo']",19:00,"['viernes', '8', 'marzo']",02:30
1,Georgian Airways,Ámsterdam,Tiflis,"['sabado', '9', 'marzo']",10:20,"['sabado', '9', 'marzo']",17:50


### Seteo a cada vuelo (cada fila) el codigo del aeropueto de origen y de destino 

In [19]:
a = info_vuelos.merge(aeropuertos[['codigo', 'capital']], left_on='origen', right_on='capital', how='left')
a.dropna(subset=['codigo'], inplace=True)
a = a[['aerolinea', 'origen', 'codigo', 'destino', 'fecha_salida', 'horario_salida', 'fecha_llegada', 'horario_llegada']]
a.columns = ['aerolinea', 'origen', 'cod_origen', 'destino', 'fecha_salida', 'horario_salida', 'fecha_llegada', 'horario_llegada']
a = a.merge(aeropuertos[['codigo', 'capital']], left_on='destino', right_on='capital', how='left')
a.dropna(subset=['codigo'], inplace=True)
a = a[['aerolinea', 'origen', 'cod_origen', 'destino', 'codigo', 'fecha_salida', 'horario_salida', 'fecha_llegada', 'horario_llegada']]
a.columns = ['aerolinea', 'origen', 'cod_origen', 'destino', 'cod_destino', 'fecha_salida', 'horario_salida', 'fecha_llegada', 'horario_llegada']

In [54]:
a.head(1)

Unnamed: 0,aerolinea,origen,cod_origen,destino,cod_destino,fecha_salida,horario_salida,fecha_llegada,horario_llegada
2,American,Allentown,ABE,Charlotte,CLT,"['jueves', '7', 'marzo']",06:03,"['jueves', '7', 'marzo']",08:58


### Armo las funciones

In [106]:
aeropuertos = pd.read_csv('../csv/aeropuertos.csv', index_col=False, names=['codigo', 'aeropuerto', 'capital', 'pais', 'latitud', 'longitud', 'numero1', 'numero2', 'continente'])

def get_coordenadas_aeropueto(codigo_aeropueto):
    aeropueto_info = aeropuertos[aeropuertos.codigo == codigo_aeropueto].head(1)
    return float(aeropueto_info.latitud.item()), float(aeropueto_info.longitud.item())


def calcular_distancia(aeropuesto_origen, aeropuesto_destino):
    aeropuerto_origen_latitud, aeropuerto_origen_longitud = get_coordenadas_aeropueto(aeropuesto_origen)
    aeropuerto_destino_latitud, aeropuerto_destino_longitud = get_coordenadas_aeropueto(aeropuesto_destino)
    
    # approximate radius of earth in km
    R = 6373.0
    
    dlon = aeropuerto_destino_longitud - aeropuerto_origen_longitud
    dlat = aeropuerto_destino_latitud - aeropuerto_origen_latitud
    
    a = sin(dlat / 2)**2 + cos(aeropuerto_origen_latitud) * cos(aeropuerto_destino_latitud) * sin(dlon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))

    distance = R * c

    #print("Result:", distance)
    return distance

def calcular_precio(distancia_recorrida):
    #precio por kilometro recorrido para un pasajero
    precio_dolares_por_km = 0.067
    precio = distancia_recorrida*precio_dolares_por_km
    iva = 0.21*precio
    return precio + iva

### Calculo la distancia entre aeropuetos

In [107]:
calcular_distancia('ABE', 'CLT')

7119.601860986828

In [108]:
#a['distancia_recorrida'] = a.apply(lambda row: calcular_distancia(row.cod_origen, row.cod_destino), axis=1)
a.head(1)

Unnamed: 0,aerolinea,origen,cod_origen,destino,cod_destino,fecha_salida,horario_salida,fecha_llegada,horario_llegada,distancia_recorrida,precio
2,American,Allentown,ABE,Charlotte,CLT,"['jueves', '7', 'marzo']",06:03,"['jueves', '7', 'marzo']",08:58,7119.601861,23921.862253


### Calculo el precio del vuelo

In [109]:
calcular_precio(a.head(1).distancia_recorrida.item())

577.1861228702021

In [110]:
#a['precio'] = a.apply(lambda row: calcular_precio(row.distancia_recorrida), axis=1)
a.head(1)

Unnamed: 0,aerolinea,origen,cod_origen,destino,cod_destino,fecha_salida,horario_salida,fecha_llegada,horario_llegada,distancia_recorrida,precio
2,American,Allentown,ABE,Charlotte,CLT,"['jueves', '7', 'marzo']",06:03,"['jueves', '7', 'marzo']",08:58,7119.601861,577.186123


### Seteo los asientos disponibles

In [115]:
a['asientos_disponibles'] = a.apply(lambda x: np.random.randint(0, 5), axis=1)
a.sample(2)

Unnamed: 0,aerolinea,origen,cod_origen,destino,cod_destino,fecha_salida,horario_salida,fecha_llegada,horario_llegada,distancia_recorrida,precio,asientos_dispobiles
238081,American,Charlotte,CLT,Cincinnati,CVG,"['sabado', '9', 'marzo']",11:20,"['sabado', '9', 'marzo']",00:35,12988.631895,1052.988388,1
102004,Air France,Atlanta,RYY,Pensacola,NPA,"['martes', '12', 'marzo']",15:24,"['martes', '12', 'marzo']",16:41,10477.28767,849.393711,1


In [None]:
# TODO:
# - Pasar precio a INT
# - Eliminar distancia, cod_origen y cod_destino
# - Agregar duracion
# - Cambiar nombre del csv exportado

### Guardo el nuevo csv

In [117]:
a.to_csv('../csv/info_vuelos_full.csv', index = None, header = True)