# CSV Reducer

## Intención de este notebook

Tomar el CSV final generado en csv_generator e instanciarlo durante 10 días a partir de la fecha actual, reduciendo la cantidad de vuelos con el par origen-destino repetido.

## Importación de librerías

In [1]:
import pandas as pd
import datetime

## Procesamiento de los datos

### Carga del archivo csv

In [2]:
info_vuelos = pd.read_csv('../csv/info_vuelos.csv')
info_vuelos.head(10)

Unnamed: 0,aerolinea,origen,destino,hora_salida,hora_llegada,duracion,precio,asientos_disponibles
0,American,Allentown,Charlotte,2019-03-07T06:03,2019-03-07T08:58,175,577,0
1,American,Allentown,Charlotte,2019-03-07T11:26,2019-03-07T13:31,125,577,2
2,American,Allentown,Charlotte,2019-03-07T18:43,2019-03-07T20:55,132,577,1
3,American,Allentown,Charlotte,2019-03-08T06:07,2019-03-08T08:31,144,577,2
4,American,Allentown,Charlotte,2019-03-08T11:37,2019-03-08T13:44,127,577,1
5,American,Allentown,Charlotte,2019-03-08T18:50,2019-03-08T21:00,130,577,3
6,American,Allentown,Charlotte,2019-03-09T06:12,2019-03-09T08:24,132,577,0
7,American,Allentown,Charlotte,2019-03-09T11:37,2019-03-09T13:44,127,577,3
8,American,Allentown,Charlotte,2019-03-09T18:50,2019-03-09T21:00,130,577,1
9,American,Allentown,Charlotte,2019-03-10T06:12,2019-03-10T08:24,132,577,3


### Vuelos con distinto par origen-destino

Considerando la cantidad de vuelos repetidos con una diferencia mínima de horario, decidimos tomar un máximo de 5 vuelos con el mismo par origen-destino

In [3]:
"Cantidad de vuelos diferentes: {}".format(len(info_vuelos.groupby(by=['origen', 'destino'])))

'Cantidad de vuelos diferentes: 3655'

In [4]:
for index, group in info_vuelos.groupby(by=['origen', 'destino']):
    display(group.head(1))
    break

Unnamed: 0,aerolinea,origen,destino,hora_salida,hora_llegada,duracion,precio,asientos_disponibles
103786,British Airways,Aalborg,Aarhus,2019-03-11T17:37,2019-03-11T19:15,98,559,2


In [5]:
nuevo_dataframe = info_vuelos.groupby(by=['origen', 'destino']).head(5).reset_index(drop=True)

In [6]:
nuevo_dataframe.sample(6)

Unnamed: 0,aerolinea,origen,destino,hora_salida,hora_llegada,duracion,precio,asientos_disponibles
5375,Alaska,Seattle,Santa Rosa,2019-03-10T17:50,2019-03-10T19:20,90,981,1
13644,Allegiant,Plattsburgh,Fort Lauderdale,2019-03-15T13:46,2019-03-15T14:39,53,245,2
3513,Air France,Detroit,Atlanta,2019-03-10T11:32,2019-03-10T15:13,221,1054,4
7261,Air China,Chengdu,Harbin,2019-03-13T09:06,2019-03-13T16:08,422,1209,2
2471,Air Canada,Winnipeg,Montreal,2019-03-07T07:29,2019-03-07T11:05,216,930,1
759,American,Gainesville,Miami,2019-03-07T06:21,2019-03-07T07:56,95,1117,0


### Actualización de la fecha de los vuelos

In [7]:
nuevo_dataframe.loc[0]['hora_salida']

'2019-03-07T06:03'

In [8]:
date_time_str = nuevo_dataframe.loc[0]['hora_salida']
date_time_obj = datetime.datetime.strptime(date_time_str, "%Y-%m-%dT%H:%M")
date_time_obj

datetime.datetime(2019, 3, 7, 6, 3)

In [9]:
date_time_str = nuevo_dataframe.loc[0]['hora_salida']
date_time_obj = datetime.datetime.strptime(date_time_str, "%Y-%m-%dT%H:%M")
date_time_obj = date_time_obj.replace(year=2040)
date_time_obj.strftime("%Y-%m-%dT%H:%M")

'2040-03-07T06:03'

In [10]:
datetime.datetime.now()

datetime.datetime(2019, 6, 24, 15, 23, 8, 499074)

In [11]:
def change_days(salida, llegada):
    now = datetime.datetime.now()
    date_time_salida = datetime.datetime.strptime(salida, "%Y-%m-%dT%H:%M")
    date_time_llegada = datetime.datetime.strptime(llegada, "%Y-%m-%dT%H:%M")
    diferencia_dias = date_time_llegada.day - date_time_salida.day
    if(diferencia_dias > 0):
        date_time_llegada = date_time_llegada.replace(day=(now.day + diferencia_dias))
    else:
        date_time_llegada = date_time_llegada.replace(day=now.day)
    date_time_llegada = date_time_llegada.replace(month=now.month)
    date_time_salida = date_time_salida.replace(month=now.month)
    date_time_salida = date_time_salida.replace(day=now.day)
    return pd.Series([date_time_salida.strftime("%Y-%m-%dT%H:%M"), date_time_llegada.strftime("%Y-%m-%dT%H:%M")])

In [12]:
salida = nuevo_dataframe.loc[0]['hora_salida']
print(salida)
llegada = nuevo_dataframe.loc[0]['hora_llegada']
llegada = '2019-03-08T08:58'
print(llegada)

2019-03-07T06:03
2019-03-08T08:58


In [13]:
change_days(salida, llegada)

0    2019-06-24T06:03
1    2019-06-25T08:58
dtype: object

In [14]:
nuevo_dataframe[['hora_salida', 'hora_llegada']] = nuevo_dataframe[['hora_salida', 'hora_llegada']].apply(lambda x: change_days(x.hora_salida, x.hora_llegada), axis=1)

In [15]:
nuevo_dataframe.head(3)

Unnamed: 0,aerolinea,origen,destino,hora_salida,hora_llegada,duracion,precio,asientos_disponibles
0,American,Allentown,Charlotte,2019-06-24T06:03,2019-06-24T08:58,175,577,0
1,American,Allentown,Charlotte,2019-06-24T11:26,2019-06-24T13:31,125,577,2
2,American,Allentown,Charlotte,2019-06-24T18:43,2019-06-24T20:55,132,577,1


### Generación de nuevos dataframes aumentando la fecha

In [16]:
otro_dataframe = nuevo_dataframe.copy()

In [17]:
otro_dataframe.head(2)

Unnamed: 0,aerolinea,origen,destino,hora_salida,hora_llegada,duracion,precio,asientos_disponibles
0,American,Allentown,Charlotte,2019-06-24T06:03,2019-06-24T08:58,175,577,0
1,American,Allentown,Charlotte,2019-06-24T11:26,2019-06-24T13:31,125,577,2


In [18]:
def sum_day(salida, llegada):
    date_time_salida = datetime.datetime.strptime(salida, "%Y-%m-%dT%H:%M")
    date_time_llegada = datetime.datetime.strptime(llegada, "%Y-%m-%dT%H:%M")
    
    date_time_salida = date_time_salida.replace(day = date_time_salida.day + 1)
    date_time_llegada = date_time_llegada.replace(day = date_time_llegada.day + 1)
    
    return pd.Series([date_time_salida.strftime("%Y-%m-%dT%H:%M"), date_time_llegada.strftime("%Y-%m-%dT%H:%M")])

In [19]:
salida = nuevo_dataframe.loc[0]['hora_salida']
print(salida)
llegada = nuevo_dataframe.loc[0]['hora_llegada']
llegada = '2019-03-08T08:58'
print(llegada)

2019-06-24T06:03
2019-03-08T08:58


In [20]:
sum_day(salida, llegada)

0    2019-06-25T06:03
1    2019-03-09T08:58
dtype: object

In [21]:
otro_dataframe[['hora_salida', 'hora_llegada']] = otro_dataframe[['hora_salida', 'hora_llegada']].apply(lambda x: sum_day(x.hora_salida, x.hora_llegada), axis=1)

In [22]:
nuevo_dataframe.head(2)

Unnamed: 0,aerolinea,origen,destino,hora_salida,hora_llegada,duracion,precio,asientos_disponibles
0,American,Allentown,Charlotte,2019-06-24T06:03,2019-06-24T08:58,175,577,0
1,American,Allentown,Charlotte,2019-06-24T11:26,2019-06-24T13:31,125,577,2


In [23]:
otro_dataframe.head(2)

Unnamed: 0,aerolinea,origen,destino,hora_salida,hora_llegada,duracion,precio,asientos_disponibles
0,American,Allentown,Charlotte,2019-06-25T06:03,2019-06-25T08:58,175,577,0
1,American,Allentown,Charlotte,2019-06-25T11:26,2019-06-25T13:31,125,577,2


### Iteración de 10 días y concatenación de todos los dataframes

In [None]:
otro_dataframe = nuevo_dataframe.copy()
dataframe_final = nuevo_dataframe.copy()
for x in range(10):
    otro_dataframe[['hora_salida', 'hora_llegada']] = otro_dataframe[['hora_salida', 'hora_llegada']].apply(lambda x: sum_day(x.hora_salida, x.hora_llegada), axis=1)
    dataframe_final = pd.concat([dataframe_final, otro_dataframe]).reset_index(drop=True)
    print(len(otro_dataframe))
    print(len(dataframe_final))
    print("--------")

In [None]:
len(nuevo_dataframe)*10 == len(dataframe_final)

In [None]:
len(dataframe_final)

In [None]:
dataframe_final.sample(10)

## Exportación del CSV final

In [None]:
dataframe_final.to_csv('../csv/info_vuelos_final.csv', index = None, header = True)