# Amadeus Data Science Challenge

## Exercise 2. Top 10 arrival airports in the world in 2013 (using the bookings file)

- Arrival airport is the column arr_port. It is the IATA code for the airport
- To get the total number of passengers for an airport, you can sum the column pax, grouping by arr_port. Note that there is negative pax. That corresponds to cancelations. So to get the total number of passengers that have actually booked, you should sum including the negatives (that will remove the canceled bookings).
- Print the top 10 arrival airports in the standard output, including the number of passengers.

- **Bonus point**: Get the name of the city or airport corresponding to that airport (programatically, we suggest to have a look at GeoBases in Github)
- **Bonus point**: Solve this problem using pandas (instead of any other approach)

## Estrategia:
1. **Familiarizarse con los datos**:
    - ¿Qué significa cada columna?
    - ¿Qué columnas son necesarias para resolver el ejercicio?
    - ¿Hay NaN? ¿Qué se va a hacer con ellos?   


2. **Crear un plan de acción**.
    - Desarrollar un código que funcione con una muestra (Sample test)


3. **Ajuste del código de la muestra al Big Data**
    - Se debe ajustar ese código que funciona bajo una muestra al big data y testearlo
    - Debido a la gran cantidad de datos, es mejor trabajar con ***chunks***.

In [25]:
# Se comienza con una visualización de las primeras líneas
import pandas as pd
import numpy as np
b = pd.read_csv("bookings_sample.csv.bz2")
b.head(5)

Unnamed: 0,act_date ^source^pos_ctry^pos_iata^pos_oid ^rloc ^cre_date ^duration^distance^dep_port^dep_city^dep_ctry^arr_port^arr_city^arr_ctry^lst_port^lst_city^lst_ctry^brd_port^brd_city^brd_ctry^off_port^off_city^off_ctry^mkt_port^mkt_city^mkt_ctry^intl^route ^carrier^bkg_class^cab_class^brd_time ^off_time ^pax^year^month^oid
0,2013-03-05 00:00:00^1A ^DE ^a68dd7ae95...
1,2013-03-26 00:00:00^1A ^US ^e612b9eeee...
2,2013-03-26 00:00:00^1A ^US ^e612b9eeee...
3,2013-03-26 00:00:00^1A ^AU ^0f984b3bb6...
4,2013-03-26 00:00:00^1A ^AU ^0f984b3bb6...


In [26]:
# El caracter delimitador es "^". Se indica para dividir en columnas.
b = pd.read_csv("bookings_sample.csv.bz2", sep = "^")
b.sample(5)

Unnamed: 0,act_date,source,pos_ctry,pos_iata,pos_oid,rloc,cre_date,duration,distance,dep_port,dep_city,dep_ctry,arr_port,arr_city,arr_ctry,lst_port,lst_city,lst_ctry,brd_port,brd_city,brd_ctry,off_port,off_city,off_ctry,mkt_port,mkt_city,mkt_ctry,intl,route,carrier,bkg_class,cab_class,brd_time,off_time,pax,year,month,oid
6511,2013-03-25 00:00:00,1V,US,5f38994114af0da078d2735d7ba87a8d,e304718abe3ae17f9303c39504614140,07e4ddb1542dd4995a6980e5edf093bc,2013-03-25 00:00:00,2921,0,EWR,NYC,US,ORD,CHI,US,EWR,NYC,US,EWR,NYC,US,ORD,CHI,US,EWRORD,CHINYC,USUS,0,EWRORD,FK,H,Y,2013-04-02 16:14:00,2013-04-02 17:23:22,1,2013,3,
1526,2013-03-25 00:00:00,1V,US,0c16b14e0f3b96188d08062f1f7293af,275de46e720bedabc16d37cae9ee5caf,43ce0a2afd2e2df0d3032e2dee2b66b1,2013-03-25 00:00:00,14727,0,SAT,SAT,US,ISN,ISN,US,SAT,SAT,US,ISN,ISN,US,SAT,SAT,US,ISNSAT,ISNSAT,USUS,0,ISNMSPSAT,NV,K,Y,2013-04-18 06:40:00,2013-04-18 11:57:42,1,2013,3,
537,2013-03-13 00:00:00,1A,SG,ceb6d69dbb28203f2fa4f74cf9c55706,e8ac6ff3e198b7a891229f0efc5b8fcd,572e6ab3f05b0909d0a13d2ac2fa6bf9,2013-03-13 00:00:00,6306,0,SIN,SIN,SG,MCO,ORL,US,SIN,SIN,SG,SIN,SIN,SG,MCO,ORL,US,MCOSIN,ORLSIN,SGUS,1,SINJFKMCO,DB,E,Y,2013-04-01 23:55:00,2013-04-02 17:25:19,1,2013,3,
9151,2013-03-20 00:00:00,1P,US,8c496fcc65b4620c0ff0a197870f6955,2dad2aa7dcfa98f5fe6085efc9e33023,ee8c5ac5d4e5084242e0fecfbb0b5a2b,2013-03-20 00:00:00,31559,0,MIA,MIA,US,LHR,LON,GB,MIA,MIA,US,MIA,MIA,US,LHR,LON,GB,LHRMIA,LONMIA,GBUS,1,MIALHR,LK,A,F,2013-06-28 17:25:00,2013-06-29 07:34:29,1,2013,3,
7556,2013-03-18 00:00:00,1S,NG,49f480b996afd8228a2daa5bb6b26719,1ace623b76243908d5ef49649ad2e57b,eba2670489f2bae8937de03b3245871b,2013-03-18 00:00:00,15551,0,LOS,LOS,NG,TPA,TPA,US,LOS,LOS,NG,TPA,TPA,US,LOS,LOS,NG,LOSTPA,LOSTPA,NGUS,1,TPALGWLOS,LK,N,Y,2013-06-19 18:15:00,2013-06-20 18:16:03,1,2013,3,


In [3]:
#Se han importado 10.000 líneas (1=header) y 38 columnas
b.shape

(9999, 38)

In [4]:
#Sin embargo, el head no muestra todas: aparecen dos puntos entre columnas indicando que hay ocultas
#Se utiliza `set_option` para mostrar todas las columnas y se usa 'head' o 'sample' para comprobar que funciona
pd.set_option("display.max_columns", None)
b.sample(5)

Unnamed: 0,act_date,source,pos_ctry,pos_iata,pos_oid,rloc,cre_date,duration,distance,dep_port,dep_city,dep_ctry,arr_port,arr_city,arr_ctry,lst_port,lst_city,lst_ctry,brd_port,brd_city,brd_ctry,off_port,off_city,off_ctry,mkt_port,mkt_city,mkt_ctry,intl,route,carrier,bkg_class,cab_class,brd_time,off_time,pax,year,month,oid
6605,2013-03-30 00:00:00,1V,JP,4542da6e19de378b30c480da2db911bc,84efd38f4c34e7d430ad3e3edaa42b6a,8d82cf8eddad29f9cecce675313d08e7,2013-03-28 00:00:00,81062,0,GRR,GRR,US,NRT,TYO,JP,GRR,GRR,US,GRR,GRR,US,NRT,TYO,JP,GRRNRT,GRRTYO,JPUS,1,GRRYYZNRT,KM,T,Y,2013-06-18 11:20:00,2013-06-19 16:04:34,-2,2013,3,
4200,2013-03-12 00:00:00,1A,FR,51a75041507c72bb54b30403c7a25ff9,92f7ba112bcc8036f03371a3ff0c526a,6ad1785b1a5e25179c72278811db65f3,2013-03-12 00:00:00,39851,0,CDG,PAR,FR,PVG,SHA,CN,CDG,PAR,FR,PVG,SHA,CN,CDG,PAR,FR,CDGPVG,PARSHA,CNFR,1,PVGCDG,WF,S,Y,2013-04-29 23:55:00,2013-04-30 05:36:41,1,2013,3,
8178,2013-03-25 00:00:00,1P,US,83ccf07a55606976f78e63fcc805f58c,1490c3c5f95f04fa076fe15c775a80a9,39177f6f5e71331d94fb25cab5452110,2013-03-25 00:00:00,40670,0,PSP,PSP,US,BNA,BNA,US,PSP,PSP,US,PSP,PSP,US,BNA,BNA,US,BNAPSP,BNAPSP,USUS,0,PSPDENBNA,FK,T,Y,2013-03-27 05:50:00,2013-03-27 14:09:49,1,2013,3,
7189,2013-03-12 00:00:00,1A,ES,3b5aaf82a7290746171c8e645a89a2f4,ac942fb41f958fed1af1eac48ecca41f,c91756641244fc17e79483f9036d4f3c,2013-03-12 00:00:00,70056,0,MAD,MAD,ES,GYE,GYE,EC,MAD,MAD,ES,MAD,MAD,ES,GYE,GYE,EC,GYEMAD,GYEMAD,ECES,1,MADCLOGYE,KG,P,F,2013-07-30 16:25:00,2013-07-30 23:25:28,1,2013,3,MADI1372J
2427,2013-03-13 00:00:00,1A,DZ,87f5447aac3f50d1fd84491f1c8dfd82,d9dfb3f64fb4f5744aa518d2ea03d5b0,b46dbcc9b2ce9e55fc30968a07b48632,2013-03-13 00:00:00,16378,0,ALG,ALG,DZ,CAI,CAI,EG,ALG,ALG,DZ,CAI,CAI,EG,ALG,ALG,DZ,ALGCAI,ALGCAI,DZEG,1,CAIALG,KR,B,Y,2013-03-29 15:30:00,2013-03-29 18:28:56,1,2013,3,


- Con estos pasos se pueden analizar todas las columnas para ver qué significa cada una y cuáles se van a usar.

In [27]:
#Se muestra el nombre de todas las columnas mendiante el siguiente comando:
b.columns

#O mediante este comando si las quiero en tipo lista y que se muestren en vertical
list(b.columns)

['act_date           ',
 'source',
 'pos_ctry',
 'pos_iata',
 'pos_oid  ',
 'rloc          ',
 'cre_date           ',
 'duration',
 'distance',
 'dep_port',
 'dep_city',
 'dep_ctry',
 'arr_port',
 'arr_city',
 'arr_ctry',
 'lst_port',
 'lst_city',
 'lst_ctry',
 'brd_port',
 'brd_city',
 'brd_ctry',
 'off_port',
 'off_city',
 'off_ctry',
 'mkt_port',
 'mkt_city',
 'mkt_ctry',
 'intl',
 'route          ',
 'carrier',
 'bkg_class',
 'cab_class',
 'brd_time           ',
 'off_time           ',
 'pax',
 'year',
 'month',
 'oid      ']

- Se acaba de ver la primera trampa:
    - Hay columnas que tienen espacios en el nombre. Si no menciono esos espacios, la mención de la columna dará error.
    
    
- **SOLUCIONES**:
    - Puedo trabajar mencionando los espacios
    - Puedo transformar las columnas renombrándolas

In [24]:
#Ejemplo de cómo renombrar columnas
lista = list(b.columns)
lista = [each_element.strip() for each_element in lista]
b.columns = lista
b.columns

Index(['act_date', 'source', 'pos_ctry', 'pos_iata', 'pos_oid', 'rloc',
       'cre_date', 'duration', 'distance', 'dep_port', 'dep_city', 'dep_ctry',
       'arr_port', 'arr_city', 'arr_ctry', 'lst_port', 'lst_city', 'lst_ctry',
       'brd_port', 'brd_city', 'brd_ctry', 'off_port', 'off_city', 'off_ctry',
       'mkt_port', 'mkt_city', 'mkt_ctry', 'intl', 'route', 'carrier',
       'bkg_class', 'cab_class', 'brd_time', 'off_time', 'pax', 'year',
       'month', 'oid'],
      dtype='object')

- Sin embargo, en este ejercicio se va a optar por el otro camino para darle un extra de dificultad:
    - No se van a renombrar las columnas para evitar pisar el trabajo de otro equipo

In [30]:
#Se va a ver el tipo de las columas. Se puede usar 'dtypes'
b.dtypes

#También se puede usar 'info'
b.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9999 entries, 0 to 9998
Data columns (total 38 columns):
act_date               9999 non-null object
source                 9999 non-null object
pos_ctry               9999 non-null object
pos_iata               9999 non-null object
pos_oid                9999 non-null object
rloc                   9999 non-null object
cre_date               9999 non-null object
duration               9999 non-null int64
distance               9999 non-null int64
dep_port               9999 non-null object
dep_city               9999 non-null object
dep_ctry               9999 non-null object
arr_port               9999 non-null object
arr_city               9999 non-null object
arr_ctry               9999 non-null object
lst_port               9999 non-null object
lst_city               9999 non-null object
lst_ctry               9999 non-null object
brd_port               9999 non-null object
brd_city               9999 non-null object
brd_ctry       

### Familiarizarse con los datos:
- Esta tabla muestra las llegadas a los aeropuertos mundiales y de dónde se han producido las salidas.
- Si el tiempo que se permanece en la ciudad en la que se ha aterrizado es menor a 8 horas, se muetsra la información en una única línea aunque se registran los aeropuertos en los que se ha hecho escala. Si es mayor, cuenta como estancia y el resto de vuelos se muestran en otra línea
- Se observa que la hora de 'act_date' y de 'cre_date' es siempre 00:00:00
- 'rloc' es de tipo 'hash' y me permite ver los diferentes viajes

### Plan de acción
- Se va a agrupar la información por 'rloc' para ver los diferentes viajes
- Se debe recordar que algunas columnas, incluido 'rloc', tienen espacios entre medias y su nombre es 'rloc          '
    - De no indicarlo correctamente, me devolvería un `Key Error = rloc`, indicando que esta columna no existe.

In [31]:
#Agrupo por 'rloc' y cuento los valores, ordeándolos de mayor a menorb
b.groupby("rloc          ")["act_date           "].count().sort_values(ascending=False)

rloc          
ae15bcfc5aec0eb64b2c5204d08201d5    42
fb72a3899ed1cd353c5830388935e7f5    23
cd96f7b7fdb5743769053ba273c7eb5f    20
6b7878dd4ac59772e14ab4760ab45ad0    20
68aee71ee0f40aff44ed341f2c5f8627    16
2a86eac3e29c922f4a439fbc0480985b    15
58ee9c6852513816a39363a1621a0615    14
503d8dde8034a48c262b3f5764fc60ca    14
c9f19404e4f0755c40deaebd6e90ea84    13
182485c12b7e38aa6e2d24f7484c019b    12
cdf795b1e5710dc813c8b1147b427827    12
f3a5185d14eaa5258320bac03c5d9fc0    12
02ab3e3ded19a8cc6eb67c4413debb86    12
b8410227afd9eff71f9ed9c0e7013ddf    12
045e1c73107a2e4a39013d60e9b45aa3    12
a37584d1485cb35991e4ff1a2ba92262    12
f25cef4ed37d1483d0c4c7cfba9758ef    12
b0cd490450b69694ccafe0e08dfd821f    11
bab3d4e3fb3bee5e88340e7c359c6f13    11
2da897a9523b22f3e2cb9cd7099e0639    11
399664d8282d0587ce97c540d17eb06c    11
b0f878b0bbe51626016694032523295b    10
1e891061725828651e3e2943b79c6585    10
49edae7a10b0a8e2b2529ecc45e5dc74    10
45b87519d2fe4e85fd90512876fe9160    10
a27c351c88

- Un código aparece repetido 42 veces. Es bastante extraño.ç
- Miro en detalle a qué se deben esas 42 reservas mediante el código en concreto

In [21]:
#Filtrado en detalle para el rloc == "ae15bcfc5aec0eb64b2c5204d08201d5"b
b[b["rloc          "]=="ae15bcfc5aec0eb64b2c5204d08201d5"].sort_values("act_date           ",ascending=False)

Unnamed: 0,act_date,source,pos_ctry,pos_iata,pos_oid,rloc,cre_date,duration,distance,dep_port,dep_city,dep_ctry,arr_port,arr_city,arr_ctry,lst_port,lst_city,lst_ctry,brd_port,brd_city,brd_ctry,off_port,off_city,off_ctry,mkt_port,mkt_city,mkt_ctry,intl,route,carrier,bkg_class,cab_class,brd_time,off_time,pax,year,month,oid
8010,2013-03-30 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,63307,0,CPT,CPT,ZA,ZRH,ZRH,CH,CPT,CPT,ZA,CPT,CPT,ZA,JNB,JNB,ZA,CPTJNB,CPTJNB,ZAZA,0,CPTJNB,DK,Q,Y,2013-06-09 15:10:00,2013-06-09 17:27:39,2,2013,3,
8009,2013-03-30 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,63307,0,CPT,CPT,ZA,LAX,LAX,US,CPT,CPT,ZA,CPT,CPT,ZA,LAX,LAX,US,CPTLAX,CPTLAX,USZA,1,CPTJNBFRALAX,VR,Q,Y,2013-06-09 15:10:00,2013-06-10 12:55:31,-2,2013,3,
8008,2013-03-25 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,63307,0,CPT,CPT,ZA,LAX,LAX,US,CPT,CPT,ZA,ZRH,ZRH,CH,CPT,CPT,ZA,CPTZRH,CPTZRH,CHZA,1,ZRHJNBCPT,VI,W,Y,2013-07-22 22:45:00,2013-07-23 14:17:39,2,2013,3,
8007,2013-03-25 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,63307,0,CPT,CPT,ZA,LAX,LAX,US,CPT,CPT,ZA,CPT,CPT,ZA,LAX,LAX,US,CPTLAX,CPTLAX,USZA,1,CPTJNBFRALAX,VR,Q,Y,2013-06-09 15:10:00,2013-06-10 12:55:31,2,2013,3,
8006,2013-03-25 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,16396,12823,JFK,NYC,US,JNB,JNB,ZA,JNB,JNB,ZA,ZRH,ZRH,CH,JNB,JNB,ZA,JNBZRH,JNBZRH,CHZA,1,ZRHJNB,VI,W,Y,2013-07-22 22:45:00,2013-07-23 09:26:54,-2,2013,3,
8005,2013-03-23 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,62781,0,JNB,JNB,ZA,LAX,LAX,US,JNB,JNB,ZA,JNB,JNB,ZA,LAX,LAX,US,JNBLAX,JNBLAX,USZA,1,JNBFRALAX,VR,Q,Y,2013-06-09 19:05:00,2013-06-10 12:55:31,-2,2013,3,
8003,2013-03-22 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,62781,0,JNB,JNB,ZA,LAX,LAX,US,JNB,JNB,ZA,JNB,JNB,ZA,LAX,LAX,US,JNBLAX,JNBLAX,USZA,1,JNBFRALAX,VR,Q,Y,2013-06-09 19:05:00,2013-06-10 12:55:31,2,2013,3,
8002,2013-03-22 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,63307,0,CPT,CPT,ZA,LAX,LAX,US,CPT,CPT,ZA,ZRH,ZRH,CH,CPT,CPT,ZA,CPTZRH,CPTZRH,CHZA,1,ZRHJNBCPT,VI,W,Y,2013-07-22 22:45:00,2013-07-23 14:17:39,-2,2013,3,
8001,2013-03-22 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,63307,0,CPT,CPT,ZA,LAX,LAX,US,CPT,CPT,ZA,CPT,CPT,ZA,LAX,LAX,US,CPTLAX,CPTLAX,USZA,1,CPTJNBFRALAX,VR,Q,Y,2013-06-09 15:10:00,2013-06-10 12:55:31,-2,2013,3,
8004,2013-03-22 00:00:00,1P,ZA,9782cc0d8e04d24e7346699ea97d5f90,63dd6e471fa135a362bb8f9320190247,ae15bcfc5aec0eb64b2c5204d08201d5,2012-12-21 00:00:00,62781,0,JNB,JNB,ZA,LAX,LAX,US,JNB,JNB,ZA,ZRH,ZRH,CH,JNB,JNB,ZA,JNBZRH,JNBZRH,CHZA,1,ZRHJNB,VI,W,Y,2013-07-22 22:45:00,2013-07-23 09:26:54,2,2013,3,


- Se puede ver que 'activity date' y 'creation date' son diferentes. Parece que al dataset le falta información.

- Continúo el análisis viendo los estadísticos descriptivos
    - Añadiendo `include="all"` obtengo información también para los que no tienen caracter string.
    - Aquí puedo ver de nuevo cómo se repiten esas 42 reservas para ese 'rloc'

In [32]:
#Analizo los estadísticos descriptivos
b.describe(include="all")

Unnamed: 0,act_date,source,pos_ctry,pos_iata,pos_oid,rloc,cre_date,duration,distance,dep_port,dep_city,dep_ctry,arr_port,arr_city,arr_ctry,lst_port,lst_city,lst_ctry,brd_port,brd_city,brd_ctry,off_port,off_city,off_ctry,mkt_port,mkt_city,mkt_ctry,intl,route,carrier,bkg_class,cab_class,brd_time,off_time,pax,year,month,oid
count,9999,9999,9999,9999,9999,9999,9999,9999.0,9999.0,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999,9999.0,9999,9999,9999,9999,9999,9999,9999.0,9999.0,9999.0,9999.0
unique,31,5,112,2089,2271,3638,140,,,581,554,127,663,634,152,581,550,126,770,732,162,781,744,162,3395,3223,926,,6079,179,27,4,6416,7218,,,,389.0
top,2013-03-12 00:00:00,1A,US,83ccf07a55606976f78e63fcc805f58c,1490c3c5f95f04fa076fe15c775a80a9,ae15bcfc5aec0eb64b2c5204d08201d5,2013-03-12 00:00:00,,,LAX,NYC,US,LHR,NYC,US,LAX,NYC,US,LAX,NYC,US,LAX,NYC,US,JEDKHI,JEDKHI,USUS,,KHIJED,NV,Q,Y,2013-06-09 15:10:00,2013-06-10 12:55:31,,,,
freq,768,3200,4839,435,435,42,1018,,,273,507,4600,212,391,3738,281,502,4559,228,435,4118,247,460,4170,52,52,3074,,26,1354,851,8979,21,21,,,,8427.0
mean,,,,,,,,20209.746075,455.608861,,,,,,,,,,,,,,,,,,,0.59626,,,,,,,0.516152,2013.0,3.0,
std,,,,,,,,42243.233482,1738.891068,,,,,,,,,,,,,,,,,,,0.490671,,,,,,,1.78397,0.0,0.0,
min,,,,,,,,59.0,0.0,,,,,,,,,,,,,,,,,,,0.0,,,,,,,-25.0,2013.0,3.0,
25%,,,,,,,,3339.0,0.0,,,,,,,,,,,,,,,,,,,0.0,,,,,,,-1.0,2013.0,3.0,
50%,,,,,,,,7721.0,0.0,,,,,,,,,,,,,,,,,,,1.0,,,,,,,1.0,2013.0,3.0,
75%,,,,,,,,19077.0,0.0,,,,,,,,,,,,,,,,,,,1.0,,,,,,,1.0,2013.0,3.0,


- Observo si hay valores nulos

In [48]:
#Uso 'isnull()'' para ver si hay valores nulos
b.isnull().sum()

#Podría utilizar en su lugar 'isna()', ya que a diferencia de R, en Python son idénticos
b.isna().sum()

act_date               0
source                 0
pos_ctry               0
pos_iata               0
pos_oid                0
rloc                   0
cre_date               0
duration               0
distance               0
dep_port               0
dep_city               0
dep_ctry               0
arr_port               0
arr_city               0
arr_ctry               0
lst_port               0
lst_city               0
lst_ctry               0
brd_port               0
brd_city               0
brd_ctry               0
off_port               0
off_city               0
off_ctry               0
mkt_port               0
mkt_city               0
mkt_ctry               0
intl                   0
route                  0
carrier                0
bkg_class              0
cab_class              0
brd_time               0
off_time               0
pax                    0
year                   0
month                  0
oid                    0
dtype: int64

- No hay nulos, así que puedo comenzar con el **ACTION PLAN**

- No hay NaN, así que puedo empezar a trabajar.
- Tengo que seleccionar las columnas de interés.
    - 'arr_port', 'pax' y 'year' son las fundamentales, como muestra el enunciado del ejercicio.
    - Voy a abarir el archivo de nuevo solo con estas columnas y decido qué hacer con los nulls.

In [50]:
cd /home/dsc/Data/challenge

/home/dsc/Data/challenge


In [51]:
#Selecciono el dataset original, no la muestra, pero pongo una limitación de 10.000 líneas
#Selecciono solamente las columnas que me interesan
import pandas as pd
pd.set_option("display.max_columns", None)
b = pd.read_csv("bookings.csv.bz2", 
                sep="^", nrows = 10000,
                usecols=["arr_port","pax","year"])

#Elaboro una estratregia para los NaN, por si aparecieran posteriormente en chunks futuros
b = b.dropna()

In [52]:
b.shape

(10000, 3)

In [53]:
b.head()

Unnamed: 0,arr_port,pax,year
0,LHR,-1,2013
1,CLT,1,2013
2,CLT,1,2013
3,SVO,1,2013
4,SVO,1,2013


### Estrategia para el plan de acción:
- Se tiene que calcular el aeropuerto con más vuelos recibidos de nuestra muestra para el año 2013:
    - Se filtra en la base de datos por el año 2013.
    - Se agrupa por el código IATA de los aeropuertos.
    - Se suman los valores acumulados
    - Se ordena la suma por 'pax' o personas en orden descendente (de mayor a menor)
    - Se muestran los diez primeros resultados
    - Se muestra solo la columna 'pax'

In [56]:
b[b["year"] == 2013].groupby("arr_port").sum().sort_values("pax", ascending=False).head(10)["pax"]

arr_port
HKG         112
LGA          95
ORD          94
JFK          92
LAX          91
SFO          91
MCO          90
DCA          82
DEN          79
LHR          76
Name: pax, dtype: int64

- Ha convertido a índice el código del aeropuerto.
    - Para evitarlo se introduce un `reset.index()`.

In [57]:
b[b["year"] == 2013].groupby("arr_port").sum().sort_values("pax", ascending=False).reset_index().head(10)[["arr_port","pax"]]

Unnamed: 0,arr_port,pax
0,HKG,112
1,LGA,95
2,ORD,94
3,JFK,92
4,LAX,91
5,SFO,91
6,MCO,90
7,DCA,82
8,DEN,79
9,LHR,76


## 3. Adaptación al Big Data
- Una vez que se ha probado que el código funciona se va a extrapolar la muestra de 10.000 líneas a la de 10.000.011
- Debido a que realizar el cálculo sobre el total sería muy lento y el ordenador podría no ser capaz de hacerlo, se van a realizar los cálculos mediante *chunks*.
    - Usar **chunks** consiste en dividir el total en trozos e ir sumando resultados.
    - Los **chunks** son fundamentales para trabajar con datasets grandes.
    - Así, se dividirá el dataset en bloques de 10.000 y se irán sumando resultados hasta calcular el total.

In [58]:
import pandas as pd
pd.set_option("display.max_columns", None)
b = pd.read_csv("bookings.csv.bz2", 
                sep="^", nrows = 9999,
                usecols=["arr_port","pax","year"])

#Vemos qué hacemos con los nulls. LOs vamos a eliminar si son nulos. AHora mismo no hace nada pero puede que en un futuro haga algo
b = b.dropna()

#Filtro por años
b=b[b["year"]==2013]
del b ["year"]

#Filtro por grupos, realizo la suma y organizo en base a pax
b_gr=b.groupby("arr_port").sum().sort_values("pax", ascending=False)

#Reseteo index. A diferencia de antes que estaba concatenado, ahora tengo que poner "inplace=True"
b_gr.reset_index(inplace=True)

#Utilizo el head
b_gr.head(10)

Unnamed: 0,arr_port,pax
0,HKG,112
1,LGA,95
2,ORD,94
3,JFK,92
4,LAX,91
5,SFO,91
6,MCO,90
7,DCA,82
8,DEN,79
9,LHR,76


- Lo obtenido es un Pandas Data Frame

In [59]:
type(b)

pandas.core.frame.DataFrame

### Trabajando con chunks:

- Hay dos maneras de trabajar con chunks:
    - Una en la que no definimos el tamaño de los chunks.
    - Una en la que sí definimos el tamaño de los chunks.

#### I. NO definiendo el tamaño de los chunks
   - Este método NO va a usarse ahora, pero se va a explicar.
   - Implica añadir `iterator = True` en nuestro código.
       - Este iterator coloca el puntero y lo mantendrá donde se ha quedado para cada chunk.
       - Por lo tanto, como cualquier iterador, cuidado con ejecutarlo dos veces ya que podría devolver 0 como resultado si el puntero está al final y no tiene qué más recorrer.
   - Veo que obtengo un Parser en vez de un Data Frame
   - Si utilizo `get_chunk(N)` ya sí obtengo un Data Frame

In [37]:
#Chunks
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                nrows = 9999, iterator = True)

In [33]:
type(bi)

pandas.io.parsers.TextFileReader

In [39]:
b = bi.get_chunk(9000)

In [35]:
type(b)

pandas.core.frame.DataFrame

In [59]:
b.shape

(9000, 3)

#### II. SÍ definiendo el tamaño de los chunks.
   - Es el método que se va a utilizar
   - En este caso no es necesario poner `iterator = True` en el código, ya que se asume de antemano que existe
   - El código incluye el parámetro `chunksize = N`
       - Para comprenderlo, en el ejemplo de debajo se ve como se realizan 3 vueltas de chunksize 3.000 y una de chunksize 1.000 hasta cubrir los 10.000 elementos de la muestra

In [60]:
#Chunks
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                nrows = 10000, chunksize=3000, iterator = True)

for i, b in enumerate(bi):
    print(f"En la vuelta {i} el chunksize tiene un tamaño de {len(b)}")

En la vuelta 0 el chunksize tiene un tamaño de 3000
En la vuelta 1 el chunksize tiene un tamaño de 3000
En la vuelta 2 el chunksize tiene un tamaño de 3000
En la vuelta 3 el chunksize tiene un tamaño de 1000


### Implementándolo al Big Data

- Para implementar el código al Big Data se realizan los siguientes cambios:
    - Por curiosidad, se va a añadir la función mágina `%%time` para ver cuánto tarda en evaluar.
    - Se elimina el parámetro `nrows`, ya que no se quiere tomar una muestra, sino que trabaje sobre todo el documento.
    - Se va a utilizar un `chunksize = 1.000.000` para que los *chunks* sean suficientemente grandes para que no sea incómodo trabajar.
    - Se ha creado un `pd.DataFrame` vacío que acumule todos los *chunks*
    - En caba vuelta al bucle nos va a imprimir en que iteración se encuentra (*iteration*)
    - El resultado de cada chunk se va a guardar en *all_chunks*
    - Finalmente, en *all_result* se van a volver a sumar todos los resultados de cada chunk para tenerlos agrupados

In [61]:
%%time
import pandas as pd
pd.set_option("display.max_columns", None)
df = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                chunksize=1000000, iterator = True)

all_chunks=pd.DataFrame()
for iteration, chunk_df in enumerate(df):
    print(iteration)
    chunk_df = chunk_df.dropna()
    chunk_df = chunk_df[chunk_df["year"]==2013]
    del chunk_df["year"]
    chunk_df_gr=chunk_df.groupby("arr_port").sum().sort_values("pax", ascending=False).reset_index()
    all_chunks=all_chunks.append(chunk_df_gr)
    
all_result=all_chunks.groupby(["arr_port"]).sum().sort_values("pax", ascending=False).reset_index()

0
1
2
3
4
5
6
7
8
9
10
CPU times: user 2min 7s, sys: 639 ms, total: 2min 8s
Wall time: 2min 5s


In [62]:
all_result.head(10)

Unnamed: 0,arr_port,pax
0,LHR,88809.0
1,MCO,70930.0
2,LAX,70530.0
3,LAS,69630.0
4,JFK,66270.0
5,CDG,64490.0
6,BKK,59460.0
7,MIA,58150.0
8,SFO,58000.0
9,DXB,55590.0


- El aeropuerto que recibió más visitas en 2013 fue LHR.

## Bonus
- Get the name of the city or airport corresponding to that airport (programatically, we suggest to have a look at GeoBases / NeoBase in Github)

In [63]:
! pip install Neobase

Collecting Neobase
[?25l  Downloading https://files.pythonhosted.org/packages/d8/f2/0ca4a5818f8271f7c6d59bb336c28db931e22b51330947983be86ba4ea12/NeoBase-0.20.2.tar.gz (3.2MB)
[K    100% |████████████████████████████████| 3.2MB 7.9MB/s 
[?25hCollecting argparse (from Neobase)
  Downloading https://files.pythonhosted.org/packages/f2/94/3af39d34be01a24a6e65433d19e107099374224905f1e0cc6bbe1fd22a2f/argparse-1.4.0-py2.py3-none-any.whl
Building wheels for collected packages: Neobase
  Running setup.py bdist_wheel for Neobase ... [?25ldone
[?25h  Stored in directory: /home/dsc/.cache/pip/wheels/f2/e0/a1/798ba3be3b5e9d00394376068d895114f574c06f6954dafc59
Successfully built Neobase
Installing collected packages: argparse, Neobase
Successfully installed Neobase-0.20.2 argparse-1.4.0


In [64]:
from neobase import NeoBase
geoDict = NeoBase()

- Intento averiguar qué es, pero no tengo mucha información:

In [85]:
type(geoDict)

neobase.neobase.NeoBase

- Veo que tiene como métodos `get` y `key` así que parece que esta clase es un diccionario:

In [66]:
help(geoDict)

Help on NeoBase in module neobase.neobase object:

class NeoBase(builtins.object)
 |  NeoBase(rows=None, date=None)
 |  
 |  Main structure, a wrapper around a dict, with dict-like behavior.
 |  
 |  Methods defined here:
 |  
 |  __contains__(self, key)
 |      Test if a key is in the base.
 |      
 |      :param key: the key of to be tested
 |      :returns:   a boolean
 |      
 |      >>> b = NeoBase()
 |      >>> 'AN' in b
 |      False
 |      >>> 'AGN' in b
 |      True
 |  
 |  __init__(self, rows=None, date=None)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self)
 |      Returns iterator of all keys in the base.
 |      
 |      :returns: the iterator of all keys
 |      
 |      >>> b = NeoBase()
 |      >>> sorted(b)
 |      ['AAA', 'AAA@1', 'AAB', ...
 |  
 |  __len__(self)
 |      Testing structure size.
 |      
 |      :returns: a integer
 |      
 |      >>> b = NeoBase()
 |      >>> 18000 < len(b) < 20000
 |      True
 |  
 

- Efectivamente, es un diccionario

In [90]:
geoDict.get("LHR").keys()

dict_keys(['__dup__', 'iata_code', 'name', 'lat', 'lng', 'page_rank', 'country_code', 'country_name', 'continent_name', 'timezone', 'city_code_list', 'city_name_list', 'location_type', 'currency'])

In [88]:
geoDict.get("LHR")

{'__dup__': set(),
 'iata_code': 'LHR',
 'name': 'London Heathrow Airport',
 'lat': '51.4775',
 'lng': '-0.461389',
 'page_rank': 0.44517643489228376,
 'country_code': 'GB',
 'country_name': 'United Kingdom',
 'continent_name': 'Europe',
 'timezone': 'Europe/London',
 'city_code_list': ['LON'],
 'city_name_list': ['London'],
 'location_type': ['A'],
 'currency': 'GBP'}

In [91]:
geoDict.get("LHR")["name"]

'London Heathrow Airport'

In [89]:
type(geoDict.get("LHR"))

dict

- Se va a cruzar con *all_results*
    - Sin embargo, si lo intento hacer directamente veo que tendré problemas: al igual que ocurría co los nombres de las columnas, las claves IATA también tienen espacios en blanco. 
    - Un ejemplo:

In [71]:
#Las claves IATA tienen espacios en blanco.
all_result["arr_port"][0]

#Tengo que transformarlo. Puedo utilizar la función `map` al ser un pd.DataFrame
all_result["arr_port"] = all_result["arr_port"].map(lambda x: x.strip())

#También puedo convertirlo a string
all_result["arr_port"] = all_result["arr_port"].str.strip()
all_result.head(5)

Unnamed: 0,arr_port,pax
0,LHR,88809.0
1,MCO,70930.0
2,LAX,70530.0
3,LAS,69630.0
4,JFK,66270.0


- Vuelvo a usar `map` para añadir el nombre del aeropuerto al DataFrame

In [72]:
# map para añadir el AirportName al DataFrame
all_result["AirportName"] = all_result["arr_port"].map(lambda x: geoDict.get(x)["name"])

KeyError: 'Key not found: CPQ'

- Pero tengo un `KeyError: Key Not Found: CPQ`. 
- Eso quiere decir que en mi DataFrame está el aeropuerto CPQ, pero no está en el diccionario de NeoBases.

In [75]:
#Investigo en detenimiento el caso del aeropuerto CPQ
all_result[all_result["arr_port"]=="CPQ"]

Unnamed: 0,arr_port,pax
2257,CPQ,-20.0


- Como solo tiene cancelaciones parece un aeropuerto cerrado. Lo elimino.

In [76]:
#Elimino CPQ de mi DataFrame
all_result = all_result[all_result["arr_port"]!="CPQ"]

- Vuelvo a intentar cruzar ambos DataFrames

In [77]:
all_result["AirportNAme"] = all_result["arr_port"].map(lambda x: geoDict.get(x)["name"])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [78]:
all_result.head(10)

Unnamed: 0,arr_port,pax,AirportNAme
0,LHR,88809.0,London Heathrow Airport
1,MCO,70930.0,Orlando International Airport
2,LAX,70530.0,Los Angeles International Airport
3,LAS,69630.0,McCarran International Airport
4,JFK,66270.0,John F. Kennedy International Airport
5,CDG,64490.0,Paris Charles de Gaulle Airport
6,BKK,59460.0,Suvarnabhumi Airport
7,MIA,58150.0,Miami International Airport
8,SFO,58000.0,San Francisco International Airport
9,DXB,55590.0,Dubai International Airport


- Finalmente convierto a tipo int el resultado de 'pax' 

In [80]:
#Convierto la columna pax a int
all_result = all_result.astype({"pax":int})
all_result.head(10)

Unnamed: 0,arr_port,pax,AirportNAme
0,LHR,88809,London Heathrow Airport
1,MCO,70930,Orlando International Airport
2,LAX,70530,Los Angeles International Airport
3,LAS,69630,McCarran International Airport
4,JFK,66270,John F. Kennedy International Airport
5,CDG,64490,Paris Charles de Gaulle Airport
6,BKK,59460,Suvarnabhumi Airport
7,MIA,58150,Miami International Airport
8,SFO,58000,San Francisco International Airport
9,DXB,55590,Dubai International Airport


- Exporto mis resultados a csv y borrando el índice:

In [81]:
all_result.to_csv("top_airports.csv", sep="^", index=False)

- Compruebo que se ha guardado bien

In [82]:
ls

[0m[01;31mbookings.csv.bz2[0m       [01;31mbookings_sample.csv.bz2[0m  top_airports.csv
bookings_sample_2.csv  [01;31msearches.csv.bz2[0m


In [83]:
! head -2 top_airports.csv

arr_port^pax^AirportNAme
LHR^88809^London Heathrow Airport
