## Amadeus Data Science Challenge

## Ejercicio 1. Cuenta el número de línease del documento "bookings.csv" 
- Esta situado en: home/dsc/Data/challenge

- Posibles formas de solucionarlo:
    - Usando la línea de comandos
    - Usando bucles en Python
    - Usando Pandas

### Solución 1. Usando la línea de comandos

In [12]:
! pwd

/home/dsc/Data/challenge


In [13]:
%%bash
cd /home/dsc/Data/challenge

In [14]:
ls -l

total 1019072
-rw-rw-r-- 1 dsc dsc 554970628 abr  2  2018 [0m[01;31mbookings.csv.bz2[0m
-rw-rw-r-- 1 dsc dsc   4232732 ene 27 23:35 bookings_sample.csv
-rw-rw-r-- 1 dsc dsc    535893 ene 25 09:41 [01;31mbookings_sample.csv.bz2[0m
-rw-rw-r-- 1 dsc dsc 483188920 abr  2  2018 [01;31msearches.csv.bz2[0m
-rw-rw-r-- 1 dsc dsc     77878 ene 25 13:11 top_airports.csv
-rw-rw-r-- 1 dsc dsc    246473 ene 25 13:35 Untitled1.ipynb
-rw-rw-r-- 1 dsc dsc    248766 ene 25 13:45 Untitled1_por_si_acasov1.ipynb
-rw-rw-r-- 1 dsc dsc        72 ene 25 09:16 Untitled.ipynb


- Vemos que es muy pesado (+5GB), por lo que es mejor trabajar con él en formato bz2
-  Se podría descomprimir con `! bunzip2` y comprimir con `! bzip2`, pero mejor trabajar con este formato bzip
    - Este formato es aconsejable para archivos de +128MB
    - Es más recomendable que .zip, pero más lento. Además, con .bzip2 nos aseguramos que cada uno de ellos solo contenga un archivo, algo que no pasa con los .zip

In [4]:
# El archivo es muy pesado, durará un rato
! bzcat bookings.csv.bz2 | wc -l

bzcat: Can't open input file bookings.csv.bz2: No such file or directory.
0


In [15]:
# Para ejercicios posteriores, vamos a exportar una muestra de las 10.000 primeras líneas
! bzcat ./bookings.csv.bz2 | head -10000 > ./bookings_sample.csv


bzcat: I/O or other error, bailing out.  Possible reason follows.
bzcat: Broken pipe
	Input file = ./bookings.csv.bz2, output file = (stdout)


In [10]:
# La convertimos a bz2 para trabjar con todos los archivos en el mismo formato y luego evitar estar cambiando el código
! bzip2 bookings_sample.csv

bzip2: Can't open input file bookins_sample.csv: No such file or directory.


### Solución 2. Usando Python
- Se puede resolver mediante el uso de bucles

In [16]:
import bz2

In [17]:
fileBz2 =  bz2.BZ2File("./bookings_sample.csv.bz2")

In [18]:
type(fileBz2)

bz2.BZ2File

In [19]:
#Para evitar retardos en el cálculo se usará la muestra de 10.000 líneas, pero el concepto queda claro...
k = 0

for line in fileBz2:
    k += 1

print(k)

10000


In [20]:
# Mucho ojo con volver a correr el bucle ahora, ya que dará cero al apuntar ahora el puntero al final...
k = 0

for line in fileBz2:
    k += 1

print(k)

0


### Mejorando la solución 2
- ¿El fichero está cerrado?

In [21]:
fileBz2.closed

False

- Cerramos entonces el fichero

In [22]:
fileBz2.close()

In [23]:
fileBz2.closed

True

### Mejorando aún más la solución 2.
- El `with` está para algo...

In [24]:
import bz2
with bz2.BZ2File("./bookings_sample.csv.bz2") as fileBz2:
    k = 0
    for line in fileBz2:
        k += 1
    print(k)

10000


In [None]:
fileBz2.closed

### Mejorando aún más la solución 2.
- Podemos manejar excepciones con un `try/except`

In [25]:
import bz2
try:
    with bz2.BZ2File("./bookings_sample.csv.bz2") as fileBz2:
        k = 0
        for line in fileBz2:
            k += 1
except:
    print("Error counting lines")
        
print(k)

10000


- Podemos dar un paso mas:

In [29]:
import bz2
try:
    with bz2.BZ2File("./bookings_sample.csv.bz2") as fileBz2:
        k = 0
        for line in fileBz2:
            k += 1
except FileNotFoundError:
    print("File Not Found")
except:
    print("Unexpected error")
        
print(k)

10000


- Una persona más experimentada hubiera puesto este código, haciendo que salte por defecto el error del mensaje

In [28]:
import bz2
try:
    with bz2.BZ2File("./bookisdfngs_sample.csv.bz2") as fileBz2:
        k = 0
        for line in fileBz2:
            k += 1
except FileNotFoundError as message:
    print(message)
except:
    print("Unexpected error")
        
print(k)

[Errno 2] No such file or directory: './bookisdfngs_sample.csv.bz2'
10000


- O incluso poniendo un `enumerate`

In [30]:
import bz2
try:
    with bz2.BZ2File("./bookings_sample.csv.bz2") as fileBz2:
        for k, line in enumerate(fileBz2):
            pass
        print(k+1)
except FileNotFoundError as message:
    print(message)
except ValueError:
    print("value error")
except:
    print('unexpected error')

10000


# Solución 3. MEdiante el uso de Pandas

In [31]:
import pandas as pd
! bzcat bookings_sample.csv.bz2 | head -1 |tr ^ "\n"


bzcat: I/O or other error, bailing out.  Possible reason follows.
bzcat: Broken pipe
	Input file = bookings_sample.csv.bz2, output file = (stdout)
act_date           
source
pos_ctry
pos_iata
pos_oid  
rloc          
cre_date           
duration
distance
dep_port
dep_city
dep_ctry
arr_port
arr_city
arr_ctry
lst_port
lst_city
lst_ctry
brd_port
brd_city
brd_ctry
off_port
off_city
off_ctry
mkt_port
mkt_city
mkt_ctry
intl
route          
carrier
bkg_class
cab_class
brd_time           
off_time           
pax
year
month
oid      


- Seleccionando una columna pueod ver el largo, por ejemplo:

In [32]:
df = pd.read_csv("bookings_sample.csv.bz2", sep="^", usecols=["pax"])

In [34]:
df.shape

(9999, 1)

In [35]:
df.shape[0]

9999

- Y si le añado el header, tengo las 10.000 líneas

## EJERCICO 2

In [None]:
import pandas as pd
import numpy as np

In [None]:
df.describe()

Partes para desrrollar el ejercico.
- Familiarizarse con los datos: qué columnos seleccionaremos, qué hacemos con los NAN
- Realizar plan de accion. TEnemos un codigo que funciona bien sobre una muestra de 10000 lineas.
- Luego ltrabajaremos con un codigo que lo adaptaremos a big data seleccionando 10000 lineas mediante chunks (por ejemplo 3000 lineas, 3000 lineas, 30000 lineas y 1000)
- FInalmente se adaptata a big data

Comenzamos, pero trabajamos con el Sample. SI no se trabajase con el sample, como son muchisimas lineas, probablemente petaria, asi que como hemos dicho vamos a comenzar a trabajar con el sample

In [None]:
import pandas as pd
import numpy as np

In [None]:
b = pd.read_csv("bookings_sample.csv.bz2", sep="^")

In [None]:
COn shape podemos ver el numero de filas y columnas

In [None]:
b.shape

Tenemos 38 columnas

Podemos ver las 5 primeras lineas

In [None]:
b.head()

POdemos ver 5 columnas aleatorias

In [None]:
b.sample(5)

VEmos que no estamos viendo todas las columnas. No lo está indicando pandas con (...)

Hya una opción de pandas donde se puede definir el numero de columnas que queremos visualizar. COn None no marcamos limites

In [None]:
pd.set_option("display.max_columns", None)

In [None]:
b.sample(5)

QUe representa esta table? Son bookings pero no tenemos idnea de como se ha creado. Este dataset si el tkiempo entre las conexiones de vuelos es mayor a 8 horas, crea una linea por cada destino. Si es menor a 8 horas, los une en una sola linea.
Vemos por ejemplo que tenemos activity date que tiene fecha y hora siempre a cero. Es cuando se ha hecho esta actividad
Cration Data que es cuando se ha hehco la reserva
SOurce indica de donde viene la reserva
pos_ctry es el point of sale
pos_iata
pos_office id
rloc es record locate es el codigo de reserva
Estos codigos de arriba se llama hashing es decir, que se ha cogido codigo, se ha pasado por un algoritmo y ha devuelto un codigo hexadecimal, pero no puedes ver como se ha generado, es decir, no puedes ver que hay detras, dando  anonimato. PEro algunos rloc son compartidos si son de la misma persona.
duration es la fecha del primer vuelo y del ultimo
distance es 0 si es de ida y vuelta

Voy a intentar agrupar por rloc

In [None]:
b.groupby("rloc")["act_date"].count().sort_values(ascending=False)

In [None]:
Pero me da un Keyerror por rloc, diciendo que no existe. Eso se debe a que el nombre de rloc NO ESTÁ BIEN PUESTO PORQUE TIENE ESPACIOS EN BLANCO

In [None]:
list(b.columns)

In [None]:
b.groupby("rloc          ")["act_date           "].count().sort_values(ascending=False)

In [None]:
Y veo que tengo una columna repetida 42 veces. Es raro, Voy a investigar

In [None]:
b[b["rloc          "]=="ae15bcfc5aec0eb64b2c5204d08201d5"].sort_values("act_date           ",ascending=False)

SI con los resultados objetivos comparo el activity date con el creation date veo que son fechas diferentes asi que veo que hay algo anterior que no estoy obteniendo

Con describe all puedo ver algo de todas esas columnas no solo de la de caracter numerico y puedo ver qiue el rloc que mas se repite es ese con una frecuencia de 42

In [None]:
b.describe(include="all")

Puedo ver el tipo de los elementos mediante info

In [None]:
b.info()

In [None]:
Puedo ver si hay nulos en los primeros 10.000, que es mi muestra. Es decir, no hay NAN

In [None]:
b.isnull().sum()

In [None]:
Vamos a elegir ahora las columna de interés. Por el enunciado del ejercicio nos quedamos con arrival_port, pax, year.
VAmos a abrir el fichero solo con estas tres columnas
Cda vez que lo cojo de nrows lo hacemos desde el principio pero veremos que con chunk va a cambiar

In [None]:
import pandas as pd
pd.set_option("display.max_columns", None)
b = pd.read_csv("bookings.csv.bz2", 
                sep="^", nrows = 9999,
                usecols=["arr_port","pax","year"])

#Vemos qué hacemos con los nulls. LOs vamos a eliminar si son nulos. AHora mismo no hace nada pero puede que en un futuro haga algo
b = b.dropna()

In [None]:
b.shape

In [None]:
b.head()

Comenzamos con el plan de acción

In [None]:
b[b.loc[:,"year"] == 2013].groupby("arr_port").sum().sort_values("pax", ascending=False).head(10)["pax"]

Veo que arr_port es ahora un index. Si quisiera sacarlo fuera como una columna haría un reset index

In [None]:
b[b.loc[:,"year"] == 2013].groupby("arr_port").sum().sort_values("pax", ascending=False).reset_index().head(10)[["arr_port","pax"]]

Con los chunks lo que vamos a hacer es partir nuestra muestra de 10.000 en trocitos e ir sumando resultados, para que se pueda trabajar en datasets más grandes. Eso es hacerlo en chunks

## CHunks

Recordemos el código anterior

In [None]:
#Chunks
import pandas as pd
pd.set_option("display.max_columns", None)
b = pd.read_csv("bookings.csv.bz2", 
                sep="^", nrows = 9999,
                usecols=["arr_port","pax","year"])

#Vemos qué hacemos con los nulls. LOs vamos a eliminar si son nulos. AHora mismo no hace nada pero puede que en un futuro haga algo
b = b.dropna()
b=b[b["year"]==2013]
del b ["year"]
b_gr=b.groupby("arr_port").sum().sort_values("pax", ascending=False)
b_gr.reset_index(inplace=True)
b_gr.head(10)

In [None]:
type(b)

Ahora cmabio el codigo y simplemente pongo iterator = True en el codigo de read_csv

In [None]:
#Chunks
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                nrows = 9999, iterator = True)

In [None]:
type(bi)

Ahora veo con el tipo que ya no es un dataFrame, sino un parser

Hay dos maneras de trabajr con los chunks: una en la que no definimos el tamaño de chunks y otra en la que si. En esta no esta definido el tamaño de chunks.

In [None]:
b = bi.get_chunk(3000)

In [None]:
type(b)

AHora con esto ya si nos devuelve un dataframe. Es decir, con el iterator=True creamos la comunicación y con get_chunk hacemos el training.

In [None]:
b.head()

Con el iterator, coloca el puntero y cuando volvamos hacer head nos colocará el puntero sobre donde se ha quedado.

No pasa nada si el iterator es mayor al archivo la ñprimera vez, pero si volvemos a ejecutar, nos dará un error de que se ha situado en el final y no puede hacerlo más

Otra manera es poniendo el chunksize de antemano. EN cuyo caso no hace falta poner iterator=True porque ya asimila que existe

In [None]:
#Chunks
#Chunks
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                nrows = 9999, chunksize=3000, iterator = True)

El codigo de debajo va hacer un bucle para cada chunk, metiendo los resultados en b. devuelve 4 i porque como nuestro dataset es de 10000 y el chunk es de 3000, tiene que hacer 4 chunks.
Cada b es un dataframe

In [None]:
for i, b in enumerate(bi):
    print(i)
    print(len(b))

EL codigo de debajo funciona, pero no nos va  aguardar nada porque no hemos pedido que guarde los dataframse

In [None]:
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                nrows = 9999, chunksize=3000, iterator = True)


for i, b in enumerate(bi):
    print(i)
    b = b.dropna()
    b=b[b["year"]==2013]
    del b ["year"]
    b_gr=b.groupby("arr_port").sum().sort_values("pax", ascending=False).reset_index()
    b_gr.head(10)

In [None]:
Por ello vamos a crear un dataframe vacio que guarde los resultados de todos los chunks, pero vamos a quitar el head, ya que no nosinteresa eso, nos interesa el resultado de todo. El head lo metremos al final

In [None]:
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                nrows = 9999, chunksize=3000, iterator = True)

all_chunks=pd.DataFrame()
for i, b in enumerate(bi):
    print(i)
    b = b.dropna()
    b=b[b["year"]==2013]
    del b ["year"]
    b_gr=b.groupby("arr_port").sum().sort_values("pax", ascending=False).reset_index()
    all_chunks=all_chunks.append(b_gr)


In [None]:
all_chunks.shape

Tiene sentido, pero ahora tenemos 4 chunks. Para tener el resultado final tenemos que volver a agrupar, todos los resultados pero fuera del iterador

In [None]:
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                nrows = 9999, chunksize=3000, iterator = True)

all_chunks=pd.DataFrame()
for i, b in enumerate(bi):
    print(i)
    b = b.dropna()
    b=b[b["year"]==2013]
    del b ["year"]
    b_gr=b.groupby("arr_port").sum().sort_values("pax", ascending=False).reset_index()
    all_chunks=all_chunks.append(b_gr)
    
all_result=all_chunks.groupby(["arr_port"]).sum().sort_values("pax", ascending=False).reset_index()

In [None]:
all_result.head(10)

Ojo con el reset index. Dependiendo de donde lo ponga tengo que poner inplace=True o no poner nada. COmo en el iterador de abajo está en otra línea y quiero que me lo cmabie, tengo que poner inplace=True

In [None]:
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                nrows = 9999, chunksize=3000, iterator = True)

all_chunks=pd.DataFrame()
for i, b in enumerate(bi):
    print(i)
    b = b.dropna()
    b=b[b["year"]==2013]
    del b ["year"]
    b_gr=b.groupby("arr_port").sum().sort_values("pax", ascending=False)
    b_gr=b_gr.reset_index(inplace=True)
    all_chunks=all_chunks.append(b_gr)
    
all_result=all_chunks.groupby(["arr_port"]).sum().sort_values("pax", ascending=False).reset_index()

In [None]:
Voy a comenzar a implementarlo: aumentar ahora el chunksizze, añado time y quito el nrwos

In [None]:
%%time
import pandas as pd
pd.set_option("display.max_columns", None)
bi = pd.read_csv("bookings.csv.bz2", 
                sep="^",
                usecols=["arr_port","pax","year"],
                chunksize=1000000, iterator = True)

all_chunks=pd.DataFrame()
for i, b in enumerate(bi):
    print(i)
    b = b.dropna()
    b=b[b["year"]==2013]
    del b ["year"]
    b_gr=b.groupby("arr_port").sum().sort_values("pax", ascending=False).reset_index()
    all_chunks=all_chunks.append(b_gr)
    
all_result=all_chunks.groupby(["arr_port"]).sum().sort_values("pax", ascending=False).reset_index()

In [None]:
all_result.head(10)

Vamos con el bonus (Geobase/Neobases)

In [None]:
! pip install Neobase

In [None]:
import neobase as nb

In [None]:
from neobase import NeoBase

In [None]:
geoDict=NeoBase()

In [None]:
type(geoDict)

In [None]:
geoDict.get("LHR")

In [None]:
type(geoDict.get("LHR"))

In [None]:
Vemos que es un diccionario

In [None]:
geoDict.get("LHR").keys()

In [None]:
geoDict.get("LHR")["name"]

Vamos a cruzarlo con all_results

Pero a partir de aquí comienzan los problemas...

In [None]:
all_result["arr_port"][0]

Vemos que hay un espacio en blanco

In [None]:
all_result["arr_port"][0].strip()

In [None]:
Lo vamos a convertir eliminando los espacios en blanco:

In [None]:
all_result["arr_port"]=all_result["arr_port"].str.strip()

In [None]:
all_result["arr_port"][0]

Pero que pasa cuando hay espacios en blanco en medio¿?

In [None]:
"        kadjnkfk    dfbjsdfb  hf hdfd jk      sdfsdf            ".strip()

In [None]:
Pero volcamos al ejercicio. Vamos a llamar a cada elemento y busquemos su nombre en el diccionario de NEobases incorporando una nueva columna

In [None]:
all_result["AirportNAme"]=all_result["arr_port"].map(lambda x: geoDict.get(x)["name"])

In [None]:
Pero nos da un error, que significa que el aeropuerto CPQ no aparezca

In [None]:
all_result[all_result["arr_port"]=="CPQ"]

In [None]:
all_result=all_result[all_result["arr_port"]!="CPQ"]

In [None]:
all_result["AirportNAme"]=all_result["arr_port"].map(lambda x: geoDict.get(x)["name"])

In [None]:
all_result.head(10)

In [None]:
Veo que pax me lo suelta en modo float pero es un integer, asi que lo cambio

In [None]:
all_result=all_result.astype({"pax":int})

In [None]:
all_result.head(10)

In [None]:
all_result.shape

In [None]:
Lo exporto

In [None]:
all_result.to_csv("top_airports.csv", sep="^", index=False)

In [None]:
ls

In [None]:
Compruebo que se ha guardado bien

In [None]:
! head -2 top_airports.csv

Vamos al ejercicio 5.
Hay que escribir un webservice

Hay que crear un JSON que es un formato texto pero con estructura de datos y sirve para intercambiar información.
DJango es una estructura de WebService pero muy compleja. SE puede usar flusk
Que es un web service? Una especie de app. Python es un webservice y se ejecuta en local (localhost), pero el web service puede ser 

In [None]:
from flask import Flask

app = Flask("My first web service")
@app.route("/hello", methods=["GET"])
# GET    The browser tells the server to just get the information stored
def get_hello():
    return "Hello DS from the service!"

In [None]:
app.run()

In [None]:
Le estoy diciendo que la ruta (la de jupyter es localhost:888) yo le estoy diciento que sea hello
Y dentro de la aplicacion

In [None]:
Así si ponemos lo que pone running on: + hello nos mostrará lo que quere,ps

In [None]:
http://127.0.0.1:5000/hello

In [None]:
from flask import Flask

app = Flask("My first web service")
@app.route("/hello", methods=["GET"])
# GET    The browser tells the server to just get the information stored
def get_hello():
    return "Hello DS from the service!"

#COn el codigo de debajo digo que en esa ruta estoy esperado un numero de tipo integer de nomvre n que voy a indicar abajo
@app.route("/ret_number/<int:n>", methods=["GET"])
def get_number(n):
    return "I got %d"%n

app.run()

In [None]:
Si escribo en mi navegador: http://127.0.0.1:5000/ret_number/10

In [None]:
Me devolverá I got 10