# PRACTICA 6: ELASTICSEARCH
### 1.4 Consulta del API e ingesta de datos en ELASTICSEARCH

Se importan las librerias necesarias

In [8]:
import requests
from xml.etree import ElementTree

In [9]:
response = requests.get("https://informo.madrid.es/informo/tmadrid/pm.xml")
root = ElementTree.fromstring(response.content)

In [10]:
fecha = root[0].text
print(fecha)

04/04/2022 12:10:06


In [11]:
out = []
for pm in root[1:]:
    d = {}
    for i in pm:
        d[i.tag] = i.text
    # d["fecha_hora"] = fecha
    out.append(d)

In [12]:
print(f"Hay {len(out)} medidas en el XML")

Hay 4465 medidas en el XML


### 2. Resultados en formato Pandas

In [13]:
import pandas as pd

# Data frame
df = pd.DataFrame(out)
# Se muestran los cinco primeros elementos
df.head(5)

Unnamed: 0,idelem,descripcion,accesoAsociado,intensidad,ocupacion,carga,nivelServicio,intensidadSat,error,subarea,st_x,st_y,velocidad
0,3409,SEPULVEDA Ø118 N-S (CEBREROS-CJAL. FCO. J. JIM...,240102,80,1,4,0,3000,N,1718,436004103195086,447258847356732,
1,4739,CJAL. FCO. J. JIMENEZ Ø126 E-O (BERLANAS-SEPUL...,240101,80,1,3,0,3000,N,1718,436039395885266,447239754735486,
2,4740,CJAL. FCO. J. JIMENEZ Ø86 O-E (F. CALVO-ALHAMBRA),240604,296,4,13,0,3000,N,1712,43672894576426,447248067512345,
3,4741,CJAL. FCO. J. JIMENEZ Ø76 E-O (HURTUMPASCUAL-A...,240602,315,1,11,0,3000,N,1712,436894776506751,447251484449863,
4,4742,ALHAMBRA Ø23 N-S (CJAL. FCO. J. JIMENEZ -CUART...,241101,270,1,9,0,3000,N,1712,436809990969673,447241009421372,


Convertimos a numérico los campos necesarios

In [14]:
# Convertimos el campo intensidad a numerico
df["intensidad"] = pd.to_numeric(df["intensidad"],errors="ignore")
# Convertimos el campo ocupacion a numerico
df["ocupacion"] = pd.to_numeric(df["ocupacion"],errors="ignore")
# Convertimos el campo carga a numerico
df["carga"] = pd.to_numeric(df["carga"],errors="ignore")
# Convertimos el campo nivelServicio a numerico
df["nivelServicio"] = pd.to_numeric(df["nivelServicio"],errors="ignore")
# Convertimos el campo intensidadSat a numerico
df["intensidadSat"] = pd.to_numeric(df["intensidadSat"],errors="ignore")
# Convertimos el campo st_x a numerico
df["st_x"] = [i.replace(",",".") for i in df["st_x"]]
df["st_x"] = pd.to_numeric(df["st_x"])
# Convertimos el campo st_y a numerico
df["st_y"] = [i.replace(",",".") for i in df["st_y"]]
df["st_y"] = pd.to_numeric(df["st_y"],errors="ignore")
# Se muestran los cinco primeros elementos
df.head(5)

Unnamed: 0,idelem,descripcion,accesoAsociado,intensidad,ocupacion,carga,nivelServicio,intensidadSat,error,subarea,st_x,st_y,velocidad
0,3409,SEPULVEDA Ø118 N-S (CEBREROS-CJAL. FCO. J. JIM...,240102,80,1,4,0.0,3000.0,N,1718,436004.103195,4472588.0,
1,4739,CJAL. FCO. J. JIMENEZ Ø126 E-O (BERLANAS-SEPUL...,240101,80,1,3,0.0,3000.0,N,1718,436039.395885,4472398.0,
2,4740,CJAL. FCO. J. JIMENEZ Ø86 O-E (F. CALVO-ALHAMBRA),240604,296,4,13,0.0,3000.0,N,1712,436728.945764,4472481.0,
3,4741,CJAL. FCO. J. JIMENEZ Ø76 E-O (HURTUMPASCUAL-A...,240602,315,1,11,0.0,3000.0,N,1712,436894.776507,4472515.0,
4,4742,ALHAMBRA Ø23 N-S (CJAL. FCO. J. JIMENEZ -CUART...,241101,270,1,9,0.0,3000.0,N,1712,436809.99097,4472410.0,


Convertimos el campo fecha a formato date

In [15]:
from datetime import datetime
# Le damos formato a la fecha
fecha_strp = datetime.strptime(fecha,"%d/%m/%Y %H:%M:%S")
print(f"Fecha strp: {fecha_strp}")
fecha_strf = datetime.strftime(fecha_strp,"%d/%m/%Y %H:%M:%S")
print(f"Fecha strf: {fecha_strf}")
df["fecha_hora"] = fecha_strf

Fecha strp: 2022-04-04 12:10:06
Fecha strf: 04/04/2022 12:10:06


In [16]:
import utm
# Convertimos las str a coordenadas
df["location"] = [utm.to_latlon(df["st_x"][i],df["st_y"][i],zone_number=30,zone_letter="T") for i in range(0,len(df["st_y"]))]
# Eliminamos los campos st_x y st_y una vez hemos obtenido la localizacion
del df["st_x"]
del df["st_y"]
df.head(3)

Unnamed: 0,idelem,descripcion,accesoAsociado,intensidad,ocupacion,carga,nivelServicio,intensidadSat,error,subarea,velocidad,fecha_hora,location
0,3409,SEPULVEDA Ø118 N-S (CEBREROS-CJAL. FCO. J. JIM...,240102,80,1,4,0.0,3000.0,N,1718,,04/04/2022 12:10:06,"(40.401447264855946, -3.7541516712567753)"
1,4739,CJAL. FCO. J. JIMENEZ Ø126 E-O (BERLANAS-SEPUL...,240101,80,1,3,0.0,3000.0,N,1718,,04/04/2022 12:10:06,"(40.39973003758229, -3.753716620466508)"
2,4740,CJAL. FCO. J. JIMENEZ Ø86 O-E (F. CALVO-ALHAMBRA),240604,296,4,13,0.0,3000.0,N,1712,,04/04/2022 12:10:06,"(40.400531565004236, -3.7455998299491524)"


Eliminación del caracter unicode "Ø" del dataframe

In [17]:
from unidecode import unidecode

for col in df:
    if isinstance(df[col].loc[0],str):        
        df[col] = df[col].apply(lambda x: str(x).replace("Ø","n.").replace("´","").replace("'",""))
df.head(5)

Unnamed: 0,idelem,descripcion,accesoAsociado,intensidad,ocupacion,carga,nivelServicio,intensidadSat,error,subarea,velocidad,fecha_hora,location
0,3409,SEPULVEDA n.118 N-S (CEBREROS-CJAL. FCO. J. JI...,240102,80,1,4,0.0,3000.0,N,1718,,04/04/2022 12:10:06,"(40.401447264855946, -3.7541516712567753)"
1,4739,CJAL. FCO. J. JIMENEZ n.126 E-O (BERLANAS-SEPU...,240101,80,1,3,0.0,3000.0,N,1718,,04/04/2022 12:10:06,"(40.39973003758229, -3.753716620466508)"
2,4740,CJAL. FCO. J. JIMENEZ n.86 O-E (F. CALVO-ALHAM...,240604,296,4,13,0.0,3000.0,N,1712,,04/04/2022 12:10:06,"(40.400531565004236, -3.7455998299491524)"
3,4741,CJAL. FCO. J. JIMENEZ n.76 E-O (HURTUMPASCUAL-...,240602,315,1,11,0.0,3000.0,N,1712,,04/04/2022 12:10:06,"(40.40085196078128, -3.743649187934572)"
4,4742,ALHAMBRA n.23 N-S (CJAL. FCO. J. JIMENEZ -CUAR...,241101,270,1,9,0.0,3000.0,N,1712,,04/04/2022 12:10:06,"(40.39990189695159, -3.7446378463982053)"


Se convierte a string todo el dicionatio

In [18]:
data = str(df).replace("'","\"")
print(data)

     idelem                                        descripcion accesoAsociado  \
0      3409  SEPULVEDA n.118 N-S (CEBREROS-CJAL. FCO. J. JI...         240102   
1      4739  CJAL. FCO. J. JIMENEZ n.126 E-O (BERLANAS-SEPU...         240101   
2      4740  CJAL. FCO. J. JIMENEZ n.86 O-E (F. CALVO-ALHAM...         240604   
3      4741  CJAL. FCO. J. JIMENEZ n.76 E-O (HURTUMPASCUAL-...         240602   
4      4742  ALHAMBRA n.23 N-S (CJAL. FCO. J. JIMENEZ -CUAR...         241101   
...     ...                                                ...            ...   
4460  10270                                                nan            nan   
4461  10660                                                nan            nan   
4462  10662                                                nan            nan   
4463  10661                                                nan            nan   
4464  10659                                                nan            nan   

      intensidad  ocupacion

Se mandan los datos a elastic search

In [19]:
import json
# Creamos el dicionario json
data_json = df.to_json(orient="records")
data_json = json.loads(data_json)

In [20]:
# Lanzamos un request a la BBDD
import requests

url = "https://pruebasd.es.northeurope.azure.elastic-cloud.com:9243/trafico-madrid/_doc"

payload=json.dumps([data_json[i] for i in range(0,len(data_json))])
headers = {
  'Authorization': 'Basic cmF1bDpvc2l0b2dvbWlub2xhXzY5'
}

response = requests.request("POST", url, headers=headers, data=payload)