Paso 1 - Sacar información de la web: Spanish Tenders

In [None]:
#Pandas para manipulación y análisis de datos
#Requests librería default para hacer requisiciones HTTP en Python
#Codificador json y numpy para funciones matemáticas
import pandas as pd
import requests as req
import json
import numpy as np

Paso 2 - Preparar la información de las 10 páginas -ponerla un diccionario de DataFrames - para enviarla de p*tazo a MariaDB

In [None]:
%%time
#Tenders tiene "page_count":7146 páginas, en este ejercicio solo comentaré brevemente. En el anterior si fui paso a paso.
url = "https://tenders.guru/api/es/tenders"
url_page = url + "?page={p}"
#para guardar todos los dataframes usamos un colector de Data Frames
dataframe_collection = {}
for k in range(16,19):
  rest_page = req.get(url_page.format(p=k))
  page_response = rest_page.json()
  hojas = page_response['page_number']
  #-----------------------------------------------------------------------------------------------------------------------
  #Aquí las cosas se hacen divertidas, usamos Comprehensive Lits (easier than lambda) para extraer datos y armar columnas
  #Notar que awarded en data tiene listas dentro de listas y por eso se usan los [0] para indicar la primera fila
  #-----------------------------------------------------------------------------------------------------------------------
  purchaser_list = [int(x["purchaser"]["id"]) for x in page_response["data"]]
  tender_types = [x["type"]["id"] for x in page_response["data"]]
  awarded_date = [x["awarded"][0]["date"] for x in page_response["data"]]
  awarded_date_offers_count = [x["awarded"][0]["count"] for x in page_response["data"]]
  awarded_offers_supplier_id = [int(x["awarded"][0]["suppliers"][0]["id"]) for x in page_response["data"]]
  awarded_offers_supplier_name = [x["awarded"][0]["suppliers"][0]["name"] for x in page_response["data"]]
  awarded_offers_value = [(x["awarded"][0]["value"]) for x in page_response["data"]]
  #Aquí nace nuestro FRAME de PANDAS 
  response_frame = pd.DataFrame(page_response["data"])
  #Aquí agregamos columnas al DataFrame, básicamente es como desmenuzar el pollo (listas JSON anidadas) y crear la tinga (pura lista normal)
  response_frame["purchaser"] = purchaser_list
  response_frame["tender_type"] = tender_types
  response_frame["awarded_date"] = awarded_date
  response_frame["awarded_date_offers_count"] = awarded_date_offers_count
  response_frame["awarded_offers_supplier_id"] = awarded_offers_supplier_id
  response_frame["awarded_offers_supplier_name"] = awarded_offers_supplier_name
  response_frame["awarded_offers_value"] = awarded_offers_supplier_name
  #Quitamos type y awarded porque esas columnas ya no nos ayudan
  response_frame.drop(["type", "awarded"], axis = 1, inplace = True)
  #Para el punto extra le insertamos 1 columna al DF, al inicio, y la llenamos con el número de página en cuestión
  response_frame.insert(0, "HOJA", hojas)
  dataframe_collection[k] = response_frame
 


CPU times: user 140 ms, sys: 7.11 ms, total: 147 ms
Wall time: 7.25 s


Paso 3 - Revisamos que el diccionario contenga las 10 páginas y después concatenamos en 1 paquete para enviar

In [None]:
#Pum! doggy! tenemos las páginas 1 a 10 en una colección de dataframes para ser enviadas a MariaDB
dataframe_collection.keys()

dict_keys([16, 17, 18])

In [None]:
#Aquí metemos todo en un mismo paquete para mandárselo a María / ponemos Ignore Index para que el ID sea consecutivo
paquetote_para_mariaDB = pd.concat(dataframe_collection, ignore_index=True)


In [None]:
#Revisamos que todo esté en la misma caja: cada página tiene 100 registros 10x100 = 1000
len(paquetote_para_mariaDB)

300

In [None]:
#Reviso lo que hay dentro del paquete de María
paquetote_para_mariaDB.tail()

Unnamed: 0,HOJA,id,date,deadline_date,deadline_length_days,title,category,sid,src_url,purchaser,tender_type,awarded_date,awarded_date_offers_count,awarded_offers_supplier_id,awarded_offers_supplier_name,awarded_offers_value
295,18,826597,2020-12-17,2021-02-17,62.0,Proyecto de construcción modular de oficinas y...,constructions,6776451,https://contrataciondelestado.es/wps/poc?uri=d...,1673,open,2021-05-25,1,9581,"ALGECO CONSTRUCCIONES MODULARES, S.L.U.","ALGECO CONSTRUCCIONES MODULARES, S.L.U."
296,18,826524,2021-06-03,,,"Obras de reforma, reparación y conservación en...",constructions,7654822,https://contrataciondelestado.es/wps/poc?uri=d...,1948,contract-based-on-a-framework-agreement,2021-05-25,1,999,"COARSA, S.A.","COARSA, S.A."
297,18,826521,2021-06-03,,,"Obras de reforma, reparación y conservación en...",constructions,7654821,https://contrataciondelestado.es/wps/poc?uri=d...,1948,contract-based-on-a-framework-agreement,2021-05-25,1,999,"COARSA, S.A.","COARSA, S.A."
298,18,826518,2021-06-03,,,Adquisición directa de un bien inmueble al sit...,other,7654819,https://contrataciondelestado.es/wps/poc?uri=d...,3773,negotiated-without-publicity,2021-05-25,1,210315,Gregorio Ponce Duran,Gregorio Ponce Duran
299,18,826098,2020-12-11,2020-12-29,18.0,Servicio de asistencia técnica para la implant...,services,6736476,https://contrataciondelestado.es/wps/poc?uri=d...,1979,simplified-open,2021-05-25,1,194171,"IBIM BUILDING TWICE, SL","IBIM BUILDING TWICE, SL"


Paso 4 - Aquí preparamos todo para mandar el MEGA Frame a MariaDB

In [None]:
#Instalamos pymysql para alterar MariaDB a través de Python pure python mysql library
!pip install pymysql

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pymysql
  Downloading PyMySQL-1.0.2-py3-none-any.whl (43 kB)
[K     |████████████████████████████████| 43 kB 1.5 MB/s 
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.0.2


In [None]:
#Un ORM es un modelo de programación que permite mapear las estructuras de una base de datos relacional (SQL Server, Oracle, MySQL, etc.)
from sqlalchemy import create_engine
import pymysql

In [None]:
#he pool_recycle option which controls the maximum age of any connection, está en segundos
#primero saberse el usuario y contraseña y después la IP externa que de Google Console
sqlEngine = create_engine('mysql+pymysql://user:password@X.X.X.X:3306/spaintenders', pool_recycle=3600)

In [None]:
#conectarse a la base de datos a través del usuario
dbConnection = sqlEngine.connect()

In [None]:
#tabla remota será un dataframe de pandas
remote_db_table = pd.DataFrame()
#con eso revisamos si pandas puede leer lo que tenemos en TENDER_DETAIL
#intenta leer
try:
  remote_db_table = pd.read_sql("SELECT * FROM TENDER10_DETAIL", dbConnection)
#si hay algun pex nos regresa un NULL
except Exception as e:
  print(e)
  remote_db_table["tender_id"] = np.NaN

In [None]:
#Nos regresa lo que tengamos en MariaDB en TENDER_DETAILS
remote_db_table

Unnamed: 0,id,HOJA,tender_id,date,deadline_date,deadline_length_days,title,category,sid,src_url,purchaser,tender_type,awarded_date,awarded_date_offers_count,awarded_offers_supplier_id,awarded_offers_supplier_name,awarded_offers_value


In [None]:
#¡A huevísimo! Al principio había un error de tipo de dato, drop column en mariadb, cambiarlo de acuerdo al DataFrame y PUm! Lista!
if paquetote_para_mariaDB.shape[0] > 0:
  paquetote_para_mariaDB.to_sql("TENDER10_DETAIL", con=dbConnection, if_exists='append', index = False)
else:
  print("Nada")

In [None]:
#Podemos ir a MariaDB y darle un select * from, pero veamos si por aquí podemos hacer lo mismo
#tabla remota será un dataframe de pandas
remote_db_table = pd.DataFrame()
#con eso revisamos si pandas puede leer lo que tenemos en TENDER_DETAIL
#intenta leer
try:
  remote_db_table = pd.read_sql("SELECT * FROM TENDER10_DETAIL", dbConnection)
#si hay algun pex nos regresa un NULL
except Exception as e:
  print(e)
  remote_db_table["tender_id"] = np.NaN

In [None]:
#veamos si la información llegó a MariaDB y de qué forma
#si llegó todo a MariaDB Pum Perrito! ya tenemos ETL de 10 páginas :)
remote_db_table.tail()

Unnamed: 0,id,HOJA,tender_id,date,deadline_date,deadline_length_days,title,category,sid,src_url,purchaser,tender_type,awarded_date,awarded_date_offers_count,awarded_offers_supplier_id,awarded_offers_supplier_name,awarded_offers_value
295,830906,17,,2021-04-09,2021-04-24,15.0,Renovación parcial del acerado de la Urbanizac...,constructions,7272050,https://contrataciondelestado.es/wps/poc?uri=d...,2504,simplified-open,2021-05-27,1,148552,TOLEDANA DE INFRAESTRUCTURAS Y SERVICIOS SL,TOLEDANA DE INFRAESTRUCTURAS Y SERVICIOS SL
296,830907,18,,2021-01-21,2021-02-23,33.0,"Suministro, instalación, configuración y puest...",supplies,6915044,https://contrataciondelestado.es/wps/poc?uri=d...,2821,open,2021-05-25,1,14697,"Open Canarias, S.L.","Open Canarias, S.L."
297,830944,16,,2021-05-31,2021-05-19,12.0,Suministro para la actualización del software ...,supplies,7635535,https://contrataciondelestado.es/wps/poc?uri=d...,1985,negotiated-without-publicity,2021-05-31,1,1369,"GRIFOLS MOVACO, S.A.","GRIFOLS MOVACO, S.A."
298,831077,18,,2021-04-05,2021-04-22,17.0,Servicios sanitarios de procedimientos terapéu...,services,7250934,https://contrataciondelestado.es/wps/poc?uri=d...,1730,open,2021-05-26,1,210833,ROCIO LESMES CUERDA,ROCIO LESMES CUERDA
299,831206,17,,2021-06-29,2021-04-30,60.0,Servicios de seguros patrimoniales contra daño...,services,7789553,https://contrataciondelestado.es/wps/poc?uri=d...,925,negotiated-without-publicity,2021-05-28,1,29851,"PLUS ULTRA SEGUROS GENERALES Y VIDA, S.A. DE S...","PLUS ULTRA SEGUROS GENERALES Y VIDA, S.A. DE S..."


In [None]:
#Cerramos la conexión a la base de datos
dbConnection.close()