# Extraction Examples

Para empezar, realizaremos las importaciones necesarias para extraer y cargar los datos:

In [1]:
import pandas as pd
import requests
import json
import csv
import psycopg2
import boto3
import configparser

En este notebook encontraremos 3 ejemplos de extracción;
* Extraer datos desde la computadora local
* Extraer un csv desde una liga
* Extraer datos desde una API
* Extraer datos desde una base de datos en AWS

## Extracción de datos desde la computadora local

En la carpeta de `data` encontrarás un csv, el cual será extraído localmente utilizando la librería de pandas.

In [2]:
ingresos_de_la_ciudad = pd.read_csv('../../data/convocatorias_20092021.csv')
ingresos_de_la_ciudad.head()

Unnamed: 0,post_title,post_date,no_procedimiento,unidad_responsable,id_convocante,entidad_convocante,ID,tipo_contratacion,metodo_contratacion,caracter_convocatoria,...,fecha_estimada_fin,concurso_lugar,concurso_direccion,concurso_fecha,propuestas_lugar,propuestas_direccion,propuestas_fecha,fallo_lugar,fallo_direccion,fallo_fecha
0,"2ª ADQUISICIÓN DE EQUIPAMIENTO DE MOBILIARIO, ...",20/09/21 0:51,UNISA/LPI/003/2021,DIRECCIÓN DE ADMINISTRACIÓN Y FINANZAS,,UNIVERSIDAD DE LA SALUD,2,ADQUISICIÓN DE BIENES,LICITACIÓN PÚBLICA,INTERNACIONAL ABIERTA,...,0000-00-00,OFICINAS DE LA UNIVERSIDAD DE LA SALUD,"CALLE NEZAHUALCÓYOTL NÚMERO 127, COLONIA CENTR...",24/09/21 11:00,OFICINAS DE LA UNIVERSIDAD DE LA SALUD,"CALLE NEZAHUALCÓYOTL NÚMERO 127, COLONIA CENTR...",29/09/21 11:00,OFICINAS DE LA UNIVERSIDAD DE LA SALUD,"CALLE NEZAHUALCÓYOTL NÚMERO 127, COLONIA CENTR...",05/10/21 11:00
1,ADQUISICIÓN DE MOBILIARIO PARA OFICINA,20/09/21 0:44,LPN/SACMEX/019/2021,"DIRECCIÓN DE RECURSOS MATERIALES, ABASTECIMIEN...",06CD03,SISTEMA DE AGUAS,3,ADQUISICIÓN DE BIENES,LICITACIÓN PÚBLICA,NACIONAL,...,0000-00-00,SALA DE JUNTAS DE LA SUBDIRECCIÓN DE COMPRAS Y...,"5° PISO DE RÍO DE LA PLATA NO. 48, ESQUINA RÍO...",23/09/21 10:00,SALA DE JUNTAS DE LA SUBDIRECCIÓN DE COMPRAS Y...,"5° PISO DE RÍO DE LA PLATA NO. 48, ESQUINA RÍO...",28/09/21 10:00,SALA DE JUNTAS DE LA SUBDIRECCIÓN DE COMPRAS Y...,"5° PISO DE RÍO DE LA PLATA NO. 48, ESQUINA RÍO...",04/10/21 10:00
2,EQUIPAMIENTO DE COCINAS PROTOTIPO PARA ALIMENT...,20/09/21 0:38,LPN-SIBISO-005-2021,DIRECCIÓN GENERAL DE ADMINISTRACIÓN Y FINANZAS,08C001,SECRETARÍA DE DESARROLLO SOCIAL,4,ADQUISICIÓN DE BIENES,LICITACIÓN PÚBLICA,NACIONAL,...,0000-00-00,SALA DE JUNTA DE LAS OFICINAS DE LA SECRETARÍA...,"FERNANDO DE ALVA IXTLILXÓCHITL NÚMERO 185, QUI...",20/09/21 11:00,SALA DE JUNTA DE LAS OFICINAS DE LA SECRETARÍA...,"FERNANDO DE ALVA IXTLILXÓCHITL NÚMERO 185, QUI...",23/09/21 11:00,SALA DE JUNTA DE LAS OFICINAS DE LA SECRETARÍA...,"FERNANDO DE ALVA IXTLILXÓCHITL NÚMERO 185, QUI...",27/09/21 11:00
3,ADQUISICIÓN DE ENZIMAS Y PUNTAS CON FILTRO,20/09/21 0:27,LPI/FGJCDMX/DACS022/2021,DIRECCIÓN GENERAL DE RECURSOS MATERIALES Y SER...,,FISCALÍA GENERAL DE JUSTICIA,5,ADQUISICIÓN DE BIENES,LICITACIÓN PÚBLICA,INTERNACIONAL ABIERTA,...,0000-00-00,SALA DE EVENTOS DE LA DIRECCIÓN GENERAL DE REC...,"AV. COYOACÁN NO. 1635, EDIFICIO “B” PLANTA ALT...",22/09/21 11:00,SALA DE EVENTOS DE LA DIRECCIÓN GENERAL DE REC...,"AV. COYOACÁN NO. 1635, EDIFICIO “B” PLANTA ALT...",27/09/21 11:00,SALA DE EVENTOS DE LA DIRECCIÓN GENERAL DE REC...,"AV. COYOACÁN NO. 1635, EDIFICIO “B” PLANTA ALT...",30/09/21 11:00
4,"TRABAJOS DE MANTENIMIENTO, CONSERVACIÓN Y REHA...",20/09/21 0:25,3000-1116-085-21,DIRECCIÓN GENERAL DE OBRAS Y DESARROLLO URBANO,02CD09,ALCALDÍA IZTAPALAPA,6,OBRA PÚBLICA,LICITACIÓN PÚBLICA,NACIONAL,...,31/12/21,JEFATURA DE LA UNIDAD DEPARTAMENTAL DE CONCURS...,"LATERAL DE RÍO CHURUBUSCO ESQ. EJE 6 SUR, COLO...",01/10/21 18:00,JEFATURA DE LA UNIDAD DEPARTAMENTAL DE CONCURS...,"LATERAL DE RÍO CHURUBUSCO ESQ. EJE 6 SUR, COLO...",07/10/21 18:00,,,0000-00-00 00:00:00


## Extracción mediante una liga a un csv expuesto

En esta ocasión usaremos la liga en donde se encuentra el csv para extraerlo.
Estos datos se encuentran en la página de datos [abiertos de la CDMX](https://datos.cdmx.gob.mx/dataset/convocatorias-de-compras-publicas).

In [3]:
ingresos_de_la_ciudad = pd.read_csv('https://datos.cdmx.gob.mx/dataset/a16471a6-2a7d-4c7d-996e-d804f8ad3772/resource/e20d341a-5558-4a84-be33-31aee566ccbd/download/convocatorias_20092021.csv')
ingresos_de_la_ciudad.head()

Unnamed: 0,post_title,post_date,no_procedimiento,unidad_responsable,id_convocante,entidad_convocante,ID,tipo_contratacion,metodo_contratacion,caracter_convocatoria,...,fecha_estimada_fin,concurso_lugar,concurso_direccion,concurso_fecha,propuestas_lugar,propuestas_direccion,propuestas_fecha,fallo_lugar,fallo_direccion,fallo_fecha
0,"2ª ADQUISICIÓN DE EQUIPAMIENTO DE MOBILIARIO, ...",20/09/21 0:51,UNISA/LPI/003/2021,DIRECCIÓN DE ADMINISTRACIÓN Y FINANZAS,,UNIVERSIDAD DE LA SALUD,2,ADQUISICIÓN DE BIENES,LICITACIÓN PÚBLICA,INTERNACIONAL ABIERTA,...,0000-00-00,OFICINAS DE LA UNIVERSIDAD DE LA SALUD,"CALLE NEZAHUALCÓYOTL NÚMERO 127, COLONIA CENTR...",24/09/21 11:00,OFICINAS DE LA UNIVERSIDAD DE LA SALUD,"CALLE NEZAHUALCÓYOTL NÚMERO 127, COLONIA CENTR...",29/09/21 11:00,OFICINAS DE LA UNIVERSIDAD DE LA SALUD,"CALLE NEZAHUALCÓYOTL NÚMERO 127, COLONIA CENTR...",05/10/21 11:00
1,ADQUISICIÓN DE MOBILIARIO PARA OFICINA,20/09/21 0:44,LPN/SACMEX/019/2021,"DIRECCIÓN DE RECURSOS MATERIALES, ABASTECIMIEN...",06CD03,SISTEMA DE AGUAS,3,ADQUISICIÓN DE BIENES,LICITACIÓN PÚBLICA,NACIONAL,...,0000-00-00,SALA DE JUNTAS DE LA SUBDIRECCIÓN DE COMPRAS Y...,"5° PISO DE RÍO DE LA PLATA NO. 48, ESQUINA RÍO...",23/09/21 10:00,SALA DE JUNTAS DE LA SUBDIRECCIÓN DE COMPRAS Y...,"5° PISO DE RÍO DE LA PLATA NO. 48, ESQUINA RÍO...",28/09/21 10:00,SALA DE JUNTAS DE LA SUBDIRECCIÓN DE COMPRAS Y...,"5° PISO DE RÍO DE LA PLATA NO. 48, ESQUINA RÍO...",04/10/21 10:00
2,EQUIPAMIENTO DE COCINAS PROTOTIPO PARA ALIMENT...,20/09/21 0:38,LPN-SIBISO-005-2021,DIRECCIÓN GENERAL DE ADMINISTRACIÓN Y FINANZAS,08C001,SECRETARÍA DE DESARROLLO SOCIAL,4,ADQUISICIÓN DE BIENES,LICITACIÓN PÚBLICA,NACIONAL,...,0000-00-00,SALA DE JUNTA DE LAS OFICINAS DE LA SECRETARÍA...,"FERNANDO DE ALVA IXTLILXÓCHITL NÚMERO 185, QUI...",20/09/21 11:00,SALA DE JUNTA DE LAS OFICINAS DE LA SECRETARÍA...,"FERNANDO DE ALVA IXTLILXÓCHITL NÚMERO 185, QUI...",23/09/21 11:00,SALA DE JUNTA DE LAS OFICINAS DE LA SECRETARÍA...,"FERNANDO DE ALVA IXTLILXÓCHITL NÚMERO 185, QUI...",27/09/21 11:00
3,ADQUISICIÓN DE ENZIMAS Y PUNTAS CON FILTRO,20/09/21 0:27,LPI/FGJCDMX/DACS022/2021,DIRECCIÓN GENERAL DE RECURSOS MATERIALES Y SER...,,FISCALÍA GENERAL DE JUSTICIA,5,ADQUISICIÓN DE BIENES,LICITACIÓN PÚBLICA,INTERNACIONAL ABIERTA,...,0000-00-00,SALA DE EVENTOS DE LA DIRECCIÓN GENERAL DE REC...,"AV. COYOACÁN NO. 1635, EDIFICIO “B” PLANTA ALT...",22/09/21 11:00,SALA DE EVENTOS DE LA DIRECCIÓN GENERAL DE REC...,"AV. COYOACÁN NO. 1635, EDIFICIO “B” PLANTA ALT...",27/09/21 11:00,SALA DE EVENTOS DE LA DIRECCIÓN GENERAL DE REC...,"AV. COYOACÁN NO. 1635, EDIFICIO “B” PLANTA ALT...",30/09/21 11:00
4,"TRABAJOS DE MANTENIMIENTO, CONSERVACIÓN Y REHA...",20/09/21 0:25,3000-1116-085-21,DIRECCIÓN GENERAL DE OBRAS Y DESARROLLO URBANO,02CD09,ALCALDÍA IZTAPALAPA,6,OBRA PÚBLICA,LICITACIÓN PÚBLICA,NACIONAL,...,31/12/21,JEFATURA DE LA UNIDAD DEPARTAMENTAL DE CONCURS...,"LATERAL DE RÍO CHURUBUSCO ESQ. EJE 6 SUR, COLO...",01/10/21 18:00,JEFATURA DE LA UNIDAD DEPARTAMENTAL DE CONCURS...,"LATERAL DE RÍO CHURUBUSCO ESQ. EJE 6 SUR, COLO...",07/10/21 18:00,,,0000-00-00 00:00:00


## Extracción de datos mediante una API

Como vimos anteriormente, una API es un protocolo de comunicación entre sistemas que "deja expuestos" ciertos datos, para que otro sistema los pueda leer desde ahí.

Para leer datos desde una API, utilizaremos la base de datos de consultas de información al INAI.

Para ello, utilizaremos la paquetería de requests.

Es importante conocer los tipos de respuesta que nos puede dar una API. Los principales son los siguientes:
* 200: OK
* 400: Bad Request
* 401: Unauthorised
* 402: Payment Required
* 403: Forbidden
* 404: Not Found

Ahora, vamos a hacer una solicitud de información a la API de [datos abiertos de méxico](https://datos.gob.mx/blog/catalogo-apidatosgobmx)

Los datos de la api puedes verlos "expuestos" en la siguiente [liga](https://api.datos.gob.mx/v1/inai.solicitudes)

¿Qué sucede si hago una request a una api que no existe?

In [4]:
date = '01/08/2020'
data_raw = requests.get(f"https://datos.cdmx.gob.mx/api/records/1.0/search/?dataset=afluencia-diaria-del-metro-cdmx&rows=10000&sort=-fecha&refine.fecha={date}")
data_raw

<Response [404]>

Primero hacemos el "request" de información a la API. Esto nos regresará como resultado un código de respuesta:

In [5]:
data_raw = requests.get('https://api.datos.gob.mx/v1/inai.solicitudes')
data_raw

<Response [200]>

Podemos ver el contenido de la extracción de la siguiente forma, pero no es legible para el humano.

In [6]:
# data_raw.content

Para poder entenderlo como humanos, tenemos que realizar lo siguiente:

In [7]:
data = data_raw.text
json_data = json.loads(data)
pandas_data = pd.json_normalize(json_data['results'])
pandas_data.head(5)

Unnamed: 0,_id,FOLIO,FECHASOLICITUD,DEPENDENCIA,ESTATUS,MEDIOENTRADA,TIPOSOLICITUD,DESCRIPCIONSOLICITUD,OTROSDATOS,ARCHIVOADJUNTOSOLICITUD,...,RESPUESTA,TEXTORESPUESTA,ARCHIVORESPUESTA,FECHARESPUESTA,PAIS,ESTADO,MUNICIPIO,CODIGOPOSTAL,SECTOR,Unnamed: 21
0,56eb2f18d288290100392fb6,'0673800000103,12/06/2003 07:42,INSTITUTO FEDERAL DE ACCESO A LA INFORMACIÓN Y...,Terminada,Electrónica,Información Pública,Solicito una copia simple del Acta del Pleno d...,Todos los martes el Pleno del IFAI lleva a cab...,,...,No se dará trámite a la solicitud,Es una solicitud prueba con motivo de la puest...,,02/07/2003,México,Distrito Federal,MIGUEL HIDALGO,11950,Hacienda y Crédito Público,
1,56eb2f18d288290100392fb7,'0673800000203,12/06/2003 07:42,INSTITUTO FEDERAL DE ACCESO A LA INFORMACIÓN Y...,Terminada,Electrónica,Información Pública,Solicito una copia simple del Acta del Pleno d...,Todos los martes el Pleno del IFAI lleva a cab...,,...,No se dará trámite a la solicitud,Es una solicitud prueba con motivo de la puest...,,02/07/2003,México,Distrito Federal,MIGUEL HIDALGO,11950,Hacienda y Crédito Público,
2,56eb2f18d288290100392fb8,'0608400000103,12/06/2003 07:47,AGROASEMEX S.A.,Terminada,Electrónica,Información Pública,Solicito una copia simple del Expediente del C...,José Octavio López Presa prestó servicios prof...,,...,No se dará trámite a la solicitud,Su solicitud expresa manifestada en su respue...,,12/08/2003,México,Distrito Federal,MIGUEL HIDALGO,11950,Hacienda y Crédito Público,
3,56eb2f18d288290100392fb9,'0000700000103,12/06/2003 08:10,SECRETARÍA DE LA DEFENSA NACIONAL,Terminada,Electrónica,Información Pública,Cuál es el armamento y equipo bélico con el qu...,,,...,La información está disponible públicamente,Direcci&oacute;n de Internet en donde se encue...,,16/06/2003,México,Distrito Federal,TLALPAN,14141,Defensa Nacional,
4,56eb2f18d288290100392fba,'0000700000203,12/06/2003 08:11,SECRETARÍA DE LA DEFENSA NACIONAL,Terminada,Electrónica,Información Pública,Cuál es el armamento y equipo bélico con el qu...,,,...,La información está disponible públicamente,Direcci&oacute;n de Internet en donde se encue...,,16/06/2003,México,Distrito Federal,TLALPAN,14141,Defensa Nacional,


## Extracción de datos desde una base de datos

Para extraer datos de una base de datos directamente, es necesario conectarse a ella primero, para lo cual ejecutamos el siguiente código:

In [8]:
parser = configparser.ConfigParser()
parser.read("../../pipeline.conf")
dbname = parser.get("postgres_config","database")
user = parser.get("postgres_config","username")
password = parser.get("postgres_config","password")
host = parser.get("postgres_config","host")
port = parser.get("postgres_config","port")

conn = psycopg2.connect(" dbname="+ dbname
                        + " user=" + user
                        + " password=" + password
                        + " host=" + host,
                        port = port)

Creamos un texto con el formato de query normal de SQL:

In [9]:
query = "SELECT * FROM Ordenes"

In [10]:
cursor = conn.cursor()
cursor.execute(query)
results = cursor.fetchall()

Verificamos los nombres de las columnas

In [11]:
column_names = [desc[0] for desc in cursor.description]
for i in column_names:
    print(i)

id_cliente
cantidad_de_chapatas
estatus
precio_chapatas
lastupdated


In [12]:
# Extract the column names
col_names = []
for elt in cursor.description:
    col_names.append(elt[0])

In [13]:
# Create the dataframe, passing in the list of col_names extracted from the description
df = pd.DataFrame(results, columns=col_names)

In [14]:
df

Unnamed: 0,id_cliente,cantidad_de_chapatas,estatus,precio_chapatas,lastupdated
0,1,2,Backordered,190,2021-10-09 12:00:00
1,2,2,Shipped,190,2021-10-09 13:00:00
2,1,1,Delivered,95,2021-10-09 12:30:00
3,3,2,Backordered,190,2021-10-09 15:00:00
4,4,2,Shipped,190,2021-10-09 10:00:00
5,5,2,Delivered,190,2021-10-09 16:20:00
6,6,3,Backordered,285,2021-10-09 09:00:00
7,7,2,Shipped,190,2021-10-09 18:50:00
8,8,4,Backordered,380,2021-10-09 14:30:00
9,4,2,Shipped,190,2021-10-09 12:00:00


In [17]:
pandas_data.head(1)

Unnamed: 0,_id,FOLIO,FECHASOLICITUD,DEPENDENCIA,ESTATUS,MEDIOENTRADA,TIPOSOLICITUD,DESCRIPCIONSOLICITUD,OTROSDATOS,ARCHIVOADJUNTOSOLICITUD,...,RESPUESTA,TEXTORESPUESTA,ARCHIVORESPUESTA,FECHARESPUESTA,PAIS,ESTADO,MUNICIPIO,CODIGOPOSTAL,SECTOR,Unnamed: 21
0,56eb2f18d288290100392fb6,'0673800000103,12/06/2003 07:42,INSTITUTO FEDERAL DE ACCESO A LA INFORMACIÓN Y...,Terminada,Electrónica,Información Pública,Solicito una copia simple del Acta del Pleno d...,Todos los martes el Pleno del IFAI lleva a cab...,,...,No se dará trámite a la solicitud,Es una solicitud prueba con motivo de la puest...,,02/07/2003,México,Distrito Federal,MIGUEL HIDALGO,11950,Hacienda y Crédito Público,


In [15]:
pandas_data.columns

Index(['_id', 'FOLIO', 'FECHASOLICITUD', 'DEPENDENCIA', 'ESTATUS',
       'MEDIOENTRADA', 'TIPOSOLICITUD', 'DESCRIPCIONSOLICITUD', 'OTROSDATOS',
       'ARCHIVOADJUNTOSOLICITUD', 'MEDIOENTREGA', 'FECHALIMITE', 'RESPUESTA',
       'TEXTORESPUESTA', 'ARCHIVORESPUESTA', 'FECHARESPUESTA', 'PAIS',
       'ESTADO', 'MUNICIPIO', 'CODIGOPOSTAL', 'SECTOR', ''],
      dtype='object')

In [None]:
CREATE TABLE inai.raw (id_registro VARCHAR(30), FOLIO VARCHAR(30), FECHASOLICITUD TIMESTAMP, DEPENDENCIA TEXT, ESTATUS VARCHAR(30), MEDIOENTRADA  VARCHAR(30), TIPOSOLICITUD  VARCHAR(30), DESCRIPCIONSOLICITUD TEXT, OTROSDATOS TEXT,
ARCHIVOADJUNTOSOLICITUD TEXT, MEDIOENTREGA  VARCHAR(30), FECHALIMITE DATE, RESPUESTA TEXT, TEXTORESPUESTA TEXT, ARCHIVORESPUESTA TEXT, FECHARESPUESTA DATE, PAIS  VARCHAR(30),
ESTADO  VARCHAR(30), MUNICIPIO  VARCHAR(30), CODIGOPOSTAL  VARCHAR(30), SECTOR  VARCHAR(30));

In [19]:
len("'0673800000103")

14