<h1 style="text-align:center">Data engineering - preentrega n°2</h1>

Para nuestro proyecto de trabajo final de data engineering, hemos elegido la API del Banco Central de República Argentina (BCRA), cuya documentación puede obtenerse del siguiente link: https://estadisticasbcra.com/api/documentacion. De la mencionada API obtendremos información diaria de diferentes variables que publica la institución, tales como el valor del tipo de cambio, la base monetaria, el monto de los depósitos, tasa de interés, el valor del Merval, etc.

Como primera medida, importaremos las librerías que utilizaremos:

In [1]:
import pandas as pd
import requests 
import json
import sqlalchemy as sa
from configparser import ConfigParser
import time

## Credenciales

El primer paso que daremos, será establecer las credenciales. Esto incluye las claves de usuario de Amazon Redshift y el token de la API del BCRA. Este token se puede obtener con solo registrar el e-mail en la página https://estadisticasbcra.com/api/registracion, a partir de la cual se permite realizar hasta 100 consultas diarias.

In [2]:
def credenciales(config_ruta, config_seccion):
    parser = ConfigParser()
    parser.read(config_ruta)
    config = parser[config_seccion]
    return config

In [3]:
config = credenciales('config.ini', 'redshift')

## Extracción y limpieza de datos

A continuación creamos una función que nos facilite la descarga y limpieza de los datos:

In [4]:
def bcra(codigo, nombre_variable, credenciales):
    headers = dict(Authorization = credenciales['api_token'])
    # Pedimos que traiga la data y la limpie
    api = 'https://api.estadisticasbcra.com/{}'.format(codigo)
    data = requests.get(api, headers = headers).json()
    data = pd.DataFrame(data)
    data.columns = ['fecha', nombre_variable]
    data['fecha'] = pd.to_datetime(data['fecha'], format = '%Y-%m-%d')
    return data

Probamos nuestra función:

In [5]:
data = bcra('usd_of', 'dolar_oficial', config)

In [6]:
data

Unnamed: 0,fecha,dolar_oficial
0,2002-03-04,2.01
1,2002-03-05,1.99
2,2002-03-06,2.05
3,2002-03-07,2.14
4,2002-03-08,2.20
...,...,...
5376,2024-01-26,823.55
5377,2024-01-29,825.25
5378,2024-01-30,825.75
5379,2024-01-31,826.25


Para automatizar un poco el proceso, creamos dos listas: una con los códigos que requiere la api y otra con los nombres que adquirirán las variables en el data frame:

In [7]:
códigos = ['usd', 'var_usd_vs_usd_of','base', 'reservas', 'base_div_res','circulacion_monetaria', 'depositos', 
       'cuentas_corrientes', 'tasa_adelantos_cuenta_corriente', 'cajas_ahorro', 'plazo_fijo', 'tasa_depositos_30_dias',
        'prestamos', 'tasa_prestamos_personales', 'porc_prestamos_vs_depositos',
        'leliq', 'leliq_usd_of', 'tasa_leliq', 'tasa_badlar', 
        'tasa_baibar', 'tasa_tm20', 'merval', 'merval_usd']

In [8]:
nombres_variables = ['dolar_paralelo', 'brecha_dolar_oficial_paralelo', 'base_monetaria', 'reservas_internacionales',
                    'base_monetaria_dividida_reservas', 'circulacion_monetaria', 'depositos',
                    'cuentas_corrientes', 'tasa_adelantos_cuenta_corriente', 'cajas_ahorro', 'plazos_fijos',
                    'tasa_depositos_30_dias', 'prestamos', 'tasa_prestamos_personales', 'porc_prestamos_vs_depositos',
                     'leliq', 'leliq_usd_of', 'tasa_leliq', 'tasa_badlar', 
                     'tasa_baibar', 'tasa_tm20', 'merval', 'merval_usd']

Ahora vamos a crear un bucle para extraer los datos, los cuales añadiremos a nuestro data frame inicial:

In [9]:
for i in range(len(códigos)):
    data2 = bcra(códigos[i], nombres_variables[i], config)
    data = pd.merge(data, data2, how= 'outer')
    data = data.sort_values('fecha')
    time.sleep(1)

La información de la API tiene una información más completa desde marzo de 2002, por lo cual nos quedaremos con la data desde esta fecha.

In [10]:
data = data[data['fecha'] >= '2002-03-01']

Vemos como nos queda nuestro data frame:

In [11]:
data

Unnamed: 0,fecha,dolar_oficial,dolar_paralelo,brecha_dolar_oficial_paralelo,base_monetaria,reservas_internacionales,base_monetaria_dividida_reservas,circulacion_monetaria,depositos,cuentas_corrientes,...,tasa_prestamos_personales,porc_prestamos_vs_depositos,leliq,leliq_usd_of,tasa_leliq,tasa_badlar,tasa_baibar,tasa_tm20,merval,merval_usd
2726,2002-03-01,,2.20,,21067.0,13788.0,1.5279,13071.0,89342.0,14329.0,...,,73.8018,,,,21.5000,22.39,,,
2727,2002-03-04,2.01,2.12,5.4726,21091.0,13732.0,1.5359,13212.0,87353.0,14291.0,...,,72.1463,,,,19.5000,21.62,,395.55,186.580
2728,2002-03-05,1.99,2.12,6.5327,21912.0,13794.0,1.5885,13259.0,86535.0,14076.0,...,,72.0402,,,,14.5000,22.50,,379.99,179.241
2729,2002-03-06,2.05,2.14,4.3902,21974.0,13798.0,1.5925,13335.0,86739.0,13895.0,...,,72.8588,,,,20.6250,23.63,,,
2730,2002-03-07,2.14,2.22,3.7383,22013.0,13809.0,1.5941,13469.0,87280.0,13628.0,...,,73.5781,,,,0.0000,23.22,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8301,2024-01-26,823.55,1245.00,51.1748,10649618.0,25007.0,425.8655,7477855.0,67375484.0,14168817.0,...,119.00,28.8701,5525.0,6.7088,100.0,108.0625,96.21,105.7500,1253579.29,1006.890
8302,2024-01-29,825.25,1225.00,48.4399,10406173.0,25158.0,413.6328,7484065.0,67714033.0,15005602.0,...,141.56,29.3116,5525.0,6.6949,100.0,109.0000,99.74,107.7500,1249345.81,1019.870
8303,2024-01-30,825.75,1215.00,47.1390,10326024.0,25105.0,411.3134,7488764.0,68480997.0,15324997.0,...,132.62,29.2759,5525.0,6.6909,100.0,108.6250,99.66,107.5625,1271673.16,1046.640
8304,2024-01-31,826.25,1195.00,44.6293,,,,,,,...,130.93,,5150.0,6.2330,100.0,109.6875,101.03,109.6250,1242404.12,1039.670


## Conexión a Amazon Redshift y carga de los datos

Creamos una función para conectarnos a la base de datos:

In [12]:
def con_amazon_redshift(credenciales):
    
    host = credenciales['host']
    port = credenciales['port']
    dbname = credenciales['dbname']
    username = credenciales['username']
    pwd = credenciales['pwd']

    # Contruye la cadena de conexión
    conn_string =f'postgresql://{username}:{pwd}@{host}:{port}/{dbname}?sslmode=require'
    
    engine = sa.create_engine(conn_string)
    conn = engine.connect()

    return conn, engine

In [13]:
con, engine = con_amazon_redshift(config)

Comprobamos nuestra conexión:

In [14]:
engine

Engine(postgresql://rodriguez_mauro11_coderhouse:***@data-engineer-cluster.cyhh5bfevlmn.us-east-1.redshift.amazonaws.com:5439/data-engineer-database?sslmode=require)

Finalmente, creamos la tabla que almecenará nuestros datos:

In [15]:
schema = 'rodriguez_mauro11_coderhouse'

con.execute(
    f"""
        DROP TABLE IF EXISTS {schema}.bcra;
        CREATE TABLE {schema}.bcra (
          fecha DATE,
          dolar_oficial FLOAT,
          dolar_paralelo FLOAT,
          brecha_dolar_oficial_paralelo FLOAT,
          base_monetaria FLOAT,
          reservas_internacionales FLOAT,
          base_monetaria_dividida_reservas FLOAT,
          circulacion_monetaria FLOAT,
          depositos FLOAT,
          cuentas_corrientes FLOAT,
          tasa_adelantos_cuenta_corriente FLOAT,
          cajas_ahorro FLOAT,
          plazos_fijos FLOAT,
          tasa_depositos_30_dias FLOAT,
          prestamos FLOAT,
          tasa_prestamos_personales FLOAT,
          porc_prestamos_vs_depositos FLOAT,
          leliq FLOAT,
          leliq_usd_of FLOAT,
          tasa_leliq FLOAT,
          tasa_badlar FLOAT,
          tasa_baibar FLOAT,
          tasa_tm20 FLOAT,
          merval FLOAT,
          merval_usd FLOAT
        )
        sortkey(fecha);
      """
)

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x1612d3b3370>

Luego, cargamos los datos de la API en la base de datos de Amazon Redshift.

In [16]:
data.to_sql(name= 'bcra', con = con, if_exists= 'append', method= 'multi', 
           chunksize= 1000, index= False)

5580

Y finalizamos la conexión.

In [17]:
con.close()