In [1]:
import requests
import pandas as pd
import os
from configparser import ConfigParser

In [2]:
# Seteo el path del archivo de configuracion
base_dir = "/Users/Bubu/Documents/REPOS/DE-CODER"
os.chdir(base_dir)

In [3]:
# Leo el archivo de configuracion
config = ConfigParser()
config_dir = "config/config.ini"
config.read(config_dir)

['config/config.ini']

### Obtengo información de las APIs

In [4]:
# Obtenego datos de Tickers por pais de : https://stockanalysis.com 
url_api_country = "https://stockanalysis.com/api/screener/s/d/country.json"

r1 = requests.get(url_api_country)

if r1.status_code == 200:
    print(r1.json())
else:
    print(r1.status_code, r1.content)

{'status': 200, 'data': {'data': [['AAPL', 'United States', 'N'], ['MSFT', 'United States', 'N'], ['GOOG', 'United States', 'N'], ['GOOGL', 'United States', 'N'], ['AMZN', 'United States', 'N'], ['NVDA', 'United States', 'N'], ['META', 'United States', 'N'], ['BRK.A', 'United States', 'N'], ['BRK.B', 'United States', 'N'], ['TSLA', 'United States', 'N'], ['LLY', 'United States', 'N'], ['UNH', 'United States', 'N'], ['V', 'United States', 'N'], ['TSM', 'Taiwan', 'N'], ['WMT', 'United States', 'N'], ['NVO', 'Denmark', 'N'], ['XOM', 'United States', 'N'], ['JPM', 'United States', 'N'], ['JNJ', 'United States', 'N'], ['PG', 'United States', 'N'], ['AVGO', 'United States', 'N'], ['MA', 'United States', 'N'], ['HD', 'United States', 'N'], ['ORCL', 'United States', 'N'], ['CVX', 'United States', 'N'], ['MRK', 'United States', 'N'], ['ABBV', 'United States', 'N'], ['COST', 'United States', 'N'], ['KO', 'United States', 'N'], ['ADBE', 'United States', 'N'], ['ASML', 'Netherlands', 'N'], ['TM', 

In [5]:
# Genero un dataframe con los datos de los tickers por pais
tickers_countries = pd.DataFrame(r1.json()['data']['data'])

In [6]:
# Selecciono columnas del dataset tickers_countries
tickers_countries=tickers_countries[[0,1]]
tickers_countries.rename(columns={0:'Ticker',1:'Country'}, inplace=True)

In [7]:
tickers_countries.head()

Unnamed: 0,Ticker,Country
0,AAPL,United States
1,MSFT,United States
2,GOOG,United States
3,GOOGL,United States
4,AMZN,United States


In [8]:
# Selecciono solo los tickers de Argentina 
# IMPORTANTE!!: Limito a solo 5 ya que es la cantidad de requests que me permite el plan free de la api por minuto)

tickers_argentina=tickers_countries[tickers_countries['Country']=='Argentina']['Ticker'][0:5]

In [9]:
# Ahora obtengo los datos de cotización historica de los tickers de Argentina de polygon.io
# Obtuve el token de acceso a la API de polygon.io y lo guardé en config.ini

api_key = config['credenciales_api']['api_key']

In [10]:
# Armamos la url con el endpoint y especificando las credenciales como parámetros
url_base = "https://api.polygon.io"
endpoint = "v2/aggs/ticker"

# params de fecha para iteración
start='2023-01-01'
end='2023-10-30'
data_dict = []

for ticker in tickers_argentina:
    url = f"{url_base}/{endpoint}/{ticker}/range/1/day/{start}/{end}?adjusted=true&sort=asc&apiKey={api_key}"
    r = requests.get(url)
    if r.status_code != 200:
        continue
    else:
        temp = [r.json()]
        data_dict.extend(temp)
        print(f"... Ready {ticker}")

... Ready YPF
... Ready PAM
... Ready BMA
... Ready TGS
... Ready GGAL


In [11]:
# Genero un dataframe con los datos de cotización historica de los tickers de Argentina
df = pd.json_normalize(data_dict, record_path =['results'], meta=['ticker'])

In [12]:
# Transformo la columna timestamp a formato fecha y reordeno las columnas
df['timestamp'] = pd.to_datetime(df['t'], unit='ms')
df = df[['timestamp', 'ticker', 'v', 'vw', 'o', 'c', 'h', 'l']]
df.head()

Unnamed: 0,timestamp,ticker,v,vw,o,c,h,l
0,2023-01-03 05:00:00,YPF,3595097.0,8.9449,9.23,8.71,9.5,8.64
1,2023-01-04 05:00:00,YPF,1694038.0,8.683,8.7,8.71,8.81,8.5
2,2023-01-05 05:00:00,YPF,2467675.0,9.1565,8.71,9.35,9.36,8.68
3,2023-01-06 05:00:00,YPF,2349927.0,9.564,9.54,9.45,9.72,9.42
4,2023-01-09 05:00:00,YPF,2298850.0,9.6229,9.55,9.75,9.77,9.355


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1040 entries, 0 to 1039
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   timestamp  1040 non-null   datetime64[ns]
 1   ticker     1040 non-null   object        
 2   v          1040 non-null   float64       
 3   vw         1040 non-null   float64       
 4   o          1040 non-null   float64       
 5   c          1040 non-null   float64       
 6   h          1040 non-null   float64       
 7   l          1040 non-null   float64       
dtypes: datetime64[ns](1), float64(6), object(1)
memory usage: 65.1+ KB


### Levanto los datos en Redshift

In [14]:
# Subo el dataframe a Redshift

# Importo librerias

import importlib

# Nombre de la biblioteca que deseas instalar
lib_name = 'sqlalchemy'

# Verifica si la biblioteca ya está instalada
try:
    importlib.import_module(lib_name)
    print(f"{lib_name} ya está instalada.")
except ImportError:
    print(f"{lib_name} no está instalada. Instalando...")
    %pip install -q "redshift_connector[full]" sqlalchemy-redshift

import sqlalchemy as sa

sqlalchemy ya está instalada.


In [15]:
# Defino la cadena de conexión

def build_conn_string(config_path, config_section):
    """
    Construye la cadena de conexión a la base de datos
    a partir de un archivo de configuración.
    """

    # Lee el archivo de configuración
    config = ConfigParser()
    config.read(config_dir)

    # Lee la sección de configuración de PostgreSQL
    config = config[config_section]
    host = config['host']
    port = config['port']
    database = config['database']
    username = config['username']
    password = config['password']

    # Construye la cadena de conexión
    conn_string = f'postgresql://{username}:{password}@{host}:{port}/{database}?sslmode=require'
    
    return conn_string

In [16]:
# Defino la función para conectarme a la base de datos

def connect_to_db(conn_string):
    """
    Crea una conexión a la base de datos.
    """
    engine = sa.create_engine(conn_string)
    conn = engine.connect()
    return conn, engine

In [17]:
# Creo la conexión a la base de datos

conn_str = build_conn_string('config.ini', 'Credenciales_Redshift')
conn_str


'postgresql://florenciaortega_coderhouse:3jBQ7CMr7j@data-engineer-cluster.cyhh5bfevlmn.us-east-1.redshift.amazonaws.com:5439/data-engineer-database?sslmode=require'

In [18]:
conn, engine = connect_to_db(conn_str)

In [20]:
# Crea la tabla en Redshift

schema = "florenciaortega_coderhouse"

conn.execute(
    f"""
        DROP TABLE IF EXISTS {schema}.fct_tickers_argentina;
        CREATE TABLE {schema}.fct_tickers_argentina (
            Date TIMESTAMP,
            Ticker VARCHAR(10) distkey,
            Volume INT,
            Vol_weighted FLOAT,
            Open_price FLOAT,
            Close_price FLOAT,
            High_price FLOAT,
            Low_price FLOAT
        )
        
        sortkey(Date, Ticker);

        DROP TABLE IF EXISTS {schema}.dim_tickers;
        CREATE TABLE {schema}.dim_tickers (
            Ticker VARCHAR(10) distkey,
            Country VARCHAR(10)
        )
        
        sortkey(Ticker);

    """
)

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x12c95ca90>

In [21]:
# Mapeo los nombres de las columnas con las que quiero que se suban a la base de datos

column_mapping = {
    'timestamp': 'Date',
    'ticker': 'Ticker',
    'v': 'Volume',
    'vw': 'Vol_weighted',
    'o': 'Open_price',
    'c': 'Close_price',
    'h': 'High_price',
    'l': 'Low_price'
}

# Renombro las columnas del dataframe

df.rename(columns=column_mapping, inplace=True)


In [25]:
# Subo los dataframes a la base de datos Redshift

df.to_sql(
    name="fct_tickers_argentina",
    con=conn,
    schema=schema,
    if_exists="replace",
    method="multi",
    index=False,
    )

tickers_countries.to_sql(
    name="dim_tickers",
    con=conn,
    schema=schema,
    if_exists="replace",
    method="multi",
    index=False,
    )

6185