# Conexión a la base de datos (Redshift)

- Usa variables de entorno o un archivo `.env` para las credenciales.
- Evita guardar contraseñas en el notebook.
- Si tu Redshift requiere VPN, conéctate antes de ejecutar.


In [1]:
# Imports y carga de entorno
import os
from getpass import getpass
from urllib.parse import quote_plus
from IPython.display import display

import pandas as pd
import psycopg2
from dotenv import load_dotenv
from sqlalchemy import create_engine, text

load_dotenv(override=True)


True

In [2]:
# Configuración por defecto y utilidades de entrada
DEFAULT_CONFIG = {
    "host": os.environ.get(
        "REDSHIFT_HOST",
        "mc-dhw-redshift-cluster.c157yypxwzao.us-east-2.redshift.amazonaws.com",
    ),
    "port": int(os.environ.get("REDSHIFT_PORT", 5439)),
    "dbname": os.environ.get("REDSHIFT_DB", "mc_tlog_dwh_aws"),
}


def env_or_prompt(var_name: str, prompt: str, is_secret: bool = False) -> str:
    value = os.environ.get(var_name)
    if value:
        print(f"Usando {var_name} desde el entorno.")
        return value
    return getpass(prompt) if is_secret else input(prompt)


DB_CONFIG = {
    **DEFAULT_CONFIG,
    "user": env_or_prompt("REDSHIFT_USER", "Usuario de Redshift: "),
    "password": env_or_prompt(
        "REDSHIFT_PASSWORD", "Contraseña de Redshift: ", is_secret=True
    ),
    "sslmode": os.environ.get("REDSHIFT_SSLMODE", "require"),
    "sslrootcert": os.environ.get("REDSHIFT_SSLROOTCERT", ""),
}
print("Configuración cargada (la contraseña no se muestra).")
print(
    {
        "host": DB_CONFIG["host"],
        "port": DB_CONFIG["port"],
        "db": DB_CONFIG["dbname"],
        "user": DB_CONFIG["user"],
        "sslmode": DB_CONFIG.get("sslmode"),
        "sslrootcert_set": bool(DB_CONFIG.get("sslrootcert")),
    }
)


Usando REDSHIFT_USER desde el entorno.
Usando REDSHIFT_PASSWORD desde el entorno.
Configuración cargada (la contraseña no se muestra).
{'host': 'mc-dhw-redshift-cluster.c157yypxwzao.us-east-2.redshift.amazonaws.com', 'port': 5439, 'db': 'mc_tlog_dwh_aws', 'user': 'IGothe', 'sslmode': 'require', 'sslrootcert_set': False}


In [3]:
# Crear engine SQLAlchemy para usarlo con pandas (evita warnings)
user = DB_CONFIG["user"]
password = DB_CONFIG["password"]
host = DB_CONFIG["host"]
port = DB_CONFIG["port"]
dbname = DB_CONFIG["dbname"]
sslmode = DB_CONFIG.get("sslmode")
sslrootcert = DB_CONFIG.get("sslrootcert")

query_parts = []
if sslmode:
    query_parts.append(f"sslmode={sslmode}")
if sslrootcert:
    query_parts.append(f"sslrootcert={quote_plus(sslrootcert, safe='/')}")
query_suffix = "?" + "&".join(query_parts) if query_parts else ""

engine_url = (
    f"postgresql+psycopg2://{quote_plus(user)}:{quote_plus(password)}@{host}:{port}/{dbname}"
) + query_suffix
engine = create_engine(engine_url, pool_pre_ping=True)
engine


Engine(postgresql+psycopg2://IGothe:***@mc-dhw-redshift-cluster.c157yypxwzao.us-east-2.redshift.amazonaws.com:5439/mc_tlog_dwh_aws?sslmode=require)

In [4]:
# Helper de conexión
def get_connection():
    params = {
        "host": DB_CONFIG["host"],
        "port": DB_CONFIG["port"],
        "dbname": DB_CONFIG["dbname"],
        "user": DB_CONFIG["user"],
        "password": DB_CONFIG["password"],
        "connect_timeout": int(os.environ.get("REDSHIFT_TIMEOUT", 10)),
        "sslmode": DB_CONFIG.get("sslmode", "require"),
    }
    if DB_CONFIG.get("sslrootcert"):
        params["sslrootcert"] = DB_CONFIG["sslrootcert"]
    return psycopg2.connect(**params)


In [5]:
# Ejecuta consultas y devuelve DataFrame usando SQLAlchemy 2.x y psycopg2
def fetch_dataframe(sql: str, params: dict | None = None) -> pd.DataFrame:
    stmt = text(sql)
    with engine.connect() as conn:
        result = conn.execute(stmt, params or {})
        rows = result.fetchall()
        columns = list(result.keys())
    return pd.DataFrame(rows, columns=columns)


In [6]:
# Prueba de conexión básica (usando SQLAlchemy engine)
try:
    df = fetch_dataframe("select current_user as user, current_database() as db")
    display(df)
except Exception as e:
    print("Error de conexión:", e)


Unnamed: 0,user,db
0,IGothe,mc_tlog_dwh_aws


## Consulta de ejemplo
Ajusta el esquema y la tabla a tu caso (usa `limit`).


In [7]:
# Ejemplo: reemplaza <esquema>.<tabla> por una a la que tengas acceso
sample_query = "select * from sof.base_con_sin_trx where estado_terminal = 'HABILITADO' order by periodo desc limit 20"
try:
    sample = fetch_dataframe(sample_query)
    display(sample.head())
except Exception as e:
    print("Error ejecutando la consulta de ejemplo:", e)


Unnamed: 0,periodo,numero_terminal,rut_comercio,codigo_local,estado_terminal,tecnologia_instalar,fecha_instalacion,fecha_baja,id_saldo_logico,rut_mantenedor,...,monto_pcta_con_dtv,qtrx_casas_comerciales,monto_casas_comerciales,qtrx_adquriencia_general,monto_adquriencia_general,margen_bruto_adquirencia,monto_recarga_10_porciento,pos_con_trx,modelo_equipo,nombre_giro
0,2025-09,10609,96620260-2,9500,HABILITADO,POS GPRS,20121121,,9500,96620260-2,...,0,0,0,0,0,0,0.0,0,MOVE/5000,OTROS SERVICIOS DEL RUBRO SERVICIOS
1,2025-09,9418,11988494-2,8404,HABILITADO,WEB,20130601,20161019.0,8404,11988494-2,...,0,0,0,0,0,0,0.0,0,,COMBUSTIBLES
2,2025-09,12003,81201000-K,9920,HABILITADO,POS MOVIL,20100726,,9920,81201000-K,...,0,0,0,0,0,0,0.0,0,VX520,SUPERMERCADOS
3,2025-09,15728,81537600-5,13411,HABILITADO,POS MOVIL,20110107,20151022.0,13411,81537600-5,...,0,0,0,0,0,0,0.0,0,MOVE/2500,SUPERMERCADOS
4,2025-09,13596,78566510-4,12066,HABILITADO,POS GPRS,20100909,,12066,78566510-4,...,0,0,0,0,0,0,0.0,0,MOVE/2500,FAST FOOD
