In [13]:
import sys
import os
project_root = os.path.abspath(os.path.join(os.getcwd(), '..','..'))
if project_root not in sys.path:
    sys.path.append(project_root)
from config import *
import pandas as pd
pd.options.display.max_columns = None
import numpy as np

---
## üìå Gesti√≥n de Base de Datos PostgreSQL

**Informaci√≥n de conexi√≥n:**
- Host: `127.0.0.1`
- Puerto: `54330`
- Base de datos: `home_credit_db`
- Usuario: `admin`
- Contrase√±a: `admin123`

**Workflow:**
1. Ejecuta `bd_create.ps1` para crear/iniciar el contenedor PostgreSQL
2. Ejecuta la celda de TEST DE CONEXI√ìN para verificar
3. Usa este notebook para subir CSVs y crear tablas
4. Los datos persisten aunque reinicies tu PC

**Nota:** Usa siempre `127.0.0.1` (no `localhost`) para evitar problemas de conexi√≥n.

In [14]:
data = pd.read_csv(os.path.join(DATA_RAW_DIR, 'prueba.csv'), sep = ';')
data.shape

(25296, 4)

### Postgresql

In [27]:
# ================================================
# TEST DE CONEXI√ìN - Ejecuta esta celda primero
# ================================================
import psycopg2

try:
    conn = psycopg2.connect(
        host="127.0.0.1",
        port=54330,
        database="home_credit_db",
        user="admin",
        password="admin123"
    )
    print("‚úÖ Conexi√≥n exitosa con psycopg2!")
    print("üìå Base de datos: home_credit_db")
    print("üìå Usuario: admin")
    conn.close()
except Exception as e:
    print(f"‚ùå Error de conexi√≥n: {e}")
    print("üí° Ejecuta bd_create.ps1 primero para crear el contenedor")

‚úÖ Conexi√≥n exitosa con psycopg2!
üìå Base de datos: home_credit_db
üìå Usuario: admin


In [25]:
# ================================================
# SUBIR CSV A POSTGRESQL
# ================================================
# Conexi√≥n a la BD: home_credit_db (puerto 54330)

import pandas as pd
from sqlalchemy import create_engine

# Crear conexi√≥n a PostgreSQL (usando 127.0.0.1 en lugar de localhost para forzar IPv4)
engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

# Subir DataFrame a PostgreSQL
# if_exists='replace' ‚Üí Reemplaza la tabla si ya existe
# if_exists='append'  ‚Üí Agrega datos a tabla existente
# if_exists='fail'    ‚Üí Error si la tabla ya existe
data.to_sql('tabla_estudiantes', con=engine, index=False, if_exists='replace', chunksize=1000, method='multi')

print("‚úÖ Tabla 'tabla_estudiantes' creada exitosamente en PostgreSQL.")
print(f"   üìä Registros insertados: {len(data)}")

‚úÖ Tabla 'tabla_estudiantes' creada exitosamente en PostgreSQL.
   üìä Registros insertados: 25296


In [28]:
# ================================================
# CONSULTAR DATOS DESDE POSTGRESQL
# ================================================

import pandas as pd
from sqlalchemy import create_engine

# Conexi√≥n a PostgreSQL (usando 127.0.0.1 para forzar IPv4)
engine_pg = create_engine('postgresql+psycopg2://admin:admin123@127.0.0.1:54330/home_credit_db')

# Opci√≥n 1: Leer query desde archivo SQL
with open(os.path.join(SCRIPTS_QUERIES_DIR, 'consulta_prueba.sql'), 'r', encoding='utf-8') as file:
    query = file.read()

# Opci√≥n 2: Query directa (descomenta si prefieres)
# query = "SELECT * FROM tabla_estudiantes WHERE edad >= 20"

# Ejecutar query y cargar en DataFrame
df_pg = pd.read_sql(query, con=engine_pg)

print(f"‚úÖ Query ejecutada. Registros obtenidos: {len(df_pg)}")
df_pg

‚úÖ Query ejecutada. Registros obtenidos: 2306


Unnamed: 0,id,nombres,edad,notas
0,3,nombre 3,20,8
1,12,nombre 12,20,4
2,34,nombre 34,20,20
3,49,nombre 49,20,15
4,75,nombre 75,20,11
...,...,...,...,...
2301,25252,nombre 25252,20,13
2302,25255,nombre 25255,20,7
2303,25263,nombre 25263,20,7
2304,25268,nombre 25268,20,20


In [29]:
df_pg

Unnamed: 0,id,nombres,edad,notas
0,3,nombre 3,20,8
1,12,nombre 12,20,4
2,34,nombre 34,20,20
3,49,nombre 49,20,15
4,75,nombre 75,20,11
...,...,...,...,...
2301,25252,nombre 25252,20,13
2302,25255,nombre 25255,20,7
2303,25263,nombre 25263,20,7
2304,25268,nombre 25268,20,20


---
## üîß OPERACIONES AVANZADAS CON POSTGRESQL

### üì• 1. Cargar m√∫ltiples CSVs y crear tablas autom√°ticamente

In [30]:
# ================================================
# CARGAR M√öLTIPLES CSVs A POSTGRESQL
# ================================================
import os
import pandas as pd
from sqlalchemy import create_engine

# Conexi√≥n a PostgreSQL
engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

# Directorio donde est√°n los CSVs
csv_directory = DATA_RAW_DIR

# Lista de archivos CSV en el directorio
csv_files = [f for f in os.listdir(csv_directory) if f.endswith('.csv')]

print(f"üìÅ Archivos CSV encontrados: {len(csv_files)}\n")

# Cargar cada CSV como una tabla
for csv_file in csv_files:
    try:
        # Leer CSV
        file_path = os.path.join(csv_directory, csv_file)
        df = pd.read_csv(file_path, sep=';')  # Ajusta el separador seg√∫n tu CSV
        
        # Nombre de tabla (sin la extensi√≥n .csv)
        table_name = csv_file.replace('.csv', '').lower().replace(' ', '_')
        
        # Subir a PostgreSQL
        df.to_sql(table_name, con=engine, index=False, if_exists='replace', chunksize=1000, method='multi')
        
        print(f"‚úÖ {csv_file} ‚Üí tabla '{table_name}' ({len(df)} registros)")
    except Exception as e:
        print(f"‚ùå Error con {csv_file}: {e}")

print(f"\n‚úÖ Proceso completado!")

üìÅ Archivos CSV encontrados: 1

‚úÖ prueba.csv ‚Üí tabla 'prueba' (25296 registros)

‚úÖ Proceso completado!


### üì§ 2. Cargar tabla desde PostgreSQL, procesarla y crear nueva tabla

In [31]:
# ================================================
# PROCESAR TABLA Y CREAR NUEVA
# ================================================
import pandas as pd
from sqlalchemy import create_engine

# Conexi√≥n
engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

# 1. Cargar tabla desde PostgreSQL
df_original = pd.read_sql('SELECT * FROM tabla_estudiantes', con=engine)
print(f"üìä Datos cargados desde PostgreSQL: {len(df_original)} registros\n")

# 2. PROCESAR LOS DATOS (Ejemplo: filtrar y agregar columnas)
df_procesado = df_original.copy()

# Filtrar estudiantes con edad >= 20
df_procesado = df_procesado[df_procesado['edad'] >= 20]

# Crear nueva columna: categor√≠a por nota
df_procesado['categoria'] = pd.cut(df_procesado['notas'], 
                                     bins=[0, 10, 15, 20], 
                                     labels=['Bajo', 'Medio', 'Alto'])

# Crear columna calculada
df_procesado['nota_normalizada'] = df_procesado['notas'] / 20 * 100

print(f"‚úÖ Datos procesados: {len(df_procesado)} registros")
print(f"üìå Columnas nuevas: {list(df_procesado.columns)}\n")

# 3. Subir como NUEVA tabla a PostgreSQL
df_procesado.to_sql('tabla_estudiantes_procesada', 
                     con=engine, 
                     index=False, 
                     if_exists='replace',  # 'replace' = sobrescribe, 'append' = agrega
                     chunksize=1000, 
                     method='multi')

print("‚úÖ Nueva tabla 'tabla_estudiantes_procesada' creada en PostgreSQL")
df_procesado.head()

üìä Datos cargados desde PostgreSQL: 25296 registros

‚úÖ Datos procesados: 2306 registros
üìå Columnas nuevas: ['id', 'nombres', 'edad', 'notas', 'categoria', 'nota_normalizada']

‚úÖ Nueva tabla 'tabla_estudiantes_procesada' creada en PostgreSQL


Unnamed: 0,id,nombres,edad,notas,categoria,nota_normalizada
2,3,nombre 3,20,8,Bajo,40.0
11,12,nombre 12,20,4,Bajo,20.0
33,34,nombre 34,20,20,Alto,100.0
48,49,nombre 49,20,15,Medio,75.0
74,75,nombre 75,20,11,Medio,55.0


### üóëÔ∏è 3. Eliminar tablas (DROP TABLE)

In [32]:
# ================================================
# ELIMINAR TABLAS
# ================================================
from sqlalchemy import create_engine, text

engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

# OPCI√ìN 1: Eliminar una tabla espec√≠fica
tabla_a_eliminar = 'tabla_estudiantes_procesada'

with engine.connect() as conn:
    conn.execution_options(isolation_level="AUTOCOMMIT")
    
    # Verificar si existe
    result = conn.execute(text(f"""
        SELECT EXISTS (
            SELECT FROM information_schema.tables 
            WHERE table_schema = 'public' 
            AND table_name = '{tabla_a_eliminar}'
        );
    """))
    exists = result.fetchone()[0]
    
    if exists:
        conn.execute(text(f"DROP TABLE {tabla_a_eliminar};"))
        print(f"‚úÖ Tabla '{tabla_a_eliminar}' eliminada")
    else:
        print(f"‚ö†Ô∏è La tabla '{tabla_a_eliminar}' no existe")

# OPCI√ìN 2: Eliminar m√∫ltiples tablas
tablas_a_eliminar = ['tabla1', 'tabla2', 'tabla3']

with engine.connect() as conn:
    conn.execution_options(isolation_level="AUTOCOMMIT")
    for tabla in tablas_a_eliminar:
        try:
            conn.execute(text(f"DROP TABLE IF EXISTS {tabla};"))
            print(f"‚úÖ Tabla '{tabla}' eliminada (si exist√≠a)")
        except Exception as e:
            print(f"‚ùå Error eliminando '{tabla}': {e}")

‚úÖ Tabla 'tabla_estudiantes_procesada' eliminada
‚úÖ Tabla 'tabla1' eliminada (si exist√≠a)
‚úÖ Tabla 'tabla2' eliminada (si exist√≠a)
‚úÖ Tabla 'tabla3' eliminada (si exist√≠a)


### ‚ùå 4. Eliminar registros (DELETE) de una tabla

In [33]:
# ================================================
# ELIMINAR REGISTROS (DELETE)
# ================================================
from sqlalchemy import create_engine, text

engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

with engine.connect() as conn:
    conn.execution_options(isolation_level="AUTOCOMMIT")
    
    # EJEMPLO 1: Eliminar registros que cumplen una condici√≥n
    resultado = conn.execute(text("""
        DELETE FROM tabla_estudiantes 
        WHERE edad < 18
        RETURNING id;
    """))
    
    eliminados = resultado.rowcount
    print(f"‚úÖ Se eliminaron {eliminados} registros con edad < 18")
    
    # EJEMPLO 2: Eliminar registros espec√≠ficos por IDs
    ids_a_eliminar = [1, 2, 3]
    resultado = conn.execute(text(f"""
        DELETE FROM tabla_estudiantes 
        WHERE id IN ({','.join(map(str, ids_a_eliminar))})
    """))
    print(f"‚úÖ Se eliminaron {resultado.rowcount} registros por ID")
    
    # EJEMPLO 3: Eliminar TODOS los registros (¬°CUIDADO!)
    # conn.execute(text("DELETE FROM tabla_estudiantes;"))
    # print("‚ö†Ô∏è TODOS los registros eliminados")
    
    # EJEMPLO 4: Truncar tabla (m√°s r√°pido que DELETE, reinicia IDs)
    # conn.execute(text("TRUNCATE TABLE tabla_estudiantes RESTART IDENTITY;"))
    # print("‚úÖ Tabla truncada (vac√≠a con IDs reiniciados)")

‚úÖ Se eliminaron 18353 registros con edad < 18
‚úÖ Se eliminaron 1 registros por ID


### üîÑ 5. Actualizar registros (UPDATE) en una tabla

In [34]:
# ================================================
# ACTUALIZAR REGISTROS (UPDATE)
# ================================================
from sqlalchemy import create_engine, text

engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

with engine.connect() as conn:
    conn.execution_options(isolation_level="AUTOCOMMIT")
    
    # EJEMPLO 1: Actualizar un campo espec√≠fico
    resultado = conn.execute(text("""
        UPDATE tabla_estudiantes 
        SET notas = notas + 1
        WHERE edad >= 20
    """))
    print(f"‚úÖ Se actualizaron {resultado.rowcount} registros (notas +1 para edad>=20)")
    
    # EJEMPLO 2: Actualizar m√∫ltiples campos
    resultado = conn.execute(text("""
        UPDATE tabla_estudiantes 
        SET notas = 20, 
            nombres = CONCAT(nombres, ' - Actualizado')
        WHERE id = 100
    """))
    print(f"‚úÖ Se actualizaron {resultado.rowcount} registros por ID")
    
    # EJEMPLO 3: Actualizar basado en otra columna
    resultado = conn.execute(text("""
        UPDATE tabla_estudiantes 
        SET edad = edad + 1
        WHERE notas < 10
    """))
    print(f"‚úÖ Se aument√≥ la edad de {resultado.rowcount} estudiantes con notas < 10")

‚úÖ Se actualizaron 2305 registros (notas +1 para edad>=20)
‚úÖ Se actualizaron 1 registros por ID
‚úÖ Se aument√≥ la edad de 3149 estudiantes con notas < 10


### üìã 6. Listar todas las tablas de la base de datos

In [35]:
# ================================================
# LISTAR TABLAS Y OBTENER INFORMACI√ìN
# ================================================
import pandas as pd
from sqlalchemy import create_engine, text

engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

# OPCI√ìN 1: Listar nombres de tablas
query = """
    SELECT tablename 
    FROM pg_tables 
    WHERE schemaname='public'
    ORDER BY tablename;
"""
df_tablas = pd.read_sql(query, con=engine)
print("üìã TABLAS EN LA BASE DE DATOS:")
print(df_tablas)

# OPCI√ìN 2: Informaci√≥n detallada de tablas (con tama√±o y n√∫mero de filas)
query_detalle = """
    SELECT 
        schemaname AS schema,
        tablename AS tabla,
        pg_size_pretty(pg_total_relation_size(schemaname||'.'||tablename)) AS tama√±o,
        (SELECT COUNT(*) FROM information_schema.columns 
         WHERE table_name = tablename AND table_schema = schemaname) AS num_columnas
    FROM pg_tables
    WHERE schemaname = 'public'
    ORDER BY tablename;
"""
df_info = pd.read_sql(query_detalle, con=engine)
print("\nüìä INFORMACI√ìN DETALLADA:")
print(df_info)

# OPCI√ìN 3: Ver columnas de una tabla espec√≠fica
tabla = 'tabla_estudiantes'
query_columnas = f"""
    SELECT column_name, data_type, is_nullable
    FROM information_schema.columns
    WHERE table_name = '{tabla}'
    ORDER BY ordinal_position;
"""
df_cols = pd.read_sql(query_columnas, con=engine)
print(f"\nüîç COLUMNAS DE '{tabla}':")
print(df_cols)

üìã TABLAS EN LA BASE DE DATOS:
           tablename
0             prueba
1  tabla_estudiantes

üìä INFORMACI√ìN DETALLADA:
   schema              tabla   tama√±o  num_columnas
0  public             prueba  1728 kB             4
1  public  tabla_estudiantes  1736 kB             4

üîç COLUMNAS DE 'tabla_estudiantes':
  column_name data_type is_nullable
0          id    bigint         YES
1     nombres      text         YES
2        edad    bigint         YES
3       notas    bigint         YES


### üîó 7. Hacer JOIN entre tablas en PostgreSQL

In [None]:
# ================================================
# HACER JOIN ENTRE TABLAS
# ================================================
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

# Ejemplo: Si tienes dos tablas (estudiantes y calificaciones)
# tabla_estudiantes: id, nombres, edad
# tabla_calificaciones: estudiante_id, materia, nota

query_join = """
    SELECT 
        e.id,
        e.nombres,
        e.edad,
        e.notas AS nota_general
    FROM tabla_estudiantes e
    WHERE e.edad >= 20
    LIMIT 10;
"""

# Si tuvieras dos tablas relacionadas, el JOIN ser√≠a:
# query_join = """
#     SELECT 
#         e.id,
#         e.nombres,
#         e.edad,
#         c.materia,
#         c.nota
#     FROM tabla_estudiantes e
#     INNER JOIN tabla_calificaciones c ON e.id = c.estudiante_id
#     WHERE e.edad >= 20;
# """

df_join = pd.read_sql(query_join, con=engine)
print(f"‚úÖ JOIN ejecutado. Registros obtenidos: {len(df_join)}")
df_join.head()

### üéØ 8. Flujo completo: CSV ‚Üí Procesar ‚Üí PostgreSQL ‚Üí Procesar ‚Üí Nueva tabla

In [None]:
# ================================================
# FLUJO COMPLETO DE TRABAJO
# ================================================
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

engine = create_engine('postgresql://admin:admin123@127.0.0.1:54330/home_credit_db')

# PASO 1: Leer CSV
print("üì• PASO 1: Leyendo CSV...")
df_raw = pd.read_csv(os.path.join(DATA_RAW_DIR, 'prueba.csv'), sep=';')
print(f"   ‚úÖ CSV cargado: {len(df_raw)} registros, {len(df_raw.columns)} columnas\n")

# PASO 2: Subir a PostgreSQL como tabla raw
print("üì§ PASO 2: Subiendo a PostgreSQL (tabla raw)...")
df_raw.to_sql('estudiantes_raw', con=engine, index=False, if_exists='replace')
print(f"   ‚úÖ Tabla 'estudiantes_raw' creada\n")

# PASO 3: Cargar desde PostgreSQL
print("üì• PASO 3: Cargando desde PostgreSQL...")
df_from_db = pd.read_sql('SELECT * FROM estudiantes_raw', con=engine)
print(f"   ‚úÖ Datos cargados: {len(df_from_db)} registros\n")

# PASO 4: PROCESAR en Python
print("üîÑ PASO 4: Procesando datos...")
df_procesado = df_from_db.copy()

# Filtros
df_procesado = df_procesado[df_procesado['edad'] >= 18]

# Crear nuevas columnas
df_procesado['aprobado'] = df_procesado['notas'] >= 11
df_procesado['categoria_edad'] = pd.cut(df_procesado['edad'], 
                                          bins=[0, 20, 25, 100], 
                                          labels=['Joven', 'Adulto_Joven', 'Adulto'])

# Estad√≠sticas agregadas
df_procesado['nota_zscore'] = (df_procesado['notas'] - df_procesado['notas'].mean()) / df_procesado['notas'].std()

print(f"   ‚úÖ Procesamiento completo: {len(df_procesado)} registros\n")
print(f"   üìä Columnas finales: {list(df_procesado.columns)}\n")

# PASO 5: Subir tabla procesada a PostgreSQL
print("üì§ PASO 5: Subiendo tabla procesada a PostgreSQL...")
df_procesado.to_sql('estudiantes_procesado', con=engine, index=False, if_exists='replace')
print(f"   ‚úÖ Tabla 'estudiantes_procesado' creada\n")

# PASO 6: Verificar resultado
query_verificacion = """
    SELECT 
        categoria_edad,
        COUNT(*) as total,
        ROUND(AVG(notas), 2) as nota_promedio,
        SUM(CASE WHEN aprobado THEN 1 ELSE 0 END) as aprobados
    FROM estudiantes_procesado
    GROUP BY categoria_edad
    ORDER BY categoria_edad;
"""
df_resumen = pd.read_sql(query_verificacion, con=engine)
print("üìä PASO 6: Resumen final por categor√≠a:")
print(df_resumen)

print("\n‚úÖ ¬°FLUJO COMPLETO EJECUTADO!")