In [1]:
# ============================================================================
# PIPELINE 2: LECTURA, VALIDACIÓN Y CARGA DE DATOS EN POSTGRESQL
# Archivo: GlobalLandTemperaturesByCountry.csv
# ============================================================================

# 1. Importar librerías necesarias
import pandas as pd
import os
from sqlalchemy import create_engine
from sqlalchemy.exc import SQLAlchemyError

# 2. Definir la ruta del archivo CSV
ruta_archivo = os.path.join('raw_data', 'GlobalLandTemperaturesByCountry.csv')

# 3. Leer el archivo CSV en un DataFrame
df = pd.read_csv(ruta_archivo)

# 4. Verificar y convertir la columna de timestamp (primera columna) a datetime
col_fecha = df.columns[0]
df[col_fecha] = pd.to_datetime(df[col_fecha], errors='coerce')

# Mostrar filas con problemas de conversión (si existen)
filas_invalidas = df[df[col_fecha].isnull()]
if not filas_invalidas.empty:
    print(f"❗ Filas con timestamp inválido: {len(filas_invalidas)}")
    display(filas_invalidas.head())
else:
    print("✅ Todos los timestamps están en formato correcto.")

# 5. Conexión a PostgreSQL (localhost, credenciales por defecto)
usuario = 'postgres'
clave = 'postgres'
host = 'localhost'
puerto = '5432'
db = 'postgres'

# Crear el string de conexión
conexion_str = f'postgresql+psycopg2://{usuario}:{clave}@{host}:{puerto}/{db}'

# 6. Escribir el DataFrame en PostgreSQL
tabla_destino = 'global_land_temperatures_by_country'
try:
    engine = create_engine(conexion_str)
    df.to_sql(tabla_destino, engine, if_exists='replace', index=False)
    print(f"✅ Datos escritos exitosamente en la tabla '{tabla_destino}' de PostgreSQL.")
except SQLAlchemyError as e:
    print(f"❌ Error al escribir en PostgreSQL: {e}")


✅ Todos los timestamps están en formato correcto.
✅ Datos escritos exitosamente en la tabla 'global_land_temperatures_by_country' de PostgreSQL.
✅ Datos escritos exitosamente en la tabla 'global_land_temperatures_by_country' de PostgreSQL.
