In [227]:
import pandas as pd
import os
import psycopg2
from psycopg2 import OperationalError

# Definicion de la funcion para establecer la conexion a PostgreSQL.
def connect_to_postgres():
    try:
        # Conexion a la base de datos PostgreSQL
        connection = psycopg2.connect(
            dbname="Prueba_diego",
            user="postgres",
            password="Colombia2024*",
            host="localhost",
            port="5432"
        )
        
        # Establecer datestyle a 'ISO, MDY' para el proceso o casteo de la fecha
        cursor = connection.cursor()
        cursor.execute("SET datestyle TO 'ISO, MDY';")
        cursor.close()

        print("Conexion exitosa a PostgreSQL")
        return connection
    except OperationalError as e:
        print(f"Error al intentar conectarse a PostgreSQL: {e}")
        return None

# Definicion de la funcion para cargar los datos en la base de datos PostgreSQL
def load_data_to_postgres(connection, merged_df):
    try:
        cursor = connection.cursor()
        count = 0
        total_price = 0
        min_price = float('inf')
        max_price = float('-inf')

        # Insertar datos de merged_df en la tabla prueba.Prueba_diego_ingesta
        for index, row in merged_df.iterrows():
            cursor.execute("INSERT INTO prueba.\"Prueba_diego_ingesta\" (timestamp, price, user_id) VALUES (%s, %s, %s)", (row['timestamp'], row['price'], row['user_id']))
            count += 1
            price = row['price']
            total_price += price
            if price < min_price:
                min_price = price
            if price > max_price:
                max_price = price

        connection.commit()
        print("Datos insertados correctamente.")
        print(f"Número total de filas cargadas: {count}")
        print(f"Valor medio del campo 'price': {total_price / count}")
        print(f"Valor mínimo del campo 'price': {min_price}")
        print(f"Valor máximo del campo 'price': {max_price}")

    except (psycopg2.Error, Exception) as e:
        print(f"Error al insertar datos en PostgreSQL: {e}")
        connection.rollback()
    finally:
        if cursor:
            cursor.close()

# Directorio donde se encuentra el archivo CSV
directory = "C:/Users/Diego/Documents/HOJA DE VIDA/Pragma/PRUEBA INGENIERO DE DATOS - DIEGO CHINCHILLA/dataPruebaDataEngineer"

# Nombre del archivo CSV que deseas importar
csv_files = ["validation.csv"]

# Crear una lista para almacenar los DataFrames cargados de cada archivo CSV
dataframes = []

# Iterar sobre los archivos CSV y cargarlos en DataFrames
for file in csv_files:
    file_path = os.path.join(directory, file)
    # Al leer el CSV, especifica que la coma (',') es el delimitador de campos
    df = pd.read_csv(file_path, delimiter=',')
    dataframes.append(df)

# Concatenar los DataFrames en uno solo
merged_df = pd.concat(dataframes, ignore_index=True)

# Convertir la columna 'price' a tipo string y luego reemplazar el punto decimal por coma
merged_df['price'] = merged_df['price'].astype(str).str.replace('.', ',')

# Eliminar cualquier caracter despues de la coma en la columna 'price' y convertirla a tipo numérico
merged_df['price'] = merged_df['price'].apply(lambda x: x.split(',')[0])
merged_df['price'] = pd.to_numeric(merged_df['price'], errors='coerce')

# Rellenar los valores nulos en la columna 'price' con ceros
merged_df['price'].fillna(0, inplace=True)

# Verificar el DataFrame resultante
print(merged_df.head(500))

# Sumar la columna 'price'
total_price = merged_df['price'].sum()
print("Total de precios:", total_price)

# Conectarse a PostgreSQL
connection = connect_to_postgres()

# Cargar los datos en PostgreSQL
if connection:
    load_data_to_postgres(connection, merged_df)


  timestamp  price  user_id
0  6/1/2012     26       10
1  6/2/2012     11        8
2  6/3/2012     13        9
3  6/4/2012     92        7
4  6/5/2012     31       10
5  6/6/2012     62        3
6  6/7/2012     13        4
7  6/8/2012     86        7
Total de precios: 334
Conexión exitosa a PostgreSQL
Datos insertados correctamente.
Número total de filas cargadas: 8
Valor medio del campo 'price': 41.75
Valor mínimo del campo 'price': 11
Valor máximo del campo 'price': 92


  merged_df['price'] = merged_df['price'].astype(str).str.replace('.', ',')
