# Observación, limpieza y carga de datos

In [None]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
import unicodedata
import re
import os
from sqlalchemy import create_engine, text
from dotenv import load_dotenv

df = pd.read_csv("../ventas.csv")

print(df)
# [1.048.575 rows x 11 columns]
# 11 Columnas
# 1.048.575 Registros

### Oservación
* Observamos las caracteris y tipos de datos dentro del Data Frame

In [None]:
for row in df.columns:
    print(f"'{row}' {df[row].unique()}\n")

In [None]:
print(df.head())

In [None]:
print(df.info())

In [None]:
print(df.isna().sum())

In [None]:
print(df.describe(include='all'))

In [None]:
df = pd.read_csv("../ventas.csv")
def limpiar_ciudad(texto):
    if pd.isna(texto):
        return texto
    
    # Converte el texto a minúsculas
    texto = texto.lower().strip()

    # Elimina los acentos
    texto = ''.join(
        c for c in unicodedata.normalize('NFD', texto)
        if unicodedata.category(c) != 'Mn'
    )

    # Elimina caracteres especiales (dejando solo las letras)
    texto = re.sub(r'[^a-z\s]', '', texto)

    # Quita los espacios dobles
    texto = re.sub(r'\s+', ' ', texto)

    return texto
# 1. Normalización de texto
cols_texto = ["Ciudad", "Producto", "Tipo_Producto", "Tipo_de_Venta", "Tipo_Cliente"]
for col in cols_texto:
    df[col] = df[col].apply(limpiar_ciudad)

# 2. Converción a numéricos
df["Descuento"] = pd.to_numeric(df["Descuento"], errors="coerce")
df["Precio_Unitario"] = pd.to_numeric(df["Precio_Unitario"], errors="coerce")
df["Cantidad"] = pd.to_numeric(df["Cantidad"], errors="coerce")
df["Costo_Envio"] = pd.to_numeric(df["Costo_Envio"], errors="coerce")
df["Total_Venta"] = pd.to_numeric(df["Total_Venta"], errors="coerce")

# 3. Rellenar faltantes
df["Tipo_Cliente"] = df["Tipo_Cliente"].replace("nan", np.nan)
df["Tipo_Cliente"] = df["Tipo_Cliente"].fillna("desconocido")

df["Descuento"] = df["Descuento"].fillna(0)
df["Precio_Unitario"] = df["Precio_Unitario"].fillna(0)
df["Cantidad"] = df["Cantidad"].fillna(0)
df["Costo_Envio"] = df["Costo_Envio"].fillna(0)
df["Total_Venta"] = df["Total_Venta"].fillna(0)

# 4. Converción a fecha
df["Fecha"] = pd.to_datetime(df["Fecha"], errors="coerce")


# 5. Recalcular el valor de Total_Venta
df["Total_Venta"] = (df["Cantidad"] * df["Precio_Unitario"]) - (df["Descuento"] * df["Cantidad"] * df["Precio_Unitario"]) + df["Costo_Envio"]

df.columns = df.columns.str.lower()

# 6. Guarda los cambios en  un nuevo archivo .csv

df.to_csv("../ventas_limpias.csv", index=False)


In [None]:
print(df)

### Carga de Datos 

In [56]:
#Carga el archivo .env

load_dotenv(override=True)

#Variables de entorno

DB_USER = os.getenv("DB_USER")
DB_PASSWORD = os.getenv("DB_PASSWORD")
DB_HOST = os.getenv("DB_HOST")
DB_PORT = os.getenv("DB_PORT")
DB_NAME = os.getenv("DB_NAME")




URL = f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
engine = create_engine(URL)
print(URL)
conn = engine.connect()
try:
    print("Connection Succesfull!!" if conn else "")

except Exception as e:
    print("Error al conectar la base datos en", e)



postgresql+psycopg2://postgres:Qwe.123*@localhost:5432/Riwi_Sports
Connection Succesfull!!


In [57]:
set_schema = conn.execute(text("set search_path to riwi_ventas;"))

tables = ["ciudad", "tipo_producto", "producto", "tipo_venta", "tipo_cliente", "factura_ventas"]

for t in range(len(tables)):

    verify = pd.read_sql((f"select * from {tables[t]};"),conn)
    if not verify.empty:
        print(f"Talbe: '{tables[t].capitalize()}' Exist and is Filled.")
    if verify.empty:
        print(f"Table: '{tables[t].capitalize()}' doesn't Exist or is Empty.")

Table: 'Ciudad' doesn't Exist or is Empty.
Table: 'Tipo_producto' doesn't Exist or is Empty.
Table: 'Producto' doesn't Exist or is Empty.
Table: 'Tipo_venta' doesn't Exist or is Empty.
Table: 'Tipo_cliente' doesn't Exist or is Empty.
Table: 'Factura_ventas' doesn't Exist or is Empty.


### Generate a individual csv per table before to load to DB

In [58]:
import pandas as pd
import os


cleaned_df = pd.read_csv("../ventas_limpias.csv")

#Obtain the unique cities and generate the ID for Cities
ciudad_df = (
    cleaned_df["ciudad"].drop_duplicates()
                .reset_index(drop=True)
                .reset_index()
                .rename(columns={"index": "ciudad_id", "ciudad": "nombre_ciudad"})
                
)
ciudad_df["ciudad_id"] += 1

cleaned_df =cleaned_df.merge(ciudad_df, left_on="ciudad", right_on="nombre_ciudad", how="left",suffixes=("", "_drop"))


# Obtain the unique cities and generate the ID for Products

tipo_producto_df = (
    cleaned_df["tipo_producto"].drop_duplicates()
                       .reset_index(drop=True)
                       .reset_index()
                       .rename(columns={"index": "tipo_producto_id"})
)
tipo_producto_df["tipo_producto_id"] += 1

cleaned_df =cleaned_df.merge(tipo_producto_df, on="tipo_producto", how="left",suffixes=("", "_drop"))


# Obtain the unique cities and generate the ID for type products

cleaned_df = cleaned_df.rename(columns={"producto":"nombre_producto"}) #Rename to prevent conflicts with DB

producto_df = (
    cleaned_df[["nombre_producto", "tipo_producto_id"]]
    .drop_duplicates()
    .reset_index(drop=True)
    .reset_index()
    .rename(columns={"index": "producto_id", "producto":"nombre_producto"})
)
producto_df["producto_id"] += 1

cleaned_df =cleaned_df.merge(producto_df, on=["nombre_producto", "tipo_producto_id"], how="left",suffixes=("", "_drop"))

# Obtain the unique cities and generate the ID for type sale

cleaned_df = cleaned_df.rename(columns={"tipo_de_venta":"tipo_venta"}) #Rename to prevent conflicts with DB

tipo_venta_df = (
    cleaned_df["tipo_venta"].drop_duplicates()
                       .reset_index(drop=True)
                       .reset_index()
                       .rename(columns={"index": "tipo_venta_id"})
)
tipo_venta_df["tipo_venta_id"] += 1

cleaned_df =cleaned_df.merge(tipo_venta_df, on="tipo_venta", how="left",suffixes=("", "_drop"))


# Obtain the unique cities and generate the ID for type customer
tipo_cliente_df = (
    cleaned_df["tipo_cliente"].drop_duplicates()
                      .reset_index(drop=True)
                      .reset_index()
                      .rename(columns={"index": "tipo_cliente_id"})
)
tipo_cliente_df["tipo_cliente_id"] += 1

cleaned_df =cleaned_df.merge(tipo_cliente_df, on="tipo_cliente", how="left",suffixes=("", "_drop"))


#Create the table for sales
factura_df =cleaned_df[[
    "fecha", "ciudad_id", "producto_id", "tipo_venta_id",
    "tipo_cliente_id", "cantidad", "precio_unitario",
    "descuento", "costo_envio", "total_venta"
]].copy()


#export tables to external folder
os.makedirs("../tables_csv", exist_ok=True)

#Save the files into tables_csv
ciudad_df.to_csv("../tables_csv/ciudad.csv", index=False)
tipo_producto_df.to_csv("../tables_csv/tipo_producto.csv", index=False)
producto_df.to_csv("../tables_csv/producto.csv", index=False)
tipo_venta_df.to_csv("../tables_csv/tipo_venta.csv", index=False)
tipo_cliente_df.to_csv("../tables_csv/tipo_cliente.csv", index=False)
factura_df.to_csv("../tables_csv/factura_ventas.csv", index=False)

print("CSV creados correctamente en la carpeta 'tables_csv'")


CSV creados correctamente en la carpeta 'tables_csv'


### Load data to DB

In [60]:
#This order respect the cardinality and prevent issues
order_tables = [
    "ciudad",
    "tipo_producto",
    "producto",
    "tipo_venta",
    "tipo_cliente",
    "factura_ventas"
]

SEEDERS_DIR = "../tables_csv"



with engine.connect() as conn:
    
    conn.execute(text("SET search_path TO riwi_ventas;"))

    for table in order_tables:
        csv_path = os.path.join(SEEDERS_DIR, f"{table}.csv")

        if not os.path.exists(csv_path):
            print(f"No existe: {csv_path}")
            continue

        print(f"Insertando: {table}")

        df = pd.read_csv(csv_path)
        df = df.where(pd.notnull(df),None)
        
        cols = df.columns.tolist()
        colnames = ", ".join(cols)
        placeholders = ", ".join([f":{c}" for c in cols])

        query = text(f"INSERT INTO {table} ({colnames}) VALUES ({placeholders})")

        for _, row in df.iterrows():
            conn.execute(query, row.to_dict())

    conn.commit()
    conn.close()
print("Data inserted sucessfull!!")

Insertando: ciudad
Insertando: tipo_producto
Insertando: producto
Insertando: tipo_venta
Insertando: tipo_cliente
Insertando: factura_ventas
Data inserted sucessfull!!
