In [51]:
import pandas as pd
from sqlalchemy import create_engine, Column, Integer, String, Text, DECIMAL, ForeignKey, TIMESTAMP, CheckConstraint, and_
from sqlalchemy.orm import declarative_base, relationship, sessionmaker
from sqlalchemy.sql import func
import os
from dotenv import load_dotenv
import re as re
import matplotlib.pyplot as plt
from datetime import datetime

In [None]:

# Configurar una base de datos relacional PostgreSQL/SQL Server)
# Setup config
user = os.getenv('DB_USER') 
password = os.getenv('DB_PASSWORD')
host = 'localhost'
port = '5432'
db_name = 'EcommerceDB'

In [25]:
# Conexión a DB
connection_string = f'postgresql+psycopg2://{user}:{password}@{host}:{port}/{db_name}'
print(connection_string)
engine = create_engine(connection_string)


postgresql+psycopg2://postgres:henry123@localhost:5432/EcommerceDB


In [None]:
# Buscar duplicados en los csvs y verificar informacion sobre nulls y datatypes
archivos = os.listdir('../Files/csv')
for archivo in archivos: 
    df = pd.read_csv('../Files/csv/' + archivo)
    dupes_any = str(df.duplicated().any())
    dupes_sum = str(df.duplicated().sum())
    #print(df.describe())
    print(df.info())
    print('Archivo: ' + archivo + ' | Hay duplicados?: '+ dupes_any + ' | Cantidad de duplicados: ' + dupes_sum)

# Resultado: No hay duplicados ni nulls significativos

In [None]:
# Funcion que itera sobre los nombres de archivos, transforma el nombre para 
# matchear el de las tablas creadas e inserta los datos del csv
def cargar_csv_db(file):
    # Leer el CSV
    df = pd.read_csv('../Files/csv/' + file)
    print(file + ' Leido!')
    # Transformar el nombre del archivo
    file = re.sub(r'csv', '', file, flags=re.IGNORECASE) 
    file = re.sub(r'[^a-zA-Z_]', '', file).lower()
    print('Nombre archivo transformado: ' + file)
    df.columns = df.columns.str.lower()  
    # Cargar el csv a la tabla correspondiente
    df.to_sql(file, engine, if_exists='append', index=False)
    print('Datos insertados a tabla: ' + file)

In [None]:
#Cargar CSVs a tablas en EcommerceDB
archivos = os.listdir('../Files/csv')
for archivo in archivos:
    try:
        cargar_csv_db(archivo)
    except Exception as e:
        print('Error en la carga: ' + e)

In [None]:
#Identificar columnas con datos semi-estructurados.
# No hay

#Aplicar transformaciones para convertir esas columnas a un formato estructurado adecuado.



In [40]:
# Definir modelos ORM
Session = sessionmaker(bind=engine)
session = Session()

Base = declarative_base()

class Usuario(Base):
    __tablename__ = 'usuarios'

    usuarioid = Column(Integer, primary_key=True)
    nombre = Column(String(100), nullable=False)
    apellido = Column(String(100), nullable=False)
    dni = Column(String(20), unique=True, nullable=False)
    email = Column(String(255), unique=True, nullable=False)
    contraseña = Column(String(255), nullable=False)
    fecharegistro = Column(TIMESTAMP, server_default=func.now())

    direcciones = relationship("DireccionEnvio", back_populates="usuario")
    ordenes = relationship("Orden", back_populates="usuario")
    carrito = relationship("Carrito", back_populates="usuario")
    resenas = relationship("ResenaProducto", back_populates="usuario")


class Categoria(Base):
    __tablename__ = 'categorias'

    categoriaid = Column(Integer, primary_key=True)
    nombre = Column(String(100), nullable=False)
    descripcion = Column(String(255))

    productos = relationship("Producto", back_populates="categoria")


class Producto(Base):
    __tablename__ = 'productos'

    productoid = Column(Integer, primary_key=True)
    nombre = Column(String(255), nullable=False)
    descripcion = Column(Text)
    precio = Column(DECIMAL(10, 2), nullable=False)
    stock = Column(Integer, nullable=False)
    categoriaid = Column(Integer, ForeignKey('categorias.categoriaid'))

    categoria = relationship("Categoria", back_populates="productos")
    detalles = relationship("DetalleOrden", back_populates="producto")
    carrito_items = relationship("Carrito", back_populates="producto")
    resenas = relationship("ResenaProducto", back_populates="producto")


class Orden(Base):
    __tablename__ = 'ordenes'

    ordenid = Column(Integer, primary_key=True)
    usuarioid = Column(Integer, ForeignKey('usuarios.usuarioid'))
    fechaorden = Column(TIMESTAMP, server_default=func.now())
    total = Column(DECIMAL(10, 2), nullable=False)
    estado = Column(String(50), default='Pendiente')

    usuario = relationship("Usuario", back_populates="ordenes")
    detalles = relationship("DetalleOrden", back_populates="orden")
    pagos = relationship("OrdenMetodoPago", back_populates="orden")
    historial_pagos = relationship("HistorialPago", back_populates="orden")


class DetalleOrden(Base):
    __tablename__ = 'detalle_ordenes'

    detalleid = Column(Integer, primary_key=True)
    ordenid = Column(Integer, ForeignKey('ordenes.ordenid'))
    productoid = Column(Integer, ForeignKey('productos.productoid'))
    cantidad = Column(Integer, nullable=False)
    preciounitario = Column(DECIMAL(10, 2), nullable=False)

    orden = relationship("Orden", back_populates="detalles")
    producto = relationship("Producto", back_populates="detalles")


class DireccionEnvio(Base):
    __tablename__ = 'direcciones_envio'

    direccionid = Column(Integer, primary_key=True)
    usuarioid = Column(Integer, ForeignKey('usuarios.usuarioid'))
    calle = Column(String(255), nullable=False)
    ciudad = Column(String(100), nullable=False)
    departamento = Column(String(100))
    provincia = Column(String(100))
    distrito = Column(String(100))
    estado = Column(String(100))
    codigopostal = Column(String(20))
    pais = Column(String(100), nullable=False)

    usuario = relationship("Usuario", back_populates="direcciones")


class Carrito(Base):
    __tablename__ = 'carrito'

    carritoid = Column(Integer, primary_key=True)
    usuarioid = Column(Integer, ForeignKey('usuarios.usuarioid'))
    productoid = Column(Integer, ForeignKey('productos.productoid'))
    cantidad = Column(Integer, nullable=False)
    fechaagregado = Column(TIMESTAMP, server_default=func.now())

    usuario = relationship("Usuario", back_populates="carrito")
    producto = relationship("Producto", back_populates="carrito_items")


class MetodoPago(Base):
    __tablename__ = 'metodos_pago'

    metodopagoid = Column(Integer, primary_key=True)
    nombre = Column(String(100), nullable=False)
    descripcion = Column(String(255))

    ordenes_metodo = relationship("OrdenMetodoPago", back_populates="metodo_pago")
    historial = relationship("HistorialPago", back_populates="metodo_pago")


class OrdenMetodoPago(Base):
    __tablename__ = 'ordenes_metodospago'

    ordenmetodoid = Column(Integer, primary_key=True)
    ordenid = Column(Integer, ForeignKey('ordenes.ordenid'))
    metodopagoid = Column(Integer, ForeignKey('metodos_pago.metodopagoid'))
    montopagado = Column(DECIMAL(10, 2), nullable=False)

    orden = relationship("Orden", back_populates="pagos")
    metodo_pago = relationship("MetodoPago", back_populates="ordenes_metodo")


class ResenaProducto(Base):
    __tablename__ = 'resenas_productos'

    resenaid = Column(Integer, primary_key=True)
    usuarioid = Column(Integer, ForeignKey('usuarios.usuarioid'))
    productoid = Column(Integer, ForeignKey('productos.productoid'))
    calificacion = Column(Integer, CheckConstraint('calificacion >= 1 AND calificacion <= 5'))
    comentario = Column(Text)
    fecha = Column(TIMESTAMP, server_default=func.now())

    usuario = relationship("Usuario", back_populates="resenas")
    producto = relationship("Producto", back_populates="resenas")


class HistorialPago(Base):
    __tablename__ = 'historial_pagos'

    pagoid = Column(Integer, primary_key=True)
    ordenid = Column(Integer, ForeignKey('ordenes.ordenid'))
    metodopagoid = Column(Integer, ForeignKey('metodos_pago.metodopagoid'))
    monto = Column(DECIMAL(10, 2), nullable=False)
    fechapago = Column(TIMESTAMP, server_default=func.now())
    estadopago = Column(String(50), default='Procesando')

    orden = relationship("Orden", back_populates="historial_pagos")
    metodo_pago = relationship("MetodoPago", back_populates="historial")






In [45]:
#Implementar un análisis exploratorio de datos utilizando un ORM en Python 

# Ventas / monto registrado por mes
ordenes = session.query(Orden).all()
df_ordenes = pd.DataFrame([{
    'fecha': o.fechaorden,
    'total': float(o.total)
} for o in ordenes])

df_ordenes['mes'] = df_ordenes['fecha'].dt.to_period('M')
ventas_por_mes = df_ordenes.groupby('mes')['total'].sum().reset_index()
ventas_por_mes

Unnamed: 0,mes,total
0,2024-06,13237.89
1,2024-07,408490.89
2,2024-08,449390.63
3,2024-09,422030.39
4,2024-10,417471.16
5,2024-11,410568.52
6,2024-12,425314.12
7,2025-01,411124.8
8,2025-02,369803.94
9,2025-03,435484.19


In [None]:
# Cantidad de ventas por producto en el primer trimestre de 2025
ordenes_trim1 = session.query(Orden).filter(
    and_(
        Orden.fechaorden >= datetime(2025, 1, 1),
        Orden.fechaorden < datetime(2025, 4, 1)
    )
).all()
detalles = session.query(DetalleOrden).all()
detalles = []
for o in ordenes_trim1:
    for d in o.detalles:
        detalles.append({
            'productoid': d.productoid,
            'cantidad': d.cantidad
        })

df_detalles = pd.DataFrame(detalles)

# Agrupar por ProductoID
ventas_por_producto = df_detalles.groupby('productoid')['cantidad'].sum().reset_index()

# Mapear nombres de productos
productos = session.query(Producto).all()
mapa_nombres = {p.productoid: p.nombre for p in productos}
ventas_por_producto['nombreproducto'] = ventas_por_producto['productoid'].map(mapa_nombres)

# Reordenar columnas
ventas_por_producto = ventas_por_producto[['productoid', 'nombreproducto', 'cantidad']].sort_values(by='cantidad', ascending=False)
ventas_por_producto

# Resultado: El producto más vendido en el trimestre analizado es la Consola PlayStation 5, seguido por el Alcohol en Gel que justamente es uno de los productos con mayor stock.  Podriamos concluir que la Playstation deberia tener más stock.

Unnamed: 0,productoid,nombreproducto,cantidad
33,34,Consola PlayStation 5,260
26,27,Alcohol en Gel 500ml,250
25,26,Termómetro Digital,235
2,3,Auriculares Bluetooth Sony,232
23,24,Set de Lápices de Colores,230
35,36,Juego FIFA 24 - PS5,228
0,1,Smartphone Galaxy A54,227
21,22,Libro: Cien Años de Soledad,226
7,8,Juego de Sábanas Queen,218
18,19,Aceite de Motor 5W30,218


In [None]:
# Ranking de revenue por método de pago

pagos = session.query(OrdenMetodoPago).all()
df_pagos = pd.DataFrame([{
    'metodopagoid': p.metodopagoid,
    'montopagado': float(p.montopagado)
} for p in pagos])
ranking_metodo_pago = df_pagos.groupby('metodopagoid')['montopagado'].sum().reset_index()
ranking_metodo_pago = ranking_metodo_pago.sort_values(by='montopagado', ascending=False)
metodos = session.query(MetodoPago).all()
mapa_metodos = {m.metodopagoid: m.nombre for m in metodos}
ranking_metodo_pago['metodopago'] = ranking_metodo_pago['metodopagoid'].map(mapa_metodos)
ranking_metodo_pago

#Resultado: el método de págo que registra más recaudación es el Pago Contra Entrega, y el que menos recauda es Tarjeta de Credito.

Unnamed: 0,metodopagoid,montopagado,metodopago
3,4,810915.91,Pago Contra Entrega
6,7,809547.11,Crédito en Tienda
2,3,795988.89,Transferencia Bancaria
5,6,792336.04,PayPal
4,5,791496.47,Mercado Pago
1,2,765149.21,Tarjeta de Débito
0,1,744976.33,Tarjeta de Crédito


In [None]:
# Ventas por provincia (cantidad, total y promedio de venta)
data = []
for o in ordenes:
    usuario = o.usuario
    if usuario.direcciones:
        direccion = usuario.direcciones[0]  # Tomamos la primera dirección como principal
        provincia = direccion.provincia or 'Desconocida'
    else:
        provincia = 'Desconocida'
    data.append({
        'provincia': provincia,
        'monto': float(o.total),
        'ordenid': o.ordenid
    })

df_provincia = pd.DataFrame(data)

ventas_provincia = df_provincia.groupby('provincia').agg(
    CantidadVentas=('ordenid', 'count'),
    MontoTotal=('monto', 'sum'),
    MontoPromedio=('monto', 'mean')
).reset_index().sort_values(by='MontoTotal', ascending=False)
ventas_provincia
#Resultados: La provincia con mas volumen de ventas es Formosa pero el mayor monto promedio por ticket lo tiene Buenos Aires.

Unnamed: 0,provincia,CantidadVentas,MontoTotal,MontoPromedio
7,Formosa,538,275999.68,513.010558
21,Tierra del Fuego,537,273412.98,509.148939
3,Chubut,526,265240.59,504.259677
15,Salta,506,251041.08,496.128617
9,La Pampa,481,247713.48,514.99684
17,San Luis,461,235088.05,509.952386
22,Tucumán,445,233075.8,523.765843
16,San Juan,455,232858.81,511.777604
1,Catamarca,470,232684.9,495.074255
11,Mendoza,475,232299.24,489.051032


In [None]:
# Productos con alto stock y bajas ventas

productos = session.query(Producto).all()
df_productos = pd.DataFrame([{
    'productoid': p.productoid,
    'nombre': p.nombre,
    'stock': p.stock
} for p in productos])
detalles = session.query(DetalleOrden).all()
df_detalles = pd.DataFrame([{
    'productoid': d.productoid,
    'cantidadvendida': d.cantidad
} for d in detalles])
ventas_por_producto = df_detalles.groupby('productoid')['cantidadvendida'].sum().reset_index()
df_merged = pd.merge(df_productos, ventas_por_producto, on='productoid', how='left')
df_merged['cantidadvendida'] = df_merged['cantidadvendida'].fillna(0)
umbral_stock_alto = df_merged['stock'].quantile(0.60)   
umbral_ventas_bajas = df_merged['cantidadvendida'].quantile(0.35) 
productos_stock_ventas = df_merged[
    (df_merged['stock'] >= umbral_stock_alto) &
    (df_merged['cantidadvendida'] <= umbral_ventas_bajas)
].sort_values(by='stock', ascending=False)

productos_stock_ventas

#Resultado: El producto con mas stock y menos vendido es el Alcohol en Gel 500ml. Seria interesante tener una columna que nos indique la frecuencia de renovacion del stock para analizar si es suficiente.

Unnamed: 0,productoid,nombre,stock,cantidadvendida
26,27,Alcohol en Gel 500ml,200,803
12,13,Crema Hidratante Facial,150,818
6,7,Sartén Antiadherente 24cm,120,693
2,3,Auriculares Bluetooth Sony,100,819
10,11,Pelota de Fútbol Profesional,100,750
5,6,Zapatillas Deportivas,80,825


In [None]:
# Usuarios sin compras
usuarios = session.query(Usuario).all()
usuarios_sin_orden = [
    {'nombre': u.nombre, 'apellido': u.apellido}
    for u in usuarios if not u.ordenes
]
df_usuarios_sin_compras = pd.DataFrame(usuarios_sin_orden)
df_usuarios_sin_compras


# Resultado: No hay usuarios sin compras

# Identificar llaves foráneas, atributos clave y columnas semi-estructuradas a transformar.


In [None]:
# Realizar preprocesamiento para mejorar la calidad de los datos.