In [1]:
# Importar librerias

In [2]:
import pandas as pd
from sqlalchemy import create_engine
import os
from dotenv import load_dotenv

In [3]:
# Cargar variables de entorno
load_dotenv()
db_url = os.getenv("DATABASE_URL")

In [4]:
# Conexión de la base de datos
engine = create_engine(db_url)

### Tablas disponibles

In [5]:
query = """
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'public'
"""
tablas = pd.read_sql(query, con=engine)

print("Tablas en la base de datos")
display(tablas)

Tablas en la base de datos


Unnamed: 0,table_name
0,envios
1,clientes
2,productos
3,proveedores
4,tiempo
5,ventas


### Características de las tablas

In [6]:
for table in tablas["table_name"]:
    print(f"\nEstructura de la tabla {table}")
    query = f"""
    SELECT column_name, data_type, character_maximum_length
    FROM information_schema.columns
    WHERE table_name = '{table}'
    """
    estructura = pd.read_sql(query, con=engine)
    display(estructura)


Estructura de la tabla envios


Unnamed: 0,column_name,data_type,character_maximum_length
0,envio_id,text,
1,venta_id,text,
2,proveedor_id,text,
3,estado_envio,text,
4,tiempo_id,text,



Estructura de la tabla clientes


Unnamed: 0,column_name,data_type,character_maximum_length
0,edad,bigint,
1,cliente_id,text,
2,nombre,text,
3,genero,text,
4,ubicacion,text,



Estructura de la tabla productos


Unnamed: 0,column_name,data_type,character_maximum_length
0,precio_base,double precision,
1,producto_id,text,
2,nombre_producto,text,
3,categoria,text,



Estructura de la tabla proveedores


Unnamed: 0,column_name,data_type,character_maximum_length
0,proveedor_id,text,
1,nombre_proveedor,text,
2,contacto,text,
3,ubicacion,text,



Estructura de la tabla tiempo


Unnamed: 0,column_name,data_type,character_maximum_length
0,dia,bigint,
1,anio,bigint,
2,mes,bigint,
3,dia_nombre,text,
4,tiempo_id,text,
5,mes_nombre,text,
6,fecha,text,
7,hora,text,



Estructura de la tabla ventas


Unnamed: 0,column_name,data_type,character_maximum_length
0,cantidad,bigint,
1,sucursal_id,bigint,
2,total,double precision,
3,precio_unitario,double precision,
4,tiempo_id,text,
5,producto_id,text,
6,cliente_id,text,
7,venta_id,text,


### Conteo de los registros de cada tabla

In [7]:
print("Conteo de Filas por Tabla:")
for table in tablas["table_name"]:
    query = f"SELECT COUNT(*) FROM {table}"
    count = pd.read_sql(query, con=engine)
    print(f"{table.capitalize()} -> Total de filas: {count.iloc[0, 0]}")

Conteo de Filas por Tabla:
Envios -> Total de filas: 17877
Clientes -> Total de filas: 49000
Productos -> Total de filas: 980
Proveedores -> Total de filas: 196
Tiempo -> Total de filas: 557555
Ventas -> Total de filas: 474086


In [8]:
# Vista previa de los registros en cada tabla

In [9]:
for table in tablas["table_name"]:
    df = pd.read_sql(f"SELECT * FROM {table} LIMIT 5", con=engine)
    print(f"\n{table.capitalize()} - Primeras 5 filas:")
    display(df)


Envios - Primeras 5 filas:


Unnamed: 0,envio_id,venta_id,proveedor_id,estado_envio,tiempo_id
0,1,306210,10,Retrasado,1409
1,2,159044,76,Entregado,1468
2,3,230549,137,En tránsito,1525
3,4,133984,164,Retrasado,1583
4,5,262497,51,Retrasado,1641



Clientes - Primeras 5 filas:


Unnamed: 0,cliente_id,nombre,edad,genero,ubicacion
0,1,Cliente_1,54,Otro,Puebla
1,2,Cliente_2,46,Masculino,Tijuana
2,3,Cliente_3,68,Femenino,Monterrey
3,4,Cliente_4,21,Masculino,Cdmx
4,5,Cliente_5,54,Otro,Cdmx



Productos - Primeras 5 filas:


Unnamed: 0,producto_id,nombre_producto,categoria,precio_base
0,1,Producto_1,Ropa,172.87
1,2,Producto_2,Ropa,392.52
2,3,Producto_3,Ropa,94.29
3,4,Producto_4,Abarrotes,370.64
4,5,Producto_5,Abarrotes,51.53



Proveedores - Primeras 5 filas:


Unnamed: 0,proveedor_id,nombre_proveedor,contacto,ubicacion
0,1,Proveedor_1,contacto1@empresa.com,Monterrey
1,2,Proveedor_2,contacto2@empresa.com,Tijuana
2,3,Proveedor_3,contacto3@empresa.com,Tijuana
3,4,Proveedor_4,contacto4@empresa.com,Cdmx
4,5,Proveedor_5,contacto5@empresa.com,Monterrey



Tiempo - Primeras 5 filas:


Unnamed: 0,tiempo_id,fecha,hora,anio,mes,dia,dia_nombre,mes_nombre
0,1,2023-01-01,00:00:00,2023,1,1,Sunday,January
1,2,2023-01-01,00:01:00,2023,1,1,Sunday,January
2,3,2023-01-01,00:03:00,2023,1,1,Sunday,January
3,4,2023-01-01,00:04:00,2023,1,1,Sunday,January
4,5,2023-01-01,00:05:00,2023,1,1,Sunday,January



Ventas - Primeras 5 filas:


Unnamed: 0,venta_id,producto_id,cantidad,precio_unitario,cliente_id,sucursal_id,total,tiempo_id
0,1198,959,4,34.89,6273,17,139.56,1172
1,1200,866,12,301.61,12024,32,3619.28,1173
2,1201,109,15,301.23,19638,29,4518.51,1174
3,1202,407,17,307.55,4843,50,5228.28,1175
4,1203,29,5,386.87,46192,27,1934.34,1176


### Revisión de valores nulos

In [10]:
print("Nulos por Tabla:")
for table in tablas["table_name"]:
    df = pd.read_sql(f"SELECT * FROM {table}", con=engine)
    print(f"\n{table.capitalize()} - Valores Nulos:")
    nulls = df.isnull().sum()
    if nulls.sum() > 0:
        print(nulls[nulls > 0])
    else:
        print("No hay valores nulos")
    print("-" * 40)


Nulos por Tabla:

Envios - Valores Nulos:
No hay valores nulos
----------------------------------------

Clientes - Valores Nulos:
No hay valores nulos
----------------------------------------

Productos - Valores Nulos:
No hay valores nulos
----------------------------------------

Proveedores - Valores Nulos:
No hay valores nulos
----------------------------------------

Tiempo - Valores Nulos:
No hay valores nulos
----------------------------------------

Ventas - Valores Nulos:
No hay valores nulos
----------------------------------------


### Revisión de registros duplicados

In [11]:
print("\nRegistros Duplicados por Tabla:")
for table in tablas["table_name"]:
    df = pd.read_sql(f"SELECT * FROM {table}", con=engine)
    duplicates = df.duplicated().sum()
    print(f"{table.capitalize()} - Duplicados: {duplicates}")
    print("-" * 40)


Registros Duplicados por Tabla:
Envios - Duplicados: 0
----------------------------------------
Clientes - Duplicados: 0
----------------------------------------
Productos - Duplicados: 0
----------------------------------------
Proveedores - Duplicados: 0
----------------------------------------
Tiempo - Duplicados: 0
----------------------------------------
Ventas - Duplicados: 0
----------------------------------------


### Revisión de relaciones entre tablas

In [12]:
def check_foreign_keys(foreign_key_checks):
    print("\nVerificación de Claves Foráneas:")
    for description, query in foreign_key_checks:
        df = pd.read_sql(query, con=engine)
        print(f"{description} - Registros encontrados: {len(df)}")
        if not df.empty:
            display(df)
        else:
            print("No se encontraron registros relevantes.")
        print("-" * 40)

In [13]:
foreign_key_checks = [
    ("Ventas sin fecha en 'tiempo'", """
        SELECT v.venta_id FROM ventas v
        LEFT JOIN tiempo t ON v.tiempo_id = t.tiempo_id
        WHERE t.tiempo_id IS NULL
    """),
    ("Ventas con productos inexistentes en 'productos'", """
        SELECT v.venta_id, v.producto_id FROM ventas v
        LEFT JOIN productos p ON v.producto_id = p.producto_id
        WHERE p.producto_id IS NULL
    """),
    ("Ventas con clientes inexistentes en 'clientes'", """
        SELECT v.venta_id, v.cliente_id FROM ventas v
        LEFT JOIN clientes c ON v.cliente_id = c.cliente_id
        WHERE c.cliente_id IS NULL
    """),
    ("Envíos con ventas inexistentes en 'ventas'", """
        SELECT e.envio_id, e.venta_id FROM envios e
        LEFT JOIN ventas v ON e.venta_id = v.venta_id
        WHERE v.venta_id IS NULL
    """),
    ("Envíos sin fecha en 'tiempo'", """
        SELECT e.envio_id, e.tiempo_id FROM envios e
        LEFT JOIN tiempo t ON e.tiempo_id = t.tiempo_id
        WHERE t.tiempo_id IS NULL
    """),
    ("Envíos con proveedores inexistentes en 'proveedores'", """
        SELECT e.envio_id, e.proveedor_id FROM envios e
        LEFT JOIN proveedores p ON e.proveedor_id = p.proveedor_id
        WHERE p.proveedor_id IS NULL
    """)
]

In [14]:
check_foreign_keys(foreign_key_checks)


Verificación de Claves Foráneas:
Ventas sin fecha en 'tiempo' - Registros encontrados: 0
No se encontraron registros relevantes.
----------------------------------------
Ventas con productos inexistentes en 'productos' - Registros encontrados: 0
No se encontraron registros relevantes.
----------------------------------------
Ventas con clientes inexistentes en 'clientes' - Registros encontrados: 0
No se encontraron registros relevantes.
----------------------------------------
Envíos con ventas inexistentes en 'ventas' - Registros encontrados: 0
No se encontraron registros relevantes.
----------------------------------------
Envíos sin fecha en 'tiempo' - Registros encontrados: 0
No se encontraron registros relevantes.
----------------------------------------
Envíos con proveedores inexistentes en 'proveedores' - Registros encontrados: 0
No se encontraron registros relevantes.
----------------------------------------
