### Desarrollo de bases de datos

#### BD Tabular

In [1]:
import pandas as pd

In [2]:
data_prod = pd.read_csv('../fuentes_de_informacion/productos.csv')
data_prod.head()

Unnamed: 0,id_producto,nombre,categoria,subcategoria,marca,precio_usd,stock,color,potencia_w,capacidad,voltaje,peso_kg,garantia_meses,descripcion
0,P0001,Licuadora,Cocina,Preparación,TechHome,283.63,108,Blanco,650.0,1.2L,12V,5.6,36,"Descubrí el poder de la Licuadora de TechHome,..."
1,P0002,Licuadora,Cocina,Preparación,TechHome,1273.06,114,Rosa,300.0,2.0L,220V,35.9,36,"Descubrí el poder de la Licuadora de TechHome,..."
2,P0003,Plus Licuadora Pro,Cocina,Preparación,TechHome,329.07,97,Negro,700.0,1.2L,220V,47.9,18,Descubrí el poder de la Plus Licuadora Pro de ...
3,P0004,Compacto Licuadora,Cocina,Preparación,ChefMaster,259.42,75,Rosa,1000.0,2.0L,220V,48.7,24,Descubrí el poder de la Compacto Licuadora de ...
4,P0005,Licuadora,Cocina,Preparación,HomeChef,2602.78,97,Azul,1350.0,1.2L,110-220V,49.3,12,"Descubrí el poder de la Licuadora de HomeChef,..."


In [3]:
data_prod.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_producto     300 non-null    object 
 1   nombre          300 non-null    object 
 2   categoria       300 non-null    object 
 3   subcategoria    300 non-null    object 
 4   marca           300 non-null    object 
 5   precio_usd      300 non-null    float64
 6   stock           300 non-null    int64  
 7   color           300 non-null    object 
 8   potencia_w      298 non-null    float64
 9   capacidad       58 non-null     object 
 10  voltaje         300 non-null    object 
 11  peso_kg         300 non-null    float64
 12  garantia_meses  300 non-null    int64  
 13  descripcion     300 non-null    object 
dtypes: float64(3), int64(2), object(9)
memory usage: 32.9+ KB


**Datos relevantes:**

Variables categóricas:

In [4]:
len(data_prod['id_producto'].unique())

300

In [5]:
data_prod['categoria'].unique()

array(['Cocina', 'Climatización', 'Lavado', 'Audio y Video'], dtype=object)

In [6]:
data_prod['subcategoria'].unique()

array(['Preparación', 'Cocción', 'Refrigeración',
       'Pequeños Electrodomésticos', 'Aires Acondicionados',
       'Calefacción', 'Ventilación', 'Purificación', 'Lavado de Ropa',
       'Secado', 'Lavado de Vajilla', 'Planchado', 'Televisores'],
      dtype=object)

In [7]:
data_prod['marca'].unique()

array(['TechHome', 'ChefMaster', 'HomeChef', 'KitchenPro', 'CookElite',
       'PureAir', 'EcoClima', 'ClimaTech', 'ThermoControl', 'AirFlow',
       'WashPro', 'SparkleHome', 'CleanMaster', 'LaundryTech',
       'FreshWash', 'VisionPro', 'ScreenPro'], dtype=object)

In [8]:
data_prod['color'].unique()

array(['Blanco', 'Rosa', 'Negro', 'Azul', 'Dorado', 'Gris', 'Plateado',
       'Verde', 'Rojo', 'Amarillo'], dtype=object)

Variables numéricas:

In [9]:
data_prod[['precio_usd', 'stock', 'garantia_meses']].describe()

Unnamed: 0,precio_usd,stock,garantia_meses
count,300.0,300.0,300.0
mean,1481.669567,99.95,19.72
std,845.525639,58.354534,10.112491
min,28.22,1.0,6.0
25%,836.26,48.25,12.0
50%,1409.915,100.0,18.0
75%,2142.56,150.0,24.0
max,2992.33,200.0,36.0


Se tendrán en cuenta los cálculos extraidos para que sean considerados por el LLM. Sin embargo, se procede a chequear la columnas 'capacidad' ya que contiene muchos valores nulos. Se congetura que se debe a que no es una característica correspondiente para algunos productos.

In [10]:
cap = data_prod[data_prod['capacidad'].isna()]
cap['subcategoria'].unique()

array(['Preparación', 'Cocción', 'Refrigeración',
       'Pequeños Electrodomésticos', 'Aires Acondicionados',
       'Calefacción', 'Ventilación', 'Purificación', 'Lavado de Ropa',
       'Secado', 'Planchado', 'Televisores'], dtype=object)

Construcción de base de datos con SQLite

In [11]:
import sqlite3

conn = sqlite3.connect("../databases/productos.db")
cursor = conn.cursor()

In [13]:
cursor.execute("""
CREATE TABLE IF NOT EXISTS productos(
id_producto TEXT PRIMARY KEY,
nombre TEXT,
categoria TEXT,
subcategoria TEXT,
marca TEXT,
precio_usd REAL,
stock INTEGER,
color TEXT,
potencia_w REAL,
capacidad REAL,
voltaje TEXT,
peso_kg REAL,
garantia_meses INTEGER,
descripcion TEXT)""")

conn.commit()

In [12]:
cursor.execute("DELETE FROM productos")
conn.commit()

In [13]:
data_prod.to_sql("productos", conn, if_exists="append", index=False)

300

#### BD Vectorial

In [20]:
#!pip install chromadb sentence-transformers

In [14]:
import json

In [15]:
with open('../fuentes_de_informacion/faqs.json', 'r', encoding="utf-8") as f:
    faqs = json.load(f)
df_faqs = pd.DataFrame(faqs)
df_faqs.head()

Unnamed: 0,id_faq,id_producto,nombre_producto,categoria,pregunta,respuesta,fecha_publicacion,vistas,util
0,FAQ00001,P0001,Licuadora,Especificaciones,¿Qué voltaje requiere?,El Licuadora funciona con 12V. El consumo es d...,2025-01-05,4067,22
1,FAQ00002,P0001,Licuadora,Mantenimiento,¿Cada cuánto debo hacer mantenimiento?,El Licuadora de TechHome está diseñado para us...,2025-05-18,2556,97
2,FAQ00003,P0001,Licuadora,Uso,¿Es seguro para uso continuo?,El Licuadora de TechHome está diseñado para us...,2024-12-04,1654,19
3,FAQ00004,P0001,Licuadora,Uso,¿Cómo se usa correctamente este producto?,El Licuadora de TechHome está diseñado para us...,2025-08-02,4956,20
4,FAQ00005,P0001,Licuadora,Especificaciones,¿Cuál es el consumo eléctrico?,El Licuadora funciona con 12V. El consumo es d...,2025-06-15,1683,18


In [16]:
df_faqs['contenido'] = (
    "Pregunta: "+df_faqs['pregunta'] +
    "\nRespuesta: "+df_faqs['respuesta']
)

In [27]:
df_faqs["contenido"].apply(lambda x: len(x.split())).describe()

count    3000.000000
mean       36.735667
std         4.251331
min        20.000000
25%        36.000000
50%        38.000000
75%        39.000000
max        43.000000
Name: contenido, dtype: float64

Se decidió unir las preguntas y respuestas y su longitud promedio es 36.7 palabras, observándose baja variabilidad y tamaños muy reducidos. Dado que ningún documento supera límites típicos de chunking para embeddings, se decidió no fragmentar el contenido para preservar coherencia semántica y evitar sobresegmentación innecesaria.

In [17]:
metadatos = df_faqs.apply(
    lambda row: {
        'id_producto': row['id_producto'],
        'nombre_producto': row['nombre_producto'],
        "categoria": row['categoria'],
        'fecha_publicacion': row['fecha_publicacion']},
        axis=1).tolist()

In [18]:
import chromadb
from chromadb.utils import embedding_functions

In [19]:
funcion_embedding = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")




In [20]:
import os

BASE_DIR = os.path.abspath("..")
VECTOR_DB_PATH = os.path.join(BASE_DIR, "databases", "vectores")
os.makedirs(VECTOR_DB_PATH, exist_ok=True)

client = chromadb.PersistentClient(path=VECTOR_DB_PATH)

In [21]:
coleccion = client.get_or_create_collection(
    name='coleccion_faqs',
    embedding_function=funcion_embedding)

In [29]:
coleccion.add(
    documents=df_faqs['contenido'].tolist(),
    metadatas=metadatos,
    ids=df_faqs["id_faq"].astype(str).tolist()
)

#### BD de Grafos

In [38]:
BASE_DIR = os.path.abspath("..")
REVIEWS_PATH = os.path.join(BASE_DIR, "fuentes_de_informacion", "resenas_usuarios")

In [39]:
def parsear_resena(ruta_archivo):
    with open(ruta_archivo, "r", encoding="utf-8") as f:
        lineas = f.readlines()
    
    fecha = lineas[0].split(": ", 1)[1].strip()
    usuario = lineas[1].split(": ", 1)[1].strip()
    telefono = lineas[2].split(": ", 1)[1].strip()
    producto = lineas[3].split(": ", 1)[1].strip()
    puntaje = lineas[4].split(": ", 1)[1].strip()
    provincia = lineas[5].split(": ", 1)[1].strip()
    
    texto = "".join(lineas[7:]).strip()
    
    return {
        "fecha": fecha,
        "usuario": usuario,
        "telefono": telefono,
        "producto": producto,
        "puntaje": puntaje,
        "provincia": provincia,
        "texto_resena": texto}

In [40]:
registros = []

for archivo in os.listdir(REVIEWS_PATH):
    if archivo.endswith(".txt"):
        ruta = os.path.join(REVIEWS_PATH, archivo)
        datos = parsear_resena(ruta)
        registros.append(datos)

df_resenas = pd.DataFrame(registros)

In [41]:
df_resenas.head()

Unnamed: 0,fecha,usuario,telefono,producto,puntaje,provincia,texto_resena
0,2024-04-17,Lucía_Acosta,+54 9 83 9938-6469,Exprimidor 2024 (P0129),5/5,Tierra del Fuego,Hola a todos! Increíble relación calidad-preci...
1,2025-10-03,Nicolás_Vega,+54 9 127 4245-7317,Profesional Batidora de Mano (P0017),5/5,Santa Cruz,Buenas! Mejor de lo que esperaba con Profesion...
2,2025-10-11,Lucía_Flores,+54 9 118 1905-8647,Plancha Seca 2024 (P0285),4/5,Santiago del Estero,"Quiero compartir mi experiencia. Me encantó, y..."
3,2025-05-25,Miranda_Fernández,+54 9 326 9566-1668,Advanced Procesadora II (P0012),5/5,Río Negro,"Hola a todos! Funciona de 10, muy satisfecho/a..."
4,2025-06-03,Rodrigo_Molina,+54 9 225 6511-1859,Elite Plancha Seca X (P0284),5/5,CABA,Buenas! No me arrepiento para nada de la compr...


In [42]:
df_resenas.shape

(5015, 7)