In [97]:
import psycopg2
from psycopg2 import OperationalError
import pandas as pd


---

In [98]:

try:
    # Intenta establecer la conexi√≥n con los datos de tu archivo .env
    conn = psycopg2.connect(
        dbname="meli_app_db",
        user="user",
        password="password",
        host="localhost",  # Asumiendo que te conectas desde tu m√°quina al puerto expuesto por Docker
        port="5432"
    )
    
    print("¬°Conexi√≥n a la base de datos PostgreSQL exitosa!")
    
    # Es una buena pr√°ctica cerrar la conexi√≥n cuando terminas
    conn.close()

except OperationalError as e:
    print(f"Error: No se pudo conectar a la base de datos.")
    print(f"Detalle: {e}")


¬°Conexi√≥n a la base de datos PostgreSQL exitosa!


In [99]:
# Establecer una nueva conexi√≥n
conn = psycopg2.connect(
    dbname="meli_app_db",
    user="user",
    password="password",
    host="localhost",
    port="5432"
)

# Crear un cursor para ejecutar la consulta
cursor = conn.cursor()


In [100]:
try:
    
    # Consulta para obtener los nombres de las columnas de la tabla 'items'
    cursor.execute("""
        SELECT column_name
        FROM information_schema.columns
        WHERE table_name = 'items';
    """)
    
    # Obtener los resultados
    headers = cursor.fetchall()
    print("Encabezados de la tabla 'items':", [header[0] for header in headers])


except OperationalError as e:
    print(f"Error: No se pudo conectar a la base de datos.")
    print(f"Detalle: {e}")

Encabezados de la tabla 'items': []


In [None]:
try:
    
    # Consulta para obtener los nombres de las columnas de la tabla 'items'
    cursor.execute("""
        SELECT column_name
        FROM information_schema.columns
        WHERE table_name = 'matches';
    """)
    
    # Obtener los resultados
    headers = cursor.fetchall()
    print("Encabezados de la tabla 'matches':", [header[0] for header in headers])
    

except OperationalError as e:
    print(f"Error: No se pudo conectar a la base de datos.")
    print(f"Detalle: {e}")

In [None]:
    
# Cerrar el cursor y la conexi√≥n
cursor.close()
conn.close()

---

In [103]:
# =============================================================================
# RECURSOS CONSOLIDADOS: Comparaci√≥n y Procesamiento de Items
# =============================================================================

# --- 1. Framework Core (FastAPI & Control) ---
from fastapi import FastAPI, HTTPException, status, Path, Depends
# FastAPI: Clase principal para la aplicaci√≥n.
# HTTPException & status: Gesti√≥n de errores y c√≥digos de respuesta (404, 500, etc).
# Path & Depends: Validaci√≥n de par√°metros en URL e Inyecci√≥n de Dependencias.

# --- 2. Validaci√≥n de Esquemas (Pydantic) ---
from pydantic import BaseModel, Field
# BaseModel: Estructura base para los esquemas de entrada/salida de la API.
# Field: Metadatos y validaciones espec√≠ficas para los campos del modelo.

# --- 3. Base de Datos y persistencia (SQLAlchemy) ---
from sqlalchemy import create_engine, text, inspect
from sqlalchemy.orm import Session
# engine: Conector principal a la base de datos.
# text/inspect: Ejecuci√≥n de SQL puro y revisi√≥n de esquemas/columnas existentes.
# Session: Manejo del ciclo de vida de las transacciones.

# --- 4. Algoritmos de Similitud y Comparaci√≥n ---
import Levenshtein                      # Distancia de edici√≥n para medir cambios entre strings.
from difflib import SequenceMatcher      # Comparaci√≥n de secuencias basada en el algoritmo Gestalt.
from math import sqrt                   # Soporte para c√°lculos de Similitud de Coseno.
from collections import Counter         # Tokenizaci√≥n y conteo de palabras para pesos vectoriales.

# --- 5. Utilidades del Sistema y Tipado ---
import os                               # Interfaz con el SO (Variables de entorno).
from datetime import datetime           # Timestamps para registros (created_at/updated_at).
from enum import Enum                   # Definici√≥n de estados (p.ej. "positivo", "negativo").
from typing import List, Dict, Any, Optional # Tipado est√°tico para mejor soporte de IDEs y validaci√≥n.


In [164]:


class SimilarityService:
    """
    Capa de servicio para algoritmos de procesamiento de lenguaje natural (NLP).
    Implementa criterios de aceptaci√≥n para puntajes entre 0 y 1[cite: 585, 961].
    """
    
    @staticmethod
    def calculate_similarity_Levenshtein(text1: str, text2: str) -> float:
        """
        Algoritmo base de similitud con preprocesamiento y tokenizaci√≥n b√°sica.
        """
        if not text1 or not text2:
            return 0.0
            
        # Tokenizaci√≥n y limpieza b√°sica para evitar errores t√≠picos [cite: 68, 302]
        t1 = text1.lower().strip()
        t2 = text2.lower().strip()
        
        # Distancia de Levenshtein normalizada (Puntaje 0 a 1)
        max_len = max(len(t1), len(t2))
        if max_len == 0:
            return 1.0
            
        distance = Levenshtein.distance(t1, t2)
        similarity = 1 - (distance / max_len)
        return round(similarity, 5)
    @staticmethod
    def calculate_similarity_SequenceMatcher(text1: str, text2: str) -> float:
        """
        Algoritmo alternativo de similitud usando SequenceMatcher (difflib).
        """
        if not text1 or not text2:
            return 0.0

        t1 = text1.lower().strip()
        t2 = text2.lower().strip()

        # Similaridad basada en raz√≥n de coincidencia de secuencias
        similarity = SequenceMatcher(None, t1, t2).ratio()
        return round(similarity, 5)
    @staticmethod
    def calculate_similarity_jaccard(text1: str, text2: str) -> float:
        """
        Algoritmo alternativo de similitud usando Jaccard sobre tokens.
        """
        if not text1 or not text2:
            return 0.0

        tokens1 = set(text1.lower().strip().split())
        tokens2 = set(text2.lower().strip().split())

        if not tokens1 and not tokens2:
            return 1.0

        intersection = tokens1.intersection(tokens2)
        union = tokens1.union(tokens2)
        similarity = len(intersection) / len(union)
        return round(similarity, 5)
    @staticmethod
    def calculate_similarity_cosine(text1: str, text2: str) -> float:
        """
        Algoritmo alternativo de similitud usando coseno sobre frecuencia de tokens.
        Mejora la separaci√≥n entre frases con vocabulario distinto.
        """
        if not text1 or not text2:
            return 0.0

        # Remover palabras comunes para reducir ruido sem√°ntico
        stopwords = {"de", "la", "el", "los", "las", "para", "y", "o", "un", "una", "unos", "unas"}
        tokens1 = [t for t in text1.lower().strip().split() if t and t not in stopwords]
        tokens2 = [t for t in text2.lower().strip().split() if t and t not in stopwords]

        if not tokens1 and not tokens2:
            return 1.0


        c1 = Counter(tokens1)
        c2 = Counter(tokens2)

        common = set(c1) & set(c2)
        dot = sum(c1[t] * c2[t] for t in common)
        norm1 = sqrt(sum(v * v for v in c1.values()))
        norm2 = sqrt(sum(v * v for v in c2.values()))

        if norm1 == 0 or norm2 == 0:
            return 0.0

        similarity = dot / (norm1 * norm2)
        return round(similarity, 5)
    @staticmethod
    def calculate_similarity(text1: str, text2: str, method: str = "levenshtein") -> float:
        """
        Selecciona el algoritmo de similitud seg√∫n el m√©todo indicado.
        """
        methods = {
            "levenshtein": SimilarityService.calculate_similarity_Levenshtein,
            "sequencematcher": SimilarityService.calculate_similarity_SequenceMatcher,
            "jaccard": SimilarityService.calculate_similarity_jaccard,
            "cosine": SimilarityService.calculate_similarity_cosine,
        }
        func = methods.get(method.lower(), SimilarityService.calculate_similarity_Levenshtein)
        return func(text1, text2)
    

In [165]:
print(SimilarityService.calculate_similarity('Carcasa Iphone 13 pro max', 'Iphone 13 pro max', method='levenshtein'))
print(SimilarityService.calculate_similarity('Carcasa Iphone 13 pro max', 'Iphone 13 pro max', method='jaccard'))
print(SimilarityService.calculate_similarity('Carcasa Iphone 13 pro max', 'Iphone 13 pro max', method='sequencematcher' ))
print(SimilarityService.calculate_similarity('Carcasa Iphone 13 pro max', 'Iphone 13 pro max', method='cosine' ))

0.68
0.8
0.80952
0.89443


In [None]:
DATABASE_URL = os.getenv("DATABASE_URL", "postgresql://user:password@localhost:5432/meli_app_db")
engine = create_engine(DATABASE_URL)

def get_db():
    db = Session(engine)
    try:
        yield db
    finally:
        db.close()

class BackupResponse(BaseModel):
    message: str
    records_moved: int

# Get database session
db = next(get_db())


def init_db(database_url: str = None):
    url = database_url or os.getenv("DATABASE_URL", DATABASE_URL)
    engine = create_engine(url)

    def get_db():
        db = Session(engine)
        try:
            yield db
        finally:
            db.close()

    db = next(get_db())
    return engine, db, get_db

engine, db, get_db = init_db()

In [168]:
# funcion de evaluacion de dos id_item

# =============================================================================
# CELL 14: Testing - Verificaci√≥n de matches existentes en base de datos
# =============================================================================
# 
# PROP√ìSITO: Validar la l√≥gica de consulta de matches previos antes de 
# realizar nuevas comparaciones de similitud.
#
# FLUJO:
# 1. Definir IDs de prueba
# 2. Consultar tabla 'matches' buscando coincidencias bidireccionales
# 3. Evaluar resultado seg√∫n estado (positivo/negativo/inexistente)
# 4. Construir respuesta seg√∫n criterios de negocio
# =============================================================================


In [161]:
# Crear lista con todos los n√∫meros
all_numbers = [
    514341, 687643, 535665, 2139803, 2139565, 468237168, 63486251, 63486703,
    63537003, 63480361, 63477742, 63482316, 634887722, 63474586, 62476483,
    64263755, 64263754, 642875, 642765, 639623, 6426692, 6347747, 634741,
    6197048, 6451357, 6451338, 6451340, 645133882, 512312, 512313, 213980,
    132312, 145423, 234234, 233234, 121214, 653554, 63486703, 63537003,
    634887782, 63474584
]

# Eliminar duplicados manteniendo orden
all_numbers = list(dict.fromkeys(all_numbers))

# Crear lista de pares [elemento_i, elemento_j]
pairs = [[all_numbers[i], all_numbers[j]] for i in range(len(all_numbers)) for j in range(i+1, len(all_numbers))]

print(f"Total de n√∫meros √∫nicos: {len(all_numbers)}")
print(f"Total de pares generados: {len(pairs)}")
print(f"\nPrimeros 5 pares: {pairs[:5]}")


Total de n√∫meros √∫nicos: 39
Total de pares generados: 741

Primeros 5 pares: [[514341, 687643], [514341, 535665], [514341, 2139803], [514341, 2139565], [514341, 468237168]]


In [167]:
# tomar la lista de listas
for i in range(len(pairs)):
    test_match_existence(ids=pairs[i], db=db, threshold=0.45, metodo_seleccionado="cosine")

üîç Buscando matches para IDs: 514341 y 687643

            ‚ùå NO SE ENCONTR√ì MATCH PREVIO
                ‚Üí Proceder con c√°lculo de similitud y registro en BD
            
‚úÖ Registro insertado exitosamente:
   id=1, id_item_1=514341, title_item_1=Baraja de Evangelion y Gundam W
   id_item_2=687643, title_item_2=FAX TELEFONICA EQUIPOS - URGENTE
   score=0.0, status=negativo

üì¶ Respuesta construida tras recalculo:
   id_item_1: 514341
   title_item_1: Baraja de Evangelion y Gundam W
   id_item_2: 687643
   title_item_2: FAX TELEFONICA EQUIPOS - URGENTE
   score: 0.0
   status: negativo
   created_at: 2026-02-18T14:06:41.825142
   updated_at: 2026-02-18T14:06:41.825142

RESUMEN DE VALIDACI√ìN:
  ‚Ä¢ IDs consultados: [514341, 687643]
  ‚Ä¢ Match encontrado: No
üîç Buscando matches para IDs: 514341 y 535665

            ‚ùå NO SE ENCONTR√ì MATCH PREVIO
                ‚Üí Proceder con c√°lculo de similitud y registro en BD
            
‚úÖ Registro insertado exitosamente:
   id

In [91]:
def insert_item(db: Session, id_item: int, title: str):
    """
    Inserta un nuevo registro en la tabla 'items'.
    
    Args:
        db: Sesi√≥n de SQLAlchemy para ejecutar queries
        id_item: ID √∫nico del item a insertar
        title: T√≠tulo descriptivo del item
    
    Returns:
        str: Mensaje indicando el resultado de la operaci√≥n
    
    Raises:
        SQLAlchemyError: Si falla la inserci√≥n en base de datos
    """
    
    # verificar si ya existe el id_item y en caso de que si, no insertar y retornar mensaje de error
    check_query = text("SELECT id FROM items WHERE id_item = :id_item")
    existing_item = db.execute(check_query, {"id_item": str(id_item)}).fetchone()
    if existing_item:
        mensaje = f"‚ùå Item ya existe: id_item={id_item}, title='{title}' \n No se insert√≥ el registro para evitar duplicados."
        print(mensaje)
        return mensaje

    # 1. OBTENER PR√ìXIMO ID AUTOINCREMENTAL
    last_id_query = text("SELECT COALESCE(MAX(id), 0) as max_id FROM items")
    last_id_result = db.execute(last_id_query).fetchone()
    new_id = last_id_result.max_id + 1
    
    # 2. GENERAR TIMESTAMP ACTUAL
    current_timestamp = datetime.now().isoformat()
    
    # 3. INSERTAR REGISTRO EN TABLA ITEMS
    insert_query = text("""
        INSERT INTO items 
        (id, id_item, title, created_at, updated_at) 
        VALUES 
        (:id, :id_item, :title, :created_at, :updated_at)
    """)
    
    db.execute(
        insert_query,
        {
            "id": new_id,
            "id_item": str(id_item),
            "title": title,
            "created_at": current_timestamp,
            "updated_at": current_timestamp
        }
    )
    
    # 4. CONFIRMAR TRANSACCI√ìN
    db.commit()
    
    mensaje = f"‚úÖ Item insertado exitosamente: id={new_id}, id_item={id_item}, title='{title}'"
    print(mensaje)
    return mensaje

In [96]:
insert_item(db=db, id_item=987654321, title="Test Item A")
insert_item(db=db, id_item=987654322, title="Test Item B")
insert_item(db=db, id_item=123456789, title="Test Item C")

‚ùå Item ya existe: id_item=987654321, title='Test Item A' 
 No se insert√≥ el registro para evitar duplicados.
‚ùå Item ya existe: id_item=987654322, title='Test Item B' 
 No se insert√≥ el registro para evitar duplicados.
‚úÖ Item insertado exitosamente: id=44, id_item=123456789, title='Test Item C'


"‚úÖ Item insertado exitosamente: id=44, id_item=123456789, title='Test Item C'"