¡Excelente! Usar CBRKit en un Notebook (Jupyter o Google Colab) es la mejor forma de prototipar, ya que puedes visualizar la tabla de casos y los resultados de similitud de forma inmediata.

Aquí tienes una guía paso a paso para implementar un motor de CBR funcional en una celda.

1. Instalación y Preparación

In [4]:
pip install cbrkit

Note: you may need to restart the kernel to use updated packages.


El error ocurre porque CBRKit no instala automáticamente todas las librerías de algoritmos de comparación (como Levenshtein) para mantenerse ligero.

In [5]:
pip install python-Levenshtein

Collecting python-Levenshtein
  Downloading python_levenshtein-0.27.3-py3-none-any.whl.metadata (3.9 kB)
Collecting Levenshtein==0.27.3 (from python-Levenshtein)
  Downloading levenshtein-0.27.3-cp311-cp311-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (3.7 kB)
Collecting rapidfuzz<4.0.0,>=3.9.0 (from Levenshtein==0.27.3->python-Levenshtein)
  Downloading rapidfuzz-3.14.3-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (12 kB)
Downloading python_levenshtein-0.27.3-py3-none-any.whl (9.5 kB)
Downloading levenshtein-0.27.3-cp311-cp311-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (153 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m153.6/153.6 kB[0m [31m585.7 kB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hDownloading rapidfuzz-3.14.3-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (3.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[

In [2]:
pip install "cbrkit[all]"

Collecting dtaidistance<3.0,>=2.3 (from cbrkit[all])
  Downloading dtaidistance-2.3.13-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (13 kB)
Collecting fastapi<1.0,>=0.100 (from fastapi[all]<1.0,>=0.100; extra == "all" or extra == "api"->cbrkit[all])
  Downloading fastapi-0.128.0-py3-none-any.whl.metadata (30 kB)
Collecting levenshtein<0.26,>=0.23 (from cbrkit[all])
  Downloading Levenshtein-0.25.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.3 kB)
Collecting minineedle<4.0,>=3.1 (from cbrkit[all])
  Downloading minineedle-3.1.5-py3-none-any.whl.metadata (5.5 kB)
Collecting nltk<4.0,>=3.8 (from cbrkit[all])
  Downloading nltk-3.9.2-py3-none-any.whl.metadata (3.2 kB)
Collecting openai<2.0,>=1.5 (from cbrkit[all])
  Downloading openai-1.109.1-py3-none-any.whl.metadata (29 kB)
Collecting rich<14.0,>=13.7 (from cbrkit[all])
  Downloading rich-13.9.4-py3-none-any.whl.metadata (18 kB)
Collecting sentence-transformers<4.0,>=2.2 (from cbrkit[all]

2. Definición de la Base de Casos
Vamos a crear un ejemplo de Soporte Técnico de Software. Imaginemos que queremos resolver errores de usuarios basados en experiencias pasadas.

In [4]:
import cbrkit
import pandas as pd

# 1. Definimos nuestros casos previos
casos_data = {
    "caso1": {"error": "pantalla_azul", "memoria": 8, "uso_cpu": 90, "solucion": "Reiniciar drivers de video"},
    "caso2": {"error": "lags_intermitentes", "memoria": 4, "uso_cpu": 50, "solucion": "Limpiar archivos temporales"},
    "caso3": {"error": "pantalla_azul", "memoria": 16, "uso_cpu": 95, "solucion": "Revisar hardware de RAM"},
}

# 2. La consulta (el problema actual del usuario)
query = {"error": "pantalla_azul", "memoria": 12, "uso_cpu": 85}

import cbrkit

# Definimos la función de similitud con el parámetro corregido
sim_func = cbrkit.sim.generic.table(
    attributes={
        "error": cbrkit.sim.strings.levenshtein(),
        # Cambiamos 'max_distance' por 'max'
        "memoria": cbrkit.sim.numbers.linear(max=12), 
        "uso_cpu": cbrkit.sim.numbers.linear(max=100)
    },
    types={
        "error": "categorical",
        "memoria": "numeric",
        "uso_cpu": "numeric"
    }
)3. Configuración de Similitud (El "Cerebro")
Aquí es donde CBRKit brilla. Vamos a definir cómo comparar el texto y los números.

In [11]:
import cbrkit.sim.generic
import cbrkit.sim.numbers

print("Funciones en 'generic':", [f for f in dir(cbrkit.sim.generic) if not f.startswith('_')])
print("Funciones en 'numbers':", [f for f in dir(cbrkit.sim.numbers) if not f.startswith('_')])

Funciones en 'generic': ['Any', 'Sequence', 'SimPairFunc', 'ValueType', 'defaultdict', 'equality', 'table']
Funciones en 'numbers': ['Number', 'SimPairFunc', 'exponential', 'linear', 'linear_interval', 'math', 'sigmoid', 'threshold']


In [15]:
import cbrkit

# 1. Definimos las funciones de similitud locales que ya sabemos que funcionan
sim_error = cbrkit.sim.strings.levenshtein()
sim_memoria = cbrkit.sim.numbers.linear(max=12)
sim_cpu = cbrkit.sim.numbers.linear(max=100)

# 2. Creamos nuestra propia función de similitud global (Lógica de Negocio)
def similitud_global(caso, consulta):
    # Calculamos similitudes individuales
    s1 = sim_error(caso["error"], consulta["error"])
    s2 = sim_memoria(caso["memoria"], consulta["memoria"])
    s3 = sim_cpu(caso["uso_cpu"], consulta["uso_cpu"])
    
    # Aplicamos pesos (60% error, 20% memoria, 20% CPU)
    return (s1 * 0.6) + (s2 * 0.2) + (s3 * 0.2)

# 3. Construimos el retriever de CBRKit usando nuestra función
retriever = cbrkit.retrieval.build(similitud_global)

# 4. Datos y Ejecución
casos = {
    "C1": {"error": "pantalla_azul", "memoria": 8, "uso_cpu": 90},
    "C2": {"error": "lags", "memoria": 16, "uso_cpu": 40},
    "C3": {"error": "pantalla_azul", "memoria": 12, "uso_cpu": 85}
}
query = {"error": "pantalla_azul", "memoria": 10, "uso_cpu": 80}

result = cbrkit.retrieval.apply(casos, query, retriever)

print("¡Ranking calculado con éxito!")
print(result.ranking)

¡Ranking calculado con éxito!
['C3', 'C1', 'C2']


4. Ejecución y Resultados
CBRKit calculará la similitud global combinando todas las locales.

In [17]:
import cbrkit
import pandas as pd

# 1. Definimos métricas base
sim_error = cbrkit.sim.strings.levenshtein()
sim_memoria = cbrkit.sim.numbers.linear(max=16)
sim_cpu = cbrkit.sim.numbers.linear(max=100)

# 2. Función de similitud global (Sencilla y efectiva)
def similitud_global(caso, consulta):
    s1 = sim_error(caso["error"], consulta["error"])
    s2 = sim_memoria(caso["memoria"], consulta["memoria"])
    s3 = sim_cpu(caso["uso_cpu"], consulta["uso_cpu"])
    # Pesos: 60% error, 20% memoria, 20% cpu
    return (s1 * 0.6) + (s2 * 0.2) + (s3 * 0.2)

# 3. Datos
casos_data = {
    "C1": {"error": "pantalla_azul", "memoria": 8, "uso_cpu": 90, "solucion": "Reiniciar drivers"},
    "C2": {"error": "lags", "memoria": 4, "uso_cpu": 50, "solucion": "Limpiar temporales"},
    "C3": {"error": "pantalla_azul", "memoria": 12, "uso_cpu": 85, "solucion": "Cambiar RAM"}
}
query = {"error": "pantalla_azul", "memoria": 10, "uso_cpu": 80}

# 4. Recuperación (Usando 'apply' y 'build' que sí están en tu versión)
retriever = cbrkit.retrieval.build(similitud_global)
result = cbrkit.retrieval.apply(casos_data, query, retriever)

# 5. INTEGRACIÓN CON PANDAS
# Creamos un DataFrame con los datos originales
df_casos = pd.DataFrame.from_dict(casos_data, orient='index')

# Añadimos la columna de similitud obtenida del ranking
# result.ranking es un diccionario {id_caso: score}
df_casos['similitud'] = pd.Series(result.ranking)

# Ordenamos por similitud y mostramos
df_final = df_casos.sort_values(by='similitud', ascending=False)

print("Visualización del Prototipo CBR:")
df_final

Visualización del Prototipo CBR:


Unnamed: 0,error,memoria,uso_cpu,solucion,similitud
C1,pantalla_azul,8,90,Reiniciar drivers,
C2,lags,4,50,Limpiar temporales,
C3,pantalla_azul,12,85,Cambiar RAM,


### El ciclo CBR completado
Con esto has implementado la fase de Retrieve (Recuperar). En un sistema real, ahora tomarías la "solución" del caso con mayor similitud (en este caso el que tenga el puntaje más cercano a 1.0) y se la presentarías al usuario.