In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
pd.set_option('display.max_colwidth', None)

In [3]:
df = pd.read_csv("./data_cleaning/liga_argentina_model.csv")
df.head()

Unnamed: 0,long_name,dob,height_cm,weight_kg,league_name,league_level,club_name,club_jersey_number,nationality_name,nation_jersey_number,preferred_foot,player_positions_desc,club_position_desc,nation_position_desc
0,ignacio martin fernandez,1990-01-12,182,67,liga profesional,1,river plate,10,argentina,99,izquierda,"mediocampista central, mediocampista ofensivo",mediocampista ofensivo,no convocado
1,franco armani,1986-10-16,189,88,liga profesional,1,river plate,1,argentina,1,derecha,arquero,arquero,suplente
2,agustin daniel rossi,1995-08-21,195,95,liga profesional,1,boca juniors,1,argentina,99,derecha,arquero,arquero,no convocado
3,enzo nicolas perez,1986-02-22,178,77,liga profesional,1,river plate,24,argentina,99,derecha,"mediocampista defensivo, mediocampista central",mediocampista defensivo,no convocado
4,faustino marcos alberto rojo,1990-03-20,186,82,liga profesional,1,boca juniors,6,argentina,99,izquierda,defensor central,suplente,no convocado


In [4]:
print(df.columns.tolist())

['long_name', 'dob', 'height_cm', 'weight_kg', 'league_name', 'league_level', 'club_name', 'club_jersey_number', 'nationality_name', 'nation_jersey_number', 'preferred_foot', 'player_positions_desc', 'club_position_desc', 'nation_position_desc']


In [5]:
import unicodedata
import re

def normalize(text):
    if pd.isna(text):
        return ""
    text = str(text).lower()
    text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore').decode('utf-8')
    text = re.sub(r"[^\w\s]", "", text)  # eliminar signos
    stopwords = set([
        "donde", "juega", "jugador", "jugadora", "esta", "actualmente",
        "quien", "quienes", "es", "son", "que", "para", "con", "de", "del",
        "las", "los", "y", "o", "a", "al", "por", "en", "el", "la", "club","en","cual", "que"
    ])
    palabras = text.split()
    text = " ".join(p for p in palabras if p and p not in stopwords)
    return text.strip()



In [6]:
data = pd.DataFrame()
data['long_name'] = df['long_name']
data['descripcion'] = df.apply(
    lambda row: 
        f"{row['long_name']} nacio el {row['dob']} mide {row['height_cm']} cm y pesa {row['weight_kg']} kg "
        f"juega en la {row['league_name']} nivel {row['league_level']} para el club {row['club_name']} usando el numero {row['club_jersey_number']} "
        f"es de nacionalidad {row['nationality_name']} y usa el numero {row['nation_jersey_number']} en su seleccion "
        f"su pierna habil es la {row['preferred_foot']}, se desempeña como {row['player_positions_desc']} en el club "
        f"posicion principal {row['club_position_desc']}) y su situacion en la seleccion es {row['nation_position_desc']}"
    ,
    axis=1
)
data.head()

Unnamed: 0,long_name,descripcion
0,ignacio martin fernandez,"ignacio martin fernandez nacio el 1990-01-12 mide 182 cm y pesa 67 kg juega en la liga profesional nivel 1 para el club river plate usando el numero 10 es de nacionalidad argentina y usa el numero 99 en su seleccion su pierna habil es la izquierda, se desempeña como mediocampista central, mediocampista ofensivo en el club posicion principal mediocampista ofensivo) y su situacion en la seleccion es no convocado"
1,franco armani,"franco armani nacio el 1986-10-16 mide 189 cm y pesa 88 kg juega en la liga profesional nivel 1 para el club river plate usando el numero 1 es de nacionalidad argentina y usa el numero 1 en su seleccion su pierna habil es la derecha, se desempeña como arquero en el club posicion principal arquero) y su situacion en la seleccion es suplente"
2,agustin daniel rossi,"agustin daniel rossi nacio el 1995-08-21 mide 195 cm y pesa 95 kg juega en la liga profesional nivel 1 para el club boca juniors usando el numero 1 es de nacionalidad argentina y usa el numero 99 en su seleccion su pierna habil es la derecha, se desempeña como arquero en el club posicion principal arquero) y su situacion en la seleccion es no convocado"
3,enzo nicolas perez,"enzo nicolas perez nacio el 1986-02-22 mide 178 cm y pesa 77 kg juega en la liga profesional nivel 1 para el club river plate usando el numero 24 es de nacionalidad argentina y usa el numero 99 en su seleccion su pierna habil es la derecha, se desempeña como mediocampista defensivo, mediocampista central en el club posicion principal mediocampista defensivo) y su situacion en la seleccion es no convocado"
4,faustino marcos alberto rojo,"faustino marcos alberto rojo nacio el 1990-03-20 mide 186 cm y pesa 82 kg juega en la liga profesional nivel 1 para el club boca juniors usando el numero 6 es de nacionalidad argentina y usa el numero 99 en su seleccion su pierna habil es la izquierda, se desempeña como defensor central en el club posicion principal suplente) y su situacion en la seleccion es no convocado"


In [7]:
# Esto se agrega para embeddings y convertir a vectores
from sentence_transformers import SentenceTransformer

# Modelo de embeddings (vector con significado)
# es para generar embeddings para nombres, descripciones y otros textos
# es para hacer comparaciones y encontrar similitudes entre textos
# se usa un modelo preentrenado de Sentence Transformers
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')

  from .autonotebook import tqdm as notebook_tqdm


In [8]:
from itertools import combinations, permutations

# función para guardar embeddings de alternativas de nombres
def generar_variantes_nombre(nombre):
    partes = nombre.lower().split()
    variantes = set()

    # nombre completo
    variantes.add(" ".join(partes))

    # cada parte individual (para buscar por 'advincula', 'piers', etc.)
    variantes.update(partes)

    # apellido completo (última palabra y últimas dos si hay)
    if len(partes) >= 1:
        variantes.add(partes[-1])  # último como apellido

    if len(partes) >= 2:
        variantes.add(" ".join(partes[-2:]))  # último y anteúltimo

    # Combinaciones contiguas de 2 o 3 partes
    for i in range(len(partes)):
        for j in range(i+1, min(i+4, len(partes)+1)): # hasta 3 partes contiguas
            variante = " ".join(partes[i:j])
            variantes.add(variante)

    return list(variantes)

In [9]:
import os
import faiss
import numpy as np
import pandas as pd


# Rutas para guardar los índices FAISS
ruta_descripciones = "faiss_index_descripciones.index"
ruta_nombres = "faiss_index_nombres.index"
ruta_nombres_mapeo = "nombres_mapeo.csv"
ruta_frases = "faiss_index_frases.index"
ruta_frases_mapeo = "frases_mapeo.csv"

# si el indice ya existe, lo carga, sino lo crea
if os.path.exists(ruta_descripciones) and os.path.exists(ruta_nombres):
    print("Cargando índices de descripciones y nombres...")
    index = faiss.read_index(ruta_descripciones)
    index_nombres = faiss.read_index(ruta_nombres)
    nombres_expandidos = pd.read_csv(ruta_nombres_mapeo)
else:
    print("Generando embeddings y creando índices FAISS para descripciones y nombres...")

    descripciones = data['descripcion'].tolist()

    # se generan distintas variantes de nombres por si tienen más de un nombre o apellido
    # esto es para que el modelo pueda encontrar coincidencias en caso de poner solo un nombre o apellido
    # por ejemplo con Advincula
    data["nombres_variantes"] = data["long_name"].apply(generar_variantes_nombre)
    #el explode genera una fila por cada variante de nombre
    # esto es para que cada variante de nombre tenga su propio embedding
    nombres_expandidos = data[["long_name", "nombres_variantes"]].explode("nombres_variantes", ignore_index=True)

    textos_a_vectorizar = descripciones + nombres_expandidos["nombres_variantes"].tolist()
    #aca genero los embeddings
    embeddings_combinados = embedding_model.encode(textos_a_vectorizar, show_progress_bar=True)
    # convierto a tipo float32 para guardar en FAISS
    # FAISS requiere que los embeddings sean de tipo float32
    embeddings_combinados = np.array(embeddings_combinados).astype("float32")

    # Separo embeddings por descripciones y nombres
    cantidad = len(descripciones)
    embedding_descripciones_matrix = embeddings_combinados[:cantidad]
    embedding_nombres_matrix = embeddings_combinados[cantidad:]

    # índice de descripciones, se guarda en FAISS
    # FAISS es una base de datos de vectores que permite búsquedas eficientes
    index = faiss.IndexFlatL2(embedding_descripciones_matrix.shape[1])
    index.add(embedding_descripciones_matrix)
    faiss.write_index(index, ruta_descripciones)

    # índice de nombres
    index_nombres = faiss.IndexFlatL2(embedding_nombres_matrix.shape[1])
    index_nombres.add(embedding_nombres_matrix)
    faiss.write_index(index_nombres, ruta_nombres)

    # guardar el mapeo de nombres para debuggearlo y ver qué nombres se generaron
    nombres_expandidos["embedding_index"] = nombres_expandidos.index
    nombres_expandidos.to_csv(ruta_nombres_mapeo, index=False)


# Embeddings y mapeo de frases clave
if os.path.exists(ruta_frases) and os.path.exists(ruta_frases_mapeo):
    print("Cargando índice de frases...")
    index_frases = faiss.read_index(ruta_frases)
    frases_exploded = pd.read_csv(ruta_frases_mapeo)
else:
    print("Generando embeddings y creando índice FAISS para frases clave...")

    # Genero frases clave por jugador
    df["frases"] = df.apply(lambda row: [
        f"{row['long_name']} juega como {row['player_positions_desc']} en {row['club_name']}",
        f"{row['long_name']} nació el {row['dob']}",
        f"Mide {row['height_cm']} cm y pesa {row['weight_kg']} kg",
        f"Juega en la {row['league_name']} (nivel {row['league_level']})",
        f"En la selección juega como {row['nation_position_desc']} con el número {row['nation_jersey_number']}",
        f"Su pierna hábil es la {row['preferred_foot']}",
        f"Su posición principal en el club es {row['club_position_desc']}"
    ], axis=1)

    frases_exploded = df[["long_name", "frases"]].explode("frases", ignore_index=True)

    frases = frases_exploded["frases"].tolist()
    embedding_frases = embedding_model.encode(frases, show_progress_bar=True).astype("float32")

    # indice FAISS de frases
    index_frases = faiss.IndexFlatL2(embedding_frases.shape[1])
    index_frases.add(embedding_frases)

    # se guarda el índice y mapeo para mostrar como lo guarda
    faiss.write_index(index_frases, ruta_frases)
    frases_exploded["embedding_index"] = frases_exploded.index
    frases_exploded.to_csv(ruta_frases_mapeo, index=False)

Cargando índices de descripciones y nombres...
Cargando índice de frases...


In [None]:
import google.generativeai as genai

#API KEY para google 
genai.configure(api_key="AIzaSyDkwzFng05x4EZ8fsFSIDnQ9tkdLlFyoes")

# Genere otra api key para probar, no usar mucho porque esta si es paga
# genai.configure(api_key="AIzaSyBrYSKJ1KA9pWlu9fm3wBie5wVzRqAWFFE")

model = genai.GenerativeModel(model_name="gemini-2.5-flash")  




In [11]:
def responder_sin_modelo(pregunta, k=5):
    # Vectorizar la pregunta
    pregunta_normalizada = normalize(pregunta)
    pregunta_embedding = embedding_model.encode([pregunta_normalizada]).astype("float32")

    # Buscar en frases
    dist_frases, idxs_frases = index_frases.search(pregunta_embedding, k)
    min_dist_frases = dist_frases[0][0]
    contexto_frases = [frases_exploded.iloc[i]["frases"] for i in idxs_frases[0]]

    # Buscar en descripciones
    dist_descr, idxs_descr = index.search(pregunta_embedding, 1)
    min_dist_descr = dist_descr[0][0]
    contexto_descr = data.iloc[idxs_descr[0][0]]["descripcion"]

    # Buscar en nombres
    dist_nombres, idxs_nombres = index_nombres.search(pregunta_embedding, 1)
    min_dist_nombres = dist_nombres[0][0]
    long_name_match = nombres_expandidos.iloc[idxs_nombres[0][0]]["long_name"]
    contexto_nombre = data.loc[data["long_name"] == long_name_match, "descripcion"].values[0]

    #  Si hay coincidencia directa de nombre, devolvés sin más
    if min_dist_nombres < 0.05:
        return f"(Coincidencia directa por nombre: {long_name_match}, distancia: {min_dist_nombres:.4f})\n\n{contexto_nombre}"

    # Elegir la mejor fuente por menor distancia
    distancias = {
        "frases": min_dist_frases,
        "descripcion": min_dist_descr,
        "nombre": min_dist_nombres
    }

    mejor_fuente = min(distancias, key=distancias.get)

    if mejor_fuente == "frases":
        respuesta = "\n".join(contexto_frases)
    elif mejor_fuente == "descripcion":
        respuesta = contexto_descr
    else:
        respuesta = contexto_nombre

    return f"(Usó contexto: {mejor_fuente}, distancia: {distancias[mejor_fuente]:.4f})\n\n{respuesta}"

In [12]:
UMBRAL_SIMILITUD = 0.6

def responder(pregunta, k=5):
    pregunta_normalizada = normalize(pregunta)
    pregunta_embedding = embedding_model.encode([pregunta_normalizada]).astype("float32")

    # busco en frases
    dist_frases, idxs_frases = index_frases.search(pregunta_embedding, k)
    frases_resultados = [(dist_frases[0][i], frases_exploded.iloc[idxs_frases[0][i]]["frases"]) for i in range(k)]

    # Busco en descripciones
    dist_descr, idxs_descr = index.search(pregunta_embedding, 1)
    descripcion_resultado = (dist_descr[0][0], data.iloc[idxs_descr[0][0]]["descripcion"])

    # Busco en nombres
    dist_nombres, idxs_nombres = index_nombres.search(pregunta_embedding, 1)
    nombre = nombres_expandidos.iloc[idxs_nombres[0][0]]["long_name"]
    descripcion_nombre = data.loc[data["long_name"] == nombre, "descripcion"].values[0]
    nombre_resultado = (dist_nombres[0][0], nombre, descripcion_nombre)

    # Coincidencia directa por nombre
    if nombre_resultado[0] < 0.05:
        return f"(Coincidencia directa por nombre: {nombre_resultado[1]}, distancia: {nombre_resultado[0]:.4f})\n\n{nombre_resultado[2]}"

    # si alguna fuente es suficientemente cercana
    distancias = {
        "frases": frases_resultados[0][0],
        "descripcion": descripcion_resultado[0],
        "nombre": nombre_resultado[0]
    }

    mejor_fuente = min(distancias, key=distancias.get)
    mejor_dist = distancias[mejor_fuente]

#si alguna fuente es suficientemente cercana, responde con lo que hay en la base de datos
    # si no, usa Gemini
    if mejor_dist < UMBRAL_SIMILITUD:
        if mejor_fuente == "frases":
            contexto = "\n".join(frase for _, frase in frases_resultados)
        elif mejor_fuente == "descripcion":
            contexto = descripcion_resultado[1]
        else:
            contexto = nombre_resultado[2]

        return f"(Usó contexto: {mejor_fuente}, distancia: {mejor_dist:.4f})\n\n{contexto}"

# armo el contexto para Gemini
    contexto_mixto = [frase for _, frase in frases_resultados]

    if descripcion_resultado[0] < 0.8:
        contexto_mixto.append(descripcion_resultado[1])
    if nombre_resultado[0] < 0.8:
        contexto_mixto.append(nombre_resultado[2])

    contexto_final = "\n".join(contexto_mixto)

    prompt = f"""Respondé la siguiente pregunta basada solo en estos datos de jugadores del fútbol argentino:

{contexto_final}

Pregunta: {pregunta}"""

    respuesta = model.generate_content(prompt)

    return f"(Usó Gemini por baja similitud, distancia mínima: {mejor_dist:.4f})\n\n{respuesta.text.strip()}"


In [13]:
UMBRAL_RELEVANCIA = 0.8  # qué tan similares deben ser las fuentes para incluirlas

def responder_con_gemini(pregunta, k=5):
    pregunta_normalizada = normalize(pregunta)
    pregunta_embedding = embedding_model.encode([pregunta_normalizada]).astype("float32")

    #  frases que mas se parece
    dist_frases, idxs_frases = index_frases.search(pregunta_embedding, k)
    frases_resultados = [(dist_frases[0][i], frases_exploded.iloc[idxs_frases[0][i]]["frases"]) for i in range(k)]

    #  descripcion que mas se parece
    dist_descr, idxs_descr = index.search(pregunta_embedding, 1)
    descripcion_resultado = (dist_descr[0][0], data.iloc[idxs_descr[0][0]]["descripcion"])

    #  nombre que mas se parece
    dist_nombres, idxs_nombres = index_nombres.search(pregunta_embedding, 1)
    nombre = nombres_expandidos.iloc[idxs_nombres[0][0]]["long_name"]
    descripcion_nombre = data.loc[data["long_name"] == nombre, "descripcion"].values[0]
    nombre_resultado = (dist_nombres[0][0], nombre, descripcion_nombre)

    #  contexto 
    contexto = [frase for dist, frase in frases_resultados if dist < UMBRAL_RELEVANCIA]

    if descripcion_resultado[0] < UMBRAL_RELEVANCIA:
        contexto.append(descripcion_resultado[1])
    if nombre_resultado[0] < UMBRAL_RELEVANCIA:
        contexto.append(nombre_resultado[2])

    contexto_final = "\n".join(contexto)

    prompt = f"""Respondé la siguiente pregunta basada solo en estos datos de jugadores del fútbol argentino:

{contexto_final}

Pregunta: {pregunta}"""

    respuesta = model.generate_content(prompt)

    return f"(Respuesta generada por Gemini)\n\n{respuesta.text.strip()}"


In [14]:
import gradio as gr

with gr.Blocks(title="FutBot") as interfaz:
    gr.Markdown("# ⚽ FutBot 🇦🇷")
    gr.Markdown("Consultá en lenguaje natural sobre jugadores del fútbol argentino de primera división.")
    
    with gr.Row():
        with gr.Column(scale=5):
            pregunta = gr.Textbox(label="Pregunta", placeholder="Ej: ¿En qué club juega Enzo Pérez?")
            boton = gr.Button("Responder", variant="primary")
        with gr.Column(scale=5):
            salida = gr.Textbox(label="Respuesta", placeholder="Acá aparecerá la respuesta...", interactive=False)

    # boton.click(fn=responder_sin_modelo, inputs=pregunta, outputs=salida)
    # boton.click(fn=responder, inputs=pregunta, outputs=salida)
    boton.click(fn=responder_con_gemini, inputs=pregunta, outputs=salida)

interfaz.launch()

* Running on local URL:  http://127.0.0.1:7860
* To create a public link, set `share=True` in `launch()`.


