In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
pd.set_option('display.max_colwidth', None)

In [3]:
df = pd.read_csv("./data_cleaning/liga_argentina_model.csv")
df.head()

Unnamed: 0,long_name,dob,height_cm,weight_kg,league_name,league_level,club_name,club_jersey_number,nationality_name,nation_jersey_number,preferred_foot,player_positions_desc,club_position_desc,nation_position_desc
0,ignacio martin fernandez,1990-01-12,182,67,liga profesional,1,river plate,10,argentina,99,izquierda,"mediocampista central, mediocampista ofensivo",mediocampista ofensivo,no convocado
1,franco armani,1986-10-16,189,88,liga profesional,1,river plate,1,argentina,1,derecha,arquero,arquero,suplente
2,agustin daniel rossi,1995-08-21,195,95,liga profesional,1,boca juniors,1,argentina,99,derecha,arquero,arquero,no convocado
3,enzo nicolas perez,1986-02-22,178,77,liga profesional,1,river plate,24,argentina,99,derecha,"mediocampista defensivo, mediocampista central",mediocampista defensivo,no convocado
4,faustino marcos alberto rojo,1990-03-20,186,82,liga profesional,1,boca juniors,6,argentina,99,izquierda,defensor central,suplente,no convocado


In [4]:
print(df.columns.tolist())

['long_name', 'dob', 'height_cm', 'weight_kg', 'league_name', 'league_level', 'club_name', 'club_jersey_number', 'nationality_name', 'nation_jersey_number', 'preferred_foot', 'player_positions_desc', 'club_position_desc', 'nation_position_desc']


In [5]:
import unicodedata
import re

def normalize(text):
    if pd.isna(text):
        return ""
    text = str(text).lower()
    text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore').decode('utf-8')
    text = re.sub(r"[^\w\s]", "", text)  # eliminar signos
    stopwords = set([
        "donde", "juega", "jugador", "jugadora","jugadores", "esta", "actualmente",
        "quien", "quienes", "es", "son", "que", "para", "con", "de", "del",
        "las", "los", "y", "o", "a", "al", "por", "en", "el", "la", "club","en","cual", "que"
    ])
    palabras = text.split()
    text = " ".join(p for p in palabras if p and p not in stopwords)
    return text.strip()



In [6]:
data = pd.DataFrame()
data['long_name'] = df['long_name']
data['descripcion'] = df.apply(
    lambda row: 
        f"{row['long_name']} nació el {row['dob']} mide {row['height_cm']} cm y pesa {row['weight_kg']} kg.\n"
        f"Juega en el club {row['club_name']} usando el número {row['club_jersey_number']}.\n"
        f"Es de nacionalidad {row['nationality_name']}.\n"
        f"Su pierna hábil es la {row['preferred_foot']}, se desempeña como {row['player_positions_desc']} en el club.\n"
        f"Su posición principal es {row['club_position_desc']} y su situación en la selección es {row['nation_position_desc']}.\n",
    axis=1
)
data.head()

Unnamed: 0,long_name,descripcion
0,ignacio martin fernandez,"ignacio martin fernandez nació el 1990-01-12 mide 182 cm y pesa 67 kg.\nJuega en el club river plate usando el número 10.\nEs de nacionalidad argentina.\nSu pierna hábil es la izquierda, se desempeña como mediocampista central, mediocampista ofensivo en el club.\nSu posición principal es mediocampista ofensivo y su situación en la selección es no convocado.\n"
1,franco armani,"franco armani nació el 1986-10-16 mide 189 cm y pesa 88 kg.\nJuega en el club river plate usando el número 1.\nEs de nacionalidad argentina.\nSu pierna hábil es la derecha, se desempeña como arquero en el club.\nSu posición principal es arquero y su situación en la selección es suplente.\n"
2,agustin daniel rossi,"agustin daniel rossi nació el 1995-08-21 mide 195 cm y pesa 95 kg.\nJuega en el club boca juniors usando el número 1.\nEs de nacionalidad argentina.\nSu pierna hábil es la derecha, se desempeña como arquero en el club.\nSu posición principal es arquero y su situación en la selección es no convocado.\n"
3,enzo nicolas perez,"enzo nicolas perez nació el 1986-02-22 mide 178 cm y pesa 77 kg.\nJuega en el club river plate usando el número 24.\nEs de nacionalidad argentina.\nSu pierna hábil es la derecha, se desempeña como mediocampista defensivo, mediocampista central en el club.\nSu posición principal es mediocampista defensivo y su situación en la selección es no convocado.\n"
4,faustino marcos alberto rojo,"faustino marcos alberto rojo nació el 1990-03-20 mide 186 cm y pesa 82 kg.\nJuega en el club boca juniors usando el número 6.\nEs de nacionalidad argentina.\nSu pierna hábil es la izquierda, se desempeña como defensor central en el club.\nSu posición principal es suplente y su situación en la selección es no convocado.\n"


In [7]:
# Esto se agrega para embeddings y convertir a vectores
from sentence_transformers import SentenceTransformer

# Modelo de embeddings (vector con significado)
# es para generar embeddings para nombres, descripciones y otros textos
# es para hacer comparaciones y encontrar similitudes entre textos
# se usa un modelo preentrenado de Sentence Transformers
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')

  from .autonotebook import tqdm as notebook_tqdm


In [8]:
from itertools import combinations, permutations

# función para guardar embeddings de alternativas de nombres
def generar_variantes_nombre(nombre):
    partes = nombre.lower().split()
    variantes = set()

    # nombre completo
    variantes.add(" ".join(partes))

    # cada parte individual (para buscar por 'advincula', 'piers', etc.)
    variantes.update(partes)

    # apellido completo (última palabra y últimas dos si hay)
    if len(partes) >= 1:
        variantes.add(partes[-1])  # último como apellido

    if len(partes) >= 2:
        variantes.add(" ".join(partes[-2:]))  # último y anteúltimo

    # Combinaciones contiguas de 2 o 3 partes
    for i in range(len(partes)):
        for j in range(i+1, min(i+4, len(partes)+1)): # hasta 3 partes contiguas
            variante = " ".join(partes[i:j])
            variantes.add(variante)

    return list(variantes)

In [9]:
import os
import faiss
import numpy as np
import pandas as pd

# Rutas para guardar los índices FAISS
ruta_descripciones = "faiss_index_descripciones.index"
ruta_nombres = "faiss_index_nombres.index"
ruta_nombres_mapeo = "nombres_mapeo.csv"
ruta_frases = "faiss_index_frases.index"
ruta_frases_mapeo = "frases_mapeo.csv"
ruta_clubes = "faiss_index_clubes.index"
ruta_clubes_mapeo = "clubes_mapeo.csv"

# =================== DESCRIPCIONES Y NOMBRES ===================
if os.path.exists(ruta_descripciones) and os.path.exists(ruta_nombres):
    print("Cargando índices de descripciones y nombres...")
    index = faiss.read_index(ruta_descripciones)
    index_nombres = faiss.read_index(ruta_nombres)
    nombres_expandidos = pd.read_csv(ruta_nombres_mapeo)
else:
    print("Generando embeddings y creando índices FAISS para descripciones y nombres...")

    descripciones = data['descripcion'].tolist()

    data["nombres_variantes"] = data["long_name"].apply(generar_variantes_nombre)
    nombres_expandidos = data[["long_name", "nombres_variantes"]].explode("nombres_variantes", ignore_index=True)

    textos_a_vectorizar = descripciones + nombres_expandidos["nombres_variantes"].tolist()
    embeddings_combinados = embedding_model.encode(textos_a_vectorizar, show_progress_bar=True).astype("float32")

    cantidad = len(descripciones)
    embedding_descripciones_matrix = embeddings_combinados[:cantidad]
    embedding_nombres_matrix = embeddings_combinados[cantidad:]

    index = faiss.IndexFlatL2(embedding_descripciones_matrix.shape[1])
    index.add(embedding_descripciones_matrix)
    faiss.write_index(index, ruta_descripciones)

    index_nombres = faiss.IndexFlatL2(embedding_nombres_matrix.shape[1])
    index_nombres.add(embedding_nombres_matrix)
    faiss.write_index(index_nombres, ruta_nombres)

    nombres_expandidos["embedding_index"] = nombres_expandidos.index
    nombres_expandidos.to_csv(ruta_nombres_mapeo, index=False)


# =================== FRASES ===================
if os.path.exists(ruta_frases) and os.path.exists(ruta_frases_mapeo):
    print("Cargando índice de frases...")
    index_frases = faiss.read_index(ruta_frases)
    frases_exploded = pd.read_csv(ruta_frases_mapeo)
else:
    print("Generando embeddings y creando índice FAISS para frases clave...")

    df["frases"] = df.apply(lambda row: [
        f"{row['long_name']} juega como {row['player_positions_desc']} en {row['club_name']}",
        f"{row['long_name']} nació el {row['dob']}",
        f"Mide {row['height_cm']} cm y pesa {row['weight_kg']} kg",
        f"Su pierna hábil es la {row['preferred_foot']}",
        f"Su posición principal en el club es {row['club_position_desc']}",
        f"Es de nacionalidad {row['nationality_name']}",
        f"Su número en el club es {row['club_jersey_number']}",
        f"En la selección juega como {row['nation_position_desc']}",
        f"{row['long_name']} pertenece al club {row['club_name']}",
        f"{row['long_name']} juega con la camiseta número {row['club_jersey_number']}"
    ], axis=1)

    frases_exploded = df[["long_name", "frases"]].explode("frases", ignore_index=True)
    frases = frases_exploded["frases"].tolist()
    embedding_frases = embedding_model.encode(frases, show_progress_bar=True).astype("float32")

    index_frases = faiss.IndexFlatL2(embedding_frases.shape[1])
    index_frases.add(embedding_frases)
    faiss.write_index(index_frases, ruta_frases)

    frases_exploded["embedding_index"] = frases_exploded.index
    frases_exploded.to_csv(ruta_frases_mapeo, index=False)


# =================== CLUBES ===================
if os.path.exists(ruta_clubes) and os.path.exists(ruta_clubes_mapeo):
    print("Cargando índice de clubes...")
    index_clubes = faiss.read_index(ruta_clubes)
    clubes_exploded = pd.read_csv(ruta_clubes_mapeo)
else:
    print("Generando embeddings y creando índice FAISS para clubes...")

    # Agrupo por club y concateno nombres de jugadores en una lista
    clubes_agrupados = df.groupby("club_name")["long_name"].apply(list).reset_index()

    # Creo la frase que se usará para buscar
    clubes_agrupados["club_frase"] = clubes_agrupados["club_name"].apply(
        lambda c: f"{c.lower()}"
    )

    # Concateno los nombres de jugadores por club como contexto
    clubes_agrupados["jugadores"] = clubes_agrupados.apply(
        lambda row: f"Jugadores del club {row['club_name']}:\n" + "\n".join(f"* {nombre}" for nombre in row['long_name']),
        axis=1
    )
    # Embeddings del texto de búsqueda
    embedding_clubes = embedding_model.encode(clubes_agrupados["club_frase"].tolist(), show_progress_bar=True).astype("float32")

    # se guarda el índice FAISS en la base de datos
    index_clubes = faiss.IndexFlatL2(embedding_clubes.shape[1])
    index_clubes.add(embedding_clubes)
    faiss.write_index(index_clubes, ruta_clubes)

    clubes_exploded = clubes_agrupados[["club_name", "club_frase", "jugadores"]].copy()
    clubes_exploded["embedding_index"] = clubes_exploded.index
    clubes_exploded.to_csv(ruta_clubes_mapeo, index=False)

Cargando índices de descripciones y nombres...
Cargando índice de frases...
Cargando índice de clubes...


In [10]:
import google.generativeai as genai

#API KEY para google 
genai.configure(api_key="AIzaSyDkwzFng05x4EZ8fsFSIDnQ9tkdLlFyoes")

# Genere otra api key para probar, no usar mucho porque esta si es paga
# genai.configure(api_key="AIzaSyBrYSKJ1KA9pWlu9fm3wBie5wVzRqAWFFE")

model = genai.GenerativeModel(model_name="gemini-2.5-flash")  




In [11]:
def responder_sin_modelo(pregunta, k=5):
    # Normalizar y vectorizar la pregunta
    pregunta_normalizada = normalize(pregunta)
    pregunta_embedding = embedding_model.encode([pregunta_normalizada]).astype("float32")

    # ---------- Búsqueda en frases ----------
    dist_frases, idxs_frases = index_frases.search(pregunta_embedding, k)
    contexto_frases = [frases_exploded.iloc[i]["frases"] for i in idxs_frases[0]]
    min_dist_frases = dist_frases[0][0]

    # ---------- Búsqueda en descripciones ----------
    dist_descr, idxs_descr = index.search(pregunta_embedding, 1)
    contexto_descr = data.iloc[idxs_descr[0][0]]["descripcion"]
    min_dist_descr = dist_descr[0][0]

    # ---------- Búsqueda en nombres ----------
    dist_nombres, idxs_nombres = index_nombres.search(pregunta_embedding, 1)
    long_name_match = nombres_expandidos.iloc[idxs_nombres[0][0]]["long_name"]
    contexto_nombre = data.loc[data["long_name"] == long_name_match, "descripcion"].values[0]
    min_dist_nombres = dist_nombres[0][0]

    # ---------- Búsqueda en clubes ----------
    dist_clubes, idxs_clubes = index_clubes.search(pregunta_embedding, 1)
    # contexto_clubes = [clubes_exploded.iloc[i]["club_frase"] for i in idxs_clubes[0]]
    contexto_clubes = [clubes_exploded.iloc[i]["jugadores"] for i in idxs_clubes[0]]
    min_dist_clubes = dist_clubes[0][0]

    # ---------- Coincidencia directa por nombre ----------
    if min_dist_nombres < 0.05:
        return f"(Coincidencia directa por nombre: {long_name_match}, distancia: {min_dist_nombres:.4f})\n\n{contexto_nombre}"

    # ---------- Comparar todas las fuentes ----------
    distancias = {
        "frases": min_dist_frases,
        "descripcion": min_dist_descr,
        "nombre": min_dist_nombres,
        "club": min_dist_clubes
    }

    mejor_fuente = min(distancias, key=distancias.get)

    if mejor_fuente == "frases":
        respuesta = "\n".join(contexto_frases)
    elif mejor_fuente == "descripcion":
        respuesta = contexto_descr
    elif mejor_fuente == "nombre":
        respuesta = contexto_nombre
    elif mejor_fuente == "club":
        respuesta = "\n".join(contexto_clubes)
    else:
        respuesta = "No se encontró una respuesta relevante."

    return f"(Usó contexto: {mejor_fuente}, distancia: {distancias[mejor_fuente]:.4f})\n\n{respuesta}"

In [12]:
def responder(pregunta, k=5, umbral_relevancia=0.52):
    pregunta_normalizada = normalize(pregunta)
    pregunta_embedding = embedding_model.encode([pregunta_normalizada]).astype("float32")

    # Buscar en frases
    dist_frases, idxs_frases = index_frases.search(pregunta_embedding, k)
    mejor_frase = frases_exploded.iloc[idxs_frases[0][0]]["frases"]
    dist_mejor_frase = dist_frases[0][0]

    # Buscar en descripciones
    dist_descr, idxs_descr = index.search(pregunta_embedding, 1)
    mejor_descr = data.iloc[idxs_descr[0][0]]["descripcion"]
    dist_mejor_descr = dist_descr[0][0]

    # Buscar en nombres
    dist_nombres, idxs_nombres = index_nombres.search(pregunta_embedding, 1)
    nombre = nombres_expandidos.iloc[idxs_nombres[0][0]]["long_name"]
    mejor_nombre = data.loc[data["long_name"] == nombre, "descripcion"].values[0]
    dist_mejor_nombre = dist_nombres[0][0]

    # Buscar en clubes
    dist_clubes, idxs_clubes = index_clubes.search(pregunta_embedding, 1)
    mejor_club = clubes_exploded.iloc[idxs_clubes[0][0]]["jugadores"]
    dist_mejor_club = dist_clubes[0][0]

    # Evaluar cuál es el contexto más cercano
    distancias = {
        "frase": dist_mejor_frase,
        "descripcion": dist_mejor_descr,
        "nombre": dist_mejor_nombre,
        "club": dist_mejor_club
    }

    mejor_fuente = min(distancias, key=distancias.get)
    mejor_distancia = distancias[mejor_fuente]

    # Elegir el contexto correspondiente
    if mejor_fuente == "frase":
        contexto = mejor_frase
    elif mejor_fuente == "descripcion":
        contexto = mejor_descr
    elif mejor_fuente == "nombre":
        contexto = mejor_nombre
    else:  # club
        contexto = mejor_club

    # Si la coincidencia es suficientemente buena, devolver directo
    if mejor_distancia <= umbral_relevancia:
        return f"(Usó contexto: {mejor_fuente}, distancia: {mejor_distancia:.4f})\n\n{contexto}"

    prompt = f"""Respondé la siguiente pregunta basada solo en estos datos de jugadores del fútbol argentino. 
Quiero que lo muestres de forma clara, con **mayúsculas en las iniciales de los nombres**, **negritas** y **acentos** si corresponden. 
Mejorá la presentación de la respuesta:

{contexto}

Pregunta: {pregunta}"""

    respuesta = model.generate_content(prompt)

    return f"(Usó contexto: {mejor_fuente}, distancia: {mejor_distancia:.4f})\n\n{respuesta.text.strip()}"

In [13]:

def responder_con_gemini(pregunta, k=5):
    pregunta_normalizada = normalize(pregunta)
    pregunta_embedding = embedding_model.encode([pregunta_normalizada]).astype("float32")

    # Buscar en frases
    dist_frases, idxs_frases = index_frases.search(pregunta_embedding, k)
    mejor_frase = frases_exploded.iloc[idxs_frases[0][0]]["frases"]
    dist_mejor_frase = dist_frases[0][0]

    # Buscar en descripciones
    dist_descr, idxs_descr = index.search(pregunta_embedding, 1)
    mejor_descr = data.iloc[idxs_descr[0][0]]["descripcion"]
    dist_mejor_descr = dist_descr[0][0]

    # Buscar en nombres
    dist_nombres, idxs_nombres = index_nombres.search(pregunta_embedding, 1)
    nombre = nombres_expandidos.iloc[idxs_nombres[0][0]]["long_name"]
    mejor_nombre = data.loc[data["long_name"] == nombre, "descripcion"].values[0]
    dist_mejor_nombre = dist_nombres[0][0]

    # Buscar en clubes
    dist_clubes, idxs_clubes = index_clubes.search(pregunta_embedding, 1)
    mejor_club = clubes_exploded.iloc[idxs_clubes[0][0]]["jugadores"]
    dist_mejor_club = dist_clubes[0][0]

    # Evaluar cuál es el contexto más cercano
    distancias = {
        "frase": dist_mejor_frase,
        "descripcion": dist_mejor_descr,
        "nombre": dist_mejor_nombre,
        "club": dist_mejor_club
    }

    mejor_fuente = min(distancias, key=distancias.get)
    mejor_distancia = distancias[mejor_fuente]

    if mejor_fuente == "frase":
        contexto = mejor_frase
    elif mejor_fuente == "descripcion":
        contexto = mejor_descr
    elif mejor_fuente == "nombre":
        contexto = mejor_nombre
    else:  # club
        contexto = mejor_club

    # Prompt final
    prompt = f"""Respondé la siguiente pregunta basada solo en estos datos de jugadores del fútbol argentino, también quiero que lo muestres de forma clara,con mayusculas en las iniciales de los nombres, negritas y acentos. Mejora la presentación de la respuesta:

{contexto}

Pregunta: {pregunta}"""

    respuesta = model.generate_content(prompt)

    return f"(Usó contexto: {mejor_fuente}, distancia: {mejor_distancia:.4f})\n\n{respuesta.text.strip()}"

In [16]:
import gradio as gr

with gr.Blocks(title="FutBot") as interfaz:
    gr.Markdown("# ⚽ FutBot 🇦🇷")
    gr.Markdown("Consultá en lenguaje natural sobre jugadores del fútbol argentino de primera división.")
    
    with gr.Row():
        with gr.Column(scale=5):
            pregunta = gr.Textbox(label="Pregunta", placeholder="Ej: ¿En qué club juega Enzo Pérez?")
            boton = gr.Button("Responder", variant="primary")
        with gr.Column(scale=5):
            # salida = gr.Textbox(label="Respuesta", placeholder="Acá aparecerá la respuesta...", interactive=False)
            salida = gr.Markdown()

    # boton.click(fn=responder_sin_modelo, inputs=pregunta, outputs=salida)
    boton.click(fn=responder, inputs=pregunta, outputs=salida)
    # boton.click(fn=responder_con_gemini, inputs=pregunta, outputs=salida)

interfaz.launch()

* Running on local URL:  http://127.0.0.1:7862
* To create a public link, set `share=True` in `launch()`.


