In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
pd.set_option('display.max_colwidth', None)

In [None]:
df = pd.read_csv("./data_cleaning/liga_argentina_model.csv")
df.head()

In [None]:
print(df.columns.tolist())

In [None]:
import unicodedata

# Normalizamos columnas relevantes, nombre y club

def normalize(text):
    if pd.isna(text):
        return ""
    text = str(text).lower()
    text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore').decode('utf-8')
    return text.strip()


In [None]:
data = pd.DataFrame()
data['long_name'] = df['long_name']
data['descripcion'] = df.apply(
    lambda row: 
        f"{row['long_name']} nacio el {row['dob']} mide {row['height_cm']} cm y pesa {row['weight_kg']} kg "
        f"juega en la {row['league_name']} nivel {row['league_level']} para el club {row['club_name']} usando el numero {row['club_jersey_number']} "
        f"es de nacionalidad {row['nationality_name']} y usa el numero {row['nation_jersey_number']} en su seleccion "
        f"su pierna habil es la {row['preferred_foot']}, se desempeña como {row['player_positions_desc']} en el club "
        f"posicion principal {row['club_position_desc']}) y su situacion en la seleccion es {row['nation_position_desc']}"
    ,
    axis=1
)
data.head()

In [None]:
# Esto se agrega para embeddings y convertir a vectores
from sentence_transformers import SentenceTransformer

# Modelo de embeddings
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')

In [None]:
import os
import faiss
import numpy as np

# Rutas para guardar los índices FAISS
ruta_descripciones = "faiss_index_descripciones.index"
ruta_nombres = "faiss_index_nombres.index"
ruta_frases = "faiss_index_frases.index"
ruta_frases_mapeo = "frases_mapeo.csv"

# si el indice ya existe, lo carga, sino lo crea
if os.path.exists(ruta_descripciones) and os.path.exists(ruta_nombres):
    print("Cargando índices de descripciones y nombres...")
    index = faiss.read_index(ruta_descripciones)
    index_nombres = faiss.read_index(ruta_nombres)
else:
    print("Generando embeddings y creando índices FAISS para descripciones y nombres...")

    descripciones = data['descripcion'].tolist()
    nombres = data['long_name'].tolist()

    textos_a_vectorizar = descripciones + nombres
    embeddings_combinados = embedding_model.encode(textos_a_vectorizar, show_progress_bar=True)
    embeddings_combinados = np.array(embeddings_combinados).astype("float32")

    # Separo embeddings por descripciones y nombres
    cantidad = len(descripciones)
    embedding_descripciones_matrix = embeddings_combinados[:cantidad]
    embedding_nombres_matrix = embeddings_combinados[cantidad:]

    # indice de descripciones
    index = faiss.IndexFlatL2(embedding_descripciones_matrix.shape[1])
    index.add(embedding_descripciones_matrix)
    faiss.write_index(index, ruta_descripciones)

    # Índice de nombres
    index_nombres = faiss.IndexFlatL2(embedding_nombres_matrix.shape[1])
    index_nombres.add(embedding_nombres_matrix)
    faiss.write_index(index_nombres, ruta_nombres)

# Embeddings y mapeo de frases clave
if os.path.exists(ruta_frases) and os.path.exists(ruta_frases_mapeo):
    print("Cargando índice de frases...")
    index_frases = faiss.read_index(ruta_frases)
    frases_exploded = pd.read_csv(ruta_frases_mapeo)
else:
    print("Generando embeddings y creando índice FAISS para frases clave...")

    # Genero frases clave por jugador
    df["frases"] = df.apply(lambda row: [
        f"{row['long_name']} juega como {row['player_positions_desc']} en {row['club_name']}",
        f"{row['long_name']} nació el {row['dob']}",
        f"Mide {row['height_cm']} cm y pesa {row['weight_kg']} kg",
        f"Juega en la {row['league_name']} (nivel {row['league_level']})",
        f"En la selección juega como {row['nation_position_desc']} con el número {row['nation_jersey_number']}",
        f"Su pierna hábil es la {row['preferred_foot']}",
        f"Su posición principal en el club es {row['club_position_desc']}"
    ], axis=1)

    frases_exploded = df[["long_name", "frases"]].explode("frases", ignore_index=True)

    frases = frases_exploded["frases"].tolist()
    embedding_frases = embedding_model.encode(frases, show_progress_bar=True).astype("float32")

    # Creo el índice FAISS de frases
    index_frases = faiss.IndexFlatL2(embedding_frases.shape[1])
    index_frases.add(embedding_frases)

    # se guarda el índice y mapeo
    faiss.write_index(index_frases, ruta_frases)
    frases_exploded["embedding_index"] = frases_exploded.index
    frases_exploded.to_csv(ruta_frases_mapeo, index=False)

In [None]:
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import numpy as np

# PCA (2 dimensiones)
pca = PCA(n_components=2)
embeddings_pca = pca.fit_transform(embeddings_combinados)

plt.figure(figsize=(8,6))
plt.scatter(embeddings_pca[:,0], embeddings_pca[:,1], alpha=0.6)
plt.title("Distribución de embeddings con PCA")
plt.xlabel("Componente 1")
plt.ylabel("Componente 2")
plt.show()

# t-SNE (2 dimensiones)
tsne = TSNE(n_components=2, random_state=42, perplexity=30)
embeddings_tsne = tsne.fit_transform(embeddings_combinados)

plt.figure(figsize=(8,6))
plt.scatter(embeddings_tsne[:,0], embeddings_tsne[:,1], alpha=0.6)
plt.title("Distribución de embeddings con t-SNE")
plt.xlabel("Dim 1")
plt.ylabel("Dim 2")
plt.show()

In [None]:
import gradio as gr
import google.generativeai as genai

#API KEY para google 
genai.configure(api_key="AIzaSyDkwzFng05x4EZ8fsFSIDnQ9tkdLlFyoes")

model = genai.GenerativeModel(model_name="gemini-1.5-flash")  # o "gemini-pro"


In [None]:
def responder(pregunta, k=5):
    # Normalizar y vectorizar la pregunta
    pregunta_normalizada = normalize(pregunta)
    pregunta_embedding = embedding_model.encode([pregunta_normalizada]).astype("float32")

    # Busco en frases
    dist_frases, idxs_frases = index_frases.search(pregunta_embedding, k)
    min_dist_frases = dist_frases[0][0]
    contexto_frases = [frases_exploded.iloc[i]["frases"] for i in idxs_frases[0]]

    # Busco en descripciones
    dist_descr, idxs_descr = index.search(pregunta_embedding, 1)
    min_dist_descr = dist_descr[0][0]
    contexto_descr = data.iloc[idxs_descr[0][0]]["descripcion"]

    # Busco en nombres
    dist_nombres, idxs_nombres = index_nombres.search(pregunta_embedding, 1)
    min_dist_nombres = dist_nombres[0][0]
    contexto_nombre = data.iloc[idxs_nombres[0][0]]["descripcion"]

    # Comparo distancias y elijo el contexto que más se acerque
    distancias = {
        "frases": min_dist_frases,
        "descripcion": min_dist_descr,
        "nombre": min_dist_nombres
    }

    mejor_fuente = min(distancias, key=distancias.get)

    if mejor_fuente == "frases":
        contexto = "\n".join(contexto_frases)
    elif mejor_fuente == "descripcion":
        contexto = contexto_descr
    else:  # nombre
        contexto = contexto_nombre

    # 5. Prompt final
    prompt = f"""Tené en cuenta los siguientes datos sobre jugadores de la Liga Profesional de Fútbol de Argentina:

{contexto}

Ahora respondé esta pregunta de forma clara y breve:

{pregunta}"""

    respuesta = model.generate_content(prompt)

    # 6. (Opcional) incluir metadata para debugging
    return f"(Usó contexto: {mejor_fuente}, distancia: {distancias[mejor_fuente]:.4f})\n\n{respuesta.text.strip()}"

In [None]:
with gr.Blocks(title="FutBot") as interfaz:
    gr.Markdown("# ⚽ FutBot 🇦🇷")
    gr.Markdown("Consultá en lenguaje natural sobre jugadores del fútbol argentino de primera división.")
    
    with gr.Row():
        with gr.Column(scale=5):
            pregunta = gr.Textbox(label="Pregunta", placeholder="Ej: ¿En qué club juega Enzo Pérez?")
            boton = gr.Button("Responder", variant="primary")
        with gr.Column(scale=5):
            salida = gr.Textbox(label="Respuesta", placeholder="Acá aparecerá la respuesta...", interactive=False)

    boton.click(fn=responder, inputs=pregunta, outputs=salida)

interfaz.launch()