In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline




In [2]:
df = pd.read_csv("jugadores_reducido.csv")
df.head()

Unnamed: 0,long_name,player_positions,overall,potential,dob,height_cm,weight_kg,league_name,league_level,club_name,club_position,club_jersey_number,nationality_name,nation_position,nation_jersey_number,preferred_foot
0,Ignacio Martín Fernández,"CM, CAM",80,80,1990-01-12,182,67,Liga Profesional,1.0,River Plate,CAM,10.0,Argentina,,,Left
1,Franco Armani,GK,79,79,1986-10-16,189,88,Liga Profesional,1.0,River Plate,GK,1.0,Argentina,SUB,1.0,Right
2,Agustín Daniel Rossi,GK,79,83,1995-08-21,195,95,Liga Profesional,1.0,Boca Juniors,GK,1.0,Argentina,,,Right
3,Enzo Nicolás Pérez,"CDM, CM",78,78,1986-02-22,178,77,Liga Profesional,1.0,River Plate,CDM,24.0,Argentina,,,Right
4,Faustino Marcos Alberto Rojo,CB,78,78,1990-03-20,186,82,Liga Profesional,1.0,Boca Juniors,SUB,6.0,Argentina,,,Left


In [3]:
print(df.columns.tolist())


['long_name', 'player_positions', 'overall', 'potential', 'dob', 'height_cm', 'weight_kg', 'league_name', 'league_level', 'club_name', 'club_position', 'club_jersey_number', 'nationality_name', 'nation_position', 'nation_jersey_number', 'preferred_foot']


In [40]:
df['league_name'].dropna().unique()



array(['Liga Profesional'], dtype=object)

In [41]:
liga_argentina = df[df['league_name'].str.lower().str.contains('liga profesional', na=False)]


In [6]:
print(f"Total jugadores en la liga argentina: {len(liga_argentina)}")
# liga_argentina[['short_name', 'club_name', 'player_positions', 'nationality_name']].head()
liga_argentina[['long_name', 'club_name', 'player_positions', 'nationality_name']].head()


Total jugadores en la liga argentina: 418639


Unnamed: 0,long_name,club_name,player_positions,nationality_name
0,Ignacio Martín Fernández,River Plate,"CM, CAM",Argentina
1,Franco Armani,River Plate,GK,Argentina
2,Agustín Daniel Rossi,Boca Juniors,GK,Argentina
3,Enzo Nicolás Pérez,River Plate,"CDM, CM",Argentina
4,Faustino Marcos Alberto Rojo,Boca Juniors,CB,Argentina


In [7]:
# cols_utiles = ['short_name', 'club_name', 'player_positions', 'nationality_name']
cols_utiles = ['long_name','club_name', 'player_positions', 'nationality_name']

liga_argentina[cols_utiles].isnull().sum()


long_name           0
club_name           0
player_positions    0
nationality_name    0
dtype: int64

In [8]:
liga_argentina[cols_utiles].isnull().mean() * 100


long_name           0.0
club_name           0.0
player_positions    0.0
nationality_name    0.0
dtype: float64

In [9]:
liga_argentina_limpio = liga_argentina.dropna(subset=cols_utiles).reset_index(drop=True)
print(f"Después de limpiar: {len(liga_argentina_limpio)} jugadores")


Después de limpiar: 418639 jugadores


In [10]:
import unicodedata

def normalize(text):
    if pd.isna(text):
        return ""
    text = str(text).lower()
    text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore').decode('utf-8')
    return text.strip()

# Normalizamos columnas relevantes, nombre y club
liga_argentina_limpio['long_name_normalized'] = liga_argentina_limpio['long_name'].apply(normalize)
liga_argentina_limpio['club_name_normalized'] = liga_argentina_limpio['club_name'].apply(normalize)

# Creamos una nueva columna descriptiva normalizada para mezclar información
# de nombre, club, posición y nacionalidad
liga_argentina_limpio['descripcion_normalized'] = liga_argentina_limpio.apply(
    lambda row: normalize(
        f"{row['long_name']} juega en {row['club_name']} como {row['player_positions']} y es de nacionalidad {row['nationality_name']}"
    ),
    axis=1
)

In [11]:
liga_argentina_limpio['descripcion'] = liga_argentina_limpio.apply(
    lambda row: f"{row['long_name']} es {row['player_positions']} en {row['club_name']} de la Liga Profesional de Fútbol de Argentina.",
    axis=1
)



In [12]:
liga_argentina_limpio[['long_name_normalized', 'descripcion_normalized']].sample(5)

Unnamed: 0,long_name_normalized,descripcion_normalized
166644,juan alberto andrada,juan alberto andrada juega en godoy cruz como ...
113269,fabian andres rinaudo,fabian andres rinaudo juega en rosario central...
20989,ivan rodrigo ramirez segovia,ivan rodrigo ramirez segovia juega en central ...
353758,milton casco,milton casco juega en river plate como lb y es...
367953,alan jesus alegre,"alan jesus alegre juega en quilmes como rb, cb..."


In [None]:
# Esto se agrega para embeddings y convertir a vectores
from sentence_transformers import SentenceTransformer

# Modelo de embeddings
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')



  from .autonotebook import tqdm as notebook_tqdm


In [None]:
import os
import faiss
import numpy as np

# Rutas de los índices persistidos
ruta_descripciones = "faiss_index_descripciones.index"
ruta_nombres = "faiss_index_nombres.index"

if os.path.exists(ruta_descripciones) and os.path.exists(ruta_nombres):
    print("🔁 Cargando índices FAISS desde disco...")
    index = faiss.read_index(ruta_descripciones)
    index_nombres = faiss.read_index(ruta_nombres)
else:
    print("🧠 Generando embeddings y creando índices FAISS...")

   
    descripciones = liga_argentina_limpio['descripcion_normalized'].tolist()
    nombres = liga_argentina_limpio['long_name_normalized'].tolist()

    # Genero embeddings una sola vez, en caso de que no existan los indices
    textos_a_vectorizar = descripciones + nombres
    embeddings_combinados = embedding_model.encode(textos_a_vectorizar, show_progress_bar=True)
    embeddings_combinados = np.array(embeddings_combinados).astype("float32")

    # Separo descripciones y nombres
    cantidad = len(descripciones)
    embedding_descripciones_matrix = embeddings_combinados[:cantidad]
    embedding_nombres_matrix = embeddings_combinados[cantidad:]

    # Creo y guardo los indices
    index = faiss.IndexFlatL2(embedding_descripciones_matrix.shape[1])
    index.add(embedding_descripciones_matrix)
    faiss.write_index(index, ruta_descripciones)

    index_nombres = faiss.IndexFlatL2(embedding_nombres_matrix.shape[1])
    index_nombres.add(embedding_nombres_matrix)
    faiss.write_index(index_nombres, ruta_nombres)

🧠 Generando embeddings y creando índices FAISS...


Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 26165/26165 [06:33<00:00, 66.55it/s]


In [None]:
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import numpy as np

# PCA (2 dimensiones)
pca = PCA(n_components=2)
embeddings_pca = pca.fit_transform(embeddings_combinados)

plt.figure(figsize=(8,6))
plt.scatter(embeddings_pca[:,0], embeddings_pca[:,1], alpha=0.6)
plt.title("Distribución de embeddings con PCA")
plt.xlabel("Componente 1")
plt.ylabel("Componente 2")
plt.show()

# t-SNE (2 dimensiones)
tsne = TSNE(n_components=2, random_state=42, perplexity=30)
embeddings_tsne = tsne.fit_transform(embeddings_combinados)

plt.figure(figsize=(8,6))
plt.scatter(embeddings_tsne[:,0], embeddings_tsne[:,1], alpha=0.6)
plt.title("Distribución de embeddings con t-SNE")
plt.xlabel("Dim 1")
plt.ylabel("Dim 2")
plt.show()

In [None]:
import gradio as gr
import google.generativeai as genai

#API KEY para google 
genai.configure(api_key="AIzaSyBMUWc70rwH8BxPIY21TJ2b9PfNaW3kLiI")

model = genai.GenerativeModel(model_name="gemini-1.5-flash")  # o "gemini-pro"


In [None]:
#la idea de este responder es que reciba una pregunta, busque en los embeddings de FAISS y con esto REDUCIR EL CONTEXTO para mejorar la calidad y eficiencia de la respuesta
# y que devuelva una respuesta generada por el modelo

def responder(pregunta, k=3):
    pregunta_normalizada = normalize(pregunta)
    # convierto la pregunta a vector usando el modelo de embeddings
    pregunta_embedding = embedding_model.encode([pregunta_normalizada]).astype("float32")

    # busco los k jugadores más similares en FAISS
    distancias, indices = index.search(pregunta_embedding, k)

    if distancias[0][0] > 0.5:
        # si la distancia es alta, significa que no hay coincidencias relevantes
        #entonces busco nombres de jugadores que coincidan
        _, indices_nombres = index_nombres.search(pregunta_embedding, 1)
        idx_nombre = indices_nombres[0][0]
        contexto = liga_argentina_limpio.iloc[idx_nombre]["descripcion"]
    else:
        # Si la similitud es buena, usa descripciones relevantes
        contexto = "\n".join(
            liga_argentina_limpio["descripcion"].iloc[i] for i in indices[0]
        )

    # Prompt final para el modelo generativo
    prompt = f"""Tené en cuenta los siguientes datos sobre jugadores de la Liga Profesional de Fútbol de Argentina:

{contexto}

Ahora respondé esta pregunta de forma clara y breve:

{pregunta}"""

    respuesta = model.generate_content(prompt)
    return respuesta.text.strip()

In [None]:
with gr.Blocks(title="FutBot") as interfaz:
    gr.Markdown("# ⚽ FutBot 🇦🇷")
    gr.Markdown("Consultá en lenguaje natural sobre jugadores del fútbol argentino de primera división.")
    
    with gr.Row():
        with gr.Column(scale=5):
            pregunta = gr.Textbox(label="Pregunta", placeholder="Ej: ¿En qué club juega Enzo Pérez?")
            boton = gr.Button("Responder", variant="primary")
        with gr.Column(scale=5):
            salida = gr.Textbox(label="Respuesta", placeholder="Acá aparecerá la respuesta...", interactive=False)

    boton.click(fn=responder, inputs=pregunta, outputs=salida)

interfaz.launch()

* Running on local URL:  http://127.0.0.1:7860
* To create a public link, set `share=True` in `launch()`.


