Examen Final

Nombre: Doménica Plaza

Cargar el dataset

In [2]:
!pip install kagglehub

Collecting kagglehub
  Downloading kagglehub-0.3.12-py3-none-any.whl (67 kB)
     -------------------------------------- 68.0/68.0 kB 931.5 kB/s eta 0:00:00
Installing collected packages: kagglehub
Successfully installed kagglehub-0.3.12



[notice] A new release of pip available: 22.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [81]:

import kagglehub
import os
import json
import pandas as pd

# Descargar dataset
path = kagglehub.dataset_download("Cornell-University/arxiv")
print("Dataset descargado en:", path)

# Ruta del archivo JSON
json_path = os.path.join(path, "arxiv-metadata-oai-snapshot.json")

# Calcular cuántas líneas tiene (≈ número de artículos)
with open(json_path, "r") as f:
    total_lines = sum(1 for _ in f)

# Cargar solo el 1%
sample_size = int(total_lines * 0.01)
print(f"🔍 Cargando {sample_size} líneas de {total_lines} totales (≈ 1%)")

# Leer el 1% del archivo
with open(json_path, "r") as f:
    lines = [json.loads(line) for line in [next(f) for _ in range(sample_size)]]

# Crear DataFrame con las columnas requeridas
df = pd.DataFrame(lines)[["id", "title", "abstract", "authors", "categories", "update_date"]]
df.head()



Dataset descargado en: C:\Users\hmpla\.cache\kagglehub\datasets\Cornell-University\arxiv\versions\244
🔍 Cargando 27923 líneas de 2792339 totales (≈ 1%)


Unnamed: 0,id,title,abstract,authors,categories,update_date
0,704.0001,Calculation of prompt diphoton production cros...,A fully differential calculation in perturba...,"C. Bal\'azs, E. L. Berger, P. M. Nadolsky, C.-...",hep-ph,2008-11-26
1,704.0002,Sparsity-certifying Graph Decompositions,"We describe a new algorithm, the $(k,\ell)$-...",Ileana Streinu and Louis Theran,math.CO cs.CG,2008-12-13
2,704.0003,The evolution of the Earth-Moon system based o...,The evolution of Earth-Moon system is descri...,Hongjun Pan,physics.gen-ph,2008-01-13
3,704.0004,A determinant of Stirling cycle numbers counts...,We show that a determinant of Stirling cycle...,David Callan,math.CO,2007-05-23
4,704.0005,From dyadic $\Lambda_{\alpha}$ to $\Lambda_{\a...,In this paper we show how to compute the $\L...,Wael Abu-Shammala and Alberto Torchinsky,math.CA math.FA,2013-10-15


In [82]:
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Descargar recursos de NLTK (solo si tienes internet)
nltk.download("punkt")
nltk.download("stopwords")

# Crear conjunto de stopwords en inglés
stop_words = set(stopwords.words("english"))

# Función de preprocesamiento
def preprocess(text):
    text = text.lower()
    text = re.sub(r"[^\w\s]", "", text)  # eliminar puntuación
    tokens = word_tokenize(text)
    tokens = [w for w in tokens if w not in stop_words]
    return " ".join(tokens)

# Crear columna 'processed' con el título + resumen preprocesado
df["processed"] = (df["title"] + " " + df["abstract"]).apply(preprocess)
df[["title", "processed"]].head()


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\hmpla\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\hmpla\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,title,processed
0,Calculation of prompt diphoton production cros...,calculation prompt diphoton production cross s...
1,Sparsity-certifying Graph Decompositions,sparsitycertifying graph decompositions descri...
2,The evolution of the Earth-Moon system based o...,evolution earthmoon system based dark matter f...
3,A determinant of Stirling cycle numbers counts...,determinant stirling cycle numbers counts unla...
4,From dyadic $\Lambda_{\alpha}$ to $\Lambda_{\a...,dyadic lambda_alpha lambda_alpha paper show co...


Indexación con TF-IDF y BM25

In [84]:
from sklearn.feature_extraction.text import TfidfVectorizer
from rank_bm25 import BM25Okapi

# TF–IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(df["processed"])

# BM25
tokenized_corpus = [doc.split(" ") for doc in df["processed"]]
bm25 = BM25Okapi(tokenized_corpus)


Indexación con FAISS (Embeddings)

In [85]:
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

# Crear embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(df["processed"].tolist(), show_progress_bar=True)
embeddings = np.array(embeddings).astype("float32")

# FAISS
index_faiss = faiss.IndexFlatL2(embeddings.shape[1])
index_faiss.add(embeddings)


Batches: 100%|██████████| 873/873 [16:36<00:00,  1.14s/it]


Funciones de Búsqueda

In [87]:
query = "machine learning for particle physics"
def search_tfidf(query, top_k=10):
    vec = tfidf_vectorizer.transform([preprocess(query)])
    scores = vec @ tfidf_matrix.T
    indices = scores.toarray().flatten().argsort()[::-1][:top_k]
    return df.iloc[indices][["id", "title", "abstract"]]

def search_bm25(query, top_k=10):
    tokens = preprocess(query).split(" ")
    scores = bm25.get_scores(tokens)
    indices = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)[:top_k]
    return df.iloc[indices][["id", "title", "abstract"]]

def search_faiss(query, top_k=10, return_indices=False):
    query_vec = model.encode([preprocess(query)]).astype("float32")
    D, I = index_faiss.search(query_vec, top_k)
    results = df.iloc[I[0]][["id", "title", "abstract"]]
    return (results, I[0]) if return_indices else results






RAG

In [88]:
from openai import OpenAI

In [89]:
OPENAI_API_KEY = "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"

In [90]:
client = OpenAI(api_key=OPENAI_API_KEY)

In [91]:
def build_context(query, top_k=10):
    results_df, indices = search_faiss(query, top_k=top_k, return_indices=True)
    context = "\n\n".join(df.iloc[indices]["processed"].values)[:3000]  # recortar si es muy largo
    return context



In [92]:
contexto = build_context(query, top_k=10)
contexto

'thresholdimproved narrowwidth approximation bsm physics modified narrowwidth approximation allows ogammamaccurate predictions resonant particle decay similar intermediate masses proposed applied mssm processes demonstrate importance searches particle physics beyond standard model\n\nlearn fluctuations particle ratios explain fluctuations ratios constrain falsify statistical model particle production heavy ion collisions using kpi fluctuations example define observable capable determining statistical model governs freezeout ultrarelativistic heavy ion collisions calculate observable kpi fluctuations show rhic lhc energies well independent centrality grandcanonical statistical model appropriate description chemical equilibrium applies describe variations scaling deviations scenario light quark chemical nonequilibrium strange quark oversaturation local conservation canonical ensemble strange quarks also introduce similar observable capable together published kk measurement ascertaining i

In [93]:
prompt = f"""Eres una aplicación de Retrieval Augmented Generation que siempre responde en español. Usa el siguiente contexto para responder la pregunta. 
Si la respuesta no está en el contexto, di que no sabes.

Contexto:
{contexto}

Pregunta:
El usuario está preguntando sobre: {query}
"""

In [94]:
response = client.responses.create(
    model="gpt-4.1",
    temperature=0.3,
    input=prompt
)

print(response.output_text)


Según el contexto proporcionado, el aprendizaje automático (machine learning) se utiliza ampliamente en la física de partículas, especialmente para problemas de clasificación, como la discriminación entre señal y fondo. En particular, las redes neuronales han sido empleadas extensamente en la investigación en física de partículas. El entrenamiento de redes neuronales puede verse como un problema de inferencia, y el aprendizaje bayesiano en redes neuronales proporciona resultados óptimos y robustos en comparación con los métodos de aprendizaje convencionales.

Por ejemplo, se ha investigado el uso de redes neuronales bayesianas para la discriminación entre señal y fondo en la búsqueda de leptoquarks de segunda generación en el Tevatron. Se presentan comparaciones entre los resultados obtenidos con el entrenamiento convencional de redes neuronales feedforward y los obtenidos con métodos bayesianos.

En resumen, el machine learning, y en particular las redes neuronales (incluyendo métodos

In [95]:
def comparar_resultados(query):
    tfidf_docs = set(search_tfidf(query)["id"].tolist())
    bm25_docs = set(search_bm25(query)["id"].tolist())
    faiss_docs = set(search_faiss(query)["id"].tolist())

    print("TF–IDF y BM25 en común:", len(tfidf_docs & bm25_docs))
    print("TF–IDF y FAISS en común:", len(tfidf_docs & faiss_docs))
    print("BM25 y FAISS en común:", len(bm25_docs & faiss_docs))

comparar_resultados(query)



TF–IDF y BM25 en común: 3
TF–IDF y FAISS en común: 0
BM25 y FAISS en común: 1


In [97]:
with open("queries.txt", "r") as f:
    queries = [line.strip() for line in f.readlines()]

for query in queries:
    print(f"\nConsulta: {query}")
    print("TF–IDF:", search_tfidf(query, 1)["title"].values[0])
    print("BM25:  ", search_bm25(query, 1)["title"].values[0])
    print("FAISS: ", search_faiss(query, 1)["title"].values[0])
    print("RAG:   ", response.output_text)



Consulta: diphoton production cross sections
TF–IDF: Unparticle physics in diphoton production at the CERN LHC
BM25:   Exclusive e+e-, Di-photon and Di-jet Production at the Tevatron
FAISS:  Exclusive e+e-, Di-photon and Di-jet Production at the Tevatron
RAG:    Según el contexto proporcionado, el aprendizaje automático (machine learning) se utiliza ampliamente en la física de partículas, especialmente para problemas de clasificación, como la discriminación entre señal y fondo. En particular, las redes neuronales han sido empleadas extensamente en la investigación en física de partículas. El entrenamiento de redes neuronales puede verse como un problema de inferencia, y el aprendizaje bayesiano en redes neuronales proporciona resultados óptimos y robustos en comparación con los métodos de aprendizaje convencionales.

Por ejemplo, se ha investigado el uso de redes neuronales bayesianas para la discriminación entre señal y fondo en la búsqueda de leptoquarks de segunda generación en el 