In [None]:
# Instalar FAISS (para Google Colab)
!pip install faiss-cpu

# Importar las librerías necesarias
import faiss
import numpy as np

# Supongamos que tienes tus embeddings en un diccionario como este:
# {nombre_del_documento: embeddings}
# Para este ejemplo, vamos a simular embeddings aleatorios para 5 documentos.

# Crear un diccionario de ejemplo con nombres y embeddings aleatorios
document_embeddings = {
    "documento1": np.random.rand(768),
    "documento2": np.random.rand(768),
    "documento3": np.random.rand(768),
    "documento4": np.random.rand(768),
    "documento5": np.random.rand(768),
}

# Paso 1: Convertir los embeddings en una lista y luego en una matriz NumPy
document_embeddings_list = [embedding for embedding in document_embeddings.values()]
document_names = list(document_embeddings.keys())  # Guardamos los nombres de los documentos

# Convertir la lista de embeddings a una matriz NumPy de tipo float32 para FAISS
embedding_matrix = np.vstack(document_embeddings_list).astype('float32')

# Paso 2: Crear un índice FAISS
# Usamos IndexFlatL2 para búsqueda exacta con distancia euclidiana (L2)
index = faiss.IndexFlatL2(embedding_matrix.shape[1])

# Paso 3: Agregar los embeddings al índice
index.add(embedding_matrix)

# Paso 4: Guardar el índice en un archivo para uso futuro
faiss.write_index(index, "document_embeddings_index.faiss")
print("Índice FAISS guardado como 'document_embeddings_index.faiss'")


Collecting faiss-cpu
  Downloading faiss_cpu-1.9.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)
Downloading faiss_cpu-1.9.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (27.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.5/27.5 MB[0m [31m36.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.9.0
Índice FAISS guardado como 'document_embeddings_index.faiss'


In [None]:
# Paso 1: Instalar las librerías necesarias
!pip install -U sentence-transformers faiss-cpu

# Importar las librerías
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

# Paso 2: Cargar el modelo de Sentence Transformers
model = SentenceTransformer('paraphrase-MiniLM-L6-v2')  # Modelo ligero y rápido para embeddings

# Ejemplo de datos: lista de frases para las cuales queremos crear embeddings
documents = [
    "La inteligencia artificial está revolucionando el mundo.",
    "Los modelos de lenguaje están avanzando rápidamente.",
    "FAISS es útil para búsquedas de similitud.",
    "Las redes neuronales se usan en el procesamiento del lenguaje natural.",
    "Python es popular en la ciencia de datos."
]

# Paso 3: Generar embeddings para los documentos
document_embeddings = model.encode(documents, convert_to_tensor=False)
document_embeddings = np.array(document_embeddings).astype('float32')  # Convertir a float32 para FAISS

# Paso 4: Crear un índice FAISS
embedding_dim = document_embeddings.shape[1]  # La dimensión del embedding depende del modelo
index = faiss.IndexFlatL2(embedding_dim)  # Utilizar L2 (distancia euclidiana)

# Agregar los embeddings al índice
index.add(document_embeddings)

# Paso 5: Realizar una búsqueda de similitud
# Generar el embedding para una consulta y buscar los vecinos más cercanos en el índice
query = "¿Cómo está cambiando el mundo la inteligencia artificial?"
query_embedding = model.encode([query], convert_to_tensor=False).astype('float32')

# Buscar los 3 documentos más similares a la consulta
k = 3  # Número de vecinos más cercanos a recuperar
distances, indices = index.search(query_embedding, k)

# Mostrar resultados
print("Consulta:", query)
print("\nDocumentos más similares:")
for i, idx in enumerate(indices[0]):
    print(f"{i+1}. {documents[idx]} (distancia: {distances[0][i]:.4f})")




  from tqdm.autonotebook import tqdm, trange
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.73k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/314 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]



1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Consulta: ¿Cómo está cambiando el mundo la inteligencia artificial?

Documentos más similares:
1. La inteligencia artificial está revolucionando el mundo. (distancia: 12.7730)
2. Los modelos de lenguaje están avanzando rápidamente. (distancia: 32.1606)
3. FAISS es útil para búsquedas de similitud. (distancia: 40.6461)


In [None]:
# Paso 1: Instalar las librerías necesarias
!pip install -U transformers sentence-transformers faiss-cpu torch

# Importar las librerías necesarias
import faiss
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Paso 2: Cargar el modelo y el tokenizador de transformers
tokenizer = AutoTokenizer.from_pretrained("gpt2")  # Puedes cambiar el modelo
model = AutoModelForCausalLM.from_pretrained("gpt2")

# Configurar el token de padding para el tokenizador
tokenizer.pad_token = tokenizer.eos_token  # Usar el token de fin de secuencia como token de padding

# Ejemplo de documentos y sus nombres
document_texts = {
    "documento1": "La inteligencia artificial está revolucionando el mundo.",
    "documento2": "Los modelos de lenguaje están avanzando rápidamente.",
    "documento3": "FAISS es útil para búsquedas de similitud.",
    "documento4": "Las redes neuronales se usan en el procesamiento del lenguaje natural.",
    "documento5": "Python es popular en la ciencia de datos."
}
document_names = list(document_texts.keys())

# Generar embeddings de ejemplo para FAISS (puedes usar otros embeddings reales)
from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer("all-MiniLM-L6-v2")
document_embeddings = [embedder.encode(doc) for doc in document_texts.values()]
document_embeddings = np.array(document_embeddings).astype("float32")

# Paso 3: Crear el índice FAISS y agregar los embeddings de los documentos
embedding_dim = document_embeddings.shape[1]
index = faiss.IndexFlatL2(embedding_dim)
index.add(document_embeddings)

# Paso 4: Función para obtener los embeddings de una consulta
def get_query_embeddings(query):
    query_embedding = embedder.encode(query)
    return np.array(query_embedding).astype("float32")

# Consulta de ejemplo
query = "¿Cómo está afectando la inteligencia artificial en la ciencia de datos?"

# Obtener embeddings de la consulta
query_embeddings = get_query_embeddings(query)

# Buscar los documentos más similares en el índice FAISS
D, I = index.search(np.array([query_embeddings]), k=3)  # k es el número de resultados más cercanos

# Paso 5: Generar una respuesta contextual usando el LLM y los documentos recuperados
def generate_response(query, retrieved_docs):
    # Combinar la consulta del usuario con los documentos relevantes recuperados
    context = "\n\n".join(retrieved_docs)
    prompt = f"Pregunta: {query}\n\nDocumentos relevantes:\n{context}\n\nRespuesta:"

    # Tokenizar el prompt y generar la respuesta
    inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        outputs = model.generate(**inputs, max_length=150)

    # Convertir la salida en texto
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response

# Recuperar los documentos relevantes
retrieved_docs = [document_texts[document_names[i]] for i in I[0]]

# Generar la respuesta
respuesta = generate_response(query, retrieved_docs)
print("Respuesta generada por el LLM:", respuesta)




The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Respuesta generada por el LLM: Pregunta: ¿Cómo está afectando la inteligencia artificial en la ciencia de datos?

Documentos relevantes:
La inteligencia artificial está revolucionando el mundo.

Los modelos de lenguaje están avanzando rápidamente.

Python es popular en la ciencia de datos.

Respuesta: ¿Cómo está afectando la inteligencia artificial en la ciencia de datos?

Documentos relevantes:

La ciencia de datos.

Respuesta: ¿Cómo está afectando la


In [None]:
# Paso 1: Instalar las librerías necesarias
!pip install -U transformers datasets

# Importar las librerías necesarias
from transformers import AutoTokenizer, AutoModelForQuestionAnswering, Trainer, TrainingArguments
from datasets import load_dataset
import torch

# Paso 2: Cargar un modelo preajustado para preguntas y respuestas en inglés
model_name = "bert-large-uncased-whole-word-masking-finetuned-squad"  # Modelo preajustado para SQuAD
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

# Paso 3: Cargar el dataset SQuAD en inglés
dataset = load_dataset("squad")

# Paso 4: Preprocesar el dataset para incluir posiciones de inicio y fin
def preprocess_function(examples):
    inputs = tokenizer(
        examples["question"], examples["context"],
        truncation=True, padding="max_length", max_length=384, return_offsets_mapping=True
    )

    start_positions = []
    end_positions = []

    for i, offset in enumerate(inputs["offset_mapping"]):
        answer = examples["answers"][i]["text"][0]
        start_char = examples["answers"][i]["answer_start"][0]
        end_char = start_char + len(answer)

        # Encontrar posiciones de inicio y fin en el nivel de token
        start_token = [idx for idx, (s, e) in enumerate(offset) if s <= start_char < e]
        end_token = [idx for idx, (s, e) in enumerate(offset) if s < end_char <= e]

        start_positions.append(start_token[0] if start_token else 0)
        end_positions.append(end_token[0] if end_token else 0)

    inputs["start_positions"] = start_positions
    inputs["end_positions"] = end_positions
    inputs.pop("offset_mapping")  # Eliminar offset mapping ya que no es necesario en el entrenamiento
    return inputs

# Aplicar la función de preprocesamiento al dataset reducido para una ejecución rápida
small_train_dataset = dataset["train"].select(range(10)).map(preprocess_function, batched=True)
small_eval_dataset = dataset["validation"].select(range(5)).map(preprocess_function, batched=True)

# Paso 5: Definir los argumentos de entrenamiento para minimizar el tiempo
training_args = TrainingArguments(
    output_dir="./results",
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    num_train_epochs=1,          # Solo 1 época para un entrenamiento rápido
    logging_dir="./logs",
    logging_steps=5,
    evaluation_strategy="epoch", # Evaluación solo al final de cada época
    save_strategy="no",          # No guardar el modelo en cada época para ahorrar tiempo
)

# Paso 6: Inicializar el Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
)

# Paso 7: Entrenar el modelo (esto debería tomar solo unos minutos)
trainer.train()

# Paso 8: Generar una respuesta de prueba con una pregunta en inglés
def generate_answer(question, context):
    inputs = tokenizer(question, context, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs)
    answer_start = torch.argmax(outputs.start_logits)  # Índice de inicio de la respuesta
    answer_end = torch.argmax(outputs.end_logits) + 1  # Índice de fin de la respuesta
    answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][answer_start:answer_end]))
    return answer

# Ejemplo de contexto y pregunta
context = "Artificial intelligence (AI) is intelligence demonstrated by machines, in contrast to the natural intelligence displayed by humans and animals."
question = "What is artificial intelligence?"

# Generar respuesta
answer = generate_answer(question, context)
print("Contexto:", context)
print("Pregunta:", question)
print("Respuesta generada:", answer)






The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Some weights of the model checkpoint at bert-large-uncased-whole-word-masking-finetuned-squad were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly ident

Map:   0%|          | 0/5 [00:00<?, ? examples/s]

[34m[1mwandb[0m: Using wandb-core as the SDK backend. Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: Currently logged in as: [33maprendiendoholandes[0m ([33maprendiendoholandes-adr[0m). Use [1m`wandb login --relogin`[0m to force relogin


Epoch,Training Loss,Validation Loss
1,0.2041,0.704421


Contexto: Artificial intelligence (AI) is intelligence demonstrated by machines, in contrast to the natural intelligence displayed by humans and animals.
Pregunta: What is artificial intelligence?
Respuesta generada: intelligence demonstrated by machines
