# Stiven Saldaña

# Ejercicio 9: Uso de la API de Google Gemini
En este ejercicio vamos a aprender a utilizar la API de OpenAI

# 1. Uso básico
El siguiente código sirve para conectarse con la API de Google Gemini de forma básica

In [1]:
!pip install -q -U google-generativeai

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/155.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m155.1/155.1 kB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
!pip install -q -U google-genai

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.3/53.3 kB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m713.3/713.3 kB[0m [31m49.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m234.9/234.9 kB[0m [31m25.6 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-colab 1.0.0 requires google-auth==2.43.0, but you have google-auth 2.47.0 which is incompatible.[0m[31m
[0m

In [31]:
from dotenv import load_dotenv
import os

load_dotenv()
api_key = os.getenv('AIzaSyBKRt3-IpWM_UCUvbVnkDrzh7UOFvuOo7Y')
api_key = "AIzaSyBKRt3-IpWM_UCUvbVnkDrzh7UOFvuOo7Y"

In [32]:
from google import genai

client = genai.Client(api_key=api_key)

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="Explain how AI works in a few words",
)

print(response.text)

AI learns **patterns from data** to make **predictions** or decisions.


# 2. Retrieval
## 2.1 Cargo el corpus de 20 News Groups

In [34]:
from sklearn.datasets import fetch_20newsgroups
import pandas as pd

newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
docs = newsgroups.data
df = pd.DataFrame(docs, columns=['doc'])
df.head(10)

Unnamed: 0,doc
0,\n\nI am sure some bashers of Pens fans are pr...
1,My brother is in the market for a high-perform...
2,\n\n\n\n\tFinally you said what you dream abou...
3,\nThink!\n\nIt's the SCSI card doing the DMA t...
4,1) I have an old Jasmine drive which I cann...
5,\n\nBack in high school I worked as a lab assi...
6,\n\nAE is in Dallas...try 214/241-6060 or 214/...
7,"\n[stuff deleted]\n\nOk, here's the solution t..."
8,"\n\n\nYeah, it's the second one. And I believ..."
9,\nIf a Christian means someone who believes in...


In [35]:
import numpy as np
from tqdm.auto import tqdm
import re

df = df.dropna(subset=["doc"]).reset_index(drop=True)

# Limpieza básica
def normalize_text(s: str) -> str:
    s = re.sub(r"\s+", " ", s).strip()
    return s

df["text_norm"] = df["doc"].astype(str).map(normalize_text)

df.head()

Unnamed: 0,doc,text_norm
0,\n\nI am sure some bashers of Pens fans are pr...,I am sure some bashers of Pens fans are pretty...
1,My brother is in the market for a high-perform...,My brother is in the market for a high-perform...
2,\n\n\n\n\tFinally you said what you dream abou...,Finally you said what you dream about. Mediter...
3,\nThink!\n\nIt's the SCSI card doing the DMA t...,Think! It's the SCSI card doing the DMA transf...
4,1) I have an old Jasmine drive which I cann...,1) I have an old Jasmine drive which I cannot ...


In [36]:
def chunk_text(text: str, max_chars: int = 800, overlap: int = 100):
    """
    Chunking por caracteres.
    max_chars ~ 600-1000 suele funcionar bien.
    overlap ayuda a no cortar ideas a la mitad.
    """
    chunks = []
    start = 0
    n = len(text)
    while start < n:
        end = min(start + max_chars, n)
        chunk = text[start:end]
        chunk = chunk.strip()
        if len(chunk) > 0:
            chunks.append(chunk)
        if end == n:
            break
        start = max(0, end - overlap)
    return chunks

records = []
for i, row in df.iterrows():
    chunks = chunk_text(row["text_norm"], max_chars=800, overlap=100)
    for j, ch in enumerate(chunks):
        records.append({
            "doc_id": int(i),
            "chunk_id": j,
            "text": ch
        })

chunks_df = pd.DataFrame(records)
chunks_df.head(), len(chunks_df)

(   doc_id  chunk_id                                               text
 0       0         0  I am sure some bashers of Pens fans are pretty...
 1       1         0  My brother is in the market for a high-perform...
 2       2         0  Finally you said what you dream about. Mediter...
 3       2         1  urds and Turks once upon a time! Ohhhh so swed...
 4       3         0  Think! It's the SCSI card doing the DMA transf...,
 38871)

# 2.2 Transformo a embeddings

In [None]:
from sentence_transformers import SentenceTransformer

MODEL_NAME = "intfloat/e5-base-v2"
model = SentenceTransformer(MODEL_NAME, device="cuda")

passages = ["passage: " + t for t in chunks_df["text"].tolist()]
# Embeddings (N x D)
# normalize_embeddings=True
embeddings = model.encode(
    passages,
    batch_size=64,
    show_progress_bar=True,
    convert_to_numpy=True,
    normalize_embeddings=True
).astype("float32")


In [9]:
print(embeddings.shape, embeddings.dtype)

(38871, 768) float32


# 2.3 Creo una query y hago la búsqueda

In [10]:
!pip install faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.13.2-cp310-abi3-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (7.6 kB)
Downloading faiss_cpu-1.13.2-cp310-abi3-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (23.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.8/23.8 MB[0m [31m91.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.13.2


In [40]:
import faiss
import pandas as pd

# se realiza la indexacion
d = embeddings.shape[1]

# aqui se usa similitid de coseno
index = faiss.IndexFlatIP(d)

index.add(embeddings)
print(f"Creados{index.ntotal} vectores.")

def search_in_docs(query_text: str, k=5):
    query_vec = model.encode(["query: " + query_text],convert_to_numpy=True,
        normalize_embeddings=True
    ).astype("float32")

    distances, indices = index.search(query_vec, k)

    results = []
    for i in range(k):
        idx = indices[0][i]
        score = distances[0][i]
        chunk_info = chunks_df.iloc[idx]
        results.append({
            "score": score,
            "chunk_text": chunk_info["text"],
            "original_doc_id": chunk_info["doc_id"]
        })

    return pd.DataFrame(results)

# Se crea una query y con ello se van a iprimir los 5 docuemntos
query = "Safety gear and helmet recommendations for motorcycle riders"

try:
    # se ob tiene los 5 documentos
    df_results = search_in_docs(query, k=5)

    bloque_contexto = ""
    for i, row in df_results.iterrows():
        bloque_contexto += f" Documento {i+1} \n"
        bloque_contexto += f"ID: {row['original_doc_id']}\n"
        bloque_contexto += f"Similitud: {row['score']:.4f}\n"
        bloque_contexto += f"Contenido: {row['chunk_text']}\n\n"

    prompt = f"""
    Eres un asistente experto en seguridad. A continuación te proporciono 5 fragmentos de documentos recuperados.

    PARA CADA DOCUMENTO, genera una respuesta siguiendo ESTE FORMATO EXACTO:

    # Documento [Número]
    **ID:** [Aquí pon el ID_SISTEMA]
    **Similitud:** [Aquí pon el PUNTAJE_SIMILITUD]
    **Resumen en español:** [Escribe aquí qué dice este fragmento sobre: {query}]

    ---

    DOCUMENTOS RECUPERADOS:
    {bloque_contexto}
    """

    from IPython.display import display, Markdown

    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents=prompt
    )

    display(Markdown(f"# Resultados \n\n{response.text}"))

except Exception as e:
    if "429" in str(e):
        print("Error")
    else:
        print(f"Ocurrió un error: {e}")

Creados38871 vectores.


# Resultados 

# Documento 1
**ID:** 9971
**Similitud:** 0.8571
**Resumen en español:** El fragmento destaca la importancia de que el pasajero utilice un casco de su talla exacta para garantizar una protección real en caso de accidente. Critica el uso de cascos demasiado grandes que solo sirven para cumplir con la normativa legal pero no ofrecen seguridad efectiva.

# Documento 2
**ID:** 11006
**Similitud:** 0.8473
**Resumen en español:** Este fragmento ofrece una guía de presupuesto básico para nuevos motociclistas, recomendando la compra de casco, chaqueta y guantes. Además, califica como "imprescindible" realizar el curso de conducción de la Motorcycle Safety Foundation (MSF) para aprender a manejar con seguridad.

# Documento 3
**ID:** 11572
**Similitud:** 0.8387
**Resumen en español:** El autor advierte sobre el cuidado y almacenamiento del casco, señalando que nunca debe dejarse sobre el asiento de la moto por riesgo de caída. Explica que un golpe accidental contra el suelo puede comprometer la estructura interna de protección, por lo que recomienda reemplazar el casco si esto sucede y guardarlo siempre en superficies estables y seguras.

# Documento 4
**ID:** 17725
**Similitud:** 0.8331
**Resumen en español:** Se desaconseja colgar el casco en los espejos de la motocicleta, ya que el peso puede comprimir el revestimiento de espuma interna (diseñado para absorber impactos), reduciendo su efectividad en un choque. Sugiere colocarlo cuidadosamente sobre el manillar derecho cuando la moto esté estacionada para evitar daños en el material protector.

# Documento 5
**ID:** 1224
**Similitud:** 0.8322
**Resumen en español:** El fragmento enfatiza la importancia de adquirir equipo de alta calidad basándose en la durabilidad y resistencia tras impactos. A través de una comparativa entre marcas en la práctica de motocross, concluye que el equipo de gama alta protege mejor y se mantiene íntegro por más tiempo que las opciones más económicas.