# Ejercicio 9: Uso de la API de Google Gemini

Nombre: Marcela Cabrera

In [None]:
import google.generativeai as genai
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import kagglehub
import os

In [None]:
API_KEY = "AIzaSyDPsBV4io_VL-YzjSinjSQpfabkztYvNro"
genai.configure(api_key=API_KEY)

# Crear el modelo
model = genai.GenerativeModel('gemini-pro')


In [None]:
# Ejemplo de uso básico
def uso_basico():
    """Ejemplo de generación de texto con Gemini"""
    prompt = "Explica qué es el machine learning en 3 oraciones"

    response = model.generate_content(prompt)
    print("=== USO BÁSICO ===")
    print(f"Prompt: {prompt}")
    print(f"Respuesta: {response.text}\n")
    return response.text

In [None]:
def cargar_corpus(path):
    """Carga el dataset de 20 newsgroups desde Kaggle"""
    print("=== CARGANDO CORPUS ===")

    import os

    documents = []
    train_path = os.path.join(path, '20news-bydate-train')
     # Limitamos a algunas categorías para el ejemplo
    categorias_interes = ['sci.space', 'comp.graphics', 'rec.sport.baseball']

    for categoria in categorias_interes:
        cat_path = os.path.join(train_path, categoria)

        if os.path.exists(cat_path):
            archivos = os.listdir(cat_path)[:20]  # Tomar 20 docs por categoría

            for archivo in archivos:
                file_path = os.path.join(cat_path, archivo)
                try:
                    with open(file_path, 'r', encoding='latin-1') as f:
                        content = f.read()
                        # Remover headers básicos
                        if '\n\n' in content:
                            content = content.split('\n\n', 1)[1]
                        documents.append(content)
                except Exception as e:
                    print(f"Error leyendo {archivo}: {e}")

    print(f"Documentos cargados: {len(documents)}")
    print(f"Ejemplo de documento:\n{documents[0][:200]}...\n")

    return documents

In [None]:
def crear_embeddings(documents):
    """Convierte los documentos en embeddings usando Gemini"""
    print("=== CREANDO EMBEDDINGS ===")

    embeddings = []

    for i, doc in enumerate(documents):
        # Limitar longitud del documento si es muy largo
        doc_truncado = doc[:1000] if len(doc) > 1000 else doc

        # Generar embedding usando el modelo de embeddings de Gemini
        result = genai.embed_content(
            model="models/embedding-001",
            content=doc_truncado,
            task_type="retrieval_document"
        )

        embeddings.append(result['embedding'])

        if (i + 1) % 10 == 0:
            print(f"Procesados {i + 1}/{len(documents)} documentos")

    embeddings_array = np.array(embeddings)
    print(f"Shape de embeddings: {embeddings_array.shape}\n")

    return embeddings_array

In [None]:
# 2.3 Crear query y realizar búsqueda
def buscar_documentos_similares(query, documents, embeddings_corpus, top_k=5):
    """Busca los documentos más similares a la query"""
    print("=== BÚSQUEDA DE DOCUMENTOS SIMILARES ===")
    print(f"Query: {query}\n")

    # Crear embedding de la query
    query_embedding = genai.embed_content(
        model="models/embedding-001",
        content=query,
        task_type="retrieval_query"
    )

    query_vector = np.array(query_embedding['embedding']).reshape(1, -1)
    # Calcular similitud coseno
    similarities = cosine_similarity(query_vector, embeddings_corpus)[0]

    # Obtener los índices de los top_k documentos más similares
    top_indices = np.argsort(similarities)[-top_k:][::-1]

    print(f"Top {top_k} documentos más similares:\n")

    resultados = []
    for rank, idx in enumerate(top_indices, 1):
        score = similarities[idx]
        doc_preview = documents[idx][:200].replace('\n', ' ')

        print(f"{rank}. Documento {idx}")
        print(f"   Similitud: {score:.4f}")
        print(f"   Preview: {doc_preview}...")
        print()

        resultados.append({
            'rank': rank,
            'indice': idx,
            'similitud': score,
            'documento': documents[idx]
        })

    return resultados


In [None]:
# ============================================
# FUNCIÓN PRINCIPAL
# ============================================

def main():
    """Ejecuta el ejercicio completo"""

    # 1. Uso básico
    uso_basico()

    # 2. Retrieval
    # Descargar dataset de Kaggle
    print("=== DESCARGANDO DATASET ===")
    path = kagglehub.dataset_download("crawford/20-newsgroups")
    print(f"Path to dataset files: {path}\n")

    # 2.1 Cargar corpus
    documents = cargar_corpus(path)

    # 2.2 Crear embeddings
    embeddings = crear_embeddings(documents)

    # 2.3 Realizar búsqueda
    query = "space shuttle missions and astronauts"
    resultados = buscar_documentos_similares(query, documents, embeddings, top_k=5)
    # Ejemplo adicional de búsqueda
    print("\n" + "="*50)
    query2 = "computer graphics and visualization techniques"
    resultados2 = buscar_documentos_similares(query2, documents, embeddings, top_k=5)



In [None]:
if __name__ == "__main__":
  # Descomentar para ejecutar:
  main()