<a href="https://colab.research.google.com/github/boskein/Awesome-Onion-Links/blob/master/Notebooks/Google%20AI/Gemini/Tools/gemini_file_search_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üöÄ Tutorial Completo: Gemini File Search - Sistema RAG Profesional

## üìö √çndice

1. [Introducci√≥n y Setup](#1-introducci√≥n)
2. [Crear File Search Store](#2-crear-file-search-store)
3. [Subir y Indexar Documentos](#3-subir-documentos)
4. [Realizar B√∫squedas B√°sicas](#4-b√∫squedas-b√°sicas)
5. [Obtener Citaciones](#5-citaciones)
6. [Metadata Filtering Avanzado](#6-metadata-filtering)
7. [Gesti√≥n de Stores](#7-gesti√≥n-stores)
8. [Chunking Personalizado](#8-chunking-personalizado)
9. [Mejores Pr√°cticas](#9-mejores-pr√°cticas)

---

## ‚ÑπÔ∏è Acerca de este Tutorial

**Nivel:** Intermedio  
**Duraci√≥n estimada:** 30-40 minutos  
**Requisitos previos:**
- Python 3.9+
- Conocimientos b√°sicos de Python
- API Key de Google AI Studio

**¬øQu√© aprender√°s?**
- Implementar un sistema RAG completo sin gestionar infraestructura
- Indexar documentos de m√∫ltiples formatos
- Realizar b√∫squedas sem√°nticas avanzadas
- Filtrar resultados con metadata
- Obtener citaciones autom√°ticas

---

## 1. üîß Introducci√≥n y Setup

### ¬øQu√© es File Search?

File Search es un sistema RAG (Retrieval Augmented Generation) completamente gestionado por Google que te permite:

- ‚úÖ **Subir documentos** de m√∫ltiples formatos (PDF, DOCX, TXT, JSON, c√≥digo, etc.)
- ‚úÖ **Indexaci√≥n autom√°tica** con chunking inteligente y embeddings de √∫ltima generaci√≥n
- ‚úÖ **B√∫squeda sem√°ntica** que entiende significado, no solo palabras clave
- ‚úÖ **Citaciones autom√°ticas** para verificabilidad
- ‚úÖ **Sin infraestructura** - no necesitas Pinecone, Chroma, ni gestionar bases vectoriales

### üí∞ Precios

- **Storage:** GRATIS ‚ú®
- **Embeddings en indexaci√≥n:** $0.15 por 1M tokens (una sola vez al subir)
- **Embeddings en b√∫squeda:** GRATIS
- **Tokens recuperados:** Se cobran como context tokens del modelo

### üì¶ Instalaci√≥n

In [1]:
# Instalar la librer√≠a de Google Generative AI
!pip install google-genai -q

### üîë Configurar API Key

**Opci√≥n 1: Variable de entorno (recomendado para producci√≥n)**

In [4]:
import os
from getpass import getpass

# Si no tienes la API key en variables de entorno, ingr√©sala aqu√≠
if 'GOOGLE_API_KEY' not in os.environ:
    os.environ['GOOGLE_API_KEY'] = getpass('Ingresa tu API Key de Google AI Studio: ')

API_KEY = os.environ['GOOGLE_API_KEY']
print("‚úÖ API Key configurada")

‚úÖ API Key configurada


**Opci√≥n 2: Directamente en c√≥digo (solo para desarrollo)**

In [None]:
# ‚ö†Ô∏è NO USES ESTO EN PRODUCCI√ìN - Solo para testing local
# API_KEY = 'TU_API_KEY_AQUI'

**Opci√≥n 3: Secretos (Solo para google Colab)**

In [3]:
from google.colab import userdata
API_KEY = userdata.get('GEMINI_API_KEY')

SecretNotFoundError: Secret GEMINI_API_KEY does not exist.

### üìö Imports necesarios

In [7]:
from google import genai
from google.genai import types
import time
from typing import List, Dict, Optional
import json

# Inicializar el cliente de Gemini
client = genai.Client(api_key=API_KEY)

print("‚úÖ Cliente inicializado correctamente")

‚úÖ Cliente inicializado correctamente


---

## 2. üì¶ Crear File Search Store

Un **File Search Store** es un contenedor para tus documentos indexados. Pi√©nsalo como una base de datos especializada.

### Mejores pr√°cticas:
- üóÇÔ∏è Crea stores separados por tipo de contenido (ej: docs p√∫blicas vs internas)
- üìù Usa `display_name` descriptivo para identificar f√°cilmente
- üéØ Mant√©n cada store bajo 20GB para latencias √≥ptimas

In [8]:
def create_file_search_store(display_name: str) -> genai.types.FileSearchStore:
    """
    Crea un nuevo File Search Store.

    Args:
        display_name: Nombre descriptivo para identificar el store

    Returns:
        FileSearchStore object con informaci√≥n del store creado
    """
    store = client.file_search_stores.create(
        config={'display_name': display_name}
    )

    print(f"‚úÖ Store creado exitosamente")
    print(f"   ‚Ä¢ Nombre: {store.name}")
    print(f"   ‚Ä¢ Display Name: {display_name}")

    return store

In [9]:

# Crear nuestro primer store
store = create_file_search_store("reporte_1")

‚úÖ Store creado exitosamente
   ‚Ä¢ Nombre: fileSearchStores/reporte1-eg6nnoq7rwb7
   ‚Ä¢ Display Name: reporte_1


In [10]:

# Crear nuestro primer store
store_script = create_file_search_store("reporte_2")

‚úÖ Store creado exitosamente
   ‚Ä¢ Nombre: fileSearchStores/reporte2-fxyfq9pnwsow
   ‚Ä¢ Display Name: reporte_2


---

## 3. üìÑ Subir y Indexar Documentos

### Formatos soportados:
- üìë Documentos: PDF, DOCX, TXT, MD, RTF
- üíª C√≥digo: Python, JavaScript, Java, C++, Go, Rust, y m√°s
- üìä Datos: JSON, CSV, XML
- üåê Web: HTML

### M√©todo 1: Upload directo (recomendado)

In [11]:
def upload_file_to_store(
    file_path: str,
    store_name: str,
    display_name: Optional[str] = None,
    custom_metadata: Optional[List[Dict]] = None
) -> bool:
    """
    Sube e indexa un archivo directamente en un File Search Store.

    Args:
        file_path: Ruta local al archivo
        store_name: Nombre del store (ej: 'fileSearchStores/abc123')
        display_name: Nombre para identificar el archivo (opcional)
        custom_metadata: Lista de metadatos personalizados (opcional)

    Returns:
        bool: True si la indexaci√≥n fue exitosa
    """
    try:
        config = {}
        if display_name:
            config['display_name'] = display_name
        if custom_metadata:
            config['custom_metadata'] = custom_metadata

        print(f"üì§ Subiendo: {file_path}...")

        # Iniciar la operaci√≥n de upload
        operation = client.file_search_stores.upload_to_file_search_store(
            file=file_path,
            file_search_store_name=store_name,
            config=config if config else None
        )

        # Esperar a que la indexaci√≥n complete
        print(f"‚è≥ Indexando (esto puede tomar algunos segundos)...")
        while not operation.done:
            time.sleep(5)
            operation = client.operations.get(operation)

        print(f"‚úÖ Archivo indexado: {display_name or file_path}\n")
        return True

    except Exception as e:
        print(f"‚ùå Error indexando {file_path}: {str(e)}\n")
        return False

### Ejemplo: Crear un documento de prueba y subirlo

In [15]:
# Subir el documento
upload_file_to_store(
    file_path='/content/WEF_Future_of_Jobs_Report_2025.pdf',
    store_name=store.name,
    display_name='Reporte',
    custom_metadata=[
        {'key': 'tipo', 'string_value': 'gu√≠a'},
        {'key': 'idioma', 'string_value': 'english'},
        {'key': 'version', 'numeric_value': 1}
    ]
)

üì§ Subiendo: /content/WEF_Future_of_Jobs_Report_2025.pdf...
‚è≥ Indexando (esto puede tomar algunos segundos)...
‚úÖ Archivo indexado: Reporte



True

In [16]:
# Subir el documento
upload_file_to_store(
    file_path='/content/informe-colombia.pdf',
    store_name=store_script.name,
    display_name='Informe Colombia',
    custom_metadata=[
        {'key': 'tipo', 'string_value': 'script'},
        {'key': 'version', 'numeric_value': 2}
    ]
)

üì§ Subiendo: /content/informe-colombia.pdf...
‚è≥ Indexando (esto puede tomar algunos segundos)...
‚úÖ Archivo indexado: Informe Colombia



True

### Subir m√∫ltiples archivos de forma eficiente

In [17]:
def batch_upload_files(
    file_paths: List[str],
    store_name: str,
    metadata_generator: Optional[callable] = None
) -> Dict[str, bool]:
    """
    Sube m√∫ltiples archivos de forma secuencial.

    Args:
        file_paths: Lista de rutas a archivos
        store_name: Nombre del store
        metadata_generator: Funci√≥n que genera metadata para cada archivo

    Returns:
        Dict con el resultado de cada upload (filename: success_bool)
    """
    results = {}

    print(f"üì¶ Iniciando batch upload de {len(file_paths)} archivos...\n")

    for file_path in file_paths:
        metadata = metadata_generator(file_path) if metadata_generator else None

        success = upload_file_to_store(
            file_path=file_path,
            store_name=store_name,
            display_name=file_path,
            custom_metadata=metadata
        )

        results[file_path] = success

    # Resumen
    successful = sum(1 for v in results.values() if v)
    print(f"\nüìä Resumen: {successful}/{len(file_paths)} archivos indexados exitosamente")

    return results

# Ejemplo: crear y subir varios documentos
# (Descomenta si quieres probar con m√∫ltiples archivos)

# archivos = ['doc1.txt', 'doc2.txt', 'doc3.txt']
# results = batch_upload_files(archivos, store.name)

---

## 4. üîç Realizar B√∫squedas B√°sicas

Ahora que tenemos documentos indexados, podemos hacer consultas en lenguaje natural.

### C√≥mo funciona:
1. Tu consulta se convierte en un embedding
2. Se buscan los chunks m√°s similares sem√°nticamente
3. Los chunks relevantes se inyectan en el contexto del modelo
4. El modelo genera una respuesta fundamentada

In [24]:
def search_file_store(
    query: str,
    store_names: List[str],
    model: str = 'gemini-2.5-flash',
    metadata_filter: Optional[str] = None
) -> genai.types.GenerateContentResponse:
    """
    Realiza una b√∫squeda en uno o m√°s File Search Stores.

    Args:
        query: Pregunta o consulta en lenguaje natural
        store_names: Lista de stores donde buscar
        model: Modelo de Gemini a usar (2.5-flash o 2.5-pro)
        metadata_filter: Filtro opcional de metadata

    Returns:
        Respuesta del modelo con el contenido generado
    """
    # Configurar la herramienta de File Search
    file_search_config = types.FileSearch(
        file_search_store_names=store_names
    )

    if metadata_filter:
        file_search_config.metadata_filter = metadata_filter

    # Hacer la consulta
    response = client.models.generate_content(
        model=model,
        contents=query,
        config=types.GenerateContentConfig(
            tools=[
                types.Tool(
                    file_search=file_search_config
                )
            ]
        )
    )

    return response

[texto del enlace](https://)### Ejemplo: Consultas b√°sicas

In [28]:
# Consulta 1: Precio
print("‚ùì Pregunta: ¬øCu√°l es el costo de usar File Search?\n")

response = search_file_store(
    query="EHS Maturity curve percentage in stage 2",
    store_names=[store_script.name]
)

print(f"üí¨ Respuesta:\n{response.text}\n")
print("-" * 80)

‚ùì Pregunta: ¬øCu√°l es el costo de usar File Search?

üí¨ Respuesta:
According to the EHS Maturity Curve, 67.1% of organizations are in Stage 2, which is categorized as "Operational." In this stage, organizations focus on workforce engagement and visibility, utilizing point solutions for core areas, though some processes may still be paper and spreadsheet-based. This stage also involves limited digitization.

--------------------------------------------------------------------------------


In [16]:
# Consulta 2: Caracter√≠sticas
print("‚ùì Pregunta: ¬øQu√© formatos de archivo soporta?\n")

response = search_file_store(
    query="¬øValor global EHS SW 2024-25?",
    store_names=[store.name]
)

print(f"üí¨ Respuesta:\n{response.text}\n")
print("-" * 80)

‚ùì Pregunta: ¬øQu√© formatos de archivo soporta?

üí¨ Respuesta:
Lo siento, no pude encontrar el valor global del software EHS para 2024-2025 en los documentos proporcionados. Los informes se centran en tendencias econ√≥micas, perspectivas laborales, habilidades y otros aspectos, pero no en el tama√±o del mercado del software EHS.

--------------------------------------------------------------------------------


In [66]:
# Consulta 3: Casos de uso
print("‚ùì Pregunta: ¬øPara qu√© casos de uso se recomienda?\n")

response = search_file_store(
    query="El software de Environment, Health & Safety (EHS) pasar√° de ",
    store_names=[store.name]
)

print(f"üí¨ Respuesta:\n{response.text}\n")
print("-" * 80)

‚ùì Pregunta: ¬øPara qu√© casos de uso se recomienda?

üí¨ Respuesta:
El software de Environment, Health & Safety (EHS) est√° evolucionando para incorporar nuevas tendencias y prioridades. Aunque la informaci√≥n proporcionada no detalla una transici√≥n espec√≠fica "de X a Y" para el software EHS, se pueden inferir varias direcciones clave basadas en las tendencias generales del mercado laboral y las estrategias empresariales:

*   **De la gesti√≥n reactiva a la proactiva y basada en datos:** Se espera una creciente demanda de habilidades en IA y big data, as√≠ como un enfoque en el pensamiento anal√≠tico. Esto sugiere que el software EHS se mover√° hacia soluciones que utilicen grandes vol√∫menes de datos para an√°lisis predictivos y una gesti√≥n m√°s proactiva de la seguridad y el medio ambiente, en lugar de solo registrar incidentes pasados.
*   **Mayor integraci√≥n con la sostenibilidad y la gesti√≥n ambiental:** Las empresas est√°n priorizando la administraci√≥n ambiental y la red

In [None]:
# Consulta 4: Casos de uso
print("‚ùì Pregunta: Cual es el nombre del ganso?\n")

response = search_file_store(
    query="Cual es el nombre del ganso?",
    store_names=[store_script.name]
)

print(f"üí¨ Respuesta:\n{response.text}\n")
print("-" * 80)

‚ùì Pregunta: Cual es el nombre del ganso?

üí¨ Respuesta:
El nombre del ganso es Brightbill. Inicialmente, Roz lo nombr√≥ "Gosling zero-zero-zero-one", pero m√°s tarde le dio el nombre de Brightbill.

--------------------------------------------------------------------------------


In [None]:
# Consulta 4: Casos de uso
print("‚ùì Pregunta: Quien es Fink, responde en espa√±ol?\n")

response = search_file_store(
    query="Quien es Fink, responde en espa√±ol?",
    store_names=[store_script.name]
)

print(f"üí¨ Respuesta:\n{response.text}\n")
print("-" * 80)

‚ùì Pregunta: Quien es Fink, responde en espa√±ol?

üí¨ Respuesta:
Fink es un personaje de la pel√≠cula "Wild Robot". Se presenta como un zorro, un depredador astuto y resbaladizo, y un experto local en gansos.

Algunas caracter√≠sticas y acciones clave de Fink incluyen:
*   **Naturaleza depredadora y enga√±osa:** Inicialmente, Fink intenta arrebatar un gansito a Rozzum 7134, explicando que es su naturaleza de zorro hacer "cosas de zorro". Tambi√©n se muestra manipulador, preguntando si Rozzum 7134 cree todo lo que escucha despu√©s de decir que no se comer√≠a al gansito, para luego retractarse de inmediato.
*   **Ayuda al gansito:** A pesar de su naturaleza, Fink ayuda a Rozzum 7134 a cuidar al gansito, ense√±√°ndole a comer, nadar y volar. Sin embargo, sus m√©todos a menudo son ego√≠stas, como cuando se come las vieiras y la miel destinadas al gansito.
*   **Comportamiento y personalidad:** Fink es glot√≥n, se le ve comiendo frecuentemente y defendiendo su comida, incluso robando sal

---

## 5. üìö Obtener Citaciones

Las citaciones te permiten verificar de d√≥nde viene cada parte de la respuesta.

### Por qu√© son importantes:
- ‚úÖ Verificabilidad y confianza
- ‚úÖ Cumplimiento y auditor√≠a
- ‚úÖ Debugging de respuestas incorrectas
- ‚úÖ Transparencia en aplicaciones cr√≠ticas

In [None]:
def search_with_citations(
    query: str,
    store_names: List[str],
    show_full_chunks: bool = False
) -> None:
    """
    Realiza una b√∫squeda y muestra las citaciones de forma legible.

    Args:
        query: Pregunta en lenguaje natural
        store_names: Lista de stores donde buscar
        show_full_chunks: Si True, muestra el texto completo de cada chunk
    """
    print(f"‚ùì Pregunta: {query}\n")

    # Realizar b√∫squeda
    response = search_file_store(query, store_names)

    # Mostrar respuesta
    print(f"üí¨ Respuesta:\n{response.text}\n")
    print("=" * 80)

    # Obtener citaciones
    grounding = response.candidates[0].grounding_metadata

    if not grounding or not grounding.grounding_chunks:
        print("‚ÑπÔ∏è  No hay citaciones disponibles para esta respuesta")
        return

    print(f"\nüìñ CITACIONES ({len(grounding.grounding_chunks)} fuentes):\n")

    for i, chunk in enumerate(grounding.grounding_chunks, 1):
        context = chunk.retrieved_context

        print(f"[{i}] üìÑ Fuente: {context.title}")

        if show_full_chunks:
            print(f"    Contenido:\n{context.text}\n")
        else:
            # Mostrar solo un extracto
            preview = context.text[:200] + "..." if len(context.text) > 200 else context.text
            print(f"    Extracto: {preview}\n")

In [None]:
# Ejemplo: B√∫squeda con citaciones
search_with_citations(
    query="¬øCu√°les son los l√≠mites de almacenamiento seg√∫n el tier del usuario?",
    store_names=[store.name],
    show_full_chunks=False  # Cambia a True para ver el texto completo
)

‚ùì Pregunta: ¬øCu√°les son los l√≠mites de almacenamiento seg√∫n el tier del usuario?

üí¨ Respuesta:
Los l√≠mites de almacenamiento total para los almacenes de File Search de un proyecto var√≠an seg√∫n el nivel de usuario:

*   **Gratuito:** 1 GB
*   **Nivel 1:** 10 GB
*   **Nivel 2:** 100 GB
*   **Nivel 3:** 1 TB

Adem√°s, el tama√±o m√°ximo por archivo o por documento est√° limitado a 100 MB. Se recomienda que el tama√±o de cada almac√©n de File Search sea inferior a 20 GB para asegurar latencias √≥ptimas de recuperaci√≥n.

Es importante tener en cuenta que el l√≠mite de tama√±o del almac√©n de File Search se calcula en el backend, bas√°ndose en el tama√±o de la entrada m√°s los embeddings generados y almacenados con ella, lo que suele ser aproximadamente 3 veces el tama√±o de los datos de entrada. El almacenamiento en s√≠ no tiene costo.


üìñ CITACIONES (3 fuentes):

[1] üìÑ Fuente: Gu√≠a Completa de File Search
    Extracto: text/x-dsrc

text/x-emacs-lisp

text/x-erlang

text

---

## 6. üè∑Ô∏è Metadata Filtering Avanzado

El metadata filtering te permite hacer b√∫squedas ultra-precisas en subconjuntos de tus documentos.

### Sintaxis soportada:
- `key = 'value'` - Igualdad exacta
- `key != 'value'` - Diferente de
- `key > 100` - Mayor que (num√©rico)
- `key >= 100` - Mayor o igual
- `key < 100` - Menor que
- `key <= 100` - Menor o igual
- `key IN ['val1', 'val2']` - Uno de varios valores
- Combinar con `AND` y `OR`

### Crear documentos con metadata rica

In [None]:
# Crear varios documentos con diferentes metadata
docs_with_metadata = [
    {
        'filename': 'pricing_2025.txt',
        'content': 'Precios 2025: File Search cobra $0.15 por mill√≥n de tokens en indexaci√≥n. Storage es gratuito.',
        'metadata': [
            {'key': 'anio', 'numeric_value': 2025},
            {'key': 'categoria', 'string_value': 'pricing'},
            {'key': 'departamento', 'string_value': 'finanzas'}
        ]
    },
    {
        'filename': 'features_2024.txt',
        'content': 'Caracter√≠sticas 2024: Soporte para PDF, DOCX, TXT, c√≥digo fuente. B√∫squeda sem√°ntica avanzada.',
        'metadata': [
            {'key': 'anio', 'numeric_value': 2024},
            {'key': 'categoria', 'string_value': 'features'},
            {'key': 'departamento', 'string_value': 'producto'}
        ]
    },
    {
        'filename': 'pricing_2023.txt',
        'content': 'Precios 2023: En la versi√≥n anterior era de 0.5$ usd, el pricing era diferente. Versi√≥n legacy.',
        'metadata': [
            {'key': 'anio', 'numeric_value': 2023},
            {'key': 'categoria', 'string_value': 'pricing'},
            {'key': 'departamento', 'string_value': 'finanzas'},
            {'key': 'legacy', 'string_value': 'true'}
        ]
    }
]

# Subir los documentos
for doc in docs_with_metadata:
    # Crear archivo temporal
    with open(doc['filename'], 'w', encoding='utf-8') as f:
        f.write(doc['content'])

    # Subir con metadata
    upload_file_to_store(
        file_path=doc['filename'],
        store_name=store.name,
        display_name=doc['filename'],
        custom_metadata=doc['metadata']
    )

print("‚úÖ Documentos con metadata subidos")

üì§ Subiendo: pricing_2025.txt...
‚è≥ Indexando (esto puede tomar algunos segundos)...
‚úÖ Archivo indexado: pricing_2025.txt

üì§ Subiendo: features_2024.txt...
‚è≥ Indexando (esto puede tomar algunos segundos)...
‚úÖ Archivo indexado: features_2024.txt

üì§ Subiendo: pricing_2023.txt...
‚è≥ Indexando (esto puede tomar algunos segundos)...
‚úÖ Archivo indexado: pricing_2023.txt

‚úÖ Documentos con metadata subidos


### Ejemplos de filtrado

In [None]:
# Filtro 1: Solo documentos de 2024
print("üîç Filtro: anio = 2025\n")

response = search_file_store(
    query="¬øCu√°l es el precio actual?",
    store_names=[store.name],
    metadata_filter="anio=2025"
)

print(f"Respuesta: {response.text}\n")
print("-" * 80)

üîç Filtro: anio = 2025

Respuesta: El precio actual para la indexaci√≥n con File Search es de $0.15 por mill√≥n de tokens. El almacenamiento es gratuito.

--------------------------------------------------------------------------------


In [None]:
# Filtro 2: Rango de a√±os
print("üîç Filtro: anio >= 2024\n")

response = search_file_store(
    query="Dame la informaci√≥n de Caracter√≠sticas",
    store_names=[store.name],
    metadata_filter="anio>=2024"
)

print(f"Respuesta: {response.text}\n")
print("-" * 80)

üîç Filtro: anio >= 2024

Respuesta: Las caracter√≠sticas disponibles para el a√±o 2024 incluyen soporte para diferentes formatos de archivo como PDF, DOCX, TXT y c√≥digo fuente. Tambi√©n se destaca la funcionalidad de b√∫squeda sem√°ntica avanzada.

--------------------------------------------------------------------------------


In [None]:
# Filtro 3: M√∫ltiples categor√≠as con OR
print("üîç Filtro: departamento finanzas\n")

response = search_file_store(
    query="Hay precios para 2023?",
    store_names=[store.name],
    metadata_filter="departamento=finanzas"
)

print(f"Respuesta: {response.text}\n")
print("-" * 80)

üîç Filtro: departamento finanzas

Respuesta: S√≠, hay informaci√≥n sobre precios para 2023. En la versi√≥n anterior, el precio era de 0.5 USD, y se refiere a una versi√≥n legacy.

--------------------------------------------------------------------------------


---

## 7. üóÇÔ∏è Gesti√≥n de Stores

Funciones para listar, obtener informaci√≥n, y eliminar stores.

In [51]:
def list_all_stores() -> List[genai.types.FileSearchStore]:
    """
    Lista todos los File Search Stores del usuario.

    Returns:
        Lista de FileSearchStore objects
    """
    stores = list(client.file_search_stores.list())

    print(f"üìö Tienes {len(stores)} store(s):\n")

    for i, store in enumerate(stores, 1):
        print(f"{i}. {store.display_name or 'Sin nombre'}")
        print(f"   ‚Ä¢ ID: {store.name}")
        print(f"   ‚Ä¢ Creado: {store.create_time}\n")

    return stores

# Listar stores
my_stores = list_all_stores()

üìö Tienes 4 store(s):

1. Tutorial Gemini File Search - Documentaci√≥n
   ‚Ä¢ ID: fileSearchStores/tutorial-gemini-file-search-iklce8ioifrj
   ‚Ä¢ Creado: 2025-11-26 14:22:19.165785+00:00

2. Script peliculas
   ‚Ä¢ ID: fileSearchStores/script-peliculas-ajfi4b7f9nli
   ‚Ä¢ Creado: 2025-11-26 14:23:56.660188+00:00

3. Script peliculas
   ‚Ä¢ ID: fileSearchStores/script-peliculas-4hkv65d8r8vd
   ‚Ä¢ Creado: 2025-11-26 14:50:45.579962+00:00

4. Tutorial Gemini File Search - Documentaci√≥n
   ‚Ä¢ ID: fileSearchStores/tutorial-gemini-file-search-i8e1b0k6d5t7
   ‚Ä¢ Creado: 2025-11-26 14:50:46.345975+00:00



In [52]:
def get_store_info(store_name: str) -> None:
    """
    Obtiene informaci√≥n detallada de un store espec√≠fico.

    Args:
        store_name: Nombre completo del store
    """
    try:
        store = client.file_search_stores.get(name=store_name)

        print(f"üìä Informaci√≥n del Store:\n")
        print(f"Nombre: {store.display_name or 'Sin nombre'}")
        print(f"ID: {store.name}")
        print(f"Creado: {store.create_time}")
        print(f"Actualizado: {store.update_time}")

    except Exception as e:
        print(f"‚ùå Error obteniendo info del store: {str(e)}")

# Ver info del store actual
get_store_info(store.name)

üìä Informaci√≥n del Store:

Nombre: Tutorial Gemini File Search - Documentaci√≥n
ID: fileSearchStores/tutorial-gemini-file-search-i8e1b0k6d5t7
Creado: 2025-11-26 14:50:46.345975+00:00
Actualizado: 2025-11-26 14:50:46.345975+00:00


In [None]:
def delete_store(store_name: str, confirm: bool = False) -> bool:
    """
    Elimina un File Search Store.

    ‚ö†Ô∏è ADVERTENCIA: Esta acci√≥n es IRREVERSIBLE.
    Se perder√°n todos los documentos indexados.

    Args:
        store_name: Nombre del store a eliminar
        confirm: Debe ser True para confirmar la eliminaci√≥n

    Returns:
        bool: True si se elimin√≥ exitosamente
    """
    if not confirm:
        print("‚ö†Ô∏è  ADVERTENCIA: Debes pasar confirm=True para eliminar el store")
        print("   Esta acci√≥n es IRREVERSIBLE y eliminar√° todos los documentos indexados.")
        return False

    try:
        client.file_search_stores.delete(name=store_name, config={'force': True})
        print(f"‚úÖ Store eliminado: {store_name}")
        return True

    except Exception as e:
        print(f"‚ùå Error eliminando store: {str(e)}")
        return False

# Ejemplo (comentado por seguridad)
delete_store('fileSearchStores/mi-documentacin-tcnica-0uml3wlpg780', confirm=True)

‚úÖ Store eliminado: fileSearchStores/mi-documentacin-tcnica-0uml3wlpg780


True

---

## 8. ‚öôÔ∏è Chunking Personalizado

Por defecto, File Search usa chunking autom√°tico inteligente. Pero puedes personalizarlo si necesitas control espec√≠fico.

In [None]:
def upload_with_custom_chunking(
    file_path: str,
    store_name: str,
    max_tokens_per_chunk: int = 500,
    max_overlap_tokens: int = 50
) -> bool:
    """
    Sube un archivo con configuraci√≥n personalizada de chunking.

    Args:
        file_path: Ruta al archivo
        store_name: Nombre del store
        max_tokens_per_chunk: M√°ximo de tokens por chunk (default: 500)
        max_overlap_tokens: Tokens de overlap entre chunks (default: 50)

    Returns:
        bool: True si fue exitoso
    """
    try:
        print(f"üì§ Subiendo con chunking personalizado:")
        print(f"   ‚Ä¢ Max tokens por chunk: {max_tokens_per_chunk}")
        print(f"   ‚Ä¢ Overlap: {max_overlap_tokens} tokens\n")

        operation = client.file_search_stores.upload_to_file_search_store(
            file=file_path,
            file_search_store_name=store_name,
            config={
                'display_name': file_path,
                'chunking_config': {
                    'white_space_config': {
                        'max_tokens_per_chunk': max_tokens_per_chunk,
                        'max_overlap_tokens': max_overlap_tokens
                    }
                }
            }
        )

        # Esperar indexaci√≥n
        while not operation.done:
            time.sleep(5)
            operation = client.operations.get(operation)

        print(f"‚úÖ Archivo indexado con chunking personalizado\n")
        return True

    except Exception as e:
        print(f"‚ùå Error: {str(e)}")
        return False

In [None]:
# Crear documento de prueba con texto largo
long_content = """
Chunking en RAG: Gu√≠a Completa

El chunking es el proceso de dividir documentos largos en segmentos m√°s peque√±os.
Esto es crucial porque los modelos tienen l√≠mites de contexto y necesitamos
recuperar solo la informaci√≥n relevante.

Estrategias de Chunking:

1. Fixed-size chunking: Dividir por n√∫mero fijo de tokens o caracteres.
   Ventajas: Simple de implementar.
   Desventajas: Puede cortar contexto importante.

2. Semantic chunking: Dividir por significado sem√°ntico.
   Ventajas: Mantiene contexto coherente.
   Desventajas: M√°s complejo de implementar.

3. Recursive chunking: Dividir jer√°rquicamente (p√°rrafos, oraciones, etc.).
   Ventajas: Balancea tama√±o y coherencia.
   Desventajas: Requiere an√°lisis estructural.

File Search usa una combinaci√≥n de estas estrategias autom√°ticamente.

El overlap entre chunks es importante para:
- No perder contexto en los bordes
- Mejorar recuperaci√≥n de informaci√≥n fragmentada
- Aumentar recall en b√∫squedas

Un buen overlap t√≠pico es 10-20% del tama√±o del chunk.
""" * 3  # Repetir para hacer el documento m√°s largo

with open('chunking_guide.txt', 'w', encoding='utf-8') as f:
    f.write(long_content)

# Subir con chunking personalizado
upload_with_custom_chunking(
    file_path='chunking_guide.txt',
    store_name=store.name,
    max_tokens_per_chunk=200,  # Chunks m√°s peque√±os
    max_overlap_tokens=40      # 20% de overlap
)

üì§ Subiendo con chunking personalizado:
   ‚Ä¢ Max tokens por chunk: 200
   ‚Ä¢ Overlap: 40 tokens

‚úÖ Archivo indexado con chunking personalizado



True

---

## 9. üí° Mejores Pr√°cticas

### ‚úÖ DO's (Hazlo)

```python
# ‚úÖ Organizar stores por tipo de contenido
docs_publicas = create_file_search_store("Documentaci√≥n P√∫blica")
docs_internas = create_file_search_store("Documentaci√≥n Interna")
training_data = create_file_search_store("Datos de Entrenamiento")

# ‚úÖ Usar metadata rica para filtrado preciso
metadata = [
    {'key': 'departamento', 'string_value': 'ingenieria'},
    {'key': 'fecha', 'numeric_value': 20240101},
    {'key': 'confidencial', 'string_value': 'no'},
    {'key': 'version', 'numeric_value': 2}
]

# ‚úÖ Manejar errores apropiadamente
try:
    response = search_file_store(query, [store.name])
except Exception as e:
    logging.error(f"Error en b√∫squeda: {e}")
    # Fallback o retry logic

# ‚úÖ Validar citaciones en aplicaciones cr√≠ticas
if not response.candidates[0].grounding_metadata:
    print("‚ö†Ô∏è Respuesta sin citaciones - validar manualmente")

# ‚úÖ Usar display_names descriptivos
upload_file_to_store(
    file='doc.pdf',
    store_name=store.name,
    display_name='API Documentation v2.3 - Authentication Module'
)

# ‚úÖ Implementar rate limiting en producci√≥n
import time
from functools import wraps

def rate_limit(calls_per_minute=10):
    def decorator(func):
        last_calls = []
        
        @wraps(func)
        def wrapper(*args, **kwargs):
            now = time.time()
            last_calls[:] = [t for t in last_calls if now - t < 60]
            
            if len(last_calls) >= calls_per_minute:
                sleep_time = 60 - (now - last_calls[0])
                time.sleep(sleep_time)
            
            last_calls.append(time.time())
            return func(*args, **kwargs)
        
        return wrapper
    return decorator
```

### ‚ùå DON'Ts (No lo hagas)

```python
# ‚ùå NO subir archivos sin esperar a que la indexaci√≥n complete
operation = client.file_search_stores.upload_to_file_search_store(...)
# Falta el while loop para esperar
search_file_store(query, [store.name])  # Puede fallar!

# ‚ùå NO poner credenciales hardcoded
API_KEY = 'AIzaSyXXXXXXXX'  # Nunca hagas esto!

# ‚úÖ Usa variables de entorno
API_KEY = os.getenv('GOOGLE_API_KEY')

# ‚ùå NO ignorar los l√≠mites de tama√±o
# Archivo de 150MB - excede el l√≠mite de 100MB
upload_file_to_store('huge_file.pdf', store.name)  # Fallar√°!

# ‚úÖ Verificar tama√±o antes de subir
import os
file_size_mb = os.path.getsize('file.pdf') / (1024 * 1024)
if file_size_mb > 100:
    print("Archivo muy grande - considerar dividir")

# ‚ùå NO usar modelos no soportados
search_file_store(
    query="test",
    store_names=[store.name],
    model='gemini-1.5-pro'  # No soportado!
)

# ‚úÖ Usar solo modelos soportados
supported_models = ['gemini-2.5-flash', 'gemini-2.5-pro']

# ‚ùå NO asumir que siempre hay citaciones
sources = response.candidates[0].grounding_metadata.grounding_chunks[0]  # Puede ser None!

# ‚úÖ Verificar primero
grounding = response.candidates[0].grounding_metadata
if grounding and grounding.grounding_chunks:
    sources = grounding.grounding_chunks

# ‚ùå NO crear un store gigante con todo
mega_store = create_file_search_store("Todo")
# Sube docs p√∫blicos, internos, c√≥digo, etc. todo junto - mala pr√°ctica!

# ‚úÖ Separar por contexto y seguridad
public_store = create_file_search_store("P√∫blico")
private_store = create_file_search_store("Interno")
```