# Cuaderno de Documentación: 01 - Configuración Central (`config.py`)

El archivo `scripts/config.py` es el corazón de la configuración de nuestro proyecto RAG. Centraliza todas las variables importantes, rutas de directorios y parámetros de procesamiento para que sean fácilmente accesibles y modificables desde un único lugar. Esto mejora la mantenibilidad y la claridad del código.

## Responsabilidades Principales de `config.py`

1.  **Carga de la API Key de Gemini:**
    * Utiliza la biblioteca `python-dotenv` para cargar la `GEMINI_API_KEY` desde un archivo `.env` ubicado en la raíz del proyecto (`D:/tesismma/.env`). Este método es seguro ya que el archivo `.env` no se incluye en el control de versiones (gracias a `.gitignore`).
    * Configura la API de Google Generative AI (`genai.configure(api_key=GEMINI_API_KEY)`).

2.  **Definición de Rutas del Proyecto:**
    * Establece la ruta raíz del proyecto (`PROJECT_ROOT`) y el directorio principal de datos (`DATA_DIR`).
    * Define rutas específicas para las subcarpetas de datos: `DOCS_BASE_CONOCIMIENTO_PATH`, `PROYECTO_A_ANALIZAR_PATH`, `CHROMA_DB_PATH` y `OUTPUT_PATH`.
    * Todas las rutas se construyen de forma relativa a la ubicación del proyecto, asegurando portabilidad.

3.  **Parámetros de Procesamiento:**
    * Define constantes clave para el procesamiento de texto y la configuración del RAG, tales como:
        * `CHUNK_SIZE`: El tamaño de los fragmentos de texto.
        * `CHUNK_OVERLAP`: El solapamiento entre fragmentos consecutivos.
        * `EMBEDDING_MODEL_NAME`: El nombre del modelo de sentence-transformers para generar embeddings.
        * `LLM_MODEL_NAME`: El identificador del modelo Gemini a utilizar.
        * `K_RETRIEVED_DOCS`: El número de documentos relevantes a recuperar de la base de conocimiento.
        * `NOMBRE_PDF_PROYECTO_ANALIZAR`: El nombre del archivo PDF que contiene la descripción del proyecto a analizar.
        * `MAX_CHARS_PROYECTO`: Límite de caracteres para la descripción del proyecto enviada al LLM.

4.  **Control de la Base de Datos Vectorial:**
    * Incluye una variable booleana `RECREAR_DB`. Si es `True`, la base de datos ChromaDB existente se eliminará y se creará una nueva. Si es `False` (valor por defecto), el sistema intentará cargar la base de datos existente. Esto es útil para forzar una reconstrucción de la base de conocimiento después de actualizar los documentos fuente.

5.  **Funciones de Utilidad:**
    * `configure_google_api()`: Encapsula la lógica de configuración de la API de Gemini.
    * `inicializar_directorios_datos()`: Crea las carpetas de datos necesarias (`BaseConocimiento`, `ProyectoAnalizar`, `ChromaDB_V1`, `Resultados`) si no existen.

## Importancia del Archivo `.env`

El archivo `.env` (ubicado en `D:/tesismma/.env`) es crucial para la seguridad de tu API Key. Debe contener:
```
GEMINI_API_KEY="TU_API_KEY_REAL_AQUI"
```
Este archivo **NUNCA** debe ser subido a un repositorio Git. El archivo `.gitignore` ya está configurado para excluirlo.

A continuación, se muestra el contenido del script `config.py` para referencia.

In [None]:
# Cargar el contenido del script config.py
# Asegúrate de que la ruta relativa sea correcta desde la ubicación de este notebook.
%load ../scripts/config.py