# Cuaderno de Documentación: 00 - Introducción y Configuración del Entorno

Bienvenido al proyecto RAG (Retrieval Augmented Generation) para el Análisis de Riesgos en la Instalación de Maquinaria Industrial. Este sistema está diseñado para ejecutarse localmente y utiliza una base de conocimiento personalizada junto con modelos de lenguaje grandes (LLMs) de Google Gemini para realizar análisis detallados.

## Propósito del Proyecto

El objetivo principal es proporcionar una herramienta que pueda:
1.  Utilizar una base de documentos técnicos (manuales, normativas, lecciones aprendidas del PMBOK) para construir un conocimiento especializado.
2.  Analizar la descripción de un nuevo proyecto de instalación de maquinaria (proporcionada en un archivo PDF).
3.  Identificar y evaluar posibles riesgos asociados con el nuevo proyecto, basándose en la información recuperada de la base de conocimiento y la capacidad de razonamiento del LLM.
4.  Presentar los riesgos identificados en un formato estructurado (JSON), incluyendo descripción, explicación, impacto estimado y probabilidad estimada.

## Estructura del Proyecto

El proyecto está organizado de la siguiente manera para asegurar modularidad y facilidad de mantenimiento:

```
D:/tesismma/
├── datos/                  # Almacenamiento de datos
│   ├── BaseConocimiento/   # PDFs para la base de conocimiento
│   ├── ProyectoAnalizar/   # PDF del proyecto a analizar
│   ├── ChromaDB_V1/        # Base de datos vectorial (generada)
│   └── Resultados/         # Reportes JSON (generados)
├── notebooks_documentacion/ # Notebooks explicativos (como este)
├── scripts/                # Módulos de Python y orquestador
│   ├── config.py           # Configuración central
│   ├── document_utils.py   # Utilidades para procesar PDFs
│   ├── vector_db_manager.py # Gestión de ChromaDB y embeddings
│   ├── rag_components.py   # Creación del LLM y cadena RAG
│   ├── report_utils.py     # Formateo de la salida del LLM
│   └── main.py             # Orquestador principal
├── .env                    # Variables de entorno (API Key) - ¡NO SUBIR A GIT!
├── .env.example            # Ejemplo para .env
├── requirements.txt        # Dependencias de Python
├── .gitignore              # Archivos a ignorar por Git
└── README.md               # Instrucciones principales del proyecto
```

## Pasos de Configuración Inicial (Resumen)

Antes de ejecutar el sistema, asegúrate de seguir estos pasos (detallados en `README.md`):

1.  **Clonar el Repositorio (Opcional):** Si el proyecto está en un repositorio Git.
2.  **Crear y Activar un Entorno Virtual:** Esencial para gestionar las dependencias de Python de forma aislada.
    ```bash
    python -m venv venv
    # Windows: venv\Scripts\activate
    # Linux/macOS: source venv/bin/activate
    ```
3.  **Instalar Dependencias:**
    ```bash
    pip install -r requirements.txt
    ```
4.  **Configurar Variables de Entorno:**
    * Crea un archivo `.env` en la raíz del proyecto (`D:/tesismma/.env`).
    * Añade tu `GEMINI_API_KEY`:
        ```
        GEMINI_API_KEY="TU_API_KEY_AQUI"
        ```
5.  **Preparar los Datos:**
    * Coloca los PDFs de la base de conocimiento en `D:/tesismma/datos/BaseConocimiento/`.
    * Coloca el PDF del proyecto a analizar en `D:/tesismma/datos/ProyectoAnalizar/` (por defecto, `Proyecto_a_analizar_v1.pdf`).

## Siguientes Pasos

Los siguientes cuadernos de documentación detallarán cada uno de los módulos de Python (`.py`) que componen este sistema.