# üõ†Ô∏è Configuraci√≥n del Entorno MLOps (Setup)

**Objetivo:**
Preparar el entorno de desarrollo en Google Colab/Drive, garantizando que la estructura del proyecto cumpla con los est√°ndares, el repositorio est√© sincronizado y la documentaci√≥n base exista.

**Pasos del Script:**
1.  **Conexi√≥n:** Montaje de Google Drive.
2.  **Git:** Clona el repositorio si no existe, o hace `git pull` si ya est√° creado.
3.  **Estructura de Directorios:** Crea/Verifica la arquitectura de carpetas (Raw, Processed, Models, etc.).
4.  **Generaci√≥n de Assets:** Crea autom√°ticamente el Diccionario de Datos en la carpeta de referencias.

---
* **Proyecto:** Heart Disease Prediction MLOps
* **Autor:** [Feliz Florian Jose Luis]
* **Repositorio:** [GitHub Link](https://github.com/JoseLuisFelizFlorian/heart_disease_prediction_mlops.git)
---

In [6]:
import os
from google.colab import drive

# --- CONEXI√ìN A GOOGLE DRIVE ---
# Montaje de Unidad (Persistencia en Google Drive)
drive.mount('/content/drive')

# --- DEFINICI√ìN DE RUTAS (CONSTANTES) ---
# Definimos la ra√≠z donde estara el proyectos en Drive
DRIVE_ROOT = "/content/drive/MyDrive/Colab Notebooks"
PROJECT_NAME = "heart_disease_prediction_mlops"
PROJECT_PATH = os.path.join(DRIVE_ROOT, PROJECT_NAME)

# --- GESTI√ìN GITHUB ---
# L√≥gica: Si la carpeta ya existe, entramos y actualizamos. Si no, clonamos.

if os.path.exists(PROJECT_PATH):
    print(f"\n * El proyecto ya existe en: {PROJECT_PATH}\n")
    os.chdir(PROJECT_PATH)

    # Opcional: Actualizar cambios si modificaste algo directamente en GitHub
    print(" * Verificando actualizaciones (git pull)...\n")
    !git pull origin main

else:
    print(f" * Clonando repositorio por primera vez en: {DRIVE_ROOT}...\n")
    os.chdir(DRIVE_ROOT)

    # Clonaci√≥n del repositorio oficial
    !git clone https://github.com/JoseLuisFelizFlorian/heart_disease_prediction_mlops.git

    # Nos movemos a la carpeta reci√©n creada
    os.chdir(PROJECT_PATH)

print(f"\n * Directorio de trabajo establecido en: {os.getcwd()}\n")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).

 * El proyecto ya existe en: /content/drive/MyDrive/Colab Notebooks/heart_disease_prediction_mlops

 * Verificando actualizaciones (git pull)...

From https://github.com/JoseLuisFelizFlorian/heart_disease_prediction_mlops
 * branch            main       -> FETCH_HEAD
Already up to date.

 * Directorio de trabajo establecido en: /content/drive/MyDrive/Colab Notebooks/heart_disease_prediction_mlops



In [9]:
# --- ASEGURAMIENTO DE ESTRUCTURA DE CARPETAS ---
# Definimos la arquitectura est√°ndar. El script es idempotente (no rompe si ya existen).

folders = [
    "data/01_raw",        # Datos crudos inmutables
    "data/02_interim",    # Datos limpios/transformados intermedios
    "data/03_processed",  # Datos finales para entrenamiento
    "data/04_external",   # Datos de fuentes externas
    "data/05_models",     # Modelos serializados (.pkl)
    "data/06_reporting",  # Reportes y m√©tricas
    "notebooks",          # Jupyter Notebooks de experimentos
    "src",                # C√≥digo fuente modular
    "api",                # C√≥digo de la aplicaci√≥n Streamlit/Flask
    "references",         # Diccionarios de datos y manuales
    "tests",              # Unit tests
    "artefacts"           # Scalers, Imputers y otros objetos binarios
]

print("\n--- Verificando arquitectura de carpetas ---\n")

for folder in folders:
    # Crear carpeta
    os.makedirs(folder, exist_ok=True)

    # Crear archivo .gitkeep para que Git rastree carpetas vac√≠as
    gitkeep_path = f"{folder}/.gitkeep"
    if not os.path.exists(gitkeep_path):
        with open(gitkeep_path, "w") as f:
            pass # Archivo vac√≠o

print(" Estructura de carpetas verificada y lista.\n")


--- Verificando arquitectura de carpetas ---

 Estructura de carpetas verificada y lista.



In [12]:
# --- GENERACI√ìN DE DOCUMENTACI√ìN ---
# Creamos el diccionario de datos para referencia futura.

data_dictionary_content = """
# Diccionario de Datos - Heart Disease Prediction

| Columna | Descripci√≥n | Valores / Unidades |
|:---|:---|:---|
| **Age** | Edad del paciente | A√±os |
| **Sex** | Sexo del paciente | M: Masculino, F: Femenino |
| **ChestPainType** | Tipo de dolor de pecho | TA, ATA, NAP, ASY |
| **RestingBP** | Presi√≥n arterial en reposo | mm Hg |
| **Cholesterol** | Colesterol s√©rico | mm/dl |
| **FastingBS** | Az√∫car en sangre en ayunas | 1: > 120 mg/dl, 0: Contario |
| **RestingECG** | Resultados ECG en reposo | Normal, ST, LVH |
| **MaxHR** | Frecuencia card√≠aca m√°xima | 60-202 |
| **ExerciseAngina** | Angina por ejercicio | Y: S√≠, N: No |
| **Oldpeak** | Depresi√≥n del ST | Num√©rico |
| **ST_Slope** | Pendiente del segmento ST | Up, Flat, Down |
| **HeartDisease** | **TARGET** | 1: Enfermedad, 0: Normal |
"""

# Escribimos el archivo en la carpeta 'references' (que creamos en el paso anterior)
dictionary_path = "references/data_dictionary.md"

with open(dictionary_path, "w") as f:
    f.write(data_dictionary_content)

print(f"\n Archivo de documentaci√≥n generado en: {dictionary_path}")
print("\n SETUP FINALIZADO. Ya puedes proceder a iniciar con el  Notebook 01_EDA_Analysis.")


 Archivo de documentaci√≥n generado en: references/data_dictionary.md

 SETUP FINALIZADO. Ya puedes proceder a iniciar con el  Notebook 01_EDA_Analysis.
