# 01 ¬∑ Instalaci√≥n y configuraci√≥n del entorno de trabajo

**M√≥dulo I ‚Äî Fundamentos**

## Objetivos:
- Verificar la instalaci√≥n de Python y detectar el entorno de ejecuci√≥n
- Preparar la estructura m√≠nima del proyecto (carpetas de datos y reportes)
- Instalar y validar dependencias base para el curso
- Ejecutar una prueba r√°pida de importaci√≥n y visualizaci√≥n

## Requisitos:
- Python 3.10+ o Google Colab
- Internet para instalar paquetes si hace falta

## √çndice:
1. Detecci√≥n de entorno (Colab/Jupyter/VSCode)
2. Preparaci√≥n de carpetas
3. Instalaci√≥n de dependencias
4. Verificaci√≥n de versiones
5. Prueba de visualizaci√≥n y guardado
6. Notas para VSCode/Colab
7. Ejercicios r√°pidos

## 1Ô∏è‚É£ Detecci√≥n de entorno

Identificamos si est√°s en Google Colab o en un Jupyter local (p.ej. VSCode).

In [None]:
import sys, os, platform

def detectar_entorno():
    in_colab = False
    try:
        import google.colab  # type: ignore
        in_colab = True
    except Exception:
        in_colab = False

    in_vscode = bool(os.environ.get("VSCODE_PID") or os.environ.get("TERM_PROGRAM") == "vscode")

    return {
        "in_colab": in_colab,
        "in_vscode": in_vscode,
        "python_version": sys.version.replace("\n", " "),
        "executable": sys.executable,
        "platform": platform.platform(),
    }

info_entorno = detectar_entorno()
print("üîç Informaci√≥n del entorno:")
for key, value in info_entorno.items():
    print(f"  {key}: {value}")

## 2Ô∏è‚É£ Preparaci√≥n de carpetas

Crearemos la estructura est√°ndar del proyecto:
- `data/raw` - datos originales
- `data/processed` - datos procesados
- `reports/figures` - gr√°ficos y reportes

In [None]:
from pathlib import Path
import json
from datetime import datetime

# Definir estructura de carpetas
BASE_DIR = Path.cwd()
DATA_RAW = BASE_DIR / "data" / "raw"
DATA_PROCESSED = BASE_DIR / "data" / "processed"
REPORTS_FIGURES = BASE_DIR / "reports" / "figures"

# Crear carpetas
for d in [DATA_RAW, DATA_PROCESSED, REPORTS_FIGURES]:
    d.mkdir(parents=True, exist_ok=True)

# Guardar metadatos
runtime_info = {
    "timestamp": datetime.now().isoformat(),
    "environment": info_entorno,
    "working_dir": str(BASE_DIR),
    "created_folders": [str(d.relative_to(BASE_DIR)) for d in [DATA_RAW, DATA_PROCESSED, REPORTS_FIGURES]]
}

(BASE_DIR / "runtime_info.json").write_text(json.dumps(runtime_info, indent=2), encoding="utf-8")

print("üìÅ Carpetas creadas:")
for d in [DATA_RAW, DATA_PROCESSED, REPORTS_FIGURES]:
    print(f"  ‚úÖ {d.relative_to(BASE_DIR)}")
print("\nüìÑ Archivo generado: runtime_info.json")

## 3Ô∏è‚É£ Instalaci√≥n de dependencias

Verificamos e instalamos los paquetes necesarios para el curso:

**Paquetes base:**
- `numpy`, `pandas` - manipulaci√≥n de datos
- `matplotlib`, `seaborn` - visualizaci√≥n
- `openpyxl` - archivos Excel
- `lxml` - archivos XML/HTML
- `pyarrow` - archivos Parquet
- `requests` - descargas web

In [None]:
import subprocess, importlib

PAQUETES = [
    "numpy",
    "pandas",
    "matplotlib",
    "seaborn",
    "openpyxl",
    "lxml",
    "pyarrow",
    "requests",
]

def ensure_package(pkg: str):
    """Verifica si un paquete est√° instalado, si no lo instala"""
    try:
        importlib.import_module(pkg)
        print(f"  ‚úÖ {pkg} - ya instalado")
        return True
    except ImportError:
        print(f"  üì¶ Instalando {pkg}...")
        try:
            cmd = [sys.executable, "-m", "pip", "install", "-q", "-U", pkg]
            result = subprocess.run(cmd, capture_output=True, text=True)
            if result.returncode == 0:
                print(f"  ‚úÖ {pkg} - instalado correctamente")
                return True
            else:
                print(f"  ‚ùå Error instalando {pkg}: {result.stderr}")
                return False
        except Exception as e:
            print(f"  ‚ùå Excepci√≥n instalando {pkg}: {e}")
            return False

print("üîß Verificando e instalando dependencias:")
resultados = {}
for pkg in PAQUETES:
    resultados[pkg] = ensure_package(pkg)

# Resumen
exitosos = sum(resultados.values())
total = len(resultados)
print(f"\nüìä Resumen: {exitosos}/{total} paquetes instalados correctamente")

## 4Ô∏è‚É£ Verificaci√≥n de versiones

Importamos las librer√≠as y verificamos sus versiones para confirmar que todo funciona.

In [None]:
print("üìö Importando librer√≠as y verificando versiones...")

try:
    import numpy as np
    import pandas as pd
    import matplotlib
    import matplotlib.pyplot as plt
    import seaborn as sns
    import openpyxl
    import lxml
    import pyarrow
    import requests
    
    print("‚úÖ Todas las importaciones exitosas!")
    
    versions = {
        "Python": sys.version.split()[0],
        "NumPy": np.__version__,
        "Pandas": pd.__version__,
        "Matplotlib": matplotlib.__version__,
        "Seaborn": sns.__version__,
        "OpenPyXL": openpyxl.__version__,
        "lxml": lxml.__version__,
        "PyArrow": pyarrow.__version__,
        "Requests": requests.__version__,
    }
    
    print("\nüìã Versiones instaladas:")
    for lib, version in versions.items():
        print(f"  {lib}: {version}")
        
except ImportError as e:
    print(f"‚ùå Error en la importaci√≥n: {e}")
    print("üí° Ejecuta la celda anterior para instalar las dependencias")

## 5Ô∏è‚É£ Prueba de visualizaci√≥n y guardado

Creamos un dataset sint√©tico, lo guardamos como CSV y generamos una visualizaci√≥n para probar que todo funciona correctamente.

In [None]:
# Generar datos sint√©ticos
print("üé≤ Generando datos sint√©ticos...")
rng = np.random.default_rng(seed=42)
n = 200

df = pd.DataFrame({
    "edad": rng.integers(18, 80, size=n),
    "peso": rng.normal(loc=70, scale=15, size=n),
    "altura": rng.normal(loc=170, scale=10, size=n),
    "genero": rng.choice(["M", "F"], size=n),
    "ciudad": rng.choice(["Cali", "Bogot√°", "Medell√≠n"], size=n)
})

# Calcular IMC
df["imc"] = df["peso"] / (df["altura"] / 100) ** 2

print(f"üìä Dataset creado: {df.shape[0]} filas, {df.shape[1]} columnas")
print("\nüîç Primeras 5 filas:")
display(df.head())

# Guardar CSV
csv_path = DATA_PROCESSED / "datos_sinteticos_salud.csv"
df.to_csv(csv_path, index=False)
print(f"\nüíæ CSV guardado en: {csv_path.relative_to(BASE_DIR)}")

In [None]:
# Crear visualizaci√≥n
print("üìà Creando visualizaci√≥n...")

# Configurar estilo
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (12, 8)

# Crear subplots
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
fig.suptitle("An√°lisis Exploratorio - Datos Sint√©ticos de Salud", fontsize=16, fontweight="bold")

# Gr√°fico 1: Distribuci√≥n de edad
sns.histplot(data=df, x="edad", hue="genero", alpha=0.7, ax=axes[0,0])
axes[0,0].set_title("Distribuci√≥n de Edad por G√©nero")

# Gr√°fico 2: Relaci√≥n peso vs altura
sns.scatterplot(data=df, x="altura", y="peso", hue="genero", alpha=0.7, ax=axes[0,1])
axes[0,1].set_title("Relaci√≥n Altura vs Peso")

# Gr√°fico 3: Distribuci√≥n de IMC
sns.boxplot(data=df, x="ciudad", y="imc", ax=axes[1,0])
axes[1,0].set_title("Distribuci√≥n de IMC por Ciudad")
axes[1,0].tick_params(axis="x", rotation=45)

# Gr√°fico 4: Conteo por ciudad y g√©nero
crosstab = pd.crosstab(df["ciudad"], df["genero"])
crosstab.plot(kind="bar", ax=axes[1,1])
axes[1,1].set_title("Distribuci√≥n por Ciudad y G√©nero")
axes[1,1].tick_params(axis="x", rotation=45)
axes[1,1].legend(title="G√©nero")

plt.tight_layout()

# Guardar figura
fig_path = REPORTS_FIGURES / "analisis_exploratorio_salud.png"
plt.savefig(fig_path, dpi=300, bbox_inches="tight")
plt.show()

print(f"\nüñºÔ∏è Figura guardada en: {fig_path.relative_to(BASE_DIR)}")

## 6Ô∏è‚É£ Notas para VSCode y Colab

### üìù Visual Studio Code
- **Extensiones necesarias:** Python, Jupyter
- **Seleccionar int√©rprete:** `Ctrl+Shift+P` ‚Üí "Python: Select Interpreter"
- **Entorno virtual:** Crear con `python -m venv venv` y activar
- **Ejecuci√≥n:** `Shift+Enter` para ejecutar celdas

### üåê Google Colab
- **Ventajas:** No requiere instalaci√≥n, GPU/TPU gratuitas
- **Persistencia:** El sistema de archivos es temporal
- **Guardar trabajo:** Archivo ‚Üí Guardar copia en GitHub
- **Montar Drive:** Para acceder a archivos personales

### üí° Recomendaciones
- **Versionado:** Usar Git para control de versiones
- **Dependencias:** Documentar en `requirements.txt`
- **Estructura:** Mantener organizaci√≥n de carpetas consistente

## 7Ô∏è‚É£ Ejercicios r√°pidos

### üèÉ‚Äç‚ôÇÔ∏è Ejercicio 1: Instalar paquete adicional
Instala el paquete `pyyaml` usando la funci√≥n `ensure_package` y verifica su versi√≥n.

### üèÉ‚Äç‚ôÄÔ∏è Ejercicio 2: Crear datos adicionales
1. Crea una carpeta `data/external/`
2. Genera un DataFrame con 10 filas de datos m√©dicos simulados
3. Gu√°rdalo como `pacientes_ejemplo.csv`

### üèÉ‚Äç‚ôÇÔ∏è Ejercicio 3: Personalizar visualizaci√≥n
1. Cambia el estilo de Seaborn a `"darkgrid"`
2. Modifica los colores del gr√°fico de dispersi√≥n
3. Guarda la nueva figura con un nombre diferente

### üèÉ‚Äç‚ôÄÔ∏è Ejercicio 4: Documentar versiones
Guarda el diccionario `versions` como archivo JSON en la carpeta `reports/`.

In [None]:
# Espacio para resolver ejercicios

# Ejercicio 1: Instalar pyyaml
# ensure_package("pyyaml")

# Ejercicio 2: Crear datos adicionales
# external_dir = BASE_DIR / "data" / "external"
# external_dir.mkdir(exist_ok=True)

# Ejercicio 3: Personalizar visualizaci√≥n
# sns.set_style("darkgrid")

# Ejercicio 4: Guardar versiones
# versions_path = BASE_DIR / "reports" / "versions.json"

print("‚úçÔ∏è Completa los ejercicios editando esta celda")

## ‚úÖ Resumen del Notebook

En este notebook hemos:

1. ‚úÖ **Detectado el entorno** de ejecuci√≥n (Colab/VSCode/Jupyter)
2. ‚úÖ **Creado la estructura** de carpetas del proyecto
3. ‚úÖ **Instalado dependencias** necesarias para el curso
4. ‚úÖ **Verificado versiones** de todas las librer√≠as
5. ‚úÖ **Generado datos sint√©ticos** de ejemplo
6. ‚úÖ **Creado visualizaciones** exploratorias
7. ‚úÖ **Guardado archivos** CSV y figuras

### üéØ Pr√≥ximos pasos

- **Notebook 02:** Variables, estructuras de datos y funciones
- **Notebook 03:** Funciones y buenas pr√°cticas (PEP-8)
- **Notebook 04:** Gesti√≥n de entornos virtuales

---

**üí° ¬øDudas o problemas?** Crea un Issue en el repositorio del curso.