# Configuración del Entorno para Proyectos de Machine Learning

## Sesión 02 - Módulo 01 - Laboratorio 1
### Bootcamp: Machine Learning Aplicado a la Industria Petrolera

## Objetivos de Aprendizaje
- Configurar un entorno de desarrollo básico para proyectos de ML
- Aprender las bases de control de versiones con Git
- Estructurar un proyecto de ML siguiendo buenas prácticas

## Introducción

Un proyecto de Machine Learning bien organizado facilita la colaboración, mantenimiento y reproducibilidad de resultados. En este laboratorio aprenderemos las bases para configurar un entorno de trabajo profesional para proyectos de ML en la industria petrolera.

# Parte 1: Verificación del Entorno Python

Comencemos verificando que tenemos las bibliotecas necesarias instaladas.

In [1]:
# Verificar versiones de bibliotecas importantes
import sys
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn

# Mostrar versiones
print(f"Python: {sys.version.split()[0]}")
print(f"NumPy: {np.__version__}")
print(f"Pandas: {pd.__version__}")
print(f"Matplotlib: {plt.matplotlib.__version__}")
print(f"Scikit-learn: {sklearn.__version__}")

Python: 3.12.1
NumPy: 2.2.4
Pandas: 2.2.3
Matplotlib: 3.10.1
Scikit-learn: 1.6.1


# Parte 2: Control de Versiones con Git

Git es una herramienta esencial para el desarrollo de proyectos de ML. Permite:
- Mantener un historial de cambios
- Colaborar eficientemente en equipo
- Experimentar con diferentes ideas en ramas separadas
- Revertir a versiones anteriores si es necesario

## 2.1 Configuración Inicial de Git

Antes de usar Git, necesitamos configurar nuestro nombre y correo.

In [2]:
# Comandos que ejecutarías en la terminal
!git --version  # Verificar que Git está instalado

git version 2.49.0


### Ejercicio 1: Configura tu identidad en Git

Ejecuta los siguientes comandos en una celda (reemplaza con tu información):

In [3]:
# Configura tu nombre y correo
# !git config --global user.name "Tu Nombre"
# !git config --global user.email "tu.email@ejemplo.com"

# Verifica tu configuración
!git config --global user.name
!git config --global user.email

## 2.2 Inicializando un Repositorio

Vamos a crear una carpeta para nuestro proyecto y inicializar un repositorio Git.

In [4]:
# Crear directorio para nuestro proyecto
!mkdir -p /workspaces/MLa/sesion-02/mi_proyecto_ml
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git init
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && ls -la

Initialized empty Git repository in /workspaces/MLa/sesion-02/mi_proyecto_ml/.git/
total 12
drwxrwxrwx+ 3 codespace codespace 4096 May  2 03:20 .
drwxrwxrwx+ 3 codespace codespace 4096 May  2 03:20 ..
drwxrwxrwx+ 6 codespace codespace 4096 May  2 03:20 .git


### Ejercicio 2: Crea un archivo README y haz tu primer commit

Ahora crearemos un archivo README.md y lo añadiremos al repositorio.

In [5]:
# Crear archivo README.md
readme_content = """
# Proyecto de Análisis de Datos Petroleros

Este proyecto tiene como objetivo analizar datos de producción petrolera 
usando técnicas de Machine Learning.

## Objetivos
- Analizar tendencias de producción
- Predecir problemas potenciales
- Optimizar operaciones
"""

with open("/workspaces/MLa/sesion-02/mi_proyecto_ml/README.md", "w") as f:
    f.write(readme_content)

# Añadir y hacer commit del archivo
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git add README.md
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git commit -m "Primer commit: Añadir README"
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git log --oneline

[main (root-commit) 36d0a4f] Primer commit: Añadir README
 1 file changed, 10 insertions(+)
 create mode 100644 README.md
[33m36d0a4f[m[33m ([m[1;36mHEAD[m[33m -> [m[1;32mmain[m[33m)[m Primer commit: Añadir README


## 2.3 Trabajando con Ramas

Las ramas te permiten trabajar en diferentes características o experimentos sin afectar la rama principal.

In [6]:
# Crear una nueva rama
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git branch feature/estructura-proyecto
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git checkout feature/estructura-proyecto
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git branch

Switched to branch 'feature/estructura-proyecto'
* [32mfeature/estructura-proyecto[m
  main[m


### Ejercicio 3: Crea la estructura de directorios en la nueva rama

Vamos a crear una estructura básica de directorios para nuestro proyecto.

In [7]:
# Crear estructura de directorios
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && mkdir -p data/{raw,processed}
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && mkdir -p notebooks
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && mkdir -p src/{data,models,visualization}

# Verificar estructura
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && find . -type d | sort

.
./.git
./.git/hooks
./.git/info
./.git/logs
./.git/logs/refs
./.git/logs/refs/heads
./.git/logs/refs/heads/feature
./.git/objects
./.git/objects/33
./.git/objects/36
./.git/objects/4e
./.git/objects/info
./.git/objects/pack
./.git/refs
./.git/refs/heads
./.git/refs/heads/feature
./.git/refs/tags
./data
./data/processed
./data/raw
./notebooks
./src
./src/data
./src/models
./src/visualization


In [8]:
# Crear archivos .gitkeep para mantener directorios vacíos en Git
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && touch data/raw/.gitkeep data/processed/.gitkeep notebooks/.gitkeep
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && touch src/data/.gitkeep src/models/.gitkeep src/visualization/.gitkeep

# Añadir todos los cambios y hacer commit
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git add .
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git commit -m "Añadir estructura básica de directorios"
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git log --oneline

[feature/estructura-proyecto 2a7a33d] Añadir estructura básica de directorios
 6 files changed, 0 insertions(+), 0 deletions(-)
 create mode 100644 data/processed/.gitkeep
 create mode 100644 data/raw/.gitkeep
 create mode 100644 notebooks/.gitkeep
 create mode 100644 src/data/.gitkeep
 create mode 100644 src/models/.gitkeep
 create mode 100644 src/visualization/.gitkeep
[33m2a7a33d[m[33m ([m[1;36mHEAD[m[33m -> [m[1;32mfeature/estructura-proyecto[m[33m)[m Añadir estructura básica de directorios
[33m36d0a4f[m[33m ([m[1;32mmain[m[33m)[m Primer commit: Añadir README


## 2.4 Fusionar Ramas

Cuando hayas completado el trabajo en una rama, puedes fusionarla con la rama principal.

In [9]:
# Volver a la rama principal
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git checkout main

# Fusionar la rama feature/estructura-proyecto
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git merge feature/estructura-proyecto

# Verificar que la fusión fue exitosa
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && find . -type d | sort

Switched to branch 'main'
Updating 36d0a4f..2a7a33d
Fast-forward
 data/processed/.gitkeep    | 0
 data/raw/.gitkeep          | 0
 notebooks/.gitkeep         | 0
 src/data/.gitkeep          | 0
 src/models/.gitkeep        | 0
 src/visualization/.gitkeep | 0
 6 files changed, 0 insertions(+), 0 deletions(-)
 create mode 100644 data/processed/.gitkeep
 create mode 100644 data/raw/.gitkeep
 create mode 100644 notebooks/.gitkeep
 create mode 100644 src/data/.gitkeep
 create mode 100644 src/models/.gitkeep
 create mode 100644 src/visualization/.gitkeep
.
./.git
./.git/hooks
./.git/info
./.git/logs
./.git/logs/refs
./.git/logs/refs/heads
./.git/logs/refs/heads/feature
./.git/objects
./.git/objects/16
./.git/objects/2a
./.git/objects/33
./.git/objects/36
./.git/objects/4e
./.git/objects/63
./.git/objects/a6
./.git/objects/d5
./.git/objects/e6
./.git/objects/info
./.git/objects/pack
./.git/refs
./.git/refs/heads
./.git/refs/heads/feature
./.git/refs/tags
./data
./data/processed
./data/raw
./not

# Parte 3: Estructura de un Proyecto ML

Una buena estructura de proyecto facilita la organización y el mantenimiento del código. Vamos a crear y explicar los componentes clave.

## 3.1 Creando Archivos para la Gestión de Dependencias

In [10]:
# Crear requirements.txt
requirements = """
# Análisis de datos
numpy==1.23.5
pandas==1.5.2
scipy==1.9.3

# Visualización
matplotlib==3.6.2
seaborn==0.12.1

# Machine Learning
scikit-learn==1.1.3
statsmodels==0.13.5

# Procesamiento específico para petróleo (opcional)
lasio==0.30
welly==0.5.5
"""

with open("/workspaces/MLa/sesion-02/mi_proyecto_ml/requirements.txt", "w") as f:
    f.write(requirements)

# Añadir y hacer commit
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git add requirements.txt
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git commit -m "Añadir requirements.txt para gestión de dependencias"
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git log --oneline -n 3

[main 1d9ac6f] Añadir requirements.txt para gestión de dependencias
 1 file changed, 17 insertions(+)
 create mode 100644 requirements.txt
[33m1d9ac6f[m[33m ([m[1;36mHEAD[m[33m -> [m[1;32mmain[m[33m)[m Añadir requirements.txt para gestión de dependencias
[33m2a7a33d[m[33m ([m[1;32mfeature/estructura-proyecto[m[33m)[m Añadir estructura básica de directorios
[33m36d0a4f[m Primer commit: Añadir README


In [11]:
# Crear archivo .gitignore
gitignore = """
# Archivos de Python
__pycache__/
*.py[cod]
*$py.class
*.so
.Python
build/
develop-eggs/
dist/
downloads/
eggs/
.eggs/
lib/
lib64/
parts/
sdist/
var/
wheels/
*.egg-info/
.installed.cfg
*.egg

# Entornos virtuales
env/
venv/
ENV/

# Archivos de Jupyter Notebook
.ipynb_checkpoints

# Datos (normalmente no se versionan, excepto muestras pequeñas)
data/raw/*
data/processed/*
!data/raw/.gitkeep
!data/processed/.gitkeep

# Modelos entrenados (pueden ser grandes)
models/*.pkl
models/*.h5

# Archivos de configuración local
.env

# Archivos de sistema
.DS_Store
Thumbs.db
"""

with open("/workspaces/MLa/sesion-02/mi_proyecto_ml/.gitignore", "w") as f:
    f.write(gitignore)

# Añadir y hacer commit
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git add .gitignore
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git commit -m "Añadir archivo .gitignore"

[main 7560b91] Añadir archivo .gitignore
 1 file changed, 47 insertions(+)
 create mode 100644 .gitignore


# Parte 4: Ejercicio Final - Versionando un Notebook

En este ejercicio final, practicarás la creación y versionado de un notebook de análisis de datos con Git.

## Objetivos del ejercicio:
1. Crear un notebook de análisis exploratorio para datos petroleros
2. Utilizar Git para versionar el desarrollo incremental del notebook
3. Practicar el trabajo con ramas para implementar nuevas funcionalidades

## Instrucciones:

1. **Crear una nueva rama para el notebook**
   - Crea una rama llamada `feature/analisis-exploratorio` en tu proyecto
   - Cambia a esa nueva rama

2. **Crear un notebook básico (Commit 1)**
   - Crea un archivo `notebooks/analisis_exploratorio.ipynb`
   - Añade una celda markdown con título e introducción
   - Añade una celda de código con importaciones básicas (pandas, numpy, matplotlib, seaborn)
   - Añade el notebook al staging y haz tu primer commit con mensaje descriptivo

3. **Añadir carga y exploración de datos (Commit 2)**
   - Añade celdas para cargar y explorar un conjunto de datos (puedes crear datos de ejemplo)
   - Incluye estadísticas descriptivas básicas
   - Haz commit de estos cambios

4. **Añadir visualizaciones y conclusiones (Commit 3)**
   - Añade al menos dos visualizaciones relevantes para los datos
   - Incluye una sección de conclusiones con tus hallazgos
   - Haz commit de estos cambios

5. **Fusionar con la rama principal**
   - Vuelve a la rama principal
   - Fusiona la rama feature con main
   - Revisa el historial de commits para verificar el proceso

## Comandos útiles para el ejercicio

Para tu comodidad, aquí están los comandos que necesitarás en formato copiable:

```
# Crear y cambiar a una nueva rama
cd /workspaces/MLa/sesion-02/mi_proyecto_ml
git checkout -b feature/analisis-exploratorio

# Verificar en qué rama estás
git branch

# Añadir archivos al staging
git add notebooks/analisis_exploratorio.ipynb

# Hacer commit
git commit -m "Añadir notebook inicial de análisis exploratorio"

# Para los siguientes commits (cambia el mensaje según corresponda)
git add notebooks/analisis_exploratorio.ipynb
git commit -m "Actualizar notebook con carga de datos y análisis inicial"

git add notebooks/analisis_exploratorio.ipynb
git commit -m "Añadir visualizaciones y conclusiones al análisis"

# Volver a la rama principal
git checkout main

# Fusionar cambios
git merge feature/analisis-exploratorio

# Ver historial de commits
git log --oneline
```

# Ejercicio Adicional: Prácticas Avanzadas

Si completaste el ejercicio anterior, puedes intentar estas prácticas avanzadas:

1. **Crear una rama para visualizaciones avanzadas**
   - Crea una nueva rama `feature/visualizaciones-avanzadas`
   - Añade al notebook visualizaciones adicionales como:
     * Histograma de distribución de producción
     * Gráfico de barras con producción promedio por pozo
     * Heatmap de correlación entre variables
   - Haz commit y fusiona con la rama principal

2. **Simular colaboración**
   - Crea una rama `feature/analisis-estadistico`
   - Añade análisis estadísticos más avanzados (regresión, correlaciones)
   - Fusiona esta rama con main
   
3. **Resolver un conflicto simple**
   - Crea dos ramas que modifiquen la misma parte del notebook
   - Intenta fusionarlas y resuelve el conflicto que se genera

In [12]:
# Paso 8: Revisar el historial de commits para ver el progreso del notebook
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git log --oneline

# Paso 9: Fusionar los cambios con la rama principal
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git checkout main
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git merge feature/analisis-exploratorio
!cd /workspaces/MLa/sesion-02/mi_proyecto_ml && git log --oneline -n 5

[33m7560b91[m[33m ([m[1;36mHEAD[m[33m -> [m[1;32mmain[m[33m)[m Añadir archivo .gitignore
[33m1d9ac6f[m Añadir requirements.txt para gestión de dependencias
[33m2a7a33d[m[33m ([m[1;32mfeature/estructura-proyecto[m[33m)[m Añadir estructura básica de directorios
[33m36d0a4f[m Primer commit: Añadir README
Already on 'main'
merge: feature/analisis-exploratorio - not something we can merge
[33m7560b91[m[33m ([m[1;36mHEAD[m[33m -> [m[1;32mmain[m[33m)[m Añadir archivo .gitignore
[33m1d9ac6f[m Añadir requirements.txt para gestión de dependencias
[33m2a7a33d[m[33m ([m[1;32mfeature/estructura-proyecto[m[33m)[m Añadir estructura básica de directorios
[33m36d0a4f[m Primer commit: Añadir README


In [ ]:
# Ejercicio para el estudiante:

# Para practicar por tu cuenta, hemos creado un archivo de plantilla en:
# /workspaces/MLa/sesion-02/mi_proyecto_ml/notebooks/plantilla_analisis.ipynb

# Sigue estos pasos:
# 1. Crea una rama para tu análisis:
#    git checkout -b feature/mi-analisis
#
# 2. Copia la plantilla a un nuevo archivo:
#    cp /workspaces/MLa/sesion-02/mi_proyecto_ml/notebooks/plantilla_analisis.ipynb \
#       /workspaces/MLa/sesion-02/mi_proyecto_ml/notebooks/analisis_exploratorio.ipynb
#
# 3. Modifica el archivo añadiendo celdas con visualizaciones como:
#    - Un histograma de la distribución de alguna variable
#    - Un gráfico de barras para categorías
#    - Un heatmap de correlación entre variables
#
# 4. Haz commit de tus cambios y fusiona con main

# Puedes usar el código de las celdas anteriores como ejemplo

# Resumen

En este laboratorio has aprendido:

1. **Verificar y configurar** un entorno Python para proyectos de ML
2. **Utilizar Git** para control de versiones
   - Inicializar un repositorio
   - Crear y fusionar ramas
   - Registrar cambios con commits
3. **Estructurar** un proyecto de ML siguiendo buenas prácticas
4. **Versionar notebooks de Jupyter** para análisis de datos

Estas habilidades son fundamentales para desarrollar proyectos de ML profesionales, asegurar la reproducibilidad de tus análisis y trabajar eficientemente en equipo.

# Recursos Adicionales

- [Git Documentation](https://git-scm.com/doc)
- [GitHub Guides](https://guides.github.com/)
- [Cookiecutter Data Science](https://drivendata.github.io/cookiecutter-data-science/) - Plantilla para proyectos de ML
- [DVC: Data Version Control](https://dvc.org/) - Para control de versiones de datos y modelos
- [nbdime](https://nbdime.readthedocs.io/) - Herramienta para diferencias y fusiones de notebooks de Jupyter