# 🔄 Git y Control de Versiones para Ingeniería de Datos

## Objetivos de Aprendizaje

Al finalizar este notebook, serás capaz de:

1. ✅ Entender qué es Git y por qué es esencial
2. ✅ Configurar Git en tu sistema
3. ✅ Crear y gestionar repositorios
4. ✅ Usar comandos básicos (add, commit, push, pull)
5. ✅ Trabajar con ramas (branches)
6. ✅ Colaborar con GitHub/GitLab
7. ✅ Aplicar mejores prácticas en proyectos de datos

---

## 1. ¿Qué es Git y Por Qué es Importante?

### 🤔 ¿Qué es Git?

**Git** es un sistema de control de versiones distribuido que permite:

- 📜 **Historial completo**: Rastrear todos los cambios en el código
- 🔄 **Reversión**: Volver a versiones anteriores
- 👥 **Colaboración**: Múltiples personas trabajando en paralelo
- 🌿 **Branching**: Trabajar en features sin afectar el código principal
- 🔍 **Auditoría**: Saber quién cambió qué y cuándo

### 💡 ¿Por Qué es Crucial en Ingeniería de Datos?

1. **Pipelines de datos** son código → necesitan versionado
2. **Colaboración** en equipos distribuidos
3. **Reproducibilidad** de análisis y transformaciones
4. **Integración** con CI/CD para despliegues automáticos
5. **Documentación** implícita a través de commits

---

## 2. Conceptos Fundamentales

### 📚 Terminología Esencial

| Término | Definición | Ejemplo |
|---------|------------|----------|
| **Repository (Repo)** | Proyecto con historial de Git | `mi-proyecto-datos/` |
| **Commit** | Snapshot del código en un momento | `"Agregado pipeline ETL"` |
| **Branch** | Línea de desarrollo paralela | `feature/nuevo-pipeline` |
| **Merge** | Unir cambios de diferentes branches | Integrar feature a main |
| **Remote** | Versión del repo en servidor | GitHub, GitLab |
| **Clone** | Copiar repo remoto localmente | `git clone <url>` |
| **Pull** | Traer cambios del remoto | `git pull origin main` |
| **Push** | Enviar cambios al remoto | `git push origin main` |
| **Staging Area** | Área intermedia antes de commit | Archivos con `git add` |

### 🔄 Flujo de Trabajo Básico

```
Working Directory → Staging Area → Local Repository → Remote Repository
     (edit)            (add)          (commit)            (push)
```

---

## 3. Configuración Inicial de Git

In [None]:
# Verificar si Git está instalado
!git --version

### 3.1 Configuración de Usuario

In [None]:
# Configurar nombre de usuario (CAMBIAR CON TUS DATOS)
!git config --global user.name "Tu Nombre"

# Configurar email (CAMBIAR CON TU EMAIL)
!git config --global user.email "tu.email@ejemplo.com"

# Configurar editor por defecto (opcional)
!git config --global core.editor "code --wait"  # Para VS Code

# Verificar configuración
!git config --list

### 3.2 Configuraciones Útiles Adicionales

In [None]:
# Colorear la salida de Git para mejor legibilidad
!git config --global color.ui auto

# Configurar el nombre de la rama principal (recomendado: main)
!git config --global init.defaultBranch main

# Configurar autocorrección de comandos
!git config --global help.autocorrect 1

# Configurar alias útiles
!git config --global alias.st status
!git config --global alias.co checkout
!git config --global alias.br branch
!git config --global alias.cm "commit -m"
!git config --global alias.lg "log --oneline --graph --all"

print("✅ Configuración completada")

## 4. Crear y Gestionar Repositorios

### 4.1 Inicializar un Repositorio Nuevo

In [None]:
import os

# Crear directorio de ejemplo
proyecto_dir = '../../ejemplos/mi_proyecto_git'
os.makedirs(proyecto_dir, exist_ok=True)
os.chdir(proyecto_dir)

# Inicializar repositorio Git
!git init

print(f"✅ Repositorio creado en: {os.getcwd()}")

### 4.2 Crear Archivo .gitignore

In [None]:
# Contenido típico de .gitignore para proyectos de datos
gitignore_content = """
# Python
__pycache__/
*.py[cod]
*$py.class
*.so
.Python
venv/
env/
.env

# Jupyter Notebook
.ipynb_checkpoints

# Datos sensibles
*.csv
*.xlsx
*.db
*.sqlite
data/raw/
data/processed/
!data/raw/.gitkeep
!data/processed/.gitkeep

# Credenciales
config/credentials.yaml
config/*.key
*.pem
.env.local

# Logs
*.log
logs/

# IDE
.vscode/
.idea/
*.swp
*.swo

# Sistema
.DS_Store
Thumbs.db

# Outputs temporales
outputs/
temp/
cache/
"""

with open('.gitignore', 'w') as f:
    f.write(gitignore_content)

print("✅ Archivo .gitignore creado")
print("\n📋 Contenido:")
!cat .gitignore

## 5. Comandos Básicos de Git

### 5.1 Verificar Estado del Repositorio

In [None]:
# Ver estado actual
!git status

### 5.2 Agregar Archivos al Staging Area

In [None]:
# Crear un script de ejemplo
script_content = """
# Pipeline de datos simple
import pandas as pd

def extraer_datos(fuente):
    """Extrae datos de una fuente."""
    print(f"Extrayendo datos de {fuente}")
    return pd.DataFrame({'id': [1, 2, 3], 'valor': [10, 20, 30]})

def transformar_datos(df):
    """Aplica transformaciones."""
    df['valor_doble'] = df['valor'] * 2
    return df

def cargar_datos(df, destino):
    """Carga datos transformados."""
    print(f"Cargando datos a {destino}")
    df.to_csv(destino, index=False)

if __name__ == "__main__":
    datos = extraer_datos('api')
    datos_transformados = transformar_datos(datos)
    cargar_datos(datos_transformados, 'output.csv')
"""

with open('pipeline_etl.py', 'w') as f:
    f.write(script_content)

# Agregar archivo específico
!git add pipeline_etl.py

# Ver estado
!git status

In [None]:
# Agregar TODOS los archivos
!git add .

# Ver estado nuevamente
!git status

### 5.3 Hacer Commits

In [None]:
# Primer commit
!git commit -m "Initial commit: Pipeline ETL básico y .gitignore"

# Ver historial
!git log --oneline

### 5.4 Convenciones para Mensajes de Commit

**✅ Buenas Prácticas:**

```bash
# Formato recomendado:
tipo(scope): descripción breve

# Ejemplos:
feat(pipeline): Agregar pipeline de ingesta de datos desde S3
fix(etl): Corregir manejo de valores nulos en transformación
docs(readme): Actualizar documentación de instalación
refactor(utils): Mejorar función de limpieza de datos
test(pipeline): Agregar tests unitarios para ETL
chore(deps): Actualizar dependencias de pandas y numpy
```

**Tipos comunes:**
- `feat`: Nueva funcionalidad
- `fix`: Corrección de bug
- `docs`: Documentación
- `refactor`: Refactorización sin cambio de funcionalidad
- `test`: Tests
- `chore`: Tareas de mantenimiento
- `perf`: Mejoras de performance

---

## 6. Trabajar con Ramas (Branches)

### 6.1 ¿Por Qué Usar Ramas?

Las ramas permiten:
- 🌿 Desarrollar features sin afectar el código principal
- 🔧 Experimentar con cambios de manera segura
- 👥 Colaborar en paralelo sin conflictos
- 🚀 Implementar flujos de trabajo como GitFlow

### 6.2 Comandos de Branches

In [None]:
# Ver ramas existentes
!git branch

# Crear nueva rama
!git branch feature/validacion-datos

# Ver ramas nuevamente
!git branch

In [None]:
# Cambiar a la nueva rama
!git checkout feature/validacion-datos

# Alternativa: crear y cambiar en un solo comando
# !git checkout -b feature/validacion-datos

# Ver rama actual
!git branch

### 6.3 Desarrollar en la Rama

In [None]:
# Crear módulo de validación
validacion_content = """
# Módulo de validación de datos
import pandas as pd
from typing import List, Dict

def validar_nulos(df: pd.DataFrame, columnas: List[str]) -> Dict[str, int]:
    """Valida valores nulos en columnas específicas."""
    nulos = {col: df[col].isnull().sum() for col in columnas}
    return nulos

def validar_tipos(df: pd.DataFrame, tipos_esperados: Dict[str, str]) -> bool:
    """Valida que las columnas tengan los tipos esperados."""
    for col, tipo in tipos_esperados.items():
        if df[col].dtype != tipo:
            print(f"❌ Error: {col} debería ser {tipo}, es {df[col].dtype}")
            return False
    return True

def validar_rangos(df: pd.DataFrame, columna: str, min_val: float, max_val: float) -> bool:
    """Valida que los valores estén en un rango válido."""
    fuera_rango = df[(df[columna] < min_val) | (df[columna] > max_val)]
    if len(fuera_rango) > 0:
        print(f"❌ {len(fuera_rango)} valores fuera de rango [{min_val}, {max_val}]")
        return False
    return True

def reporte_calidad(df: pd.DataFrame) -> None:
    """Genera reporte de calidad de datos."""
    print("\n📊 REPORTE DE CALIDAD DE DATOS")
    print("=" * 50)
    print(f"Total de registros: {len(df)}")
    print(f"Total de columnas: {len(df.columns)}")
    print(f"\nNulos por columna:")
    for col in df.columns:
        nulos = df[col].isnull().sum()
        porcentaje = (nulos / len(df)) * 100
        print(f"  {col}: {nulos} ({porcentaje:.2f}%)")
    print("=" * 50)
"""

with open('validacion_datos.py', 'w') as f:
    f.write(validacion_content)

# Agregar y commitear
!git add validacion_datos.py
!git commit -m "feat(validacion): Agregar módulo de validación de calidad de datos"

# Ver log
!git log --oneline --graph --all

### 6.4 Merge: Integrar Cambios

In [None]:
# Volver a rama principal
!git checkout main

# Hacer merge de la feature
!git merge feature/validacion-datos -m "Merge: Integrar módulo de validación"

# Ver historial
!git log --oneline --graph --all

### 6.5 Eliminar Rama Después de Merge

In [None]:
# Eliminar rama local (ya integrada)
!git branch -d feature/validacion-datos

# Ver ramas restantes
!git branch

## 7. Trabajar con Repositorios Remotos

### 7.1 Conectar con GitHub/GitLab

In [None]:
# Agregar remote (CAMBIAR URL POR TU REPOSITORIO)
# !git remote add origin https://github.com/tu-usuario/tu-repo.git

# Ver remotes configurados
!git remote -v

print("\n⚠️ Recuerda crear el repositorio en GitHub/GitLab primero")

### 7.2 Push: Subir Cambios

In [None]:
# Primera vez: establecer upstream
# !git push -u origin main

# Posteriores push
# !git push

print("💡 Comando: git push -u origin main (primera vez)")
print("💡 Comando: git push (posteriores)")

### 7.3 Pull: Traer Cambios

In [None]:
# Traer cambios del remoto
# !git pull origin main

print("💡 Comando: git pull origin main")
print("⚠️ Siempre haz pull antes de empezar a trabajar")

### 7.4 Clone: Clonar Repositorio Existente

In [None]:
# Clonar un repositorio
# !git clone https://github.com/usuario/repositorio.git

print("""
💡 Flujo típico al unirse a un proyecto:

1. git clone https://github.com/empresa/proyecto-datos.git
2. cd proyecto-datos
3. git checkout -b feature/mi-cambio
4. [hacer cambios]
5. git add .
6. git commit -m "feat: Mi contribución"
7. git push origin feature/mi-cambio
8. [Crear Pull Request en GitHub]
""")

## 8. Flujo de Trabajo GitFlow

### 🌊 GitFlow: Estrategia de Branching

```
main (producción)
  |
  ├── develop (desarrollo)
  │     |
  │     ├── feature/nueva-ingesta
  │     ├── feature/transformacion-avanzada
  │     └── feature/validacion-calidad
  │
  └── hotfix/correccion-critica
```

### Ramas Principales:

- **main**: Código en producción
- **develop**: Integración de features

### Ramas de Soporte:

- **feature/***: Nuevas funcionalidades
- **hotfix/***: Correcciones urgentes
- **release/***: Preparación de releases

---

## 9. Comandos Útiles Avanzados

### 9.1 Ver Diferencias

In [None]:
# Ver cambios no staged
!git diff

# Ver cambios staged
!git diff --staged

# Ver diferencias entre branches
# !git diff main..develop

### 9.2 Deshacer Cambios

In [None]:
print("""
🔄 COMANDOS PARA DESHACER CAMBIOS:

1. Descartar cambios en working directory:
   git checkout -- archivo.py

2. Quitar archivo del staging area:
   git reset HEAD archivo.py

3. Modificar último commit (mensaje o archivos):
   git commit --amend -m "Nuevo mensaje"

4. Volver a un commit anterior (destructivo):
   git reset --hard abc123

5. Revertir un commit específico (seguro):
   git revert abc123

⚠️ CUIDADO: reset --hard elimina cambios permanentemente
""")

### 9.3 Stash: Guardar Cambios Temporalmente

In [None]:
print("""
💾 GIT STASH - Guardar trabajo temporal:

# Guardar cambios actuales
git stash

# Guardar con mensaje
git stash save "WIP: trabajando en pipeline"

# Ver lista de stashes
git stash list

# Aplicar último stash
git stash apply

# Aplicar y eliminar
git stash pop

# Aplicar stash específico
git stash apply stash@{1}

💡 Útil cuando necesitas cambiar de rama pero no quieres commitear
""")

### 9.4 Log Avanzado

In [None]:
# Log con gráfico
!git log --oneline --graph --all --decorate

# Log con estadísticas
# !git log --stat

# Buscar commits por autor
# !git log --author="Tu Nombre"

# Buscar commits por mensaje
# !git log --grep="pipeline"

## 10. Resolución de Conflictos

### ⚔️ ¿Cuándo Ocurren Conflictos?

Cuando dos ramas modifican las mismas líneas de un archivo:

```
<<<<<<< HEAD
def extraer_datos(fuente):
    # Tu versión
    return pd.read_csv(fuente)
=======
def extraer_datos(fuente):
    # Versión del otro branch
    return pd.read_parquet(fuente)
>>>>>>> feature/nuevo-formato
```

### 📝 Pasos para Resolver:

1. **Identificar** archivos con conflictos: `git status`
2. **Abrir** archivo y buscar marcadores `<<<<<<<`, `=======`, `>>>>>>>`
3. **Decidir** qué código mantener (o combinar ambos)
4. **Eliminar** marcadores de conflicto
5. **Agregar** archivo resuelto: `git add archivo.py`
6. **Completar** merge: `git commit`

---

## 11. Mejores Prácticas para Proyectos de Datos

### ✅ DO's (Hacer)

In [None]:
print("""
✅ MEJORES PRÁCTICAS:

1. 📝 COMMITS ATÓMICOS
   • Un cambio lógico por commit
   • Mensajes descriptivos y concisos
   • Usar convenciones (feat, fix, docs, etc.)

2. 🔒 .GITIGNORE COMPLETO
   • Excluir datos grandes (*.csv, *.parquet)
   • Excluir credenciales y secrets
   • Excluir archivos generados (cache, logs)
   • Mantener .gitkeep para directorios vacíos

3. 🌿 BRANCHING ESTRATÉGICO
   • Usar ramas para cada feature
   • Nombres descriptivos: feature/ingesta-s3
   • Merge frecuente para evitar divergencias
   • Eliminar ramas después de merge

4. 📚 DOCUMENTACIÓN
   • README.md actualizado
   • Documentar estructura del proyecto
   • Incluir instrucciones de setup
   • Mantener CHANGELOG.md

5. 🔄 PULL ANTES DE PUSH
   • Siempre git pull antes de empezar
   • Resolver conflictos localmente
   • Testear antes de push

6. 🏷️ TAGS PARA VERSIONES
   • Etiquetar releases: git tag v1.0.0
   • Usar versionado semántico
   • Documentar cambios en cada versión

7. 🧪 CI/CD INTEGRADO
   • GitHub Actions para tests automáticos
   • Validar código antes de merge
   • Despliegues automáticos
""")

### ❌ DON'Ts (Evitar)

In [None]:
print("""
❌ ERRORES COMUNES A EVITAR:

1. 🚫 NUNCA commitear:
   • Credenciales (passwords, API keys)
   • Datos sensibles o personales
   • Archivos grandes (>100MB)
   • Archivos binarios compilados

2. 🚫 EVITAR:
   • Commits con mensaje "fix" o "update"
   • Trabajar directamente en main
   • Forzar push (git push --force) sin motivo
   • Merge sin revisar cambios
   • Ignorar conflictos

3. 🚫 NO:
   • Hacer commits gigantes con muchos cambios
   • Dejar ramas sin mergear indefinidamente
   • Commitear código que no funciona
   • Olvidar hacer pull antes de trabajar

4. 🚫 RIESGOS:
   • git reset --hard en rama compartida
   • Reescribir historial público (rebase)
   • Eliminar .git sin backup
   • Commitear sin revisar con git diff
""")

## 12. Estructura de Proyecto Recomendada

### 📂 Template para Proyectos de Datos

In [None]:
# Crear estructura de proyecto
import os

estructura = [
    'data/raw/.gitkeep',
    'data/processed/.gitkeep',
    'data/external/.gitkeep',
    'notebooks/',
    'src/pipelines/',
    'src/utils/',
    'tests/',
    'config/',
    'docs/',
    'logs/.gitkeep',
    'outputs/.gitkeep'
]

proyecto_template = '../../ejemplos/proyecto_template'
os.makedirs(proyecto_template, exist_ok=True)

for item in estructura:
    path = os.path.join(proyecto_template, item)
    if item.endswith('/'):
        os.makedirs(path, exist_ok=True)
    else:
        os.makedirs(os.path.dirname(path), exist_ok=True)
        open(path, 'a').close()

# Crear README
readme_content = """
# Proyecto de Ingeniería de Datos

## Estructura del Proyecto

```
.
├── data/
│   ├── raw/          # Datos crudos sin modificar
│   ├── processed/    # Datos procesados
│   └── external/     # Datos externos
├── notebooks/        # Jupyter notebooks para análisis
├── src/
│   ├── pipelines/    # Scripts de pipelines ETL
│   └── utils/        # Utilidades y funciones auxiliares
├── tests/            # Tests unitarios e integración
├── config/           # Archivos de configuración
├── docs/             # Documentación
├── logs/             # Archivos de log
├── outputs/          # Resultados y reportes
├── .gitignore
├── requirements.txt
└── README.md
```

## Instalación

```bash
# Clonar repositorio
git clone <url>
cd proyecto

# Crear entorno virtual
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

# Instalar dependencias
pip install -r requirements.txt
```

## Uso

```bash
# Ejecutar pipeline principal
python src/pipelines/main_pipeline.py
```

## Contribuir

1. Crear rama: `git checkout -b feature/nueva-funcionalidad`
2. Hacer cambios y commit: `git commit -m "feat: descripción"`
3. Push: `git push origin feature/nueva-funcionalidad`
4. Crear Pull Request
"""

with open(os.path.join(proyecto_template, 'README.md'), 'w') as f:
    f.write(readme_content)

print(f"✅ Estructura de proyecto creada en: {proyecto_template}")

## 13. Integración con GitHub

### 🐙 Características de GitHub

1. **Pull Requests (PR)**
   - Revisar código antes de merge
   - Discutir cambios en equipo
   - CI/CD automático

2. **Issues**
   - Tracking de bugs y features
   - Organización con labels
   - Vinculación con commits

3. **GitHub Actions**
   - Tests automáticos
   - Despliegues
   - Validaciones de código

4. **Wiki y Documentación**
   - Documentación colaborativa
   - Versionado automático

---

## 🎯 Ejercicios Prácticos

### Ejercicio 1: Crear Repositorio Completo
1. Crea un nuevo repositorio para un proyecto de datos
2. Agrega .gitignore apropiado
3. Crea estructura de directorios
4. Implementa un pipeline simple
5. Haz al menos 3 commits significativos

In [None]:
# TU CÓDIGO AQUÍ

### Ejercicio 2: Trabajo con Branches
1. Crea una rama para una nueva feature
2. Implementa la feature (ej: módulo de logging)
3. Haz commits incrementales
4. Merge a main
5. Elimina la rama

In [None]:
# TU CÓDIGO AQUÍ

### Ejercicio 3: Simulación de Conflicto
1. Crea dos ramas diferentes
2. Modifica el mismo archivo en ambas
3. Intenta merge
4. Resuelve el conflicto manualmente
5. Completa el merge

In [None]:
# TU CÓDIGO AQUÍ

## 📚 Recursos Adicionales

### Documentación Oficial
- [Pro Git Book](https://git-scm.com/book/es/v2) - Libro completo gratis
- [GitHub Docs](https://docs.github.com/es)
- [GitLab Docs](https://docs.gitlab.com/)

### Tutoriales Interactivos
- [Learn Git Branching](https://learngitbranching.js.org/) - Tutorial visual
- [Git Immersion](https://gitimmersion.com/) - Práctica guiada
- [Oh My Git!](https://ohmygit.org/) - Juego educativo

### Cheat Sheets
- [Git Cheat Sheet](https://education.github.com/git-cheat-sheet-education.pdf)
- [Visual Git Cheat Sheet](https://ndpsoftware.com/git-cheatsheet.html)

### Herramientas GUI
- **GitKraken**: Cliente visual completo
- **SourceTree**: GUI gratuito
- **GitHub Desktop**: Integración con GitHub
- **VS Code**: Integración nativa de Git

---

## ✅ Resumen

En este notebook aprendiste:

1. ✅ **Fundamentos de Git**: Repositorios, commits, branches
2. ✅ **Comandos esenciales**: init, add, commit, push, pull, merge
3. ✅ **Branching**: Crear, mergear y eliminar ramas
4. ✅ **Colaboración**: Trabajo con remotes, GitHub/GitLab
5. ✅ **Mejores prácticas**: .gitignore, mensajes de commit, flujo GitFlow
6. ✅ **Resolución de conflictos**: Identificar y resolver merges problemáticos
7. ✅ **Estructura de proyecto**: Templates para proyectos de datos

**🎯 Próximo paso**: APIs y Web Scraping

---