# üîÑ Git y Control de Versiones para Ingenier√≠a de Datos

## Objetivos de Aprendizaje

Al finalizar este notebook, ser√°s capaz de:

1. ‚úÖ Entender qu√© es Git y por qu√© es esencial
2. ‚úÖ Configurar Git en tu sistema
3. ‚úÖ Crear y gestionar repositorios
4. ‚úÖ Usar comandos b√°sicos (add, commit, push, pull)
5. ‚úÖ Trabajar con ramas (branches)
6. ‚úÖ Colaborar con GitHub/GitLab
7. ‚úÖ Aplicar mejores pr√°cticas en proyectos de datos

---

## 1. ¬øQu√© es Git y Por Qu√© es Importante?

### ü§î ¬øQu√© es Git?

**Git** es un sistema de control de versiones distribuido que permite:

- üìú **Historial completo**: Rastrear todos los cambios en el c√≥digo
- üîÑ **Reversi√≥n**: Volver a versiones anteriores
- üë• **Colaboraci√≥n**: M√∫ltiples personas trabajando en paralelo
- üåø **Branching**: Trabajar en features sin afectar el c√≥digo principal
- üîç **Auditor√≠a**: Saber qui√©n cambi√≥ qu√© y cu√°ndo

### üí° ¬øPor Qu√© es Crucial en Ingenier√≠a de Datos?

1. **Pipelines de datos** son c√≥digo ‚Üí necesitan versionado
2. **Colaboraci√≥n** en equipos distribuidos
3. **Reproducibilidad** de an√°lisis y transformaciones
4. **Integraci√≥n** con CI/CD para despliegues autom√°ticos
5. **Documentaci√≥n** impl√≠cita a trav√©s de commits

---

## 2. Conceptos Fundamentales

### üìö Terminolog√≠a Esencial

| T√©rmino | Definici√≥n | Ejemplo |
|---------|------------|----------|
| **Repository (Repo)** | Proyecto con historial de Git | `mi-proyecto-datos/` |
| **Commit** | Snapshot del c√≥digo en un momento | `"Agregado pipeline ETL"` |
| **Branch** | L√≠nea de desarrollo paralela | `feature/nuevo-pipeline` |
| **Merge** | Unir cambios de diferentes branches | Integrar feature a main |
| **Remote** | Versi√≥n del repo en servidor | GitHub, GitLab |
| **Clone** | Copiar repo remoto localmente | `git clone <url>` |
| **Pull** | Traer cambios del remoto | `git pull origin main` |
| **Push** | Enviar cambios al remoto | `git push origin main` |
| **Staging Area** | √Årea intermedia antes de commit | Archivos con `git add` |

### üîÑ Flujo de Trabajo B√°sico

```
Working Directory ‚Üí Staging Area ‚Üí Local Repository ‚Üí Remote Repository
     (edit)            (add)          (commit)            (push)
```

---

## 3. Configuraci√≥n Inicial de Git

In [None]:
# Verificar si Git est√° instalado
!git --version

### 3.1 Configuraci√≥n de Usuario

In [None]:
# Configurar nombre de usuario (CAMBIAR CON TUS DATOS)
!git config --global user.name "Tu Nombre"

# Configurar email (CAMBIAR CON TU EMAIL)
!git config --global user.email "tu.email@ejemplo.com"

# Configurar editor por defecto (opcional)
!git config --global core.editor "code --wait"  # Para VS Code

# Verificar configuraci√≥n
!git config --list

### ‚öôÔ∏è Configuraci√≥n Global de Git

**Concepto:** La configuraci√≥n global establece identidad y preferencias para todos los repositorios locales.

**Comandos clave:**
- `git config --global user.name`: identifica autor de commits
- `git config --global user.email`: email asociado a commits
- `--global`: aplica a nivel usuario (vs `--local` para repo espec√≠fico)

**Importancia:** Esta informaci√≥n aparece en el historial de commits, esencial para auditor√≠a y colaboraci√≥n.

**Verificaci√≥n:** `git config --list` muestra toda la configuraci√≥n activa.

### 3.2 Configuraciones √ötiles Adicionales

In [None]:
# Colorear la salida de Git para mejor legibilidad
!git config --global color.ui auto

# Configurar el nombre de la rama principal (recomendado: main)
!git config --global init.defaultBranch main

# Configurar autocorrecci√≥n de comandos
!git config --global help.autocorrect 1

# Configurar alias √∫tiles
!git config --global alias.st status
!git config --global alias.co checkout
!git config --global alias.br branch
!git config --global alias.cm "commit -m"
!git config --global alias.lg "log --oneline --graph --all"

print("‚úÖ Configuraci√≥n completada")

### üé® Configuraci√≥n Avanzada: Aliases y Mejoras

**Aliases:** Atajos personalizados para comandos frecuentes.

**Ejemplos √∫tiles:**
- `git st` ‚Üí `git status` (ver estado r√°pidamente)
- `git cm "mensaje"` ‚Üí `git commit -m "mensaje"` (commit directo)
- `git lg` ‚Üí `log --oneline --graph --all` (historial visual compacto)

**Otras mejoras:**
- `color.ui auto`: colorea output para mejor lectura
- `init.defaultBranch main`: usa "main" en lugar de "master" (est√°ndar moderno)

**Productividad:** Aliases reducen escritura repetitiva en flujo de trabajo diario.

## 4. Crear y Gestionar Repositorios

### 4.1 Inicializar un Repositorio Nuevo

In [None]:
import os

# Crear directorio de ejemplo
proyecto_dir = '../../ejemplos/mi_proyecto_git'
os.makedirs(proyecto_dir, exist_ok=True)
os.chdir(proyecto_dir)

# Inicializar repositorio Git
!git init

print(f"‚úÖ Repositorio creado en: {os.getcwd()}")

### 4.2 Crear Archivo .gitignore

In [None]:
# Contenido t√≠pico de .gitignore para proyectos de datos
gitignore_content = """
# Python
__pycache__/
*.py[cod]
*$py.class
*.so
.Python
venv/
env/
.env

# Jupyter Notebook
.ipynb_checkpoints

# Datos sensibles
*.csv
*.xlsx
*.db
*.sqlite
data/raw/
data/processed/
!data/raw/.gitkeep
!data/processed/.gitkeep

# Credenciales
config/credentials.yaml
config/*.key
*.pem
.env.local

# Logs
*.log
logs/

# IDE
.vscode/
.idea/
*.swp
*.swo

# Sistema
.DS_Store
Thumbs.db

# Outputs temporales
outputs/
temp/
cache/
"""

with open('.gitignore', 'w') as f:
    f.write(gitignore_content)

print("‚úÖ Archivo .gitignore creado")
print("\nüìã Contenido:")
!cat .gitignore

## 5. Comandos B√°sicos de Git

### 5.1 Verificar Estado del Repositorio

In [None]:
# Ver estado actual
!git status

### 5.2 Agregar Archivos al Staging Area

In [None]:
# Crear un script de ejemplo
script_content = """
# Pipeline de datos simple
import pandas as pd

def extraer_datos(fuente):
    """Extrae datos de una fuente."""
    print(f"Extrayendo datos de {fuente}")
    return pd.DataFrame({'id': [1, 2, 3], 'valor': [10, 20, 30]})

def transformar_datos(df):
    """Aplica transformaciones."""
    df['valor_doble'] = df['valor'] * 2
    return df

def cargar_datos(df, destino):
    """Carga datos transformados."""
    print(f"Cargando datos a {destino}")
    df.to_csv(destino, index=False)

if __name__ == "__main__":
    datos = extraer_datos('api')
    datos_transformados = transformar_datos(datos)
    cargar_datos(datos_transformados, 'output.csv')
"""

with open('pipeline_etl.py', 'w') as f:
    f.write(script_content)

# Agregar archivo espec√≠fico
!git add pipeline_etl.py

# Ver estado
!git status

### üìù Staging Area: Preparando Commits

**Concepto:** El √°rea de staging es un espacio intermedio donde seleccionas qu√© cambios incluir en el pr√≥ximo commit.

**Flujo de trabajo:**
1. **Working Directory:** archivos modificados pero no rastreados
2. **Staging Area:** `git add` los prepara para commit
3. **Repository:** `git commit` los guarda permanentemente en historial

**Comandos:**
- `git add <archivo>`: agregar archivo espec√≠fico
- `git add .`: agregar todos los archivos modificados
- `git add -p`: agregar cambios de forma interactiva (parcial)

**Ventaja:** Control granular sobre qu√© cambios incluir en cada commit l√≥gico.

In [None]:
# Agregar TODOS los archivos
!git add .

# Ver estado nuevamente
!git status

### 5.3 Hacer Commits

In [None]:
# Primer commit
!git commit -m "Initial commit: Pipeline ETL b√°sico y .gitignore"

# Ver historial
!git log --oneline

### üíæ Commits: Guardando Snapshots

**Concepto:** Un commit es un snapshot inmutable del c√≥digo en un momento espec√≠fico, con mensaje descriptivo.

**Anatom√≠a de un commit:**
- **Hash SHA:** identificador √∫nico (ej: `a1b2c3d4`)
- **Autor:** qui√©n hizo el cambio
- **Fecha:** cu√°ndo se hizo
- **Mensaje:** qu√© se cambi√≥ y por qu√©
- **Contenido:** diff de archivos modificados

**Comando:**
```bash
git commit -m "mensaje descriptivo"
```

**Regla de oro:** Cada commit debe ser una unidad l√≥gica y at√≥mica de cambio.

### 5.4 Convenciones para Mensajes de Commit

**‚úÖ Buenas Pr√°cticas:**

```bash
# Formato recomendado:
tipo(scope): descripci√≥n breve

# Ejemplos:
feat(pipeline): Agregar pipeline de ingesta de datos desde S3
fix(etl): Corregir manejo de valores nulos en transformaci√≥n
docs(readme): Actualizar documentaci√≥n de instalaci√≥n
refactor(utils): Mejorar funci√≥n de limpieza de datos
test(pipeline): Agregar tests unitarios para ETL
chore(deps): Actualizar dependencias de pandas y numpy
```

**Tipos comunes:**
- `feat`: Nueva funcionalidad
- `fix`: Correcci√≥n de bug
- `docs`: Documentaci√≥n
- `refactor`: Refactorizaci√≥n sin cambio de funcionalidad
- `test`: Tests
- `chore`: Tareas de mantenimiento
- `perf`: Mejoras de performance

---

## 6. Trabajar con Ramas (Branches)

### 6.1 ¬øPor Qu√© Usar Ramas?

Las ramas permiten:
- üåø Desarrollar features sin afectar el c√≥digo principal
- üîß Experimentar con cambios de manera segura
- üë• Colaborar en paralelo sin conflictos
- üöÄ Implementar flujos de trabajo como GitFlow

### 6.2 Comandos de Branches

In [None]:
# Ver ramas existentes
!git branch

# Crear nueva rama
!git branch feature/validacion-datos

# Ver ramas nuevamente
!git branch

In [None]:
# Cambiar a la nueva rama
!git checkout feature/validacion-datos

# Alternativa: crear y cambiar en un solo comando
# !git checkout -b feature/validacion-datos

# Ver rama actual
!git branch

### üåø Branches: L√≠neas de Desarrollo Paralelas

**Concepto:** Las ramas permiten desarrollar features independientes sin afectar el c√≥digo principal (main/master).

**Comandos esenciales:**
- `git branch <nombre>`: crea nueva rama
- `git checkout <nombre>`: cambia a una rama
- `git checkout -b <nombre>`: crea y cambia en un paso
- `git branch`: lista ramas locales
- `* indica rama actual`

**Uso t√≠pico en datos:**
- `feature/nuevo-pipeline`: desarrollo de nuevo pipeline ETL
- `fix/bug-transformacion`: correcci√≥n de bugs
- `hotfix/produccion`: fixes urgentes en producci√≥n

**Regla:** Cada feature o cambio en rama separada, merge a main cuando est√© completo y testeado.

### 6.3 Desarrollar en la Rama

In [None]:
# Crear m√≥dulo de validaci√≥n
validacion_content = """
# M√≥dulo de validaci√≥n de datos
import pandas as pd
from typing import List, Dict

def validar_nulos(df: pd.DataFrame, columnas: List[str]) -> Dict[str, int]:
    """Valida valores nulos en columnas espec√≠ficas."""
    nulos = {col: df[col].isnull().sum() for col in columnas}
    return nulos

def validar_tipos(df: pd.DataFrame, tipos_esperados: Dict[str, str]) -> bool:
    """Valida que las columnas tengan los tipos esperados."""
    for col, tipo in tipos_esperados.items():
        if df[col].dtype != tipo:
            print(f"‚ùå Error: {col} deber√≠a ser {tipo}, es {df[col].dtype}")
            return False
    return True

def validar_rangos(df: pd.DataFrame, columna: str, min_val: float, max_val: float) -> bool:
    """Valida que los valores est√©n en un rango v√°lido."""
    fuera_rango = df[(df[columna] < min_val) | (df[columna] > max_val)]
    if len(fuera_rango) > 0:
        print(f"‚ùå {len(fuera_rango)} valores fuera de rango [{min_val}, {max_val}]")
        return False
    return True

def reporte_calidad(df: pd.DataFrame) -> None:
    """Genera reporte de calidad de datos."""
    print("\nüìä REPORTE DE CALIDAD DE DATOS")
    print("=" * 50)
    print(f"Total de registros: {len(df)}")
    print(f"Total de columnas: {len(df.columns)}")
    print(f"\nNulos por columna:")
    for col in df.columns:
        nulos = df[col].isnull().sum()
        porcentaje = (nulos / len(df)) * 100
        print(f"  {col}: {nulos} ({porcentaje:.2f}%)")
    print("=" * 50)
"""

with open('validacion_datos.py', 'w') as f:
    f.write(validacion_content)

# Agregar y commitear
!git add validacion_datos.py
!git commit -m "feat(validacion): Agregar m√≥dulo de validaci√≥n de calidad de datos"

# Ver log
!git log --oneline --graph --all

### 6.4 Merge: Integrar Cambios

In [None]:
# Volver a rama principal
!git checkout main

# Hacer merge de la feature
!git merge feature/validacion-datos -m "Merge: Integrar m√≥dulo de validaci√≥n"

# Ver historial
!git log --oneline --graph --all

### üîÄ Merge: Integrando Cambios

**Concepto:** Merge combina cambios de una rama en otra, integrando el trabajo desarrollado por separado.

**Proceso:**
1. Checkout a rama destino (ej: `main`)
2. `git merge <rama-feature>`: integra cambios
3. Git crea commit de merge autom√°ticamente

**Tipos de merge:**
- **Fast-forward:** rama destino sin cambios, solo avanza puntero
- **3-way merge:** ambas ramas tienen cambios, crea commit de merge

**Conflictos:** Ocurren cuando mismas l√≠neas cambian en ambas ramas, requieren resoluci√≥n manual.

**Buena pr√°ctica:** Testear feature antes de merge a main.

### 6.5 Eliminar Rama Despu√©s de Merge

In [None]:
# Eliminar rama local (ya integrada)
!git branch -d feature/validacion-datos

# Ver ramas restantes
!git branch

## 7. Trabajar con Repositorios Remotos

### 7.1 Conectar con GitHub/GitLab

In [None]:
# Agregar remote (CAMBIAR URL POR TU REPOSITORIO)
# !git remote add origin https://github.com/tu-usuario/tu-repo.git

# Ver remotes configurados
!git remote -v

print("\n‚ö†Ô∏è Recuerda crear el repositorio en GitHub/GitLab primero")

### üåê Repositorios Remotos: Colaboraci√≥n

**Concepto:** Un remote es una versi√≥n del repositorio alojada en servidor (GitHub, GitLab, Bitbucket).

**Comandos:**
- `git remote add origin <url>`: vincula repo local con remoto
- `git remote -v`: lista remotes configurados
- `origin`: nombre convencional del remote principal

**Flujo t√≠pico:**
1. Crear repo en GitHub/GitLab
2. Vincular repo local con `git remote add`
3. Push inicial con `git push -u origin main`

**Ventaja:** Respaldo en la nube, colaboraci√≥n distribuida, integraci√≥n con CI/CD.

### 7.2 Push: Subir Cambios

In [None]:
# Primera vez: establecer upstream
# !git push -u origin main

# Posteriores push
# !git push

print("üí° Comando: git push -u origin main (primera vez)")
print("üí° Comando: git push (posteriores)")

### ‚¨ÜÔ∏è Push: Subir Cambios al Remoto

**Concepto:** Push env√≠a commits locales al repositorio remoto, sincronizando cambios.

**Comandos:**
- `git push -u origin main`: primera vez, establece tracking branch
- `git push`: posteriores push usan la configuraci√≥n establecida
- `-u` (--set-upstream): vincula rama local con remota

**Flujo:**
```
Local commits ‚Üí git push ‚Üí Remote repository
```

**Antes de push:** Asegurarse de que c√≥digo funciona y tests pasan.

**Nota:** Push requiere autenticaci√≥n (HTTPS con token o SSH con clave).

### 7.3 Pull: Traer Cambios

In [None]:
# Traer cambios del remoto
# !git pull origin main

print("üí° Comando: git pull origin main")
print("‚ö†Ô∏è Siempre haz pull antes de empezar a trabajar")

### ‚¨áÔ∏è Pull: Sincronizar Cambios del Remoto

**Concepto:** Pull descarga y fusiona cambios del repositorio remoto al local.

**Comando:**
```bash
git pull origin main
```

**¬øQu√© hace realmente?**
- `git fetch`: descarga cambios del remoto
- `git merge`: fusiona cambios en rama actual

**Flujo:**
```
Remote changes ‚Üí git pull ‚Üí Local repository
```

**Regla de oro:** Hacer `git pull` antes de comenzar a trabajar evita conflictos posteriores.

**Conflictos:** Si hay cambios locales incompatibles, Git solicitar√° resoluci√≥n manual.

### 7.4 Clone: Clonar Repositorio Existente

In [None]:
# Clonar un repositorio
# !git clone https://github.com/usuario/repositorio.git

print("""
üí° Flujo t√≠pico al unirse a un proyecto:

1. git clone https://github.com/empresa/proyecto-datos.git
2. cd proyecto-datos
3. git checkout -b feature/mi-cambio
4. [hacer cambios]
5. git add .
6. git commit -m "feat: Mi contribuci√≥n"
7. git push origin feature/mi-cambio
8. [Crear Pull Request en GitHub]
""")

### üì• Clone: Copiar Repositorio Completo

**Concepto:** Clone descarga un repositorio completo con todo su historial de commits a tu m√°quina local.

**Comando:**
```bash
git clone <url>
```

**Qu√© incluye:**
- Todo el historial de commits
- Todas las ramas
- Configuraci√≥n del remote origin autom√°tica
- Working directory con √∫ltima versi√≥n

**Uso t√≠pico:**
- Contribuir a proyecto existente
- Descargar c√≥digo open source
- Nuevo miembro del equipo clona repo del proyecto

**Diferencia con fork:** Clone local vs fork crea copia en tu cuenta GitHub.

## 8. Flujo de Trabajo GitFlow

### üåä GitFlow: Estrategia de Branching

```
main (producci√≥n)
  |
  ‚îú‚îÄ‚îÄ develop (desarrollo)
  ‚îÇ     |
  ‚îÇ     ‚îú‚îÄ‚îÄ feature/nueva-ingesta
  ‚îÇ     ‚îú‚îÄ‚îÄ feature/transformacion-avanzada
  ‚îÇ     ‚îî‚îÄ‚îÄ feature/validacion-calidad
  ‚îÇ
  ‚îî‚îÄ‚îÄ hotfix/correccion-critica
```

### Ramas Principales:

- **main**: C√≥digo en producci√≥n
- **develop**: Integraci√≥n de features

### Ramas de Soporte:

- **feature/***: Nuevas funcionalidades
- **hotfix/***: Correcciones urgentes
- **release/***: Preparaci√≥n de releases

---

## 9. Comandos √ötiles Avanzados

### 9.1 Ver Diferencias

In [None]:
# Ver cambios no staged
!git diff

# Ver cambios staged
!git diff --staged

# Ver diferencias entre branches
# !git diff main..develop

### 9.2 Deshacer Cambios

In [None]:
print("""
üîÑ COMANDOS PARA DESHACER CAMBIOS:

1. Descartar cambios en working directory:
   git checkout -- archivo.py

2. Quitar archivo del staging area:
   git reset HEAD archivo.py

3. Modificar √∫ltimo commit (mensaje o archivos):
   git commit --amend -m "Nuevo mensaje"

4. Volver a un commit anterior (destructivo):
   git reset --hard abc123

5. Revertir un commit espec√≠fico (seguro):
   git revert abc123

‚ö†Ô∏è CUIDADO: reset --hard elimina cambios permanentemente
""")

### 9.3 Stash: Guardar Cambios Temporalmente

In [None]:
print("""
üíæ GIT STASH - Guardar trabajo temporal:

# Guardar cambios actuales
git stash

# Guardar con mensaje
git stash save "WIP: trabajando en pipeline"

# Ver lista de stashes
git stash list

# Aplicar √∫ltimo stash
git stash apply

# Aplicar y eliminar
git stash pop

# Aplicar stash espec√≠fico
git stash apply stash@{1}

üí° √ötil cuando necesitas cambiar de rama pero no quieres commitear
""")

### 9.4 Log Avanzado

In [None]:
# Log con gr√°fico
!git log --oneline --graph --all --decorate

# Log con estad√≠sticas
# !git log --stat

# Buscar commits por autor
# !git log --author="Tu Nombre"

# Buscar commits por mensaje
# !git log --grep="pipeline"

## 10. Resoluci√≥n de Conflictos

### ‚öîÔ∏è ¬øCu√°ndo Ocurren Conflictos?

Cuando dos ramas modifican las mismas l√≠neas de un archivo:

```
<<<<<<< HEAD
def extraer_datos(fuente):
    # Tu versi√≥n
    return pd.read_csv(fuente)
=======
def extraer_datos(fuente):
    # Versi√≥n del otro branch
    return pd.read_parquet(fuente)
>>>>>>> feature/nuevo-formato
```

### üìù Pasos para Resolver:

1. **Identificar** archivos con conflictos: `git status`
2. **Abrir** archivo y buscar marcadores `<<<<<<<`, `=======`, `>>>>>>>`
3. **Decidir** qu√© c√≥digo mantener (o combinar ambos)
4. **Eliminar** marcadores de conflicto
5. **Agregar** archivo resuelto: `git add archivo.py`
6. **Completar** merge: `git commit`

---

## 11. Mejores Pr√°cticas para Proyectos de Datos

### ‚úÖ DO's (Hacer)

In [None]:
print("""
‚úÖ MEJORES PR√ÅCTICAS:

1. üìù COMMITS AT√ìMICOS
   ‚Ä¢ Un cambio l√≥gico por commit
   ‚Ä¢ Mensajes descriptivos y concisos
   ‚Ä¢ Usar convenciones (feat, fix, docs, etc.)

2. üîí .GITIGNORE COMPLETO
   ‚Ä¢ Excluir datos grandes (*.csv, *.parquet)
   ‚Ä¢ Excluir credenciales y secrets
   ‚Ä¢ Excluir archivos generados (cache, logs)
   ‚Ä¢ Mantener .gitkeep para directorios vac√≠os

3. üåø BRANCHING ESTRAT√âGICO
   ‚Ä¢ Usar ramas para cada feature
   ‚Ä¢ Nombres descriptivos: feature/ingesta-s3
   ‚Ä¢ Merge frecuente para evitar divergencias
   ‚Ä¢ Eliminar ramas despu√©s de merge

4. üìö DOCUMENTACI√ìN
   ‚Ä¢ README.md actualizado
   ‚Ä¢ Documentar estructura del proyecto
   ‚Ä¢ Incluir instrucciones de setup
   ‚Ä¢ Mantener CHANGELOG.md

5. üîÑ PULL ANTES DE PUSH
   ‚Ä¢ Siempre git pull antes de empezar
   ‚Ä¢ Resolver conflictos localmente
   ‚Ä¢ Testear antes de push

6. üè∑Ô∏è TAGS PARA VERSIONES
   ‚Ä¢ Etiquetar releases: git tag v1.0.0
   ‚Ä¢ Usar versionado sem√°ntico
   ‚Ä¢ Documentar cambios en cada versi√≥n

7. üß™ CI/CD INTEGRADO
   ‚Ä¢ GitHub Actions para tests autom√°ticos
   ‚Ä¢ Validar c√≥digo antes de merge
   ‚Ä¢ Despliegues autom√°ticos
""")

### ‚ùå DON'Ts (Evitar)

In [None]:
print("""
‚ùå ERRORES COMUNES A EVITAR:

1. üö´ NUNCA commitear:
   ‚Ä¢ Credenciales (passwords, API keys)
   ‚Ä¢ Datos sensibles o personales
   ‚Ä¢ Archivos grandes (>100MB)
   ‚Ä¢ Archivos binarios compilados

2. üö´ EVITAR:
   ‚Ä¢ Commits con mensaje "fix" o "update"
   ‚Ä¢ Trabajar directamente en main
   ‚Ä¢ Forzar push (git push --force) sin motivo
   ‚Ä¢ Merge sin revisar cambios
   ‚Ä¢ Ignorar conflictos

3. üö´ NO:
   ‚Ä¢ Hacer commits gigantes con muchos cambios
   ‚Ä¢ Dejar ramas sin mergear indefinidamente
   ‚Ä¢ Commitear c√≥digo que no funciona
   ‚Ä¢ Olvidar hacer pull antes de trabajar

4. üö´ RIESGOS:
   ‚Ä¢ git reset --hard en rama compartida
   ‚Ä¢ Reescribir historial p√∫blico (rebase)
   ‚Ä¢ Eliminar .git sin backup
   ‚Ä¢ Commitear sin revisar con git diff
""")

## 12. Estructura de Proyecto Recomendada

### üìÇ Template para Proyectos de Datos

In [None]:
# Crear estructura de proyecto
import os

estructura = [
    'data/raw/.gitkeep',
    'data/processed/.gitkeep',
    'data/external/.gitkeep',
    'notebooks/',
    'src/pipelines/',
    'src/utils/',
    'tests/',
    'config/',
    'docs/',
    'logs/.gitkeep',
    'outputs/.gitkeep'
]

proyecto_template = '../../ejemplos/proyecto_template'
os.makedirs(proyecto_template, exist_ok=True)

for item in estructura:
    path = os.path.join(proyecto_template, item)
    if item.endswith('/'):
        os.makedirs(path, exist_ok=True)
    else:
        os.makedirs(os.path.dirname(path), exist_ok=True)
        open(path, 'a').close()

# Crear README
readme_content = """
# Proyecto de Ingenier√≠a de Datos

## Estructura del Proyecto

```
.
‚îú‚îÄ‚îÄ data/
‚îÇ   ‚îú‚îÄ‚îÄ raw/          # Datos crudos sin modificar
‚îÇ   ‚îú‚îÄ‚îÄ processed/    # Datos procesados
‚îÇ   ‚îî‚îÄ‚îÄ external/     # Datos externos
‚îú‚îÄ‚îÄ notebooks/        # Jupyter notebooks para an√°lisis
‚îú‚îÄ‚îÄ src/
‚îÇ   ‚îú‚îÄ‚îÄ pipelines/    # Scripts de pipelines ETL
‚îÇ   ‚îî‚îÄ‚îÄ utils/        # Utilidades y funciones auxiliares
‚îú‚îÄ‚îÄ tests/            # Tests unitarios e integraci√≥n
‚îú‚îÄ‚îÄ config/           # Archivos de configuraci√≥n
‚îú‚îÄ‚îÄ docs/             # Documentaci√≥n
‚îú‚îÄ‚îÄ logs/             # Archivos de log
‚îú‚îÄ‚îÄ outputs/          # Resultados y reportes
‚îú‚îÄ‚îÄ .gitignore
‚îú‚îÄ‚îÄ requirements.txt
‚îî‚îÄ‚îÄ README.md
```

## Instalaci√≥n

```bash
# Clonar repositorio
git clone <url>
cd proyecto

# Crear entorno virtual
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

# Instalar dependencias
pip install -r requirements.txt
```

## Uso

```bash
# Ejecutar pipeline principal
python src/pipelines/main_pipeline.py
```

## Contribuir

1. Crear rama: `git checkout -b feature/nueva-funcionalidad`
2. Hacer cambios y commit: `git commit -m "feat: descripci√≥n"`
3. Push: `git push origin feature/nueva-funcionalidad`
4. Crear Pull Request
"""

with open(os.path.join(proyecto_template, 'README.md'), 'w') as f:
    f.write(readme_content)

print(f"‚úÖ Estructura de proyecto creada en: {proyecto_template}")

## 13. Integraci√≥n con GitHub

### üêô Caracter√≠sticas de GitHub

1. **Pull Requests (PR)**
   - Revisar c√≥digo antes de merge
   - Discutir cambios en equipo
   - CI/CD autom√°tico

2. **Issues**
   - Tracking de bugs y features
   - Organizaci√≥n con labels
   - Vinculaci√≥n con commits

3. **GitHub Actions**
   - Tests autom√°ticos
   - Despliegues
   - Validaciones de c√≥digo

4. **Wiki y Documentaci√≥n**
   - Documentaci√≥n colaborativa
   - Versionado autom√°tico

---

## üéØ Ejercicios Pr√°cticos

### Ejercicio 1: Crear Repositorio Completo
1. Crea un nuevo repositorio para un proyecto de datos
2. Agrega .gitignore apropiado
3. Crea estructura de directorios
4. Implementa un pipeline simple
5. Haz al menos 3 commits significativos

In [None]:
# TU C√ìDIGO AQU√ç

### Ejercicio 2: Trabajo con Branches
1. Crea una rama para una nueva feature
2. Implementa la feature (ej: m√≥dulo de logging)
3. Haz commits incrementales
4. Merge a main
5. Elimina la rama

In [None]:
# TU C√ìDIGO AQU√ç

### Ejercicio 3: Simulaci√≥n de Conflicto
1. Crea dos ramas diferentes
2. Modifica el mismo archivo en ambas
3. Intenta merge
4. Resuelve el conflicto manualmente
5. Completa el merge

In [None]:
# TU C√ìDIGO AQU√ç

## üìö Recursos Adicionales

### Documentaci√≥n Oficial
- [Pro Git Book](https://git-scm.com/book/es/v2) - Libro completo gratis
- [GitHub Docs](https://docs.github.com/es)
- [GitLab Docs](https://docs.gitlab.com/)

### Tutoriales Interactivos
- [Learn Git Branching](https://learngitbranching.js.org/) - Tutorial visual
- [Git Immersion](https://gitimmersion.com/) - Pr√°ctica guiada
- [Oh My Git!](https://ohmygit.org/) - Juego educativo

### Cheat Sheets
- [Git Cheat Sheet](https://education.github.com/git-cheat-sheet-education.pdf)
- [Visual Git Cheat Sheet](https://ndpsoftware.com/git-cheatsheet.html)

### Herramientas GUI
- **GitKraken**: Cliente visual completo
- **SourceTree**: GUI gratuito
- **GitHub Desktop**: Integraci√≥n con GitHub
- **VS Code**: Integraci√≥n nativa de Git

---

## ‚úÖ Resumen

En este notebook aprendiste:

1. ‚úÖ **Fundamentos de Git**: Repositorios, commits, branches
2. ‚úÖ **Comandos esenciales**: init, add, commit, push, pull, merge
3. ‚úÖ **Branching**: Crear, mergear y eliminar ramas
4. ‚úÖ **Colaboraci√≥n**: Trabajo con remotes, GitHub/GitLab
5. ‚úÖ **Mejores pr√°cticas**: .gitignore, mensajes de commit, flujo GitFlow
6. ‚úÖ **Resoluci√≥n de conflictos**: Identificar y resolver merges problem√°ticos
7. ‚úÖ **Estructura de proyecto**: Templates para proyectos de datos

**üéØ Pr√≥ximo paso**: APIs y Web Scraping

---

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)**Siguiente ‚Üí:** [APIs y Web Scraping ‚Üí](08_apis_web_scraping.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb)- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb) ‚Üê üîµ Est√°s aqu√≠- [APIs y Web Scraping](08_apis_web_scraping.ipynb)- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)**Siguiente ‚Üí:** [APIs y Web Scraping ‚Üí](08_apis_web_scraping.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb)- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb) ‚Üê üîµ Est√°s aqu√≠- [APIs y Web Scraping](08_apis_web_scraping.ipynb)- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)**Siguiente ‚Üí:** [APIs y Web Scraping ‚Üí](08_apis_web_scraping.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb)- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb) ‚Üê üîµ Est√°s aqu√≠- [APIs y Web Scraping](08_apis_web_scraping.ipynb)- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)