<a href="https://colab.research.google.com/github/nferrucho/NPL/blob/main/curso3/ciclo2/1_git.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://drive.google.com/uc?export=view&id=10mKgunAZowpvpttdYdjoDeCM2RSMGXer" width="100%">

# Versionamiento de Código
---

En este notebook daremos una introducción práctica al versionamiento de código con la herramienta `git`, para ello, debemos instalarla en el entorno de Google Colaboratory. Recuerde que se trata de un sistema basado en el sistema operativo Linux, más específicamente la distribución Ubuntu:

In [None]:
!cat /etc/os-release

Podemos instalar `git` con el siguiente comando:

In [None]:
!apt install git

Adicionalmente, instalaremos algunas herramientas auxiliares:

In [None]:
!apt install tree

Validamos que la herramienta se encuentra instalada:

In [None]:
!git --version

Finalmente, importamos las librerías necesarias:

In [None]:
import os
from IPython import get_ipython

## **1. Control de Versiones**
---

Llamamos control de versiones a la gestión de cambios realizados sobre elementos de algún producto o sus componentes. Se trata de una tarea que no es específica en aplicaciones de _machine learning_, sino que toma su base en proyectos de la ingeniería donde se crean versiones de software, hardware, metodologías, entre otras.

En proyectos de analítica y _machine learning_ se suelen tratar 4 tipos de versionamiento:

- **Versionamiento de código**: se crean versiones del código fuente (por ejemplo en Python).
- **Versionamiento de datos**: se crean versiones del conjunto de datos, conjuntos de características, entre otros.
- **Versionamiento de modelos**: los distintos modelos entrenados se versionan.
- **Versionamiento de artefactos**: generamos versiones de distintos tipos de elementos que pueden llegar a ser salida de los modelos, entrenamiento, loggings, y demás.

En este notebook estaremos viendo el detalle del versionamiento de código.

## **2. Versionamiento de Código**
---

Existen varias razones por las cuales es importante versionar el código en proyectos de aprendizaje automático (machine learning):

- **Seguimiento de cambios**: Al usar un sistema de control de versiones se puede rastrear todos los cambios realizados en el código y revertirlos si es necesario. Esto puede ser especialmente útil en proyectos de aprendizaje automático, donde se pueden probar diferentes modelos y parámetros.
- **Colaboración**: Al versionar el código, varios desarrolladores pueden trabajar en un proyecto de aprendizaje automático al mismo tiempo, y enviar y recibir cambios a través de un repositorio remoto. Esto facilita el trabajo en equipo y la colaboración en proyectos complejos.
- **Replicabilidad**: Al tener un registro detallado de todos los cambios realizados en el código, es más fácil reproducir los resultados de un proyecto de aprendizaje automático en el futuro. Esto es especialmente importante en investigación científica, donde es necesario poder replicar los resultados de un estudio.
- **Transparencia**: Al versionar el código, se puede ver exactamente qué cambios se realizaron en un proyecto de aprendizaje automático y quién los realizó. Esto puede ayudar a detectar errores y problemas, y a entender mejor cómo funciona el sistema.

En resumen, versionar el código en proyectos de aprendizaje automático es esencial para el seguimiento de los cambios, la colaboración, la replicabilidad y la transparencia en el desarrollo de proyectos complejos.

En este caso estaremos trabajando con las dos herramientas más populares para versionamiento de código `git` y `github`.

## **3. Git**
---

`git` es un software de control de versiones que permite a los desarrolladores llevar un registro de los cambios realizados en el código de un proyecto. Con este software, los desarrolladores pueden trabajar en diferentes versiones de un proyecto al mismo tiempo, sin causar conflictos entre las versiones. Además, `git` permite crear ramas (branches) para trabajar en características específicas del proyecto, y luego fusionarlas de nuevo en la rama principal cuando estén listas.

<center><img src="https://drive.google.com/uc?export=view&id=18S4DFuH8KmXd-iIOMYbEAWxVI31Ijzya" width="80%"></center>

`git` puede ser especialmente útil en proyectos de ciencia de datos, ya que permite estructurar y organizar un proyecto de ciencia de datos de tal forma de que cualquier cambio funcional pueda ser versionado y revertido.

`git` funciona mediante el uso de repositorios, que son copias completas de un proyecto con todo su historial de cambios. Cada repositorio tiene tres áreas principales: el área de trabajo, el área de preparación y el repositorio:

- **Repositorio**: Es donde se guardan las versiones finales del proyecto.
- **Área de trabajo**: Es donde se realizan los cambios en los archivos del proyecto.
- **Área de preparación**: Es donde se colocan los cambios que se van a guardar en el repositorio.

`git` funciona por medio de comandos de shell. Veamos un ejemplo de las tres áreas:

### **3.1. Creación de un Repositorio**
---

Comenzaremos inicializando un repositorio, para ello debemos crear una carpeta con el nombre del proyecto.

En este caso usamos el comando `mkdir` para crear un directorio con nombre `'myrepo'`:

In [None]:
!mkdir 'myrepo'

Ahora, cambiamos el directorio de trabajo para ubicarnos dentro de esta nueva carpeta con el comando `mv`:

> **Nota**: a diferencia de otros comandos UNIX, el comando `cd` debe usarse con el operador `%` en lugar de `!`. Esto ya que el comando `cd` debe cambiar el entorno de trabajo del notebook.

In [None]:
%cd 'myrepo'

Podemos validar que ahora nos encontramos dentro de la carpeta que acabamos de crear con el comando `pwd`:

In [None]:
!pwd

Por último, inicializamos un repositorio con el comando `git init`:

In [None]:
!git init

Al iniciar un repositorio se crea la carpeta `.git`, donde la herramienta almacenará todas las versiones y metadatos necesarios para crear versiones de un código.

Podemos ver los contenidos de esta carpeta con el comando `tree`:

In [None]:
!tree -a

> **Nota**: todos los archivos o carpetas cuyo nombre comienzan por punto `.` son ocultos, es decir, la carpeta `.git` normalmente es oculta y únicamente la debe manipular la misma herramienta. No obstante, es necesario saber que existe para evitar borrarla o modificarla por error.

### **3.2. Área de Trabajo y Preparación**
---

El área de trabajo en `git` es el lugar donde se realizan los cambios en los archivos del proyecto. Cuando se hacen modificaciones a un archivo en el área de trabajo, `git` no registra automáticamente esos cambios en el repositorio. En su lugar, se deben añadir explícitamente los cambios al área de preparación mediante el comando `git add`.

Veamos un ejemplo creando el siguiente archivo con el comando `%%writefile` (escribe toda la celda en un archivo):

In [None]:
%%writefile rand.py
import numpy as np
print(np.random.normal())

Podemos validar que se creó el archivo `rand.py`:

In [None]:
!ls

También podemos ver el contenido del archivo con el comando `cat`:

In [None]:
!cat rand.py

Como podemos ver, se trata de un script en _Python_ que imprime un número aleatorio por medio de la librería `numpy`, podemos ejecutarlo:

In [None]:
!python rand.py

Veamos cómo cambia el espacio de trabajo con el comando `git status`:

In [None]:
!git status

Como podemos ver, `git` nos indica que hay un nuevo archivo al que no se le está haciendo seguimiento, usamos el comando `git add` para agregarlo al área de preparación:

In [None]:
!git add rand.py

Podemos validar el estado de los archivos con el comando `git status`:

In [None]:
!git status

Como podemos ver, el archivo ahora se encuentra en el área de preparación y se muestra con un color diferente. Antes de agregar cualquier elemento al repositorio, debemos identificarnos como usuarios. Puede cambiar los siguientes datos por su nombre y correo:

In [None]:
!git config --global user.email "ejemplo@unal.edu.co"
!git config --global user.name "Mi nombre o username"
!git config --global init.defaultBranch master

Podemos agregar el archivo al repositorio con el comando `git commit` y agregando un mensaje:

In [None]:
!git commit -m "agregamos el archivo rand.py"

Con esto ya tenemos un archivo agregado al repositorio de `git` sobre el que se realiza seguimiento. Esto quiere decir que cualquier cambio que realicemos sobre el mismo será detectado y podrá ser revertido.

Veamos el estado actual del repositorio:

In [None]:
!git status

Ahora, vamos a modificar el archivo para que quede de la siguiente forma (cambiamos el número aleatorio de normal a uniforme):

In [None]:
%%writefile rand.py
import numpy as np
print(np.random.uniform())

Podemos validar el contenido del archivo:

In [None]:
!cat rand.py

Veamos qué cambios se detectan con el comando `git status`:

In [None]:
!git status

Como podemos ver, el archivo `rand.py` aparece modificado. Podemos ver qué ha cambiado con el comando `git diff`:

In [None]:
!git diff rand.py

En este caso, `git` nos muestra qué lineas se han eliminado y cuáles se han agregado. Por último, podemos agregar estos cambios al repositorio con los comandos que vimos anteriormente:

In [None]:
!git add rand.py
!git commit -m "Cambiamos el tipo de distribución"

### **3.3. Componentes de Git**
---

Internamente, `git` funciona como un grafo computacional tal y como se muestra en la siguiente figura:

<img src="https://drive.google.com/uc?export=view&id=1OIdSbN49YpLxP97azU0ukok2ExF9fBn9" width="80%">

Podemos ver un flujo de trabajo donde varios desarrolladores contribuyen al mismo proyecto. El grafo de `git` está conformado por los siguientes componentes:

#### **3.3.1. Commits**
---

Son los nodos en el grafo y corresponden a una versión específica del código. Un commit se crea al usar el comando `git commit` como lo vimos anteriormente.

Con el comando `git log` podemos ver todos los commits en el proyecto:

In [None]:
!git log

Como podemos ver, tenemos dos commits creados hasta el momento. Cada commit se identifica por:

- Código hash único que permite identificar cada commit.
- El autor que creó el commit.
- La fecha en la que se realizó el cambio.
- El mensaje que se agregó con el commit.

Si deseamos movernos a un commit específico, podemos usar el comando `git checkout` especificando el hash del commit.

> **Nota**: el código será completamente diferente para usted, así que lo vamos a extraer buscando el mensaje del primer commit que realizamos.

In [None]:
command = """
git --no-pager log --decorate=short --pretty=oneline |\
        grep -P 'agregamos' |\
        awk '{ print $1 }'
"""
commit = (
        get_ipython()
        .getoutput(command)[0]
        )
print(commit)

Guardamos el commit como una variable de entorno:

In [None]:
os.environ["COMMIT"] = commit

Podemos validar que la variable se encuentra en el entorno:

In [None]:
!echo $COMMIT

Por último, cambiamos a la primera versión del código:

In [None]:
!git checkout $COMMIT

Validemos el contenido del archivo `rand.py`:

In [None]:
!cat rand.py

Como podemos ver, el archivo se revirtió a la primera versión. Podemos volver a la versión más reciente de la siguiente forma:

In [None]:
!git checkout master

#### **3.3.1. Branches**
---

Las ramas son una forma de mantener más de una versión paralela del código. Una rama se crea con el comando `git branch` como mostramos a continuación:

In [None]:
!git branch dev

Podemos validar las ramas existentes con el mismo comando:

In [None]:
!git branch

Esto nos muestra dos ramas:

- `master`: rama principal que existe por defecto.
- `dev`: nombre de la rama que acabamos de crear.

En este momento, ambas ramas tienen exactamente el mismo código, probemos haciendo algunos cambios sobre la rama `master`, para ello agregamos un nuevo script:

In [None]:
%%writefile rand_matrix.py
import numpy as np
x = np.random.normal(size=(2, 2))
print(x)

Podemos ver que el archivo fue creado y su estado en el repositorio:

In [None]:
!git status

Agregamos el archivo al repositorio:

In [None]:
!git add rand_matrix.py
!git commit -m "Creamos el script rand_matrix"

Podemos ver los commits creados hasta este punto:

In [None]:
!git log

Ahora, cambiamos a la rama `dev` con el comando `git switch`:

In [None]:
!git switch dev

Como esta rama fue creada un commit atrás, no contiene el nuevo script `rand_matrix.py`.

In [None]:
!ls

Sobre esta rama también podemos realizar cambios, vamos a agregar el siguiente script:

In [None]:
%%writefile randint.py
import numpy as np
print(np.random.randint(0, 5))

Podemos validar que ya existe:

In [None]:
!git status

Agregamos el archivo al repositorio:

In [None]:
!git add randint.py
!git commit -m "Agregamos el archivo randint"

Recuerde que si cambiamos a la rama `master`, los cambios que únicamente se realizaron en `dev` deberían de ocultarse (el script `randint.py`), veamos los archivos en la rama actual:

In [None]:
!ls

Ahora veamos qué pasa cuando regresamos a la rama `master`:

In [None]:
!git switch master

Veamos los archivos que tenemos en esta rama:

In [None]:
!ls

Como podemos ver, las ramas son independientes (incluso los cambios dentro de un mismo archivo).

Cada rama tiene sus propios commits con sus propios identificadores, veamos los commits de la rama `master`:

In [None]:
!git switch master
!git log

Ahora veamos los commits de la rama `dev`:

In [None]:
!git switch dev
!git log

`git` nos permite unir o combinar dos ramas con el comando `git merge`, es decir, podemos consolidar los resultados en una única rama. Por ejemplo, podemos unir la rama `dev` dentro de la rama `master`, primero, nos debemos posicionar sobre la rama destino de la unión:

In [None]:
!git switch master

Ahora, hacemos la unión de la rama `dev`:

In [None]:
!git merge dev --no-edit

Veamos los archivos luego de la unión:

In [None]:
!ls

Como podemos ver, ahora tenemos los tres archivos en un mismo espacio. De igual forma pasa con los commits:

In [None]:
!git log

La rama `master` tiene en su histórico sus commits y el commit realizado sobre la rama `dev`.

Es posible crear tantas ramas cómo queramos, no obstante, hay dos prácticas comunes que nos permiten gestionar de mejor forma la creación y unión de ramas dentro de un proyecto: Gitflow y Trunk Based:

<img src="https://drive.google.com/uc?export=view&id=1x25Ord1C5pPnpNbz3_cSxt4mT1BJqYhm" width="80%">

- **Gitflow** es una metodología de ramificación que se basa en tener ramas separadas para desarrollo, pruebas y producción. Esta metodología sugiere tener una rama principal (master) que contiene el código estable y seguro para producción, una rama de desarrollo (develop) donde se integran todas las nuevas funcionalidades, y ramas adicionales para características y correcciones de errores.
- **Trunk Based** es una metodología de ramificación más simple en la que todos los desarrolladores trabajan directamente en la rama principal (master) del repositorio. En esta metodología no se utilizan ramas adicionales para características o correcciones de errores, sino que se hace uso de técnicas como el pair programming, code review y pruebas automatizadas para asegurar la calidad del código.

## **4. Github**
---

Github es una plataforma en línea que ofrece servicios de alojamiento y control de versiones para proyectos de software mediante `git`. En Github, los desarrolladores pueden crear repositorios para alojar su código, colaborar con otros desarrolladores en proyectos compartidos, realizar seguimiento de problemas y características, y hacer seguimiento de las contribuciones de los desarrolladores.

<img src="https://drive.google.com/uc?export=view&id=1nLN0kCo_teb7Y4JHHjiXnUQ_6V2tef2J" width="60%">

Github también ofrece una amplia variedad de herramientas para facilitar el desarrollo colaborativo, como la posibilidad de enviar y recibir solicitudes de extracción (pull requests) para fusionar cambios en un repositorio, y la posibilidad de hacer un seguimiento de las tareas y problemas del proyecto mediante el uso de etiquetas y sistemas de seguimiento de problemas.

Además de ser una plataforma de alojamiento y control de versiones, Github también se ha convertido en una comunidad donde los desarrolladores pueden compartir y colaborar en proyectos de código abierto, y es una importante plataforma para los desarrolladores para compartir y descubrir proyectos interesantes.

Para empezar con Github debemos crear una cuenta en [este enlace](https://github.com/signup). Una vez creada la cuenta debemos crear un token de acceso para conectarnos desde Google Colab (o en un ambiente local), para esto, debe dirigirse a la parte superior derecha sobre el icono de su usuario y dar click en `Settings`:

<img src="https://drive.google.com/uc?export=view&id=1j-fnjkGEsoUIHS_XEk7iSDlnvbDGTxeV" width="60%">

Aquí debemos seleccionar `Developer Settings`, en la parte de la izquierda:

<img src="https://drive.google.com/uc?export=view&id=14nELKnQ-7-BbVbsA6EABjO1b_oMRS_OI" width="60%">

Ahora debemos seleccionar `Personal Access Tokens > Tokens (classic)` y dar click sobre `Generate New Token`, debe llenar los campos como se muestran en esta imagen:

<img src="https://drive.google.com/uc?export=view&id=1F315eYNob2E-Z4jM8IqKvtUG5kPyttjJ" width="100%">

Se le pedirá seleccionar una lista de permisos, debe escoger los siguientes:

- `repo`: control de los repositorios privados del usuario.
- `admin:repo_hook`: permisos de lectura y escritura de repositorios.

Esto deberá generar un código el cual debe asignar en la siguiente variable:

In [None]:
token = "" # Agregue su token dentro de las comillas.

Ahora, debemos configurar un repositorio remoto (dentro de Github) que será como un espejo de nuestro repositorio local.

Para ello, debemos hacer click sobre el icono `+` en la parte superior derecha y dar click en `New Repository`:

<img src="https://drive.google.com/uc?export=view&id=1XXJxZH0H9vqc0fT4d_31Q9XA-jCbhZtK" width="60%">

Aunque no es obligatorio que el repositorio de github se llame igual que nuestro repositorio local (`myrepo`), se recomienda que se tengan el mismo nombre. Puede agregar una descripción al proyecto, también lo puede hacer público (visible por cualquier persona) o privado. Es importante que **NO** esté activa la opción `Add a README file`. Para crear el repositorio debe dar click en `Create repository`.

Ahora deberá dar click sobre el botón `HTTPS` y copiar la url del repositorio:

<img src="https://drive.google.com/uc?export=view&id=19w_XVHHYIKuZxyyCbaQiP_urtMYw52pj" width="100%">

Debe reemplazar la url en la siguiente variable:

In [None]:
repo_url = "..." # Agruegue la url de su repositorio dentro de las comillas.

Ahora, usaremos una expresión regular para reemplazar el token en esta url:

In [None]:
import re
pat = re.compile(r"(https://)(.*)")

Formateamos la URL:

In [None]:
match = re.match(pat, repo_url)
url_token = "".join([match.group(1), token, "@", match.group(2)])
os.environ["GITHUB"] = url_token

Finalmente, enlazamos el repositorio local con el nuevo repositorio en Github con el comando `git remote`:

In [None]:
!git remote add origin $GITHUB

En este punto, las versiones local (Colab) y remoto (Github) son distintas, para subir los cambios podemos usar el comando `git push` especificando la rama que deseamos actualizar:

In [None]:
!git push origin master
!git push origin dev

Si actualiza el repositorio en la página de Github, verá que los archivos se han guardado en la nube.

También puede darse el caso en el que queramos descargar un repositorio. Veamos un ejemplo, primero salimos del repositorio:

In [None]:
%cd ..

Eliminamos el repositorio de Colab:

In [None]:
!rm -rf myrepo

Validamos que el repositorio ya no está:

In [None]:
!ls

Ahora, usamos el comando `git clone` para descargar el repositorio:

In [None]:
!git clone $GITHUB

Como podemos ver, el repositorio se descargó desde Github:

In [None]:
!ls

Vamos a tener dos versiones del mismo repositorio (equivalente a dos personas trabajando sobre el mismo, no es necesario que estén en el mismo computador):

In [None]:
!cp -r myrepo myrepo2
!mv myrepo myrepo1

Y vamos a crear un archivo sobre el repositorio `myrepo1`:

In [None]:
%cd myrepo1

Agregamos un archivo:

In [None]:
%%writefile data.txt
# hello world

Creamos un commit y lo subimos a Github:

In [None]:
!git add data.txt
!git commit -m "Agregamos data.txt"
!git push origin master

Ahora, nos movemos al repositorio del otro desarrollador:

In [None]:
%cd ../myrepo2
!ls

Como podemos ver, no existe el archivo `data.txt` en este entorno (se encuentra únicamente en `myrepo1` y en Github).

Para descargar los cambios más recientes de Github, podemos usar el comando `git pull` y especificando una rama:

In [None]:
!git pull origin master

Validemos si el repositorio está actualizado:

In [None]:
!ls

Como podemos ver, todos los repositorios están sincronizados. Esta es la metodología colaborativa típica que siguen los desarrolladores para trabajar en conjunto sobre un repositorio de código.

## Recursos Adicionales
---

Los siguientes enlaces corresponden a sitios donde encontrará información muy útil para profundizar en los temas vistos en este notebook:

- [Git](https://git-scm.com/)
- [Github](https://github.com/)

## Créditos
---

**Profesor**

- [Jorge E. Camargo, PhD](https://dis.unal.edu.co/~jecamargom/)

**Asistente docente**:

- [Juan S. Lara MSc](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/)

**Diseño de imágenes:**
- [Brian Chaparro Cetina](mailto:bchaparro@unal.edu.co).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*