# Clase 202 - Herramientas y Ambiente de Trabajo

> Machine Learning
>
> [Alan Badillo Salas](mailto:alan@nomadacode.com)
>
> Github: [https://github.com/dragonnomada/ml-2023](https://github.com/dragonnomada/ml-2023)

**Contenido**

* Ambientes virtuales
* Anaconda
* Instalación de paquetes para aprendizaje de máquina
* GitHub

## Ambientes virtuales

Los ambientes virtuales de python permiten crear carpetas aisladas dónde podemos instalar las librerías científicas necesarias para trabajar.

Podemos crear diferentes ambientes de acuerdo a la situación que necesitemos.

Una vez creado el ambiente lo podemos activar a nivel sistema operativo, para que ese ambiente sea el que esté disponible para todo el sistema.

Antes de crear el ambiente virtual necesitaremos instalar python desde la página [https://python.org](https://python.org).

### Ejemplo de instalación de python

El proceso de instalación de python es sencillo, basta descargar la última versión del instalador y seguir los paso. Siguiendo algunas advertencias mínimas.


#### 1. Descargar la última versión de python

Desde la página [https://www.python.org/downloads/](https://www.python.org/downloads/)

![Descargar Python](https://problemsolvingwithpython.com/01-Orientation/images/python_dot_org_windows_download.PNG)

#### 2. Ejecutar el instalar y marca la opción `Add to PATH`

**IMPORTANTE:** Si no marcas la casilla de `Add to PATH` tendrás que desinstalar python y volverlo a instalar, esta vez confirma que has verificado la casilla.

![Instalar Python](https://docs.blender.org/manual/es/2.80/_images/about_contribute_install_windows_installer.png)


#### 3. Verificar que la instalación sea correcta

Abre una nueva terminal o símbolo del sistema y escribe el comando

`$ python --version`

![Versión de Python](https://www.freecodecamp.org/news/content/images/2022/02/Screenshot-2022-02-18-150253.png)

#### 4. Interactua con python

Abre una terminal y escribe el comando

`$ python`

Se debería abrir el prompt de python `>>>` para recibir instrucciones.

Escribe los siguientes comandos uno por uno

```py
>>> print("Hello python 🐍")
Hello python 🐍
>>> 2 + 2
4
>>> 2 ** 10
1024
>>> exit()
```

![Python interactivo](https://cdn.sparkfun.com/assets/learn_tutorials/7/8/3/terminal_12.png)

### Ejercicio: E209 - Usar la terminal interactiva

Una terminal y ejecuta el comando `$ python`.

Ejecuta los siguientes comandos y explica los resultados.

```py
>>> nombre = "Ana"
>>> edad = 23
>>> "Mi nombre es {} y tengo {} años".format(nombre, edad)
>>> [i ** 2 for i in range(1, 101)]
>>> [i ** 2 for i in range(1, 101) if i % 2 == 0]
>>> def f(x):
...     return x ** 2 - 1
...
>>> f(10)
```

In [None]:
# E209 - SOLUCIÓN AQUÍ

### Ejemplo de la creación de un ambiente virtual

Para crear un ambiente usaremos el comando,

```bash
python -m venv /path/to/new/virtual/environment
```

Para activar un ambiente virtual entraremos a la carpeta del ambiente y ejecutaremos alguno de los siguientes scripts según el sistema operativo.

| Platform | Shell      | Command                               |
| -------- | ---------- | ------------------------------------- |
| POSIX    | bash/zsh   | `$ source <venv>/bin/activate`        |
| POSIX    | fish       | `$ source <venv>/bin/activate.fish`   |
| POSIX    | csh/tcsh   | `$ source <venv>/bin/activate.csh`    |
| POSIX    | PowerShell | `$ <venv>/bin/Activate.ps1`           |
| Windows  | cmd.exe    | `C:\> <venv>\Scripts\activate.bat`    |
| Windows  | PowerShell | `PS C:\> <venv>\Scripts\Activate.ps1` |

La documentación más completa podemos encontrarla en [https://docs.python.org/3/library/venv.html](https://docs.python.org/3/library/venv.html).

#### 1. Abrir una terminal en la carpeta deseada

Lo primero que necesitamos para crear un ambiente virtual es abrir una terminal y posicionarnos en la carpeta dónde deseamos crear el ambiente.

![Terminal en carpeta específica](https://www.digitalcitizen.life/wp-content/uploads/2021/07/windows_terminal-7.png)

#### 2. Crear un ambiente virtual llamado `ml-env`

Recuerda que el ambiente se encontrará en la carpeta donde estés posicionado, si quieres cambiar de carpeta usa el comando `cd <ruta>`.

Ejecuta el comando

`$ python -m venv ml-env`

Se deberá crear la carpeta `ml-env` dentro de la carpeta en la que estamos posicionados.

Con la siguiente estructura de archivos.

![Python venv estructura](https://python.land/wp-content/uploads/2020/12/venv-dirtree.png)

#### 3. Activar el ambiente virtual `ml-env`

Vamos a activar el ambiente virtual que creamos.

Abre la carpeta `bin` dentro del ambiente y ejecuta el script de activación llamado **activate.ps1**.

O si usas UNIX escribe el comando

`$ source ml-env/bin/activate`

Esto ejecutará el script de bash.

![Python venv](https://brainsteam.co.uk/2021/04/01/opinionated-guide-to-virtualenvs/images/virtualenv.png)

#### 4. Instalar paquetes en el ambiente

Una vez que esté activado el ambiente podemos instalar paquetes dentro del ambiente mediante el comando

`$ pip install <package>`

Si no logramos activar el ambiente, siempre podemos hacer

`$ <ruta>/ml-env/bin/pip install <package>`

![Pip install](https://www.edureka.co/blog/wp-content/uploads/2019/09/6Output-Numpy-installation-Edureka.png)

### Ejercicio: E210 - Crear un ambiente virtual

Crea un ambiente virtual llamado `sci-env`, actívalo e instala los siguientes paquetes:

* `pip install numpy`
* `pip install pandas`
* `pip install matplotlib`
* `pip install seaborn`
* `pip install scikit-learn`

## Anaconda

Administrar los ambientes de python manualmente es pesado, debido a que hay que estarlos activando y cambiando entre uno y otro.

La aplicación de [Anaconda](https://www.anaconda.com) nos permite administrar fácilmente los ambientes de python, configurarlos e instalar paquetes dentro de los ambientes fácilmente.

También instala herramientas adicionales como las libretas de [Jupyter](https://jupyter.org).

> Ejemplo de la interfaz principal de anaconda

![Anaconda Python](https://docs.anaconda.com/_images/nav-tabs.png)

### Ejemplo de instalación de Anaconda

La instalación de Anaconda es bastante sencilla, al igual que con python debemos descargar el ejecutable y seguir los pasos.

#### 1. Descargar el instalador

Visita [https://www.anaconda.com](https://www.anaconda.com) y descarga el instalador.

![Descargar Anaconda](https://th.bing.com/th/id/R.7ce080ad64b7d1878df30286df72edba?rik=HcY7uHE9j3ibvg&riu=http%3a%2f%2fmachinelearningmastery.com%2fwp-content%2fuploads%2f2017%2f03%2fHow-to-Setup-a-Python-Environment-for-Machine-Learning-and-Deep-Learning-with-Anaconda.png&ehk=NP0HehN1QABOldfRK8OC6pZCDpHVGasZD%2bY4PA8x5OM%3d&risl=&pid=ImgRaw&r=0)

#### 2. Ejecuta el instalador

Sigue los pasos sin mayor detalle.

![Anaconda install](https://docs.anaconda.com/_images/win-install-complete.png)

#### 3. Abre Anaconda e inspecciona el ambiente

Abre la sección de Ambientes o Environments y checa que paquetes están instalados en el ambiente por defecto `base (root)`.

![Anaconda envs](https://docs.anaconda.com/_images/nav-pkg-list.png)



### Ejercicio: E211 - Crear un ambiente en Anaconda

Abre Anaconda y en la sección de ambientes (`Environments`) crea uno nuevo con el nombre y versión de Python deseado.

Selecciona en el selector `NOT INSTALLED`, busca y marca los siguientes paquetes.

* `numpy`
* `pandas`
* `matplotlib`
* `matplotlib-base`
* `seaborn`

Usa el buscador de paquetes marca esos paquetes, al final pulsa el botón `APPLY`.

> E211 - ANOTACIONES AQUÍ

### Ejercicio: E212 - Crear una libreta de Jupyter

Abre Anaconda y en la sección principal (`HOME`) busca el ícono que diga **JupyterLab** y pulsa en el botón de `LAUNCH`.

En un navegador web deberías ver la interfaz para crear libretas.

![JupyterLab](https://raw.githubusercontent.com/jupyterlab/jupyterlab-git/master/docs/figs/preview.gif)



> E212 - ANOTACIONES AQUÍ

## Instalación de paquetes para aprendizaje de máquina

A continuación se resumirán los paquetes para el Aprendizaje Máquina más importantes.

### 1. Numpy

Página Oficial [https://numpy.org](https://numpy.org)

![Numpy](https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/1200px-NumPy_logo_2020.svg.png)

Es una librería para manipular arreglos n-dimensionales.

Los arreglos 1-dimensionales son columnas o vectores de datos.

Los arreglos 2-dimensionales son tablas o matrices de datos.

Los arreglos 3-dimensionales son imágenes o tensores de datos.

Los arreglos n-dimensionales son datos en matrices multidimensionales, por ejemplo, para almacenar audio, vídeo, etc.

**Instalación con `pip`**

`$ pip install numpy`

**Instalación con `Anaconda`**

`search: numpy`



### 2. Pandas

Página Oficial [https://pandas.pydata.org](https://pandas.pydata.org)

![Pandas](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png)

Es una librería para manipular series y tablas de datos.

Las Series son columnas de datos cuya base son arreglos 1-dimensionales, pero con más herramientas que las provistas por numpy, por ejemplo, la capacidad de transformar los datos u obtener estadísticos.

Los DataFrames son tablas de datos cuya base son los arreglos 2-dimensionales, pero con más herramientas que las provistas por numpy, por ejemplo, la capacidad de manipular las columnas directamente, filtrar o segmentar datos, transformar columnas o filas u obtener estadísticos.

También Pandas provee herramientas para adquirir los datos desde archivos CSV, de Excel, Bases de datos, etc.

**Instalación con `pip`**

`$ pip install pandas`

**Instalación con `Anaconda`**

`search: pandas`

### 3. Matplotlib

Página Oficial [https://matplotlib.org](https://matplotlib.org)

![Matplotlib](https://matplotlib.org/stable/_static/images/logo2.svg)

Es una librería para visualización de datos.

Con esta librería podemos construir distintos tipos gráficas para visualizar los datos.

Las graficas centradas en análisis univariable incluyen histograma, pastel, violín, cajas, error, entre otras.

Las gráficas centradas en análisis de dos ejes incluyen gráficas continuas y de puntos, de barras, a pasos, en stack, entre otras.

Otras gráficas más avanzadas involucran gráficas de contorno, de vectores, 3D, entre otras.

**Instalación con `pip`**

`$ pip install matplolib`

**Instalación con `Anaconda`**

`search: matplotlib`

`search: matplotlib-base`

### 4. Seaborn

Página Oficial [https://seaborn.pydata.org](https://seaborn.pydata.org)

![Seaborn](https://miro.medium.com/v2/resize:fit:819/1*5VKgpRUCInBKmWBXFvSvvA.png)

Es una librería para visualización de datos basada en matplotlib, la cuál mejora las gráficas y las amplia para soportar directamente los DataFrames de Pandas.

Algunas gráficas adicionales que podemos conseguir con Seaborn son gráficas de densidad, de regresión, de calor, de burbujas, entre muchas otras.

Para ambas librerías gráficas, tanto Matplotlib como Seaborn podemos consultar la página

**The Python Graph Gallery**

[https://www.python-graph-gallery.com](https://www.python-graph-gallery.com)

La cual contiene una guía completa de la visualización de datos que podemos conseguir con ambas librerías para análisis univariable y multivariable.

**Instalación con `pip`**

`$ pip install seaborn`

**Instalación con `Anaconda`**

`search: seaborn`

### 5. SciKit-Learn

Página Oficial [https://scikit-learn.org/stable/](https://scikit-learn.org/stable/)

![Sckit-Learn](https://i0.wp.com/blog.leonelatencio.com/wp-content/uploads/2017/07/scikit-learn-logo.png?fit=566%2C202)

Es una librería fundamental para probar algoritmos de Machine Learning que cuenta con herramientas y modelos para aprendizaje supervisado y no supervisado.

El aprendizaje supervisado se basa en ajustar modelos estandarizados a datos de entrenamiento, para poder hacer predicciones según se reflejarían en los datos.

Dentro de los modelos de aprendizaje supervisado más importantes que implementa Scikit-Learn encontramos:

**Regresores**

* `LinearRegression`
* `LogisticRegression`
* `Ridge`
* `BayesianRidge`
* `Lasso`
* `ElasticNet`
* `TweedieRegressor`
* `SDGRegressor`
* `LinearSVR`
* `SVR`
* `DecisionTreeRegressor`
* `KNeighborsRegressor`
* `RadiusKNeighborsClassifier`
* `MLPRegressor`

**Clasificadores**

* `RidgeClassifier`
* `SGDClassifier`
* `Perceptron`
* `LinearSVC`
* `SVC`
* `KNeighborsClassifier`
* `RadiusKNeighborsClassifier`
* `BernoulliNB`
* `GaussianNB`
* `DecisionTreeClassifier`
* `MLPClassifier`

El aprendizaje no supervisado se centra en encontrar características automáticas sobre nuestros datos, por ejemplo, grupos o etiquetas para datos no etiquetados (clusterización), características principales para reducir el número de características (PCA) o lograr encontrar estimaciones automáticas basadas en la varianza (matrices de covarianza y demás).

Dentro de los modelos de aprendizaje supervisado más importantes que implementa Scikit-Learn encontramos:

**Clusterizadores**

* `KMeans`
* `AffinityPropagation`
* `MeanShift`
* `DBSCAN`
* `KMeans`

**Reductores de dimensionalidad**

* `PCA`
* `KernelPCA`

**Estimadores**

* `EmpiricalCovariance`

**Instalación con `pip`**

`$ pip install scikit-learn`

**Instalación con `Anaconda`**

`search: scikit-learn`

### 6. TensorFlow

Página Oficial [https://www.tensorflow.org/](https://www.tensorflow.org/)

![TensorFlow](https://upload.wikimedia.org/wikipedia/commons/thumb/a/ab/TensorFlow_logo.svg/640px-TensorFlow_logo.svg.png)

Es una librería especializada en Aprendizaje Máquina (Machine Learning), Aprendizaje Automático (Redes Neuronales) y Aprendizaje Profundo (Redes Neuronales Profundas) que cuenta con herramientas para el manejo de tensores y modelos para aprendizaje profundo basados en redes neuronales.

Los tensores son datos multidimensionales, como matrices multidimensionales y son muy utilizados en física y matemáticas.

La notación de un tensor es:

${\displaystyle T:\underbrace {V^{*}\times \dots \times V^{*}} _{p{\text{ copias}}}\times \underbrace {V\times \dots \times V} _{q{\text{ copias}}}\rightarrow \mathbf {R} ,}$

$T_{j_1,...,j_q}^{i_1,...,i_p} ≡ T(ε^{i_1}, ..., ε^{i_p}, e_{j_1}, ..., e_{j_q})$

Donde $T$ representa el tensor, $V$ el espacio vectorial, $V^{*}$ el espacio dual de covectores y los vectores {$e_j$} son la base de $V$ y los vectores {$ε^{i}$} son la cobasis canónica de $V^{*}$.

Con esto podemos manipular imágenes, vídeo, capas de redes neuronales como si se trataran de tensores.

**Instalación con `pip`**

`$ pip install tensorflow`

**Instalación con `Anaconda`**

`search: tensorflow`

`search: tensorflow-base`

### 7. Keras

Página Oficial [https://keras.io/](https://keras.io/)

![Keras](https://camo.githubusercontent.com/906e661107a3bc03104ca5d88336d1f4b0e80fdcac65efaf7904041d371c747f/68747470733a2f2f73332e616d617a6f6e6177732e636f6d2f6b657261732e696f2f696d672f6b657261732d6c6f676f2d323031382d6c617267652d313230302e706e67)

Es una librería especializada en Redes Neuronales Generales, Convolucionales y Recursivas que es parte de TensorFlow.

**Redes Neuronales Generales**

Se basan en una unidad de neurona organizadas en capas neuronales bajo la topología completa (conecta cada neurona en la capa previa con todas las neuronas en la capa siguiente).

![Neural Network](https://www.ibm.com/content/dam/connectedassets-adobe-cms/worldwide-content/cdp/cf/ul/g/3a/b8/ICLH_Diagram_Batch_01_03-DeepNeuralNetwork.component.simple-narrative-xl.ts=1684187408922.png/content/adobe-cms/mx/es/topics/neural-networks/jcr:content/root/table_of_contents/intro/simple_narrative/image)

La neurona posee una función de activación y una matriz de pesos que regula el aprendizaje sobre las entradas, para producir las salidas.

**Redes Neuronales Convolutivas**

Son conjuntos de redes neuronales especializadas en procesar imágenes o entradas matriciales para mejorar el aprendizaje, sin la pérdida de esta información.

Usa una función kernel que barre las caracteríticas de la imagen o la entrada matricial en ventanas o regiones, para aprender características sobre cada región.

![Convolutional Neural Network](https://learnopencv.com/wp-content/uploads/2023/01/tensorflow-keras-cnn-vgg-architecture-1024x611.png)

Al final la salida es mapeada a una red neuronal general para determinar la salida.

**Redes Neuronales Recursivas**

Son redes neuronales especializadas en procesar texto o entradas recursivas para mejorar el aprendizaje, sin pérdida de esta información.

Se basa en hacer recurrente el aprendizaje reconectando las mismas capas ocultas en la red neuronal para formar una topología cíclica, la cuál permite un aprendizaje sobre series de tiempo. Por ejemplo, aprender cuándo un texto repite palabras o relaciona varias veces unas palabras con otras.

![Recurrent Neural Network](https://miro.medium.com/v2/resize:fit:1200/1*QFOzE0TEMFERg3G5_5HiPA.png)

Estas poseen unidades de tipo `RNN` (Recurrent Neural Network), más sofisticadas como `LSTM` (Long-Short Term Memory) o `GRU` (Gated Recurrent Unit), aunque existen muchas más.

Estas unidades tienen el objetivo de actuar como la memoria de recurrencia.

**Instalación con `pip`**

`$ pip install keras`

**Instalación con `Anaconda`**

`search: keras`

### Ejercicio: E213 - Instalación de los paquetes para aprendizaje máquina

En `pip` o en `Anaconda` configura un ambiente que tenga todos los paquetes relacionados al aprendizaje máquina expuestos.

> E213 - ANOTACIONES AQUÍ

## GitHub

Github es una plataforma basa en repositorios GIT, los cuales permiten que administremos códigos fuentes y proyectos mediante cambios y versiones.

Un repositorio GIT consiste en un proyecto almacenado en la nube, en este caso en los servidores de Github (Microsoft).

El proyecto puede ser clonado en una computadora mediante el comando:

`$ git clone <url>`

Donde `<url>` es la ruta del proyecto, por ejemplo, para nuestro curso sería [https://github.com/dragonnomada/ml-2023](https://github.com/dragonnomada/ml-2023).

Podemos observar que la url contiene:

`https://github.com/<usuario>/<proyecto>`

Donde `<usuario>` es el nombre único de usuario de Github y `<proyecto>` es el nombre único del repositorio creado para ese proyecto.

Si quisieramos clonar el repositorio del curso para tener una copia local en nuestra computadora haríamos:

`$ git clone https://github.com/dragonnomada/ml-2023`

Cada que modificamos un archivo, ocurren cambios. Si el archivo es de texto, GIT almacenará las líneas de código que fueron modificadas y las almacenará en forma de un STAGE.

Esto significa que GIT está inspeccionando todo el tiempo las líneas de código que son modificadas en todos los archivos de nuestro proyecto.

Cuándo el usuario requiere subir los cambios a la nube para almacenarlos en los servidores de Github, entonces debe hacer lo siguiente:

**NOTA:** Los comandos se deben ejecutar en una terminal ubicada en la ruta de nuestro proyecto.



#### PASO 1. Revisar que cambios han ocurrido en los archivos del proyecto

Podemos conseguir esto con el comando:

`$ git status`

El resultado serán los archivos que han sido modificados.

#### PASO 2. Almacenar provisionalmente los cambios

Esto permitirá que los cambios locales sean almacenados para subirse, generalmente hacemos esto con el comando:

`$ git add .`

Para almacenar los cambios de todos los archivos o `$ git add <file>` para almacenar sólo los cambios sobre un archivo específico.

#### PASO 3. Comprobar que estemos al día y no hayan conflicos

Debemos verificar que tengamos los últimos cambios del repositorio en la nube, ya que otros usuarios colaboradores en nuestro proyecto pudieron realizar cambios sobre el proyecto al mismo tiempo que nosotros, y si no hay conflictos que hayamos modificado el archivo al mismo tiempo, entonces podremos subir nuestros cambios.

En caso de que hayan conflictos, deberemos mezclar y resolver manualmente los conflictos para determinar que cambios serán preservados o descartados para esto podemos usar `git merge`.

El comando para poner nuestro repositoria al día es:

`$ git pull`

#### PASO 4. Preparar los cambios para subirlos

Si nuestro repositorio ya está al día, entonces debemos documentar que cambios estamos realizando al repositorio, a esto se le conoce como hacer un *commit*.

El comando para hacer un commit es:

`$ git commit -m "DESCRIPCIÓN DE LOS CAMBIOS REALIZADOS"`

#### PASO 5. Enviar el commit de cambios

Una vez hecho el comit podemos subirlo con el comando:

`$ git push`

Esto enviará los cambios y ya estarán disponibles en la nube para los demás usuarios.

#### Comentarios importantes

Algo importante de de Github es la capacidad de versionar automáticamente cada cambio realizado al repositorio.

Así podemos ver el repositorio desde el primer commit hasta el último commit.

Es importante subir commits inmediatamente después de que algo funcione bien o se haya trabajado sobre el proyecto por más de 2 horas. Para tener un respaldo de las últimas dos horas de trabajo y cuándo el proyecto funcionaba correctamente antes de hacerle más cambios.

### Ejercicio: E214 - Clonar el repositorio del curso y modificar algún archivo

Instala GIT para Windows o UNIX y Clona el repositorio del curso.

Abre una terminal y ejecuta:

`$ git clone https://github.com/dragonnomada/ml-2023`

Luego abre la carpeta clona y modifica algún archivo de los datasets o el `README.md`.

En la terminal revisa los cambios a los archivos con:

`$ git status`

Realiza todos los pasos para intentar subir los cambios.

Responde: **¿Es posible subir los cambios?** Explica el porqué sí o el porqué no.

> E214 - RESPUESRA AQUÍ