### MAT281 - Aplicaciones de la Matemática en la Ingeniería

#### Sebastián Flores & Alonso Ogueda

---

# Módulo 1: Data Science Toolkit 

## Objetivo de la clase

Introducir e instalar cada una de las herramientas que utilizaremos en el resto del curso. 

## Contenidos

* Tú!
* Sistema Operativo
* Interfaz de Línea de Comandos
* Entorno Virtual
* Python
* Project Jupyter
* Git

## Tú!

Eres el principal actor en este curso. Prepara todas tus neuronas!

## Sistema Operativo

* Personalmente recomiendo **Linux**, en particular distribuciones como Ubuntu, Mint o Fedora por su facilidad a la hora de instalar.
* En ocasiones las implementaciones en **Windows** no están completamente integradas e inclusive en ocasiones no están disponibles.
    - Una alternativa es [**Windows Subsystem for Linux**](https://docs.microsoft.com/en-us/windows/wsl/about), pero lamentablemente no se asegura un 100% de compatibilidad.
* En el caso que poseas un equipo con **macOS** no debería haber problema.

## Interfaz de Línea de Comandos (*Command Line Interface* / CLI)

* Es un método que permite a los usuarios interactuar con algún programa informático por medio de líneas de texto.
* Típicamente se hace uso de una terminal/*shell* (ver imagen).
* En el día a día dentro de la oficina facilita flujo de trabajo.
* Permite moverse entre manipular directorios y ficheros, instalar/actualizar herramientas, aplicaciones, softwares, etc.

<img src="https://upload.wikimedia.org/wikipedia/commons/2/29/Linux_command-line._Bash._GNOME_Terminal._screenshot.png" alt="" align="center"/>

*Screenshot of a sample bash session in GNOME Terminal 3, Fedora 15. [Wikipedia](https://en.wikipedia.org/wiki/Command-line_interface)* 

## Entorno Virtual

__Problemas recurrentes:__
- Dependencias de *packages* incompatibles.
- Dificultad a la hora de compartir y reproducir resultados, e.g. no conocer las versiones de los *packages* instalados.
- Tener una máquina virtual para cada desarrollo es tedioso y costoso.
- Miedo constante a instalar algo nuevo y tu script vuelva a funcionar.

#### Solución 

Aislar el desarrollo con tal de mejorar la compatibilidad y reproducibilidad de resultados. 

####  ¿Cómo? 

Utilizando entornos virtuales.

####  Para el curso (es recomendable)

![Conda](https://conda.io/docs/_images/conda_logo.svg)

*Package, dependency and environment management for any language—Python, R, Ruby, Lua, Scala, Java, JavaScript, C/ C++, FORTRAN.* [(Link)](https://conda.io/docs/)


#### ¿Por qué Conda?

* Open Source
* Gestor de *packages* __y__ entornos virtuales. 
* Compatible con Linux, Windows y macOS.
* Es agnóstico al lenguaje de programación (inicialmente fue desarrollado para Python).
* Es de fácil instalación y uso.

### Instalación

Toda la documentación se encuentra en este [link](https://conda.io/docs/user-guide/install/index.html), pero en resumen:

* Existe Anaconda y Miniconda, ambas contienen conda.
    - Anaconda es una distribución que incluye una artillería de *packages* científicos.
    - Miniconda es para realizar una instalación mínima de conda sin adicionales (recomendada).
* Descarga e instala Miniconda según tu sistena operativo.
* __Importante__: En la fase final de la instalación se te preguntará si deseaas agregar Conda a tu PATH, dependiendo de tu sistema operativo:
    - En Windows selecciona la opción "NO" e inicia desde *Anaconda Prompt*.
    - En Linux y macOS acepta e inicia desde tu terminal.
* Test: 
    ```conda --version```

In [1]:
!conda --version

conda 4.5.11


#### Otras alternativas:
* ```pip``` + ```virtualenv```, el primero es el gestor favorito de *packages* de Python y el segundo es un gestos de entornos virtuales, el contra es que es exclusivo de Python. 
    - En Conda también puedes instalar por  ```pip```.
* __Dockers__ es una herramienta muy de moda en grandes proyectos debido a ser, en palabras simples, un intermedio entre entornos virtuales y máquinas virtuales.

## Python

Las principales librerías científicas a instalar y que ocuparemos durante el curso son:

* [Numpy](http://www.numpy.org/): Computación científica.
* [Pandas](https://pandas.pydata.org/): Análisis de datos.
* [Matplotlib](https://matplotlib.org/): Visualización.
* [Altair](https://altair-viz.github.io/): Visualización Declarativa.
* [Scikit-Learn](http://scikit-learn.org/stable/): Machine Learning

## Project Jupyter 

*[Project Jupyter](https://jupyter.org/index.html) exists to develop open-source software, open-standards, and services for interactive computing across dozens of programming languages.*
<img src="https://2.bp.blogspot.com/-Q23VBETHLS0/WN_lgpxinkI/AAAAAAAAA-k/f3DJQfBre0QD5rwMWmGIGhBGjU40MTAxQCLcB/s1600/jupyter.png" alt="" align="center"/>

### Jupyter Notebook

Es una aplicación web que permite crear y compartir documentos que contienen código, ecuaciones, visualizaciones y texto. Entre sus usos se encuentra:

* Limpieza de datos
* Transformación de datos
* Simulaciones numéricas
* Modelamiendo Estadístico
* Visualización de Datos
* Machine Learning
* Mucho más.

![Jupyter Notebook Example](https://jupyter.org/assets/jupyterpreview.png)

#### Dato Curioso

Esta presentación está hecha con Jupyter Notebook + [RISE](https://github.com/damianavila/RISE).

### Jupyter Lab

* Es la siguiente generación de la interfaz de usuario de *Project Jupyter*.
* Similar a Jupyter Notebook cuenta con la facilidad de editar archivos .ipynb (notebooks) y heramientas como una terminal, editor de texto, explorador de archivos, etc.
* Eventualmente Jupyter Lab reemplazará a Jupyter Notebok (aunque la versión estable fue liberada hace algunos meses).
* Cuenta con una serie de extensiones que puedes instalar (y desarrollar inclurisve.

## Git

*[__Git__](https://git-scm.com/) is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency.*

### Instalación de Git

No es nada del otro mundo, basta con seguir las instrucciones de la página oficial en este [link](https://git-scm.com/book/en/v2/Getting-Started-Installing-Git). 

### Configuración de Git

No es un paso crucial, pero si en el futuro quieres tener tu propio repositorio o contribuir en otros proyectos, debes tener una identidad. 

Lo primero es configurar git, la [documentación oficial](https://git-scm.com/book/es/v1/Empezando-Configurando-Git-por-primera-vez) incluso está en español. Con configurar tu ```email``` y ```username``` debería bastar en una primera instancia.

Lo siguiente es tener una cuenta en la plataforma que utilizarás. Algunas de ellas son:
* GitHub
* GitLab
* Bitbucket

### GitHub

*[GitHub](https://github.com/) is a development platform inspired by the way you work. From open source to business, you can host and review code, manage projects, and build software alongside 30 million developers.*

Es decir, es una plataforma para alojar proyectos que utilizan Git como sistema de control.

### Material del curso

El material del curso estará alojado en el siguiente repositorio:

https://github.com/sebastiandres/mat281_2018S2

## Manos a la obra

1. Instalar [__git__](https://git-scm.com/).


2. En la terminal (de git si es el caso) moverte hasta donde quieras guardar el material del curso. En lo personal me gusta crear una carpeta llamada __git__ en __Documents__. Los pasos serían:
    * Abrir terminal
    * ```cd Documents```
    * ```mkdir git``` 
    

3. Clonar el repositorio del curso, ejecutando la siguiente línea de comando en la ruta deseada (en mi caso *~/Documents/git*): 

    ```git clone git@github.com:sebastiandres/mat281_2018S2.git``` 

4. ```cd mat281_2018S2/01_introduccion``` (__tip__: Puedes usar ```TAB``` para autocompletar).


5. En la terminal (Anaconda Prompt si estás utilizando Windows) crear un entorno virtual de conda a partir de un archivo de requisitos (llamado *mat281_modulo1*), ejecutando la siguiente línea de comando:

    ```conda env create -f mat281_modulo1.yml```


6. Activar el entorno: 
    - Linux/macOS: ```source activate mat281_modulo1```
    - Windows: ```activate mat281_modulo1```

7. Ejecutar:
    - ```jupyter lab```, o
    - ```jupyter notebook```
8. Si no se abre atuomáticamente una nueva pestaña en tu navegador, copiar el link del token que se muestra en la terminal en tu navegador.

![Ejemplo terminal jupyter lab](http://i.imgur.com/w3tb35S.png)