# MAT281

## Aplicaciones de la Matemática en la Ingeniería

## Módulo 1

### Clase 02: Data Science Toolkit 

# ¿Qué contenidos aprenderemos?

* [Sistema Operativo](#so)
* [Interfaz de Línea de Comandos](#cli)
* [Entorno Virtual](#venv)
* [Python](#python)
* [Project Jupyter](#jupyter)
* [Git](#git)

## Objetivos de la clase

* Instalación y uso de herramientas computacionales.
* Utilizar Jupyter Notebook/Lab.
* Recordar Python

<a id='so'></a>
## Sistema Operativo

* Personalmente recomiendo **Linux**, en particular distribuciones como Ubuntu, Mint o Fedora por su facilidad a la hora de instalar.
* En ocasiones las implementaciones en **Windows** no están completamente integradas e inclusive en ocasiones no están disponibles.
    - Una alternativa es [**Windows Subsystem for Linux**](https://docs.microsoft.com/en-us/windows/wsl/about), pero lamentablemente no se asegura un 100% de compatibilidad.
* En el caso que poseas un equipo con **macOS** no debería haber problema.

<a id='cli'></a>
## Interfaz de Línea de Comandos (*Command Line Interface* / CLI)

* Es un método que permite a los usuarios interactuar con algún programa informático por medio de líneas de texto.
* Típicamente se hace uso de una terminal/*shell* (ver imagen).
* En el día a día dentro de la oficina facilita flujo de trabajo.
* Permite moverse entre manipular directorios y ficheros, instalar/actualizar herramientas, aplicaciones, softwares, etc.

<img src="https://upload.wikimedia.org/wikipedia/commons/2/29/Linux_command-line._Bash._GNOME_Terminal._screenshot.png" alt="" align="center"/>

*Screenshot of a sample bash session in GNOME Terminal 3, Fedora 15. [Wikipedia](https://en.wikipedia.org/wiki/Command-line_interface)* 

<a id='venv'></a>
## Entorno Virtual

__Problemas recurrentes:__
- Dependencias de librerías (*packages*) incompatibles.
- Dificultad a la hora de compartir y reproducir resultados, e.g. no conocer las versiones de las librerías instaladas.
- Tener una máquina virtual para cada desarrollo es tedioso y costoso.
- Miedo constante a instalar algo nuevo y tu script vuelva a funcionar.

#### Solución 

Aislar el desarrollo con tal de mejorar la compatibilidad y reproducibilidad de resultados. 

####  ¿Cómo? 

Utilizando entornos virtuales.

####  Para el curso (es recomendable)

![Conda](https://conda.io/docs/_images/conda_logo.svg)

*Package, dependency and environment management for any language—Python, R, Ruby, Lua, Scala, Java, JavaScript, C/ C++, FORTRAN.* [(Link)](https://conda.io/docs/)


#### ¿Por qué Conda?

* Open Source
* Gestor de librerías __y__ entornos virtuales. 
* Compatible con Linux, Windows y macOS.
* Es agnóstico al lenguaje de programación (inicialmente fue desarrollado para Python).
* Es de fácil instalación y uso.

### Instalación

Toda la documentación se encuentra en este [link](https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html), pero en resumen:

* Existe Anaconda y Miniconda, ambas contienen conda.
    - Anaconda es una distribución que incluye una artillería de librerías científicas.
    - Miniconda es para realizar una instalación mínima de conda sin adicionales (recomendada).
* Descarga e instala **Miniconda3** (Python3) según tu sistena operativo.
* En la instalación se te preguntará: __Do you wish the installer to initialize Anaconda3 by running conda init?__ Recomiendo aceptar, luego cerrar la terminal, abrir una nueva y ejecutar:
`conda config --set auto_activate_base false`
* Test: 
    ```conda --version```

In [1]:
!conda --version

conda 4.7.10


#### Otras alternativas:
* ```pip``` + ```virtualenv```, el primero es el gestor favorito de librerías de Python y el segundo es un gestos de entornos virtuales, el contra es que es exclusivo de Python. 
    - Ojo! En Conda también puedes instalar por  ```pip```.
* __Dockers__ es una herramienta muy de moda en grandes proyectos debido a ser, en palabras simples, un intermedio entre entornos virtuales y máquinas virtuales.

<a id='python'></a>
## Python

Las principales librerías científicas a instalar y que ocuparemos durante el curso son:

* [Numpy](http://www.numpy.org/): Computación científica.
* [Pandas](https://pandas.pydata.org/): Análisis de datos.
* [Matplotlib](https://matplotlib.org/): Visualización.
* [Altair](https://altair-viz.github.io/): Visualización Declarativa.
* [Scikit-Learn](http://scikit-learn.org/stable/): Machine Learning

<a id='juptyer'></a>
## Project Jupyter 

*[Project Jupyter](https://jupyter.org/index.html) exists to develop open-source software, open-standards, and services for interactive computing across dozens of programming languages.*

<img src="https://2.bp.blogspot.com/-Q23VBETHLS0/WN_lgpxinkI/AAAAAAAAA-k/f3DJQfBre0QD5rwMWmGIGhBGjU40MTAxQCLcB/s1600/jupyter.png" alt="" align="center"/>

### Jupyter Notebook

Es una aplicación web que permite crear y compartir documentos que contienen código, ecuaciones, visualizaciones y texto. Entre sus usos se encuentra:

* Limpieza de datos
* Transformación de datos
* Simulaciones numéricas
* Modelamiendo Estadístico
* Visualización de Datos
* Machine Learning
* Mucho más.

![Jupyter Notebook Example](https://jupyter.org/assets/jupyterpreview.png)

### Jupyter Lab

* Es la siguiente generación de la interfaz de usuario de *Project Jupyter*.
* Similar a Jupyter Notebook cuenta con la facilidad de editar archivos .ipynb (notebooks) y heramientas como una terminal, editor de texto, explorador de archivos, etc.
* Eventualmente Jupyter Lab reemplazará a Jupyter Notebok (aunque la versión estable fue liberada hace algunos meses).
* Cuenta con una serie de extensiones que puedes instalar (y desarrollar inclurisve.

Puedes probar Jupyter Lab con solo dos clicks!

1. Ingresar a este link: https://github.com/jupyterlab/jupyterlab-demo
2. Hacer click en el icono de binder:  ![Binder](https://mybinder.org/badge_logo.svg)

<a id='git'></a>
## Git

_[__Git__](https://git-scm.com/) is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency._

### Instalación de Git

No es nada del otro mundo, basta con seguir las instrucciones de la página oficial en este [link](https://git-scm.com/book/en/v2/Getting-Started-Installing-Git). 

### Configuración de Git

No es un paso crucial, pero si en el futuro quieres tener tu propio repositorio o contribuir en otros proyectos, debes tener una identidad. 

Lo primero es configurar git, la [documentación oficial](https://git-scm.com/book/es/v1/Empezando-Configurando-Git-por-primera-vez) incluso está en español. Con configurar tu ```email``` y ```username``` debería bastar en una primera instancia.

Lo siguiente es tener una cuenta en la plataforma que utilizarás. Algunas de ellas son:
* GitHub
* GitLab
* Bitbucket

### GitHub

_[GitHub](https://github.com/) is a development platform inspired by the way you work. From open source to business, you can host and review code, manage projects, and build software alongside 30 million developers._

Es decir, es una plataforma para alojar proyectos que utilizan Git como sistema de control.

El **material del curso** estará disponible a través de GitHub en el siguiente link: 

https://github.com/aLoNsolml/mat281_2019S2. 


Uno de los objetivos del curso es que familiarices con git y un buen punto de partida es configurar tu computador personal para interactuar con GitHub.

1. Crea una cuenta en GitHub.
    1. Con tu correo UTFSM puedes reclamar un Student Pack de GitHub, uno de los beneficios es que te permite acceder a una membresía Pro y así tener repositorios privados. El link: https://education.github.com/students
2. En tu terminal configurar tu usuario y correo electrónico global de git (más adelante puedes modificar repositorios localmente).
    1. `$ git config --global user.name "Your name here"`
    2. `$ git config --global user.email "your_email@example.com"`
3. Conectar tu entorno de trabajo (computador) con tu cuenta de GitHub a través de SSH:
    1. https://help.github.com/en/articles/connecting-to-github-with-ssh

## Manos a la obra

1. Tener paciencia.

2. En la terminal (de git si es el caso) debes `moverte` hasta donde quieras guardar el material del curso. En lo personal me gusta crear una carpeta llamada __git__ en __Documents__. Los pasos serían:
    * Abrir terminal
    * ```cd ~/Documents```
    * ```mkdir git``` 
    * `cd git`
    

3. Clonar el repositorio del curso, ejecutando la siguiente línea de comando en la ruta deseada (en mi caso *~/Documents/git*): 

    1. Si utilizas SSH: ```git clone git@github.com:aLoNsolml/mat281_2019S2.git``` 
    2. Si utilizas HTTPS: `git clone https://github.com/aLoNsolml/mat281_2019S2.git`
    3. Descargar el repositorio como ZIP y descomprimir
        1. Esta alternativa no es muy recomendable, porque no te va a permitir descargar los cambios utilizando git, tendrás que descargar completamente el repositorio cada vez.

4. En la terminal moverse hacia la carpeta del repositorio utilizando ```cd mat281_2019S2``` (__tip__: Puedes usar ```TAB``` para autocompletar).


5. En la terminal (Anaconda Prompt si estás utilizando Windows) crear un entorno virtual de conda a partir de un archivo de requisitos (llamado *mat281_modulo1*), ejecutando la siguiente línea de comando:

    ```conda env create -f environment.yml```


6. Activar el entorno: `conda activate mat281` 

7. Ejecutar:
    - ```jupyter lab```, o
    - ```jupyter notebook```
8. Si no se abre atuomáticamente una nueva pestaña en tu navegador, copiar el link del token que se muestra en la terminal en tu navegador.
9. Abrir el archivo ```m01_c02_data_science_toolkit.ipynb``` ubicado en el directorio 02_data_science_toolkit.

![Ejemplo terminal jupyter lab](http://i.imgur.com/w3tb35S.png)

## Recordando Python

* Números y operaciones
* Listas, tuplas, conjuntos y diccionarios.
* Control flow
* Importar librerías

### Hola Mundo!

In [2]:
print('Hello World!')

Hello World!


In [3]:
name = 'John Titor'
print("Hola {}!".format(name))

Hola John Titor!


## Números y operaciones

In [4]:
1 + 2

3

In [5]:
100 - 99

1

In [6]:
3 * 4

12

In [7]:
42 / 4  # En python 2 la división por defecto es entera

10.5

In [8]:
43 // 4

10

In [9]:
14 % 4

2

## Listas, tuplas, conjuntos y diccionarios

In [10]:
range(2, 10, 3)

range(2, 10, 3)

In [11]:
type(range(10))

range

In [12]:
a = range(10)
l = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [13]:
for x in a:
    print(x)

0
1
2
3
4
5
6
7
8
9


In [14]:
for x in l:
    print(x)

0
1
2
3
4
5
6
7
8
9


In [15]:
l[1]

1

In [16]:
a[3]

3

In [17]:
# Listas
my_list = [1, 2, 3, 4, 5]
print(my_list[0])

1


In [18]:
# Tuplas
my_tuple = (1, 2, 3, 4, 5)
print(my_tuple[4])

5


In [19]:
type(my_list)

list

In [20]:
# Las listas pueden ser modificadas
my_list.append(100)  
print(my_list)

[1, 2, 3, 4, 5, 100]


In [41]:
# Las tuplas son objetos inmutables!
try:
    my_tuple.append(50)
except Exception as e:
    print(e)

'tuple' object has no attribute 'append'


In [22]:
my_list

[1, 2, 3, 4, 5, 100]

In [23]:
# Accediendo a valores
print(my_list[0])
print(my_list[-1])
print(my_list[0:2])
print(my_list[2:])
print(my_list[::2])
print(my_list[:-2])

1
100
[1, 2]
[3, 4, 5, 100]
[1, 3, 5]
[1, 2, 3, 4]


In [24]:
# Conjuntos
my_set = {1, 1, 1, 2, 2, 3}
print(my_set)

{1, 2, 3}


In [25]:
# Diccionarios
my_dict = {
    'llave': 'corazón',
    'sonrisa': 'corazones'
}
print(my_dict['sonrisa'])

corazones


In [26]:
age_dict = {"alonso": "hfjdsafhks", "pedro": 29, "quentin": 22}

In [27]:
my_dict.values()

dict_values(['corazón', 'corazones'])

In [28]:
try:
    my_dict.values()[0]
except:
    print("ocurrió un error")

ocurrió un error


## Control Flow

In [29]:
# Condicionales If, Elif, Else
x = 7
cota_inferior = 5
cota_superior = 10
if x < cota_inferior:
    print('{} es menor que {}'.format(x, cota_inferior))
elif x < cota_superior:
    print('{} es mayor igual que {} y menor que {}'.format(x, cota_inferior, cota_superior))
else:
    print('{} es mayor igual que {}'.format(x, cota_superior))

7 es mayor igual que 5 y menor que 10


In [30]:
# Cilo While
i = 0
while i < 10:
    print(i)
    i += 1

0
1
2
3
4
5
6
7
8
9


In [31]:
# Ciclo For
for i in range(1, 10, 2):
    if i < 5:
        print('{} es menor que 5'.format(i))
    else:
        print('{} es mayor igual que 5'.format(i))

1 es menor que 5
3 es menor que 5
5 es mayor igual que 5
7 es mayor igual que 5
9 es mayor igual que 5


### Range no es una lista!

In [32]:
my_range = range(1, 10, 2)
type(my_range)

range

In [33]:
range?

[0;31mInit signature:[0m [0mrange[0m[0;34m([0m[0mself[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0margs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
range(stop) -> range object
range(start, stop[, step]) -> range object

Return an object that produces a sequence of integers from start (inclusive)
to stop (exclusive) by step.  range(i, j) produces i, i+1, i+2, ..., j-1.
start defaults to 0, and stop is omitted!  range(4) produces 0, 1, 2, 3.
These are exactly the valid indices for a list of 4 elements.
When step is given, it specifies the increment (or decrement).
[0;31mType:[0m           type
[0;31mSubclasses:[0m     


In [34]:
# Presione TAB en el punto de la lína
my_range.start

1

In [35]:
my_range.start

1

In [36]:
my_range.stop

10

In [37]:
my_range.step

2

## Librerías

In [38]:
import math # Librería instalada
import testFunction as tf  # Librería local

In [39]:
math.floor(2.6)

2

In [40]:
floor(2.6)

NameError: name 'floor' is not defined

In [None]:
# En Jupyter podemos ver el código de fuente inclusive
tf.testFunction??

In [None]:
tf.testFunction(10, 2.5)

In [None]:
# La librería math no está cargada!
math.floor(2.5)

### Pro-Tip

Jupyter está basado en ```IPython```, por lo que puedes hacer uso de los comandos mágicos.

In [None]:
# Un poco de documentación
%magic

In [None]:
# %load testFunction.py
import math


def testFunction(x, y):
    """ Retorna la diferencia entera entre dos valores."""
    diff = abs(x - y)
    value = math.floor(diff)
    return value

In [None]:
%run testFunction.py

In [None]:
%lsmagic

In [None]:
%pwd

Existen comando mágicos de línea (```%```)y de celda completa (```%%```)

In [None]:
%timeit comprehension_list = [i*2 for i in range(1000)]

In [None]:
%%timeit

no_comprehension_list = []
for i in range(1000):
    no_comprehension_list.append(i * 2)

In [None]:
len(comprehension_list)

## Laboratorio N°01

- Crear una cuenta de GitHub, si es que no la tienes.
- Haz un nuevo repositorio para tus tareas tomando como _template_ [este repositorio](https://github.com/aLoNsolml/mat281_portfolio_template).
- Envía el link de tu repositorio a alonso.ogueda@gmail.com