# MAT281

## Aplicaciones de la Matemática en la Ingeniería

## Módulo 1

### Clase 02: Data Science Toolkit 

# ¿Qué contenidos aprenderemos?

* [Sistema Operativo](#so)
* [Interfaz de Línea de Comandos](#cli)
* [Entorno Virtual](#venv)
* [Python](#python)
* [Project Jupyter](#jupyter)
* [Git](#git)

## Objetivos de la clase

* Instalación y uso de herramientas computacionales.
* Utilizar Jupyter Notebook/Lab.
* Recordar Python

<a id='so'></a>
## Sistema Operativo

* Personalmente recomiendo **Linux**, en particular distribuciones como Ubuntu, Mint o Fedora por su facilidad a la hora de instalar.
* En ocasiones las implementaciones en **Windows** no están completamente integradas e inclusive en ocasiones no están disponibles.
    - Una alternativa es [**Windows Subsystem for Linux**](https://docs.microsoft.com/en-us/windows/wsl/about), pero lamentablemente no se asegura un 100% de compatibilidad.
* En el caso que poseas un equipo con **macOS** no debería haber problema.

<a id='cli'></a>
## Interfaz de Línea de Comandos (*Command Line Interface* / CLI)

* Es un método que permite a los usuarios interactuar con algún programa informático por medio de líneas de texto.
* Típicamente se hace uso de una terminal/*shell* (ver imagen).
* En el día a día dentro de la oficina facilita flujo de trabajo.
* Permite moverse entre manipular directorios y ficheros, instalar/actualizar herramientas, aplicaciones, softwares, etc.

<img src="https://upload.wikimedia.org/wikipedia/commons/2/29/Linux_command-line._Bash._GNOME_Terminal._screenshot.png" alt="" align="center"/>

*Screenshot of a sample bash session in GNOME Terminal 3, Fedora 15. [Wikipedia](https://en.wikipedia.org/wiki/Command-line_interface)* 

<a id='venv'></a>
## Entorno Virtual

__Problemas recurrentes:__
- Dependencias de librerías (*packages*) incompatibles.
- Dificultad a la hora de compartir y reproducir resultados, e.g. no conocer las versiones de las librerías instaladas.
- Tener una máquina virtual para cada desarrollo es tedioso y costoso.
- Miedo constante a instalar algo nuevo y tu script vuelva a funcionar.

#### Solución 

Aislar el desarrollo con tal de mejorar la compatibilidad y reproducibilidad de resultados. 

####  ¿Cómo? 

Utilizando entornos virtuales.

####  Para el curso (es recomendable)

![Conda](https://conda.io/docs/_images/conda_logo.svg)

*Package, dependency and environment management for any language—Python, R, Ruby, Lua, Scala, Java, JavaScript, C/ C++, FORTRAN.* [(Link)](https://conda.io/docs/)


#### ¿Por qué Conda?

* Open Source
* Gestor de librerías __y__ entornos virtuales. 
* Compatible con Linux, Windows y macOS.
* Es agnóstico al lenguaje de programación (inicialmente fue desarrollado para Python).
* Es de fácil instalación y uso.

### Instalación

Toda la documentación se encuentra en este [link](https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html), pero en resumen:

* Existe Anaconda y Miniconda, ambas contienen conda.
    - Anaconda es una distribución que incluye una artillería de librerías científicas.
    - Miniconda es para realizar una instalación mínima de conda sin adicionales (recomendada).
* Descarga e instala **Miniconda3** (Python3) según tu sistena operativo.
* En la instalación se te preguntará: __Do you wish the installer to initialize Anaconda3 by running conda init?__ Recomiendo aceptar, luego cerrar la terminal, abrir una nueva y ejecutar:
`conda config --set auto_activate_base false`
* Test: 
    ```conda --version```

In [None]:
!conda --version

#### Otras alternativas:
* ```pip``` + ```virtualenv```, el primero es el gestor favorito de librerías de Python y el segundo es un gestos de entornos virtuales, el contra es que es exclusivo de Python. 
    - Ojo! En Conda también puedes instalar por  ```pip```.
* __Dockers__ es una herramienta muy de moda en grandes proyectos debido a ser, en palabras simples, un intermedio entre entornos virtuales y máquinas virtuales.

<a id='python'></a>
## Python

Las principales librerías científicas a instalar y que ocuparemos durante el curso son:

* [Numpy](http://www.numpy.org/): Computación científica.
* [Pandas](https://pandas.pydata.org/): Análisis de datos.
* [Matplotlib](https://matplotlib.org/): Visualización.
* [Altair](https://altair-viz.github.io/): Visualización Declarativa.
* [Scikit-Learn](http://scikit-learn.org/stable/): Machine Learning

<a id='juptyer'></a>
## Project Jupyter 

*[Project Jupyter](https://jupyter.org/index.html) exists to develop open-source software, open-standards, and services for interactive computing across dozens of programming languages.*

<img src="https://2.bp.blogspot.com/-Q23VBETHLS0/WN_lgpxinkI/AAAAAAAAA-k/f3DJQfBre0QD5rwMWmGIGhBGjU40MTAxQCLcB/s1600/jupyter.png" alt="" align="center"/>

### Jupyter Notebook

Es una aplicación web que permite crear y compartir documentos que contienen código, ecuaciones, visualizaciones y texto. Entre sus usos se encuentra:

* Limpieza de datos
* Transformación de datos
* Simulaciones numéricas
* Modelamiendo Estadístico
* Visualización de Datos
* Machine Learning
* Mucho más.

![Jupyter Notebook Example](https://jupyter.org/assets/jupyterpreview.png)

### Jupyter Lab

* Es la siguiente generación de la interfaz de usuario de *Project Jupyter*.
* Similar a Jupyter Notebook cuenta con la facilidad de editar archivos .ipynb (notebooks) y heramientas como una terminal, editor de texto, explorador de archivos, etc.
* Eventualmente Jupyter Lab reemplazará a Jupyter Notebok (aunque la versión estable fue liberada hace algunos meses).
* Cuenta con una serie de extensiones que puedes instalar (y desarrollar inclurisve.

Puedes probar Jupyter Lab con solo dos clicks!

1. Ingresar a este link: https://github.com/jupyterlab/jupyterlab-demo
2. Hacer click en el icono de binder:  ![Binder](https://mybinder.org/badge_logo.svg)

<a id='git'></a>
## Git

_[__Git__](https://git-scm.com/) is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency._

### Instalación de Git

No es nada del otro mundo, basta con seguir las instrucciones de la página oficial en este [link](https://git-scm.com/book/en/v2/Getting-Started-Installing-Git). 

### Configuración de Git

No es un paso crucial, pero si en el futuro quieres tener tu propio repositorio o contribuir en otros proyectos, debes tener una identidad. 

Lo primero es configurar git, la [documentación oficial](https://git-scm.com/book/es/v1/Empezando-Configurando-Git-por-primera-vez) incluso está en español. Con configurar tu ```email``` y ```username``` debería bastar en una primera instancia.

Lo siguiente es tener una cuenta en la plataforma que utilizarás. Algunas de ellas son:
* GitHub
* GitLab
* Bitbucket

### GitHub

_[GitHub](https://github.com/) is a development platform inspired by the way you work. From open source to business, you can host and review code, manage projects, and build software alongside 30 million developers._

Es decir, es una plataforma para alojar proyectos que utilizan Git como sistema de control.

El **material del curso** estará disponible a través de GitHub en el siguiente link: 

https://github.com/aLoNsolml/mat281_2019S2. 


Uno de los objetivos del curso es que familiarices con git y un buen punto de partida es configurar tu computador personal para interactuar con GitHub.

1. Crea una cuenta en GitHub.
    1. Con tu correo UTFSM puedes reclamar un Student Pack de GitHub, uno de los beneficios es que te permite acceder a una membresía Pro y así tener repositorios privados. El link: https://education.github.com/students
2. En tu terminal configurar tu usuario y correo electrónico global de git (más adelante puedes modificar repositorios localmente).
    1. `$ git config --global user.name "Your name here"`
    2. `$ git config --global user.email "your_email@example.com"`
3. Conectar tu entorno de trabajo (computador) con tu cuenta de GitHub a través de SSH:
    1. https://help.github.com/en/articles/connecting-to-github-with-ssh

## Manos a la obra

1. Tener paciencia.

2. En la terminal (de git si es el caso) debes `moverte` hasta donde quieras guardar el material del curso. En lo personal me gusta crear una carpeta llamada __git__ en __Documents__. Los pasos serían:
    * Abrir terminal
    * ```cd ~/Documents```
    * ```mkdir git``` 
    * `cd git`
    

3. Clonar el repositorio del curso, ejecutando la siguiente línea de comando en la ruta deseada (en mi caso *~/Documents/git*): 

    1. Si utilizas SSH: ```git clone git@github.com:aLoNsolml/mat281_2019S2.git``` 
    2. Si utilizas HTTPS: `git clone https://github.com/aLoNsolml/mat281_2019S2.git`
    3. Descargar el repositorio como ZIP y descomprimir
        1. Esta alternativa no es muy recomendable, porque no te va a permitir descargar los cambios utilizando git, tendrás que descargar completamente el repositorio cada vez.

4. En la terminal moverse hacia la carpeta del repositorio utilizando ```cd mat281_2019S2``` (__tip__: Puedes usar ```TAB``` para autocompletar).


5. En la terminal (Anaconda Prompt si estás utilizando Windows) crear un entorno virtual de conda a partir de un archivo de requisitos (llamado *mat281_modulo1*), ejecutando la siguiente línea de comando:

    ```conda env create -f environment.yml```


6. Activar el entorno: `conda activate mat281` 

7. Ejecutar:
    - ```jupyter lab```, o
    - ```jupyter notebook```
8. Si no se abre atuomáticamente una nueva pestaña en tu navegador, copiar el link del token que se muestra en la terminal en tu navegador.
9. Abrir el archivo ```m01_c02_data_science_toolkit.ipynb``` ubicado en el directorio 02_data_science_toolkit.

![Ejemplo terminal jupyter lab](http://i.imgur.com/w3tb35S.png)

## Recordando Python

* Números y operaciones
* Listas, tuplas, conjuntos y diccionarios.
* Control flow
* Importar librerías

### Hola Mundo!

In [1]:
math.floor(2.6)

NameError: name 'math' is not defined

In [None]:
print('Hello World!')

In [None]:
name = 'John Titor'
print("Hola {}!".format(name))

## Números y operaciones

In [None]:
1 + 2

In [None]:
100 - 99

In [None]:
3 * 4

In [None]:
42 / 4  # En python 2 la división por defecto es entera

In [None]:
43 // 4

In [None]:
14 % 4

## Listas, tuplas, conjuntos y diccionarios

In [None]:
range(2, 10, 3)

In [None]:
type(range(10))

In [None]:
a = range(10)
l = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
for x in a:
    print(x)

In [None]:
for x in l:
    print(x)

In [None]:
l[1]

In [None]:
a[3]

In [None]:
# Listas
my_list = [1, 2, 3, 4, 5]
print(my_list[0])

In [None]:
# Tuplas
my_tuple = (1, 2, 3, 4, 5)
print(my_tuple[4])

In [None]:
type(my_list)

In [None]:
# Las listas pueden ser modificadas
my_list.append(100)  
print(my_list)

In [None]:
# Las tuplas son objetos inmutables!
my_tuple.append(50)

In [None]:
my_list

In [None]:
# Accediendo a valores
print(my_list[0])
print(my_list[-1])
print(my_list[0:2])
print(my_list[2:])
print(my_list[::2])
print(my_list[:-2])

In [None]:
# Conjuntos
my_set = {1, 1, 1, 2, 2, 3}
print(my_set)

In [None]:
# Diccionarios
my_dict = {
    'llave': 'corazón',
    'sonrisa': 'corazones'
}
print(my_dict['sonrisa'])

In [None]:
age_dict = {"alonso": "hfjdsafhks", "pedro": 29, "quentin": 22}

In [None]:
my_dict.values()

In [None]:
try:
    my_dict.values()[0]
except:
    print("ocurrió un error")

## Control Flow

In [None]:
# Condicionales If, Elif, Else
x = 7
cota_inferior = 5
cota_superior = 10
if x < cota_inferior:
    print('{} es menor que {}'.format(x, cota_inferior))
elif x < cota_superior:
    print('{} es mayor igual que {} y menor que {}'.format(x, cota_inferior, cota_superior))
else:
    print('{} es mayor igual que {}'.format(x, cota_superior))

In [None]:
# Cilo While
i = 0
while i < 10:
    print(i)
    i += 1

In [None]:
# Ciclo For
for i in range(1, 10, 2):
    if i < 5:
        print('{} es menor que 5'.format(i))
    else:
        print('{} es mayor igual que 5'.format(i))

### Range no es una lista!

In [None]:
my_range = range(1, 10, 2)
type(my_range)

In [None]:
range?

In [None]:
# Presione TAB en el punto de la lína
my_range.start

In [None]:
my_range.start

In [None]:
my_range.stop

In [None]:
my_range.step

## Librerías

In [2]:
import math # Librería instalada
import testFunction as tf  # Librería local

In [None]:
floor(2.6)

In [None]:
m.floor(2.6)

In [None]:
math.floor(2.6)

In [3]:
# En Jupyter podemos ver el código de fuente inclusive
tf.testFunction??

[0;31mSignature:[0m [0mtf[0m[0;34m.[0m[0mtestFunction[0m[0;34m([0m[0mx[0m[0;34m,[0m [0my[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mSource:[0m   
[0;32mdef[0m [0mtestFunction[0m[0;34m([0m[0mx[0m[0;34m,[0m [0my[0m[0;34m)[0m[0;34m:[0m[0;34m[0m
[0;34m[0m    [0;34m""" Retorna la diferencia entera entre dos valores."""[0m[0;34m[0m
[0;34m[0m    [0mdiff[0m [0;34m=[0m [0mabs[0m[0;34m([0m[0mx[0m [0;34m-[0m [0my[0m[0;34m)[0m[0;34m[0m
[0;34m[0m    [0mvalue[0m [0;34m=[0m [0mmath[0m[0;34m.[0m[0mfloor[0m[0;34m([0m[0mdiff[0m[0;34m)[0m[0;34m[0m
[0;34m[0m    [0;32mreturn[0m [0mvalue[0m[0;34m[0m[0;34m[0m[0m
[0;31mFile:[0m      ~/Documents/git/mat281_2019S2/m01_introduccion/02_data_science_toolkit/testFunction.py
[0;31mType:[0m      function


In [4]:
tf.testFunction(10, 2.5)

7

In [None]:
# La librería math no está cargada!
math.floor(2.5)

### Pro-Tip

Jupyter está basado en ```IPython```, por lo que puedes hacer uso de los comandos mágicos.

In [5]:
# Un poco de documentación
%magic


IPython's 'magic' functions

The magic function system provides a series of functions which allow you to
control the behavior of IPython itself, plus a lot of system-type
features. There are two kinds of magics, line-oriented and cell-oriented.

Line magics are prefixed with the % character and work much like OS
command-line calls: they get as an argument the rest of the line, where
arguments are passed without parentheses or quotes.  For example, this will
time the given statement::

        %timeit range(1000)

Cell magics are prefixed with a double %%, and they are functions that get as
an argument not only the rest of the line, but also the lines below it in a
separate argument.  These magics are called with two arguments: the rest of the
call line and the body of the cell, consisting of the lines below the first.
For example::

        %%timeit x = numpy.random.randn((100, 100))
        numpy.linalg.svd(x)

will time the execution of the numpy svd routine, running the assignment 

In [12]:
# %load testFunction.py
import math


def testFunction(x, y):
    """ Retorna la diferencia entera entre dos valores."""
    diff = abs(x - y)
    value = math.floor(diff)
    return value

In [13]:
%run testFunction.py

In [6]:
%lsmagic

Available line magics:
%alias  %alias_magic  %autoawait  %autocall  %automagic  %autosave  %bookmark  %cat  %cd  %clear  %colors  %conda  %config  %connect_info  %cp  %debug  %dhist  %dirs  %doctest_mode  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %lf  %lk  %ll  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %lx  %macro  %magic  %man  %matplotlib  %mkdir  %more  %mv  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %pip  %popd  %pprint  %precision  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %rep  %rerun  %reset  %reset_selective  %rm  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%perl  %%prun  %%pypy  %%

In [11]:
%pwd

'/home/alonsolml/Documents/git/mat281_2019S2/m01_introduccion/02_data_science_toolkit'

Existen comando mágicos de línea (```%```)y de celda completa (```%%```)

In [7]:
%timeit comprehension_list = [i*2 for i in range(1000)]

37.7 µs ± 877 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [14]:
comprehension_list = [i*2 for i in range(1000)] 

In [17]:
comprehension_list

[0,
 2,
 4,
 6,
 8,
 10,
 12,
 14,
 16,
 18,
 20,
 22,
 24,
 26,
 28,
 30,
 32,
 34,
 36,
 38,
 40,
 42,
 44,
 46,
 48,
 50,
 52,
 54,
 56,
 58,
 60,
 62,
 64,
 66,
 68,
 70,
 72,
 74,
 76,
 78,
 80,
 82,
 84,
 86,
 88,
 90,
 92,
 94,
 96,
 98,
 100,
 102,
 104,
 106,
 108,
 110,
 112,
 114,
 116,
 118,
 120,
 122,
 124,
 126,
 128,
 130,
 132,
 134,
 136,
 138,
 140,
 142,
 144,
 146,
 148,
 150,
 152,
 154,
 156,
 158,
 160,
 162,
 164,
 166,
 168,
 170,
 172,
 174,
 176,
 178,
 180,
 182,
 184,
 186,
 188,
 190,
 192,
 194,
 196,
 198,
 200,
 202,
 204,
 206,
 208,
 210,
 212,
 214,
 216,
 218,
 220,
 222,
 224,
 226,
 228,
 230,
 232,
 234,
 236,
 238,
 240,
 242,
 244,
 246,
 248,
 250,
 252,
 254,
 256,
 258,
 260,
 262,
 264,
 266,
 268,
 270,
 272,
 274,
 276,
 278,
 280,
 282,
 284,
 286,
 288,
 290,
 292,
 294,
 296,
 298,
 300,
 302,
 304,
 306,
 308,
 310,
 312,
 314,
 316,
 318,
 320,
 322,
 324,
 326,
 328,
 330,
 332,
 334,
 336,
 338,
 340,
 342,
 344,
 346,
 348,
 350,

In [9]:
%%timeit

no_comprehension_list = []
for i in range(1000):
    no_comprehension_list.append(i * 2)

62.2 µs ± 468 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [15]:
no_comprehension_list = []
for i in range(1000):
    no_comprehension_list.append(i * 2)

In [16]:
no_comprehension_list

[0,
 2,
 4,
 6,
 8,
 10,
 12,
 14,
 16,
 18,
 20,
 22,
 24,
 26,
 28,
 30,
 32,
 34,
 36,
 38,
 40,
 42,
 44,
 46,
 48,
 50,
 52,
 54,
 56,
 58,
 60,
 62,
 64,
 66,
 68,
 70,
 72,
 74,
 76,
 78,
 80,
 82,
 84,
 86,
 88,
 90,
 92,
 94,
 96,
 98,
 100,
 102,
 104,
 106,
 108,
 110,
 112,
 114,
 116,
 118,
 120,
 122,
 124,
 126,
 128,
 130,
 132,
 134,
 136,
 138,
 140,
 142,
 144,
 146,
 148,
 150,
 152,
 154,
 156,
 158,
 160,
 162,
 164,
 166,
 168,
 170,
 172,
 174,
 176,
 178,
 180,
 182,
 184,
 186,
 188,
 190,
 192,
 194,
 196,
 198,
 200,
 202,
 204,
 206,
 208,
 210,
 212,
 214,
 216,
 218,
 220,
 222,
 224,
 226,
 228,
 230,
 232,
 234,
 236,
 238,
 240,
 242,
 244,
 246,
 248,
 250,
 252,
 254,
 256,
 258,
 260,
 262,
 264,
 266,
 268,
 270,
 272,
 274,
 276,
 278,
 280,
 282,
 284,
 286,
 288,
 290,
 292,
 294,
 296,
 298,
 300,
 302,
 304,
 306,
 308,
 310,
 312,
 314,
 316,
 318,
 320,
 322,
 324,
 326,
 328,
 330,
 332,
 334,
 336,
 338,
 340,
 342,
 344,
 346,
 348,
 350,