In [1]:
# Configuracion para recargar módulos y librerías 
%reload_ext autoreload
%autoreload 2

# MAT281

## Aplicaciones de la Matemática en la Ingeniería

# Módulo 1: Data Science Toolkit 

## ¿Qué contenidos aprenderemos?

* [Sistema Operativo](#so)
* [Interfaz de Línea de Comandos](#cli)
* [Entorno Virtual](#venv)
* [Python](#python)
* [Project Jupyter](#jupyter)
* [Git](#git)

## Objetivos de la clase

* Instalación y uso de herramientas computacionales.
* Utilizar Jupyter Notebook/Lab.
* Recordar Python

<a id='so'></a>
## Sistema Operativo

* Personalmente recomiendo **Linux**, en particular distribuciones como Ubuntu, Mint o Fedora por su facilidad a la hora de instalar.
* En ocasiones las implementaciones en **Windows** no están completamente integradas e inclusive en ocasiones no están disponibles.
    - Una alternativa es [**Windows Subsystem for Linux**](https://docs.microsoft.com/en-us/windows/wsl/about), pero lamentablemente no se asegura un 100% de compatibilidad.
* En el caso que poseas un equipo con **macOS** no debería haber problema.

<a id='cli'></a>
## Interfaz de Línea de Comandos (*Command Line Interface* / CLI)

* Es un método que permite a los usuarios interactuar con algún programa informático por medio de líneas de texto.
* Típicamente se hace uso de una terminal/*shell* (ver imagen).
* En el día a día dentro de la oficina facilita flujo de trabajo.
* Permite moverse entre manipular directorios y ficheros, instalar/actualizar herramientas, aplicaciones, softwares, etc.

<img src="https://upload.wikimedia.org/wikipedia/commons/2/29/Linux_command-line._Bash._GNOME_Terminal._screenshot.png" alt="" align="center"/>

*Screenshot of a sample bash session in GNOME Terminal 3, Fedora 15. [Wikipedia](https://en.wikipedia.org/wiki/Command-line_interface)* 

<a id='venv'></a>
## Entorno Virtual

__Problemas recurrentes:__
- Dependencias de librerías (*packages*) incompatibles.
- Dificultad a la hora de compartir y reproducir resultados, e.g. no conocer las versiones de las librerías instaladas.
- Tener una máquina virtual para cada desarrollo es tedioso y costoso.
- Miedo constante a instalar algo nuevo y tu script vuelva a funcionar.

#### Solución 

Aislar el desarrollo con tal de mejorar la compatibilidad y reproducibilidad de resultados. 

####  ¿Cómo? 

Utilizando entornos virtuales.

####  Para el curso (es recomendable)

![Conda](https://conda.io/docs/_images/conda_logo.svg)

*Package, dependency and environment management for any language—Python, R, Ruby, Lua, Scala, Java, JavaScript, C/ C++, FORTRAN.* [(Link)](https://conda.io/docs/)


#### ¿Por qué Conda?

* Open Source
* Gestor de librerías __y__ entornos virtuales. 
* Compatible con Linux, Windows y macOS.
* Es agnóstico al lenguaje de programación (inicialmente fue desarrollado para Python).
* Es de fácil instalación y uso.

### Instalación

Toda la documentación se encuentra en este [link](https://conda.io/docs/user-guide/install/index.html), pero en resumen:

* Existe Anaconda y Miniconda, ambas contienen conda.
    - Anaconda es una distribución que incluye una artillería de librerías científicas.
    - Miniconda es para realizar una instalación mínima de conda sin adicionales (recomendada).
* Descarga e instala **Miniconda3** (Python3) según tu sistena operativo.
* __Importante__: En la fase final de la instalación se te preguntará si deseaas agregar Conda a tu PATH, dependiendo de tu sistema operativo:
    - En Windows selecciona la opción "NO" e inicia desde *Anaconda Prompt*.
    - En Linux y macOS acepta e inicia desde tu terminal.
* Test: 
    ```conda --version```

In [2]:
!conda --version

conda 4.6.7


#### Otras alternativas:
* ```pip``` + ```virtualenv```, el primero es el gestor favorito de librerías de Python y el segundo es un gestos de entornos virtuales, el contra es que es exclusivo de Python. 
    - Ojo! En Conda también puedes instalar por  ```pip```.
* __Dockers__ es una herramienta muy de moda en grandes proyectos debido a ser, en palabras simples, un intermedio entre entornos virtuales y máquinas virtuales.

<a id='python'></a>
## Python

Las principales librerías científicas a instalar y que ocuparemos durante el curso son:

* [Numpy](http://www.numpy.org/): Computación científica.
* [Pandas](https://pandas.pydata.org/): Análisis de datos.
* [Matplotlib](https://matplotlib.org/): Visualización.
* [Altair](https://altair-viz.github.io/): Visualización Declarativa.
* [Scikit-Learn](http://scikit-learn.org/stable/): Machine Learning

<a id='juptyer'></a>
## Project Jupyter 

*[Project Jupyter](https://jupyter.org/index.html) exists to develop open-source software, open-standards, and services for interactive computing across dozens of programming languages.*
<img src="https://2.bp.blogspot.com/-Q23VBETHLS0/WN_lgpxinkI/AAAAAAAAA-k/f3DJQfBre0QD5rwMWmGIGhBGjU40MTAxQCLcB/s1600/jupyter.png" alt="" align="center"/>

### Jupyter Notebook

Es una aplicación web que permite crear y compartir documentos que contienen código, ecuaciones, visualizaciones y texto. Entre sus usos se encuentra:

* Limpieza de datos
* Transformación de datos
* Simulaciones numéricas
* Modelamiendo Estadístico
* Visualización de Datos
* Machine Learning
* Mucho más.

![Jupyter Notebook Example](https://jupyter.org/assets/jupyterpreview.png)

#### Dato Curioso

Esta presentación está hecha con Jupyter Notebook + [RISE](https://github.com/damianavila/RISE).

### Jupyter Lab

* Es la siguiente generación de la interfaz de usuario de *Project Jupyter*.
* Similar a Jupyter Notebook cuenta con la facilidad de editar archivos .ipynb (notebooks) y heramientas como una terminal, editor de texto, explorador de archivos, etc.
* Eventualmente Jupyter Lab reemplazará a Jupyter Notebok (aunque la versión estable fue liberada hace algunos meses).
* Cuenta con una serie de extensiones que puedes instalar (y desarrollar inclurisve.

<a id='git'></a>
## Git

*[__Git__](https://git-scm.com/) is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency.*

### Instalación de Git

No es nada del otro mundo, basta con seguir las instrucciones de la página oficial en este [link](https://git-scm.com/book/en/v2/Getting-Started-Installing-Git). 

### Configuración de Git

No es un paso crucial, pero si en el futuro quieres tener tu propio repositorio o contribuir en otros proyectos, debes tener una identidad. 

Lo primero es configurar git, la [documentación oficial](https://git-scm.com/book/es/v1/Empezando-Configurando-Git-por-primera-vez) incluso está en español. Con configurar tu ```email``` y ```username``` debería bastar en una primera instancia.

Lo siguiente es tener una cuenta en la plataforma que utilizarás. Algunas de ellas son:
* GitHub
* GitLab
* Bitbucket

### GitHub

*[GitHub](https://github.com/) is a development platform inspired by the way you work. From open source to business, you can host and review code, manage projects, and build software alongside 30 million developers.*

Es decir, es una plataforma para alojar proyectos que utilizan Git como sistema de control.

### Material del curso

El material del curso estará alojado en el siguiente repositorio:

https://github.com/sebastiandres/mat281_2018S2

## Manos a la obra

1. Instalar [__git__](https://git-scm.com/).


2. En la terminal (de git si es el caso) moverte hasta donde quieras guardar el material del curso. En lo personal me gusta crear una carpeta llamada __git__ en __Documents__. Los pasos serían:
    * Abrir terminal
    * ```cd Documents```
    * ```mkdir git``` 
    

3. Clonar el repositorio del curso, ejecutando la siguiente línea de comando en la ruta deseada (en mi caso *~/Documents/git*): 

    ```git clone git@github.com:sebastiandres/mat281_m01_introduccion.git``` 

4. ```cd mat281_m01_introduccion``` (__tip__: Puedes usar ```TAB``` para autocompletar).


5. En la terminal (Anaconda Prompt si estás utilizando Windows) crear un entorno virtual de conda a partir de un archivo de requisitos (llamado *mat281_modulo1*), ejecutando la siguiente línea de comando:

    ```conda env create -f environment.yml```


6. Activar el entorno: 
    - Linux/macOS: ```source activate mat281_modulo1```
    - Windows: ```activate mat281_modulo1```

7. Ejecutar:
    - ```jupyter lab```, o
    - ```jupyter notebook```
8. Si no se abre atuomáticamente una nueva pestaña en tu navegador, copiar el link del token que se muestra en la terminal en tu navegador.
9. Abrir el notebook ```02_data_science_toolkit.ipynb``` ubicado en el directorio 02_data_science_toolkit.

![Ejemplo terminal jupyter lab](http://i.imgur.com/w3tb35S.png)

## Recordando Python

* Números y operaciones
* Listas, tuplas, conjuntos y diccionarios.
* Control flow
* Importar librerías

### Hola Mundo!

In [3]:
print('Hello World!')

Hello World!


In [4]:
name = 'John Titor'
print("Hola {}!".format(name))

Hola John Titor!


## Números y operaciones

In [5]:
1 + 2

3

In [6]:
100 - 99

1

In [7]:
3 * 4

12

In [8]:
42 / 4  # En python 2 la división por defecto es entera

10.5

In [9]:
43 // 4

10

In [10]:
14 % 4

2

## Listas, tuplas, conjuntos y diccionarios

In [11]:
# Listas
my_list = [1, 2, 3, 4, 5]
print(my_list[0])

1


In [12]:
# Tuplas
my_tuple = (1, 2, 3, 4, 5)
print(my_tuple[4])

5


In [13]:
# Las listas pueden ser modificadas
my_list.append(100)  
print(my_list)

[1, 2, 3, 4, 5, 100]


In [14]:
# Las tuplas son objetos inmutables!
my_tuple.append(50)

AttributeError: 'tuple' object has no attribute 'append'

In [15]:
# Accediendo a valores
print(my_list[0])
print(my_list[-1])
print(my_list[0:2])
print(my_list[3:5])
print(my_list[::2])
print(my_list[:-2])

1
100
[1, 2]
[4, 5]
[1, 3, 5]
[1, 2, 3, 4]


In [16]:
# Conjuntos
my_set = {1, 1, 1, 2, 2, 3}
print(my_set)

{1, 2, 3}


In [17]:
# Diccionarios
my_dict = {
    'llave': 'corazón',
    'sonrisa': 'corazones'
}
print(my_dict['sonrisa'])

corazones


## Control Flow

In [18]:
# Condicionales If, Elif, Else
x = 7
cota_inferior = 5
cota_superior = 10
if x < cota_inferior:
    print('{} es menor que {}'.format(x, cota_inferior))
elif x < cota_superior:
    print('{} es mayor igual que {} y menor que {}'.format(x, cota_inferior, cota_superior))
else:
    print('{} es mayor igual que {}'.format(x, cota_superior))

7 es mayor igual que 5 y menor que 10


In [19]:
# Cilo While
i = 0
while i < 10:
    print(i)
    i += 1

0
1
2
3
4
5
6
7
8
9


In [20]:
# Ciclo For
for i in range(1, 10, 2):
    if i < 5:
        print('{} es menor que 5'.format(i))
    else:
        print('{} es mayor igual que 5'.format(i))

1 es menor que 5
3 es menor que 5
5 es mayor igual que 5
7 es mayor igual que 5
9 es mayor igual que 5


### Range no es una lista!

In [21]:
my_range = range(1, 10, 2)
type(my_range)

range

In [22]:
range?

[0;31mInit signature:[0m [0mrange[0m[0;34m([0m[0mself[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0margs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
range(stop) -> range object
range(start, stop[, step]) -> range object

Return an object that produces a sequence of integers from start (inclusive)
to stop (exclusive) by step.  range(i, j) produces i, i+1, i+2, ..., j-1.
start defaults to 0, and stop is omitted!  range(4) produces 0, 1, 2, 3.
These are exactly the valid indices for a list of 4 elements.
When step is given, it specifies the increment (or decrement).
[0;31mType:[0m           type
[0;31mSubclasses:[0m     


In [None]:
# Presione TAB en el punto de la lína
my_range.

In [23]:
my_range.start

1

In [24]:
my_range.stop

10

In [25]:
my_range.step

2

## Librerías

In [26]:
import testFunction as tf

In [27]:
# En Jupyter podemos ver el código de fuente inclusive
tf.testFunction??

[0;31mSignature:[0m [0mtf[0m[0;34m.[0m[0mtestFunction[0m[0;34m([0m[0mx[0m[0;34m,[0m [0my[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mSource:[0m   
[0;32mdef[0m [0mtestFunction[0m[0;34m([0m[0mx[0m[0;34m,[0m [0my[0m[0;34m)[0m[0;34m:[0m[0;34m[0m
[0;34m[0m    [0;34m""" Retorna la diferencia entera entre dos valores."""[0m[0;34m[0m
[0;34m[0m    [0mdiff[0m [0;34m=[0m [0mabs[0m[0;34m([0m[0mx[0m [0;34m-[0m [0my[0m[0;34m)[0m[0;34m[0m
[0;34m[0m    [0mvalue[0m [0;34m=[0m [0mmath[0m[0;34m.[0m[0mfloor[0m[0;34m([0m[0mdiff[0m[0;34m)[0m[0;34m[0m
[0;34m[0m    [0;32mreturn[0m [0mvalue[0m[0;34m[0m[0;34m[0m[0m
[0;31mFile:[0m      ~/Documents/git/mat281_2018S2/m01_introduccion/02_data_science_toolkit/testFunction.py
[0;31mType:[0m      function


In [28]:
tf.testFunction(10, 2.5)

7

In [29]:
# La librería math no está cargada!
math.floor(2.5)

NameError: name 'math' is not defined

### Pro-Tip

Jupyter está basado en ```IPython```, por lo que puedes hacer uso de los comandos mágicos.

In [30]:
# Un poco de documentación
%magic


IPython's 'magic' functions

The magic function system provides a series of functions which allow you to
control the behavior of IPython itself, plus a lot of system-type
features. There are two kinds of magics, line-oriented and cell-oriented.

Line magics are prefixed with the % character and work much like OS
command-line calls: they get as an argument the rest of the line, where
arguments are passed without parentheses or quotes.  For example, this will
time the given statement::

        %timeit range(1000)

Cell magics are prefixed with a double %%, and they are functions that get as
an argument not only the rest of the line, but also the lines below it in a
separate argument.  These magics are called with two arguments: the rest of the
call line and the body of the cell, consisting of the lines below the first.
For example::

        %%timeit x = numpy.random.randn((100, 100))
        numpy.linalg.svd(x)

will time the execution of the numpy svd routine, running the assignment 

In [31]:
%lsmagic

Available line magics:
%aimport  %alias  %alias_magic  %autoawait  %autocall  %automagic  %autoreload  %autosave  %bookmark  %cat  %cd  %clear  %colors  %conda  %config  %connect_info  %cp  %debug  %dhist  %dirs  %doctest_mode  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %lf  %lk  %ll  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %lx  %macro  %magic  %man  %matplotlib  %mkdir  %more  %mv  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %pip  %popd  %pprint  %precision  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %rep  %rerun  %reset  %reset_selective  %rm  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%p

In [32]:
%pwd

'/home/alonsolml/Documents/git/mat281_2018S2/m01_introduccion/02_data_science_toolkit'

Existen comando mágicos de línea (```%```)y de celda completa (```%%```)

In [33]:
%timeit comprehension_list = [i*2 for i in range(1000)]

41.3 µs ± 1.36 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [34]:
%%timeit

no_comprehension_list = []
for i in range(1000):
    no_comprehension_list.append(i * 2)

74.2 µs ± 1.55 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


## Evaluación del laboratorio

#### Preparativos

* Crea un archivo en la misma carpeta de este notebook llamado ```labFunctions.py``` (tip: Puedes hacerlo desde Jupyter Notebook/Lab!).
* Se presentan a continuación tres ejercicios, para cada uno debes definir una función con el nombre y argumentos que se solicite.
* La evaluación consiste en que esas funciones se deben cargar a este notebook como una librería y se probarán con los datos entregados.

#### Se evaluará:

1. El código
2. Que la solución coincida con el ```assert```.
3. Que se ejecute el jupyter notebook.

### Ejercicio #1

* Definir la función llamada ```tribonacci``` con un argumento ```n``` tal que:
    - Para n = 1, 2 o 3 retorne el valor 1.
    - Para n >= 4 retorne la suma de los últimos tres valores de la sucesión.
    
Recuerda, para definir una función:

```python
def tribonacci(n):
    # Tu código va aquí
    value = ...
    return value
```

In [None]:
from labFunctions import tribonacci
n = 20
assert tribonacci(n) == 46499, 'Nope! Revisa cuidadosamente tu función'
print('Correcto!. El {0}-ésimo término de la serie es {1}.'.format(n, tribonacci(n)))

__OJO__: Engañar al ```assert``` es fácil. Podrías crear la siguiente función:

In [None]:
def tribonacci(n):
    if n == 20:
        return 46499
    else:
        return None
n = 20
assert tribonacci(n) == 46499, 'Nope! Revisa cuidadosamente tu función'
print('Correcto!. El {0}-ésimo término de la serie es {1}.'.format(n, tribonacci(n)))

__Consejo:__ No lo hagas...

### Ejercicio #2

Primero, ejecuta la siguiente celda con tal de crear el diccionario ```nba_players``` que contiene información de los jugadores de la NBA en los últimos años de la siguiente manera:

- Las *keys* corresponden al nombre del jugador.
- Los *values* corresponden a listas en el siguiente formato:
    1. Año de inicio
    2. Año de fin
    3. Posición
    4. Altura (pies - pulgadas)
    5. Peso (libras)
    6. Día de nacimiento
    7. Universidad


In [None]:
import os
import pickle

with open(os.path.join('data', 'nba_player_data.pkl'), 'rb') as input_file:
    nba_player_data = pickle.load(input_file)

In [None]:
# Recordatorio! Los diccionarios son elementos iterables

for key, value in nba_player_data.items():
    print('El jugador {} tiene las siguientes estadísticas'.format(key))
    print('\t {}'.format(value))
    print('\n')

### Ejercicio #2

Define la función ```tallest_player(nba_player_data)``` tal que el argumento sea el diccionario anteriormente definido y retorne un objeto ```list``` con el/los jugadores más altos de la NBA.

#### Tip 1
Las listas poseen el método ```append```

In [None]:
list.append?

In [None]:
def onlyEvenNumbers(x):
    """Retorna los números pares de la lista x"""
    aux_list = []
    if isinstance(x, range) or isinstance(x, list):
        for i in x:
            if i % 2 == 0:
                aux_list.append(i)
        return aux_list
    else:
        print('El argumento debe ser una objeto list o range')
        return

print(onlyEvenNumbers(range(10)))
print('-------------------------')
print(onlyEvenNumbers({'key1': 1}))

#### Tip 2
Las objetos ```str``` (_string_) los puedes cortar con ```split```.

In [None]:
str.split?

In [None]:
pies, pulgadas = '10-1'.split('-')
print(pies)
print(type(pies))
print(int(pies))
print(type(int(pies)))

In [None]:
from labFunctions import tallest_player
assert tallest_player(nba_player_data) == ['Manute Bol', 'Gheorghe Muresan'], 'Nope! Revisa cuidadosamente tu función'
print('Correcto!. Los jugadores más altos de la NBA son:\n')
print(*tallest_player(nba_player_data), sep='\n')

### Ejercicio #3

Define la función ```more_time_position_player(nba_player_data, position)``` tal que el primer argumento sea el diccionario con los datos cargados, el segundo argumento la posición con tal que retorne una lista de el/los jugadores que estuvieron la mayor cantidad de años en la NBA para la posición seleccionada

Las posibles posiciones son:
['F-C', 'C-F', 'C', 'G', 'F', 'G-F', 'F-G']

In [None]:
from labFunctions import more_time_position_player
position = 'F-G'
assert more_time_position_player(nba_player_data, position) == ['Grant Hill', 'Paul Pierce'], 'Nope! Revisa cuidadosamente tu función'
print('Correcto! En la posición {} el/los jugadores con una mayor cantidad de tiempo son:\n'.format(position))
print(*more_time_position_player(nba_player_data, position), sep='\n')

### Nombre: Juanito Perez
#### Rol: 201110002-6