![banner](images/banner.png)

### Programar y Reprogramar Recursos para Docentes
#### Fecha: 29 Octubre 2021, 13:00 a 15:00
####  Sofía Martin, Ariel Ramos, Liliana Hurtado, Sebastián Flores

### Ideas y Librerías

**Agenda:**
* Introducción
* Presentaciones interactivas
* Gráficos
* Ecuaciones
* Análisis de datos
* Machine Learning

### Introducción 

¿Porqué ocupamos librerías?

En Jupyter puedes usar cualquier librería de Python (incluso otros lenguajes).

La comunidad de Python continuamente desarrolla librerías para todo tipo de temas.

Con toda seguridad, existe una librería de python que puede ayudarte a enseñar **ese** tema (desde algebra a astrofísica). 

### Algunos enlaces a considerar

* https://github.com/usantamaria: repositorios de matemática, informática y mecánica de la UTFSM - Chile.
* https://github.com/sebastiandres: 
* https://sebastiandres.xyz: Blog con tutoriales y consejos.   
* Comunidades y personas en Discord, Twitter y Github.

# 1. Presentaciones Interactivas

La librería RISE (Reveal.js Interactive Slide Extension), permite  convertir un jupyter notebook en una presentación interactiva. Es compatible con todas las otras librerías.

###### Instalación
```bash
pip install rise
```

###### Utilización
¡Muy simple! Sólo requiere configurar el tipo de cada celdas.

##### ¿Qué es RISE?

En lugar de mostrar una larga página web con las celdas, las celdas **se agrupan** en diapositivas. 

Las distintas celdas pueden ser editadas y ejecutadas *DURANTE LA PRESENTACIÓN*.


Con **herramientas** de *markdown*, <font style="color:green">html</font> y latex: $ e^{i \pi} + 1 = 0 $


y python:

In [None]:
print("Hola \U0001F30E")

##### ¿Porqué usar RISE?


#### Ventajas

* Simplificar la **generación** de material. 

* Simplificar la **distribución** del material.

#### Desventajas

* RISE funciona sólo con Jupyter Notebook. No funciona con Jupyter Lab ni con Google Colaboratory.
* Es completamente interactivo, con todos los riesgos y beneficios que eso representa.

##### ¿Cómo usar RISE?

Instalar la librería

```
pip install rise
```

Permitirá que se agregue el botón de iniciar presentación (destacado en rojo).

![](images/install2.png)

**Paso 2**: 

En el menú de jupyter notebook, es necesario seleccionar `View/Cell Toolbar/Slideshow` para que permita configurar el tipo de celda para diapositiva. 
![](images/install3.png)

![](images/install4.png)

##### ¿Cómo aprender?

Existe una comunidad material (en español) sobre cómo utilizar RISE:

* Presentación Pycon Latam, Octubre 2021: https://sebastiandres.github.io/talk_2021_08_pylatam/
* Tutorial RISE: https://sebastiandres.github.io/blog/tutorial-rise/

¡En caso de duda, pregunte! Creo que rise es el GRAN diferenciador para jupyter notebook.

# 2. Gráficos

Para mostrar gráficos existe un amplio espectro de opciones. Se diferencian en aspectos de usabilidad y flexibilidad.
* matplotlib
* seaborn
* plotly
* altair
* bokeh

¡Y muchas otras que no conozco!

##### ¿Cuál librería gráfica elegir?
Todas las librerías cuentan con buena documentación y ejemplos.
Se trata más bien de preferencias personales: ¿Control fino de aspectos gráficos o píntamelo a tu pinta pero bonito? ¿Estático o interactivo?

**Consejo:** 

Elegir una y dominarla en profundidad. Saber graficar datos es un superpoder, para aprender y enseñar.

### Algunos ejemplos
Todas las librerías tienen galerías con ejemplos. 

Al principio suele ser más fácil copiar y personalizar un ejemplo.

* matplotlib: https://matplotlib.org/stable/gallery/index.html
* seaborn: https://seaborn.pydata.org/examples/index.html
* plotly: https://plotly.com/python/
* altair: https://altair-viz.github.io/gallery/
* bokeh: https://docs.bokeh.org/en/latest/docs/gallery.html

In [None]:
import numpy as np
import matplotlib.pyplot as plt
dt = 0.1
t = np.arange(0.0, 2.0, dt)
s = np.sin(2*np.pi*t)

plt.figure(figsize=(12,6))
plt.plot(t, s)
plt.title(r'$\alpha_i > \beta_i$', fontsize=20)
plt.text(1, -0.6, r'$\sum_{i=0}^\infty x_i$', fontsize=20)
plt.text(0.6, 0.6, r'$\mathcal{A}\mathrm{sin}(2 \omega t)$',
         fontsize=20)
plt.xlabel('time (s)')
plt.ylabel('volts (mV)')
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def f(t):
    return np.exp(-t) * np.cos(2*np.pi*t)

t = np.arange(0.0, 3.0, 0.01)

plt.figure(figsize=(14,8))
ax1 = plt.subplot(212)
ax1.margins(0.05)           # Default margin is 0.05, value 0 means fit
ax1.plot(t, f(t))

ax2 = plt.subplot(221)
ax2.margins(2, 2)           # Values >0.0 zoom out
ax2.plot(t, f(t))
ax2.set_title('Zoomed out')

ax3 = plt.subplot(222)
ax3.margins(x=0, y=-0.25)   # Values in (-0.5, 0.0) zooms in to center
ax3.plot(t, f(t))
ax3.set_title('Zoomed in')

plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Fixing random state for reproducibility
np.random.seed(19680801)

# some random data
x = np.random.randn(1000)
y = np.random.randn(1000)


def scatter_hist(x, y, ax, ax_histx, ax_histy):
    # no labels
    ax_histx.tick_params(axis="x", labelbottom=False)
    ax_histy.tick_params(axis="y", labelleft=False)

    # the scatter plot:
    ax.scatter(x, y)

    # now determine nice limits by hand:
    binwidth = 0.25
    xymax = max(np.max(np.abs(x)), np.max(np.abs(y)))
    lim = (int(xymax/binwidth) + 1) * binwidth

    bins = np.arange(-lim, lim + binwidth, binwidth)
    ax_histx.hist(x, bins=bins)
    ax_histy.hist(y, bins=bins, orientation='horizontal')

In [None]:
# definitions for the axes
left, width = 0.1, 0.65
bottom, height = 0.1, 0.65
spacing = 0.005


rect_scatter = [left, bottom, width, height]
rect_histx = [left, bottom + height + spacing, width, 0.2]
rect_histy = [left + width + spacing, bottom, 0.2, height]

# start with a square Figure
fig = plt.figure(figsize=(8, 8))

ax = fig.add_axes(rect_scatter)
ax_histx = fig.add_axes(rect_histx, sharex=ax)
ax_histy = fig.add_axes(rect_histy, sharey=ax)

# use the previously defined function
scatter_hist(x, y, ax, ax_histx, ax_histy)

plt.show()

In [None]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

vegetables = ["cucumber", "tomato", "lettuce", "asparagus",
              "potato", "wheat", "barley"]
farmers = ["Farmer Joe", "Upland Bros.", "Smith Gardening",
           "Agrifun", "Organiculture", "BioGoods Ltd.", "Cornylee Corp."]

harvest = np.array([[0.8, 2.4, 2.5, 3.9, 0.0, 4.0, 0.0],
                    [2.4, 0.0, 4.0, 1.0, 2.7, 0.0, 0.0],
                    [1.1, 2.4, 0.8, 4.3, 1.9, 4.4, 0.0],
                    [0.6, 0.0, 0.3, 0.0, 3.1, 0.0, 0.0],
                    [0.7, 1.7, 0.6, 2.6, 2.2, 6.2, 0.0],
                    [1.3, 1.2, 0.0, 0.0, 0.0, 3.2, 5.1],
                    [0.1, 2.0, 0.0, 1.4, 0.0, 1.9, 6.3]])

In [None]:
fig, ax = plt.subplots(figsize=(8,8))
im = ax.imshow(harvest)

# We want to show all ticks...
ax.set_xticks(np.arange(len(farmers)))
ax.set_yticks(np.arange(len(vegetables)))
# ... and label them with the respective list entries
ax.set_xticklabels(farmers)
ax.set_yticklabels(vegetables)

# Rotate the tick labels and set their alignment.
plt.setp(ax.get_xticklabels(), rotation=45, ha="right",
         rotation_mode="anchor")

# Loop over data dimensions and create text annotations.
for i in range(len(vegetables)):
    for j in range(len(farmers)):
        text = ax.text(j, i, harvest[i, j],
                       ha="center", va="center", color="w")

ax.set_title("Harvest of local farmers (in tons/year)")
fig.tight_layout()
plt.show()

#  Matrices, Ecuaciones y Ciencia
## Librerías
* numpy
* scipy

¿Cuál es la diferencia? 
* **numpy**: Permite definir vectores, matrices y arreglos multidimensionales de datos.
* **scipy**: Corresponde a la implementación numérica de diversos algoritmos de corte científicos: algebra lineal, estadística, ecuaciones diferenciales ordinarias, interpolacion, integracion, optimización, análisis de señales, entre otros.

#### OBSERVACIÓN IMPORTANTE:
Las matrices y arrays de numpy deben contener variables con el mismo tipo de datos: sólo enteros, sólo flotantes, sólo complejos, sólo booleanos o sólo strings. La uniformicidad de los datos es lo que permite acelerar los cálculos con implementaciones en C a bajo nivel.

##### ¿Porqué numpy?

Python no tiene operaciones matemáticas para vectores o matrices. 

In [None]:
x = [2, 3, 4, 5, 6]

In [None]:
x + 2

In [None]:
y = [a + 2 for a in x]
y

In [None]:
# En cambio numpy...
import numpy as np
x = np.array([2, 3, 4, 5, 6])
x

In [None]:
y = x + 2
y

¡El caso de las matrices es peor!

In [None]:
X = [[1, 2, 3], 
     [4, 5, 6]]
X

In [None]:
X*2 + 5

In [None]:
# Muy ineficiente!!!
Y = []
for i in range(len(X)):
    y_i = []
    for j in range(len(X[i])):
        y_i.append(2*X[i][j]+5)
    Y.append(y_i)
Y

In [None]:
# En cambio numpy... 
import numpy as np
X = np.array([[1, 2, 3], 
     [4, 5, 6]])
X

In [None]:
X*2 + 5

Numpy es como matlab, pero en python.

Usar numpy no solo es más natural para trabajar con matrices y vectores, es muchísimo más eficiente (rápido).

Es posible combinar funciones de numpy:

In [None]:
x = np.linspace(0, 1, 101)
y = np.exp(2*np.pi * np.sin(x))
np.floor(y)

En numpy hay muchos submódulos interesantes, entre otros, los que permiten generar números aleatorios:

In [None]:
t = np.random.randint(low=0, high=10+1, size=30)
t

In [None]:
X_random = np.random.rand(4, 3)
X_random

In [None]:
np.set_printoptions(precision=3)
print(X_random)

En scipy existen muchos submódulos específicos para ciencia:


* `scipy.cluster`	Vector quantization / Kmeans
* `scipy.constants`	Constantes físicas y matemáticas
* `scipy.fftpack`	Transformadas de Fourier
* `scipy.integrate`	Rutinas para integración
* `scipy.interpolate`	Interpolación
* `scipy.io`	Entrada y salida
* `scipy.linalg`	Rutinas para algebra lineal
* `scipy.ndimage`	n-dimensional image package
* `scipy.odr`	Orthogonal distance regression
* `scipy.optimize`	Optimización
* `scipy.signal`	Procesamiento de señales
* `scipy.sparse`	Matrices dispersas
* `scipy.spatial`	estructuras de datos espaciales y algoritmos
* `scipy.special`	Funciones matemáticas especiales
* `scipy.stats`	Estadística

##### Array

Un array de numpy es simplemente un "contenedor" multidimensional.

**Pros**:
* Es multidimensional: 1D, 2D, 3D, ...
* Resulta consistente: todas las operaciones son element-wise a menos que se utilice una función específica.

**Contras**:
* Multiplicación maticial utiliza la función **dot()** o **@**

In [None]:
# Operaciones con np.matrix
A = np.array([[1,2],[3,4]])
B = np.array([[1, 1],[0,1.01]], dtype=float)
x = np.array([1,2]) # No hay necesidad de definir como fila o columna!
print("A =\n", A)
print("B =\n", B)
print("x =\n", x)

print("A+B =\n", A+B)
print("AoB = (multiplicacion elementwise) \n", A*B)
print("A*B = (multiplicacion matricial, v1) \n", np.dot(A,B))
print("A*B = (multiplicacion matricial, v2) \n", A.dot(B))
print("A*B = (multiplicacion matricial, v3) \n", A @ B)
print("A*A = A^2 = (potencia matricial)\n", np.linalg.matrix_power(A,2))
print("AoA = (potencia elementwise)\n", A**2)
print("A*x =\n", np.dot(A,x))
print("x.T*A =\n", np.dot(x,A)) # No es necesario transponer.

## Ecuaciones

Para resolver un sistema de ecuaciones usamos numpy y scipy:

$$
x + y + z = 1 \\
x - y + z = 2 \\
x + y - z = 3 \\
$$

In [None]:
# Importar las librerías
import numpy as np
from scipy.linalg import solve

# define matrix A using Numpy arrays
A = np.array([[1, 1, 1],
              [1,-1, 1],
              [1, 1,-1]])

#define matrix B
b = np.array([1, 2, 3]) 

# linalg.solve is the function of NumPy to solve a system of linear scalar equations
x = np.linalg.solve(A, b)
print("Solución:\n", x)

Verifiquemos la solución

In [None]:
# Verifiquemos
print("A*x=", A@x)

También es posible calcular la matriz inversa y multiplicar, pero para sistemas de ecuaciones grandes es muy ineficiente.

In [None]:
from scipy.linalg import inv
# Invertir explícitamente una matrix
A_inv = inv(A)
print("A^{-1}=\n", A_inv)
print("A^{-1} * x =\n", A_inv @ b)

Ejemplo para clases:

![ecuacionmemistica](images/ecuacion.jpg)

In [None]:
# Solución
import numpy as np
from scipy.linalg import solve

# Buscaremos resover x = [manzana, banana, coco]

# define matrix A using Numpy arrays
A = np.array([[3, 0, 0],
              [1, 8, 0],
              [0, 4,-2]])

#define matrix B
b = np.array([30, 18, 2]) 

# linalg.solve is the function of NumPy to solve a system of linear scalar equations
x = np.linalg.solve(A, b)
print("Valores individuales:\n", x)
print("Solución:\n", np.dot(x, np.array([1,3,1])))


## Tips
* La práctica y la necesidad hace al maestro.

* Preguntar: en línea y en persona, pero tratar de solucionar los problemas antes.

## Enlaces útiles:
* http://www.labri.fr/perso/nrougier/teaching/numpy.100/ : Lista con 100 recetas prácticas.

#  Análisis de Datos
## Librerías
* pandas

El nombre de la librería pandas viene de "Panel Data". 

¡Gran parte del éxito de python en Data Science es atribuible a esta librería!

###### Instalación
```bash
pip install pandas
```

###### Utilización
```python
from pandas import dataframe
```

## Aprender haciendo

Consideraremos el siguiente archivo `data.csv` que contiene datos incompletos:

In [None]:
%%bash
cat data/data.csv

#### ¿Porqué utilizar pandas?

Porque en numpy no es posible mezclar tipos de datos, lo cual complica cargar, usar, limpiar y guardar datos mixtos.
Trabajar con pandas permite automatizar procesamiento de datos, como se haría en excel, pero todo desde python.

In [None]:
import numpy as np
df = np.loadtxt("data/data.csv", delimiter=";", dtype=str)
print( df )

In [None]:
import pandas as pd
df = pd.read_csv("data/data.csv", sep=";")
df

Manipulemos el dataframe para convertir unidades y arreglar el contenido.

In [None]:
inch2m = 0.0254
feet2m = 0.3048
df.diametro = df.diametro * inch2m
df.altura = df.altura * feet2m
df.volumen = df.volumen * (feet2m**3)
df.tipo_de_arbol = "Cherry Tree"
df

In [None]:
print( df.columns )

In [None]:
df.index

In [None]:
df["diametro"]**2 * df["altura"] / df.volumen

#### Lectura y escriturra de datos
  1. **Archivo csv**: `pd.read_csv` y `pd.to_csv`
  1. **Archivo de excel** `pd.read_excel` y `pd.to_excel`
  1. **Archivo json** `pd.read_json` y `pd.to_json`

#### Inspeccionando datos
 1. Accesando las columnas
 1. shape
 1. head, tail, describe
 1. histogram
 1. pd.scatter_matrix
 1. count_values

In [None]:
df = pd.read_csv("data/data.csv", sep=";")
df.columns

In [None]:
df['altura']

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.describe()

In [None]:
df.describe(include="all")

In [None]:
df.describe(include="all").fillna("").T

In [None]:
from matplotlib import pyplot as plt
df.hist(figsize=(10,10), layout=(3,1))
plt.show()

In [None]:
from matplotlib import pyplot as plt
pd.plotting.scatter_matrix(df, figsize=(10,10), range_padding=0.2)
plt.show()

In [None]:
df.tipo_de_arbol.value_counts()

#### Otras operaciones
   1. Agregando columnas
   2. Borrando columnas
   3. Agregando filas
   4. Borrando filas
   5. Mask
   6. Grouping
   7. Imputación de datos
   8. Apply
   9. Merge (a la SQL)

##### Merge: Uniendo tablas (como en SQL)

In [None]:
df1 = pd.read_csv("data/data.csv", sep=";")
df1

In [None]:
df2 = pd.DataFrame(data={"tipo_de_arbol":["Cherry Tree", "Apple Tree", "Pear Tree"], 
                         "fruto":["guinda","manzana", "pera"], 
                         "precio_pesos_por_kg":[500, 2000, np.nan]})
df2

In [None]:
df3 = df1.merge(df2, how="left", on="tipo_de_arbol")
print(df3.shape)
df3

#  Machine Learning
## Librerías
* sklearn

La librería sklearn (scikit learn - _"scientific kit for machine learning"_) es una librería para entrenar modelos de Machine Learning desde python. ¡Tienes el poder de los últimos algoritmos, listos para entrenar en tu computador!
Está construída para interactuar con numpy, pandas, scipy y matplotlib.

###### Instalación
```bash
pip install -U scikit-learn
```

###### Utilización
```python
from sklearn import datasets
```

Observación: 

Notar que el nombre de la librería al instalar **es distinto** a la librería que se ejecuta. ¡Suele ser una confusión común!

In [None]:
from sklearn.datasets import make_moons

# Obtener dataset (datos)
X, y = make_moons(noise=0.3, random_state=0)

In [None]:
X[:5]

In [None]:
y[:5]

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(18,6))
ax = plt.subplot(1, 3, 1)
ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train)
ax.set_title("Dataset Completo")
ax = plt.subplot(1, 3, 2)
ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train)
ax.set_title("Dataset Entrenamiento")
ax = plt.subplot(1, 3, 3)
ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test)
ax.set_title("Dataset Test")
print(X.shape, X_train.shape, X_test.shape)
print(y.shape, y_train.shape, y_test.shape)

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# Inicializar con metaparámetros
clf = KNeighborsClassifier(n_neighbors=3)

# Entrenar el modelo
clf.fit(X_train, y_train)

# Evaluar el modelo
score = clf.score(X_test, y_test)
print(score)

In [None]:
help(clf.score)

In [None]:
# Predecir: -1 a 2, -1 a 2
x_desconocido = np.array([[1.0, 1.0]])
y_predicho = clf.predict(x_desconocido)
y_predicho

¿Cómo es la predicción en cada punto? 

¡Podemos graficar para averiguarlo!

In [None]:
x1_min, x1_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
x2_min, x2_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
h = 0.20
X1, X2 = np.meshgrid(np.arange(x1_min, x1_max, h), np.arange(x1_min, x2_max, h))
X = np.c_[X1.ravel(), X2.ravel()]
y = clf.predict(X)

In [None]:
plt.figure(figsize=(6,6))
ax = plt.subplot(1, 1, 1)
ax.scatter(X[:, 0], X[:, 1], c=y)

Acá hemos probado el método de Nearest Neighbors, pero en sklearn existen muchísimos más:
* Árboles de Decisión: DecisionTreeClassifier
* Random Forests: RandomForestClassifier
* Redes neuronales: MLPClassifier
* AdaBoost: AdaBoostClassifier
* y muchos otros...

Nuevamente, la librería tiene una galería de ejemplos: https://scikit-learn.org/stable/auto_examples/index.html