<img src="images/python.png">

## Segunda parte: Computación Científica


<img src="images/numpy.jpeg">

**Librería fundamental sobre la cual se construye todo el ecosistema científico y de análisis de datos en Python.**

Numpy básicamente ofrece:

- Contenedores homogéneos de datos [arrays]
- Funciones que operan sobre estos contenedores de forma que las operaciones son áltamente eficientes.

Python está organizado en módulos que son archivos con extensión `.py` que contienen funciones, variables y otros objetos. 

Y en paquetes, que son conjuntos de módulos. Cuando queremos utilizar objetos que están definidos en un módulo tenemos que importarlo.

In [None]:
import numpy as np

<img src="images/matplotlib.png">

Matplotlib es una librería de visualización que produce figures en calidad de publicación en una gran variedad de formatos con muy pocas lineas de código.

Tenemos control de todos los aspectos de la visualización, estilo, fuentes y propiedades que se hacen muy familiares a los usuarios de Matlab.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

---

### Ejemplo 1 - Gráfica simple

In [None]:
"""1. Definimos una función"""
def f(x):
    return (x**3) * (np.cos(x))


"""2. Definimos un rango de valores para X en intervalos de 0.1"""
x = np.arange(-10, 10, 0.1)


"""3. Evaluamos la función en el array x"""
y = f(x)


"""4. Mostramos la gráfica"""
plt.plot(x, y, label='$x^3 * cos(x)$')

In [None]:
"""5. Incluir más detalles en la gráfica"""

plt.figure(figsize=(10,5))
plt.plot(x, y, label='$x^3cos(x)$')

plt.title('Comportamiento de f(x)') 
plt.xlabel('$Dominio$')
plt.ylabel('$Rango_5$')

plt.xlim(-10,10)

plt.grid()
plt.legend()
plt.show()

### Ejemplo 2 - ¿Por qué usar arrays?

### Motivo: Eficiencia

- Los bucles son costosos
- Eliminar bucles, **vectorizar** operaciones.
- Los bucles se ejecutan en Python, las operaciones vectorizadas en C
- Las operaciones entre arrays de NumPy se realizan **elemento a elemento**

Ejemplo:

Sumar 2 matrices de $100x100$ y almacenar el resultado en otra matriz.

$C_{ij} = A_{ij} + B{ij}$

In [None]:
N,M = 100, 100

a = np.random.rand(10000).reshape(N, M)
b = np.random.rand(10000).reshape(N, M)

c = np.empty([100,100])

<br>
<br>

In [None]:
%%timeit
for i in range(N):
    for j in range(M):
        c[i,j] = a[i,j] + b[i,j]

<br>
<br>

In [None]:
%%timeit
c = a + b

¡1000 veces más rápido! Se hace fundamental **vectorizar** las operaciones y aprovechar al máximo la velocidad de NumPy.

## Constantes y funciones universales

Estas funciones operan sobre números y sobre arrays.

In [None]:
# Constantes
np.e, np.pi, np.inf

In [None]:
# Funciones básicas
np.log(2), np.cos(np.pi)

<br>
<br>
<br>

## ¿Qué es exactamente un array?

Un array de NumPy es una colección de N elementos, igual que una secuencia en Python (por ejemplo, una lista). Tiene las mismas propiedades que una secuencia y algunas más.
Para crear un array, la forma más directa es pasarle una secuencia a la función `np.array`






In [None]:
# Lista en Python
a = [1, 2, 3, 4, 5]
a * 3

<br>

In [None]:
# Array de 1 dimensión en Numpy
a = np.array([1, 2, 3, 4, 5])
a * 3

<br>
<br>

Los arrays de NumPy son homogéneos, es decir, todos sus elementos son del mismo tipo. Si le pasamos a `np.array` una secuencia con objetos diferentes, promocionará todos al tipo con más información. Para acceder al tipo del array, podemos usar la función `dtype`

In [None]:
a = np.array([1, 2, 3.0, 4, 5])
a.dtype

<br>

NumPy intentará automáticamente construir un array con el tipo adecuado teniendo en cuenta los datos de entrada, aunque nosotros podemos forzarlo.

In [None]:
np.array([1, 2, 3, 4, 5], dtype=float)

In [None]:
np.array([1, 2, 3, 4, 5], dtype=complex)

También podemos convertir un array de un tipo a otro utilizando el método `.astype`

In [None]:
a

In [None]:
a = a.astype(int)
a

## Creación de arrays en múltiples dimensiones


<img src="images/array_dims_np.png" width=70%>

In [None]:
# 1D array
a = np.array([7, 2, 9, 10])

a.shape

In [None]:
# 2D array
b = np.array([[5.2, 3.0, 4.5],
              [9.1, 0.1, 0.3]])

b.shape

In [None]:
# 3D array
c = np.array([[[1, 9], [9, 5], [1, 5]],
              [[9, 3], [7, 2], [3, 3]],
              [[8, 8], [7, 3], [6, 2]],
              [[9, 1], [8, 7], [4, 7]]])

c.shape

<br>
<br>

## Funciones para crear arrays

En la práctica, rara vez creamos los arrays pasando los elementos de uno en uno...

#### Separación equidistante

In [None]:
np.arange(10)

In [None]:
np.arange(0, 1, 0.01) 

#### Especificando el número de elementos

In [None]:
np.linspace(0, 1, 10)

#### Otros arrays comunes

In [None]:
np.ones((3,3))

In [None]:
np.zeros((2,2))

In [None]:
np.eye(4, 4)

In [None]:
np.diag(np.array([1,2,3,4]))

#### Números Aleatorios

In [None]:
np.random.rand(4)  # Uniforme entre [0, 1]

In [None]:
np.random.normal() # Gaussian de Media 0 y Varianza 1

In [None]:
np.random.normal(loc=0.0, scale=1.0, size=[4,4])

In [None]:
np.random.randint(1, 10, size=3)

In [None]:
# Ejecute esta celda múltiples veces.
np.random.randint(low=1, high=20, size=5)

In [None]:
np.random.seed(1234)

np.random.randint(low=1, high=20, size=5)

<br>
<br>

### Las imágenes tambien son arrays!

In [None]:
lena = plt.imread('images/lena.png')

print(type(lena))
print(lena.shape)

lena

## Indexado de arrays

Una de las herramientas mas importantes a la hora de trabajar con arrays es el indexado. Consiste en seleccionar elementos aislados o secciones de un array. Nosotros vamos a ver la indexación básica, pero existen técnica de indexación avanzada que convierten los arrays en herramientas potentísimas.

### 1-D Arrays

<img src="images/1d_array.png">

In [None]:
a = np.arange(10)
a

In [None]:
a[0], a[2], a[-1]

In [None]:
a[::-1]

### 2-D Arrays

<img src="images/2d_array.png">

Para **arrays** en 2D o 3D, es necesario especificar todos los ejes que se quieren indexar.

In [None]:
a = np.arange(16).reshape((4,4))
a

Si usamos un solo índice, recibimos toda la fila correspondiente a ese índice.

In [None]:
a[0]

Para obtener un elemento en específico, damos los índices para el axis 0 (Filas) y axis 1 (Columnas). 

SEPARADOS POR COMA

In [None]:
a[0, 0]

<br>
<br>

No solo podemos recuperar un elemento aislado, sino tambien porciones del array, utilizando la sintaxis `[<inicio>:<final>:<paso>]` para cada axis.

#### Obtener las dos filas de la mitad

In [None]:
a[1:3:1, :]

#### Obtener las dos columnas de la mitad

In [None]:
a[:, 1:3:1]

In [None]:
plt.imshow(lena, cmap='gray')

In [None]:
plt.imshow(lena[128:384, 128:384], cmap='gray')

### Ejercicio 1a:

1. Crear un array `z1` de 3x4 lleno de ceros de tipo entero.
2. Crear un array `z2` de 3x4 lleno de ceros salvo la primera fila que serán todo unos.
3. Crear un array `z3` de 3x4 lleno de ceros salvo la última fila que será el rango entre 5 y 8

### Ejercicio 1b.

1. Crea un vector de 10 elementos, siendo los impares unos y los pares doses.
2. Crea un `tablero de ajedrez`, con unos en las casillas negras y ceros en las blancas.

Puede mostrar el tablero de ajedrez usando `plt.imshow(array)`

## Operaciones con arrays

### Elemento por elemento

Toda la aritmética funciona elemento por elemento

In [None]:
a = np.arange(5)
a

In [None]:
a + 1

In [None]:
b = np.ones(5)
a - b

*Esto NO es multiplicación de matrices*  

In [None]:
c = np.ones(3)
c * c

(para multiplicación de matrices está la función `np.malmut`,
y para producto punto entre vectores `np.dot`)

### Otras operaciones

#### Comparar arrays

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7])
b = np.array([4, 2, 2, 4, 3, 2, 1])

a == b

In [None]:
a > b

Podemos usar estas comparaciones como una **mascara** para modificar y acceder a los valores que cumplan la condición.

In [None]:
a[a > b] = 0
a

#### Funciones universales

In [None]:
a = np.arange(5)
a

In [None]:
np.sin(a)

In [None]:
np.exp(a)

## Reducciones básicas

### 1-D arrays

In [None]:
a = np.array([1, 2, 3, 4])

np.sum(a)

In [None]:
a.sum()

#### Arrays multidimensionales

In [None]:
a = np.arange(9).reshape((3,3))
a

In [None]:
# Primera dimensión
a.sum(axis=0)

In [None]:
# Segunda dimensión
a.sum(axis=1)

### Otras reducciones

Funciona de igual manera con el **axis** y en múltiples dimensiones.

In [None]:
x = np.array([1, 2, 3, 4])
x.min()

In [None]:
x.max()

In [None]:
x.mean()

In [None]:
x.std()

## Ejercicio 2a.

1. Crea una matriz aleatoria 5x5 de enteros entre (100, 200). y halle el valor máximo en cada columna.
2. Reste la media de esta matriz y divida por la desviación estandar. ¿Qué sucedió?



## Broadcasting

Las operaciones básicas (suma, resta, etc.) se hacen elemento por elemento y funciona en arrays de diferente tamaño.

La imagen siguiente da un ejemplo de **broadcasting**

<img src="images/broadcasting.png">

In [None]:
a = np.array([[0], [10], [20], [30]])
a

In [None]:
b = np.array([0, 1, 2])
b

In [None]:
a + b

## Manipulación de formas

### Colapsar

Reducir una matriz de múltiples dimensiones y la colapsa a una dimensión.

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])
a

In [None]:
a.ravel()

In [None]:
a.T

In [None]:
a.T.ravel()

### Reformar

La operación inversa a colapsar.

In [None]:
b = a.ravel()
b

In [None]:
b.reshape((2,3))

In [None]:
b.reshape((3,2))

<br>
<br>
<br>


## Manejo de Archivos

### Tablas
Demos una mirada al archivo `/data/populations.txt`,  
por ejemplo utilizando `gedit`

|year|hare|lynx|carrot|
|----|----|----|------|
|1900|30000|    4000|     48300|
|1901|47200|  6100|   48200|
|1902|70200|  9800|   41500|
|1903|77400|  35200|  38200|

In [None]:
# Leer datos desde archivo
data = np.loadtxt('data/populations.txt')
data

### Ejercicio 3a:

1. Genere un gráfico para observar el cambio en la población de liebres y de linces a lo largo de los años.
2. Suponga que la columna de linces tiene un error, y los datos están reportados en miles, cuando en realidad eran centenares. Corrija la columna respectiva y almacene la tabla con un nuevo nombre, utilizando:

In [None]:
# YOUR CODE HERE!

np.savetxt('data/pop2.txt', data, fmt='%5.i',  delimiter='\t')

### Formato Numpy

Numpy tiene su propio formato binario.

In [None]:
data = np.ones((3,3))
data

In [None]:
np.save('data/ones.npy', data)

In [None]:
data3 = np.load('data/ones.npy')
data3

## Resumen

- Sabe crear arrays: `array`, `arange`, `ones`, `zeros`, `rand`
- Conoce la forma de un array `shape` y los diferentes métodos de indexado para obtener diferente secciones del array `array[::2]`, etc.
- Ajustar la forma de un array usando `reshape` o aplanarla con `ravel`
- Obtener un subconjunto de elementos de un array y modificar sus valores usando mascaras `a[a < 0] = 0`
- Conocer operaciones miscelanes con arrays, encontrar el máximo `array.max()` o la media `array.mean()`, entre otras.
- Tiene una idea básica del **broadcasting** y sus reglas.


<br>
<br>
<br>
<br>

## Análisis de Vinos

Usando los resultados de un análisis químico de vinos obtenidos de la misma región en Italia pero de tres diferentes cultivos. Examine el archivo `data/wine.csv` con `gedit`

Los atributos del dataset son:

0. Wine (Class)
1. Alcohol 
2. Malic acid 
3. Ash 
4. Alcalinity of ash 
5. Magnesium 
6. Total phenols 
7. Flavanoids 
8. Nonflavanoid phenols 
9. Proanthocyanins 
10. Color intensity 
11. Hue 
12. OD280/OD315 of diluted wines 
13. Proline 

---
#### Truco:
Use `np.set_printoptions(suppress=True, precision=3)` para imprimer los datos de una manera mas legible.


### Ejercicios

1. Lea los datos desde la ruta `data/wine.csv`, use el parámetro `delimiter=','` para valores separados por coma.
2. Determine entre las 3 clases de vinos, cual tiene el mayor promedio de Alcohol.
3. Un vino con concentración de ácido málico mayor a `3.5` se considera demasiado maduro, cuántos vinos tienen una concentración mayor?
4. Usando el comando `plt.hist(array)` cree un histograma de ácido málico.
5. Normalice entre [0,1] los datos de Alcohol e Intensidad de Color
6. Usando el comando `plt.scatter(array1, array2)` cree un gráfico de dispersión de las dos columnas normalizadas.

In [None]:
np.set_printoptions(suppress=True, precision=3)


## Librerías Avanzadas en Python para Comunidad Científica

#### [Pandas](https://pandas.pydata.org/) - Análisis de Datos

#### [Scikit-Learn](https://scikit-learn.org/stable/#) - Minería de Datos y Machine Learning

#### [Seaborn](https://seaborn.pydata.org/) - Visualización de Datos basada en Matplotlib

#### [Sympy](https://www.sympy.org/en/index.html) - Librería para Matemática Simbólica

#### [Astropy](www.astropy.org) -  Colección de paquetes diseñados para Astronomía

#### [Dask](https://docs.dask.org/en/latest/) - Librería para Computación Paralela en Python

#### [Keras](https://keras.io/) - Framework de Alto Nivel para Deep Learning
#### [Pytorch](https://pytorch.org/) - Framework de Alto Nivel para Deep Learning