## <img src="images/semana_ciencia.png">

## Segunda parte: Jupyter Notebook y Numpy

Ahora vamos a explorar una segunda interfaz interactiva, que integra `Python` con otros elementos de programación

1. Abrir un terminal en Linux  
   `CTRL`+`ALT`+`T`
2. Ir al directorio donde estamos trabajando  
   `cd Escritorio/Taller_01/`
3. Abrir la interfaz digitando  
  `jupyter notebook &`  
Debe abrirse una pestaña en su navegador de internet

<img src="images/numpy.jpeg">

**Librería fundamental sobre la cual se construye todo el ecosistema científico y de análisis de datos en Python.**

Numpy básicamente ofrece:

- Contenedores homogéneos de datos [arrays]
- Funciones que operan sobre estos contenedores de forma que las operaciones son áltamente eficientes.

Python está organizado en módulos que son archivos con extensión `.py` que contienen funciones, variables y otros objetos. 

Y en paquetes, que son conjuntos de módulos. Cuando queremos utilizar objetos que están definidos en un módulo tenemos que importarlo.

In [1]:
import numpy as np

<img src="images/matplotlib.png">

Matplotlib es una librería de visualización que produce figures en calidad de publicación en una gran variedad de formatos con muy pocas lineas de código.

Tenemos control de todos los aspectos de la visualización, estilo, fuentes y propiedades que se hacen muy familiares a los usuarios de Matlab.

In [2]:
import matplotlib.pyplot as plt
%matplotlib inline

---

### Ejemplo 1 - Gráfica simple

In [3]:
"""1. Definimos una función"""
def f(x):
    return (x**3) * (np.cos(x))


"""2. Definimos un dominio X, esto genera un array de numpy,
en este caso un array unidimensional, es decir un vector"""
x = np.arange(-10, 10, 0.1)

# Para limpiar la salida de una celda, selecciónela, digite
# ESC y, sin soltarlo, pulse la letra R y luego la Y

In [None]:
"""3. Evaluamos la función en el array x"""
y = f(x)

"""4. Mostramos la gráfica"""
plt.plot(x, y, label='$x^3 * cos(x)$')

In [None]:
"""5. Incluir más detalles en la gráfica"""

plt.plot(x, y, label='$x^3 * cos(x)$')
plt.title('Comportamiento de f(x)') 
plt.xlabel('$Dominio$')
plt.ylabel('$Rango_5$')
plt.grid()
plt.legend()
plt.show()

### Ejemplo 2 - ¿Por qué usar arrays?

### Motivo: Eficiencia

- Los bucles son costosos
- Eliminar bucles, **vectorizar** operaciones.
- Los bucles se ejecutan en Python, las operaciones vectorizadas en C
- Las operaciones entre arrays de NumPy se realizan **elemento a elemento**

Ejemplo:

$c_{ij} = a_{ij} + b{ij}$

In [14]:
N,M = 100, 100
a = np.random.rand(10000)
a = a.reshape(N, M) # reshape es un método nativo de los arrays de numpy
b = np.random.rand(10000).reshape(N, M)
c = np.empty([100,100])

In [None]:
%%timeit
for i in range(N):
    for j in range(M):
        c[i,j] = a[i,j] + b[i,j]

In [None]:
%%timeit
c = a + b

¡1000 veces más rápido! Se hace fundamental **vectorizar** las operaciones y aprovechar al máximo la velocidad de NumPy.

## Constantes y funciones universales

Estas funciones operan sobre números y sobre arrays.

In [None]:
np.e

In [None]:
np.pi

In [None]:
np.log(2)

In [None]:
np.sin(np.pi/4)

In [None]:
np.sqrt(2)

In [None]:
np.linalg.norm(a)

## ¿Qué es exactamente un array?

Un array de NumPy es una colección de N elementos, igual que una secuencia en Python (por ejemplo, una lista). Tiene las mismas propiedades que una secuencia y algunas más.
Para crear un array, la forma más directa es pasarle una secuencia a la función `np.array`


In [None]:
np.array([1, 2, 3, 4, 5])

Los arrays de NumPy son homogéneos, es decir, todos sus elementos son del mismo tipo. Si le pasamos a `np.array` una secuencia con objetos diferentes, promocionará todos al tipo con más información. Para acceder al tipo del array, podemos usar la función `dtype`

In [None]:
a = np.array([1, 2, 3.0, 4, 5])
a.dtype

NumPy intentará automáticamente construir un array con el tipo adecuado teniendo en cuenta los datos de entrada, aunque nosotros podemos forzarlo.

In [None]:
np.array([1, 2, 3, 4, 5], dtype=float)

In [None]:
np.array([1, 2, 3, 4, 5], dtype=complex)

También podemos convertir un array de un tipo a otro utilizando el método `.astype`

In [None]:
a

In [None]:
a = a.astype(int)
a

## Atributos y funciones de arrays

Una vez se ha creado un array es posible acceder a información sobre su estado.

In [None]:
# Forma del array
a.shape

In [None]:
# Total de bytes que ocupa este array
a.nbytes

In [None]:
# Número de dimensiones de un array
a.ndim

In [None]:
# Suma de elementos
a.sum()

In [None]:
# Mínimo, máximo y media
a.min(), a.max(), a.mean()

## Creación de arrays

#### 1-D:

In [None]:
a = np.array([1, 2, 3])
a

#### 2-D, 3-D, ...

In [None]:
b = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
b

In [None]:
b.ndim

In [None]:
b.shape

## Funciones para crear arrays

En la práctica, rara vez creamos los arrays pasando los elementos de uno en uno...

#### Separación equidistante

In [None]:
np.arange(10)

In [None]:
np.arange(0, 1, 0.2) 

#### Especificando el número de elementos

In [None]:
np.linspace(0, 1, 10)

#### Otros arrays comunes

In [None]:
np.ones((3,3))

In [None]:
np.zeros((2,2))

In [None]:
np.eye(4, 4)

In [None]:
np.diag(np.array([1,2,3,4]))

#### Números Aleatorios

In [None]:
np.random.rand(4)  # Uniforme entre [0, 1]

In [None]:
np.random.normal() # Gaussian de Media 0 y Varianza 1

In [None]:
np.random.normal(loc=0.0, scale=1.0, size=[4,4])

In [None]:
np.random.randint?

In [None]:
np.random.randint(low=1, high=20, size=5)
# Note qué pasa si rodamos esta celda nuevamente

In [None]:
np.random.seed(1234)

np.random.randint(low=1, high=20, size=5)

### Las imágenes tambien son arrays!

In [None]:
lena = plt.imread('images/lena.png')
print(type(lena))
print(lena.shape)
lena

## Indexado de arrays

Una de las herramientas mas importantes a la hora de trabajar con arrays es el indexado. Consiste en seleccionar elementos aislados o secciones de un array. Nosotros vamos a ver la indexación básica, pero existen técnica de indexación avanzada que convierten los arrays en herramientas potentísimas.

#### 1-D Arrays

In [None]:
a = np.arange(10)
a

In [None]:
a[0], a[2], a[-1]

In [None]:
a[::-1]

Para **arrays multidimensionales**, los índices son tuplas de enteros según las dimensiones del array.

In [None]:
a = np.arange(16).reshape((4,4))
a

En **2D** la primera dimensión corresponde a las **filas**, la segunda a **columnas**

In [None]:
a[0, 0]

No solo podemos recuperar un elemento aislado, sino tambien porciones del array, utilizando la sintaxis `[<inicio>:<final>:<salto>]`

#### Obtener las dos filas de la mitad

In [None]:
a[1:3:1, :]

#### Obtener las dos columnas de la mitad

In [None]:
a[:, 1:3:1]

In [None]:
plt.imshow(lena, cmap='gray')

In [None]:
plt.imshow(lena[128:384, 128:384], cmap='gray')

## Operaciones con arrays

### Elemento por elemento

Toda la aritmética funciona elemento por elemento

In [None]:
a = np.arange(5)
a

In [None]:
a + 1

In [None]:
b = np.ones(5)
a - b

*Esto NO es multiplicación de matrices*  

In [None]:
c = np.ones(3)
c * c

(para multiplicación de matrices está la función `np.malmut`,
y para producto punto entre vectores `np.dot`)

### Otras operaciones

#### Comparar arrays

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7])
b = np.array([4, 2, 2, 4, 3, 2, 1])

a == b

In [None]:
a > b

Podemos usar estas comparaciones como una **mascara** para modificar y acceder a los valores que cumplan la condición.

In [None]:
a[a > b] = 0
a

#### Funciones universales

In [None]:
a = np.arange(5)
a

In [None]:
np.sin(a)

In [None]:
np.exp(a)

### Reducciones básicas

#### 1-D arrays

In [None]:
a = np.array([1, 2, 3, 4])

np.sum(a)

In [None]:
a.sum()

#### Arrays multidimensionales

In [None]:
a = np.arange(9).reshape((3,3))
a

In [None]:
# Primera dimensión
a.sum(axis=0)

In [None]:
# Segunda dimensión
a.sum(axis=1)

### Otras reducciones

Funciona de igual manera con el **axis** y en múltiples dimensiones.

In [None]:
x = np.array([1, 2, 3, 4])
x.min()

In [None]:
x.max()

In [None]:
x.mean()

In [None]:
x.std()

# Ejercicios

### Ejercicio 1.

1. Crear un array `z1` de 3x4 lleno de ceros de tipo entero.
2. Crear un array `z2` de 3x4 lleno de ceros salvo la primera fila que serán todo unos.
3. Crear un array `z3` de 3x4 lleno de ceros salvo la última fila que será el rango entre 5 y 8

### Ejercicio 2.

1. Crea un vector de 10 elementos, siendo los impares unos y los pares doses.
2. Crea un `tablero de ajedrez`, con unos en las casillas negras y ceros en las blancas.

Puede mostrar el tablero de ajedrez usando `plt.imshow(array)`

## Ejercicio 3.

1. Crea una matriz aleatoria 5x5 y halla los valores mínimo y máximo.
2. Normaliza esa matriz entre 0 y 1

## Broadcasting

Las operaciones básicas (suma, resta, etc.) se hacen elemento por elemento y funciona en arrays de diferente tamaño.

La imagen siguiente da un ejemplo de **broadcasting**

<img src="images/broadcasting.png">

In [7]:
a = np.array([[0], [10], [20], [30]])
a

array([[ 0],
       [10],
       [20],
       [30]])

In [8]:
b = np.array([0, 1, 2])
b

array([0, 1, 2])

In [9]:
a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

## Manipulación de formas

### Colapsar

Reducir una matriz de múltiples dimensiones y la colapsa a una dimensión.

In [10]:
a = np.array([[1, 2, 3], [4, 5, 6]])
a.ravel()

array([1, 2, 3, 4, 5, 6])

In [11]:
a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [12]:
a.T.ravel()

array([1, 4, 2, 5, 3, 6])

### Reformar

La operación inversa a colapsar.

In [None]:
b = a.ravel()
b

In [None]:
b.reshape((2,3))

In [None]:
b.reshape((3,2))

## Manejo de Archivos

### Tablas
Demos una mirada al archivo `/data/populations.txt`,  
por ejemplo utilizando `gedit`

|year|hare|lynx|carrot|
|----|----|----|------|
|1900|30000|    4000|     48300|
|1901|47200|  6100|   48200|
|1902|70200|  9800|   41500|
|1903|77400|  35200|  38200|

In [13]:
# Leer datos desde archivo
data = np.loadtxt('data/populations.txt')
data

array([[ 1900., 30000.,  4000., 48300.],
       [ 1901., 47200.,  6100., 48200.],
       [ 1902., 70200.,  9800., 41500.],
       [ 1903., 77400., 35200., 38200.],
       [ 1904., 36300., 59400., 40600.],
       [ 1905., 20600., 41700., 39800.],
       [ 1906., 18100., 19000., 38600.],
       [ 1907., 21400., 13000., 42300.],
       [ 1908., 22000.,  8300., 44500.],
       [ 1909., 25400.,  9100., 42100.],
       [ 1910., 27100.,  7400., 46000.],
       [ 1911., 40300.,  8000., 46800.],
       [ 1912., 57000., 12300., 43800.],
       [ 1913., 76600., 19500., 40900.],
       [ 1914., 52300., 45700., 39400.],
       [ 1915., 19500., 51100., 39000.],
       [ 1916., 11200., 29700., 36700.],
       [ 1917.,  7600., 15800., 41800.],
       [ 1918., 14600.,  9700., 43300.],
       [ 1919., 16200., 10100., 41300.],
       [ 1920., 24700.,  8600., 47300.]])

## Ejercicio:
Genere un gráfico para observar el cambio en la población de liebres y de linces a lo largo de los años

In [18]:
# Almacenar datos en formato texto

# Suponga que se ha cometido un error, y los datos de población de linces,
# reportados en miles, se trataba en realidad de centenares. Corrija la
# columna respectiva y almacene la tabla con un nuevo nombre utilizando:

np.savetxt('data/pop2.txt', data, fmt='%5.i',  delimiter='\t')

### Formato Numpy

Numpy tiene su propio formato binario.

In [14]:
data = np.ones((3,3))
data

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [15]:
np.save('data/ones.npy', data)

In [16]:
data3 = np.load('data/ones.npy')
data3

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## Resumen

- Sabe crear arrays: `array`, `arange`, `ones`, `zeros`, `rand`
- Conoce la forma de un array `shape` y los diferentes métodos de indexado para obtener diferente secciones del array `array[::2]`, etc.
- Ajustar la forma de un array usando `reshape` o aplanarla con `ravel`
- Obtener un subconjunto de elementos de un array y modificar sus valores usando mascaras `a[a < 0] = 0`
- Conocer operaciones miscelanes con arrays, encontrar el máximo `array.max()` o la media `array.mean()`, entre otras.
- Tiene una idea básica del **broadcasting** y sus reglas.


## Análisis de Vinos

Usando los resultados de un análisis químico de vinos obtenidos de la misma región en Italia pero de tres diferentes cultivos. Examine el archivo `data/wine.csv` con `gedit`

Los atributos del dataset son:

0. Wine (Class)
1. Alcohol 
2. Malic acid 
3. Ash 
4. Alcalinity of ash 
5. Magnesium 
6. Total phenols 
7. Flavanoids 
8. Nonflavanoid phenols 
9. Proanthocyanins 
10. Color intensity 
11. Hue 
12. OD280/OD315 of diluted wines 
13. Proline 

---
#### Truco:
Use `np.set_printoptions(suppress=True, precision=3)` para imprimer los datos de una manera mas legible.


### Ejercicios

1. Lea los datos desde la ruta `data/wine.csv`, use el parámetro `delimiter=','` para valores separados por coma.
2. Determine entre las 3 clases de vinos, cual tiene el mayor promedio de Alcohol.
3. Un vino con concentración de ácido málico mayor a `3.5` se considera demasiado maduro, cuántos vinos tienen una concentración mayor?
4. Usando el comando `plt.hist(array)` cree un histograma de ácido málico.
5. Normalice entre [0,1] los datos de Alcohol e Intensidad de Color
6. Usando el comando `plt.scatter(array1, array2)` cree un gráfico de dispersión de las dos columnas normalizadas.

In [17]:
np.set_printoptions(suppress=True, precision=3)


array([[   1.  ,   14.23,    1.71, ...,    1.04,    3.92, 1065.  ],
       [   1.  ,   13.2 ,    1.78, ...,    1.05,    3.4 , 1050.  ],
       [   1.  ,   13.16,    2.36, ...,    1.03,    3.17, 1185.  ],
       ...,
       [   3.  ,   13.27,    4.28, ...,    0.59,    1.56,  835.  ],
       [   3.  ,   13.17,    2.59, ...,    0.6 ,    1.62,  840.  ],
       [   3.  ,   14.13,    4.1 , ...,    0.61,    1.6 ,  560.  ]])