# La librería NumPy

NumPy (Numerical Python) es la librería fundamental de python para realizar tareas de computación científica. Entre otros, contiene:

* Variables de tipo array n-dimensionales.
* Funciones matemáticas de álgebra lineal, estadística, cálculo, etc.
* Soporte para vectorizar las operaciones anteriores sobre los arrays de forma eficiente.

Empezamos cargando la librería, usaremos el alias `np`

In [None]:
import numpy as np

## Arrays

Los objetos principales de NumPy es el array multidimensional homogéneo. Un array es una tabla de elementos (normalmente números), todos del mismo tipo (homogéneo), indexados por una tupla de enteros positivos. En NumPy a las dimensiones se las llama ejes (axes). El número de ejes es el rango (rank).

Los arrays pueden usarse para representar información relevante en un problema complejo, como veremos más adelante, con lo que conviene familiarizarse con su uso. 

Por ejemplo, las coordenadas del punto `[1, 2, 0]` en el espacio es un array de rango 1, pues solo tiene un eje. Ese eje tiene longitud (length) 3. 
En el ejemplo siguiente, el array tiene rango 2 (tiene dos ejes, es una matriz). El primero tiene longitud 2, mientras que el segundo tiene longitud 3.

`[[ 1., 0., 0.],
 [ 0., 1., 2.]]`
 
El elemento en la posición `(1, 2)` es el 2.

## Creación de arrays

Lo más simple es utilizar `array` que toma una lista de python y crea el array, deduciendo el tipo automáticamente:

In [None]:
mylist = [1, 2, 3]
x = np.array(mylist)

In [None]:
x

El array tienen algunos atributos que guardan información del objeto:

* `dtype`: el tipo de los elementos del array. Suele ser int o float, acompañado de la precisión
* `shape`: las dimensiones del array

In [None]:
x.dtype

In [None]:
x.shape

In [None]:
x = np.array([1, 2, 3.5])
x

In [None]:
x.dtype

<br>
Para crear arrays multidimensionales (podemos pensar en ellos como tablas, donde cada entrada es una fila), podemos pasarle listas de listas a `array`:

In [None]:
m = np.array([[7, 8, 9], [10, 11, 12]])
m

In [None]:
m.shape # 2 filas, 3 columnas

<br>
También podemos crear arrays utilizando constructores con comportamientos predefinidos, sin tener que explicitarle todos los elementos

`arange` devuelve valores equiespaciados en un intervalo dado

In [None]:
x = np.arange(0, 30, 2.3) # de 0 a 30 contando de 2.3 en 2.3
x

`linspace` es similar, solo que en el último argumento se le especifica el número de puntos que queremos

In [None]:
x = np.linspace(0, 30, 9) # 9 números equiespaciados en [0, 30]
x

`zeros` y `ones` crean arrays de la forma especificada rellenos con 0s y 1s, respectivamente

In [None]:
np.zeros([4,4])

In [None]:
np.ones(11)

In [None]:
3*np.ones([2,2,3])   # Podemos usar los np.ones para generar los valores que queramos nosotros dentro también

`eye` crea una matriz identidad (todo ceros excepto en la diagonal, donde vale 1) de tamaño dado, y `diag` crea un array diagonal (es lo mismo, pero especificamos los valores que van en la diagonal)

In [None]:
np.eye(3)

In [None]:
np.diag([6,8,9])

## Combinación de arrays

In [None]:
x = np.ones([2, 3])
x

`vstack` permite apilar arrays en serie verticalmente (añade filas).

In [None]:
np.vstack([x, 2*x])

`hstack` permite apilar arrays en serie horizontalmente (añade columnas).

In [None]:
np.hstack([x, 2*x, 3*x])

## Operaciones sobre arrays

La función `reshape` permite cambiar las dimensiones de los arrays. Vemos en el ejemplo que empieza a rellenarlo a lo largo del último eje (en este caso, el de longitud 5):

In [None]:
x = np.arange(0, 15)
x = x.reshape([3,5])
x

<br>
Dado el array, podemos consultar o modificar cualquier elemento:

In [None]:
x[0,1] = 100*x[0,1]
x

<br>
Con el atributo `.T` podemos trasponer el array

In [None]:
x.T

#### Operadores numéricos
Usa `+`, `-`, `*`, `/` y `**` para realizar la suma, resta, producto, division y potencia elemento a elemento

In [None]:
np.arange(1,5) + np.arange(1,5)

In [None]:
np.arange(1,5) - np.arange(1,5)

In [None]:
np.arange(1,5) * np.arange(1,5)

In [None]:
np.arange(1,5) / np.arange(1,5)

In [None]:
np.arange(1,5)**2

`dot` realiza el producto escalar en el caso de vectores y el producto usual en el caso de matrices

In [None]:
np.dot(np.arange(16).reshape(4,4), np.eye(4))

In [None]:
np.arange(16).reshape(4,4) * np.eye(4)

## Ejercicio: Coseno entre vectores
El coseno entre dos vectores puede representar magnitudes importantes. Por ejemplo, en problemas más avanzados, características de los individuos pueden escribirse como elementos de arrays. Si estuviéramos interesados en conocer cómo de parecidos son dos indviduos, o cómo de lejos están del individuo modélico de nuestro interés (por ejemplo, para realizar una posible conversión), el coseno entre ambos vectores es una medida natural de la similaritud entre ellos. Por tanto, tratemos de obtener una función que calcule el coseno del ángulo que forman dos vectores

$$ \cos \theta = \frac{\langle v_1, v_2 \rangle}{||v_1|| ||v_2||} $$

donde $|| v ||$ es la **norma** del vector v, que se puede expresar como $\sqrt{\langle v, v \rangle}$, y $\langle v_1, v_2 \rangle$ es el **producto escalar** entre ambos vectores.

**_Producto escalar_**: Para calcular este producto, usa la función definida en NumPy (_Tip_: Si no sabes cuál es, busca en inglés en nombre de la operación seguido de NumPy y lee la documentación de las funciones que encuentres).

In [None]:
def cos(v1, v2):
    """Esribe tu código aquí"""
    return _____

In [None]:
v1 = np.array([0,-1])
v2 = np.array([0,1])

cos(v1,v2) # El resultado debería de ser -1.0

## Ejercicio: Media de una matriz

Usando dos bucles for anidados, implementa una función que calcule la media de los elementos de una matriz

In [None]:
def mi_media(mat):
    ______
    ______
    
    for i in ____
        for j in ____
            _______
            
    return ______

In [None]:
A = np.arange(15).reshape([5,3])
print(A)
mi_media(A)   # Debe dar 7.0 al ejecutar esto

<br>
En la siguiente sección se verá como se puede operar con los arrays usando más funciones matemáticas

## Funciones matemáticas

Numpy tiene varias funciones incluidas para hacer operaciones en `arrays`. Por ejemplo:

In [None]:
a = np.array([-4, -2, 1, 3, 5])

In [None]:
a.sum()  # Suma de todos los elementos

In [None]:
a.prod() # Producto de todos los elementos

In [None]:
a.max() # Valor máximo del array

In [None]:
a.min() # Valor mínimo del array

In [None]:
a.mean()  # Media

In [None]:
a.std()   # Desviación estándar

In [None]:
a.argmax() # Localización del máximo del array

In [None]:
a.argmin() # Localización del mínimo del array

## Indexing/Slicing

Al igual que en las listas, `[]` permiten indexar arrays. Funciona prácticamente igual, con lo que si nos desenvolvemos fácilmente con las listas esto debería resultar relativamente sencillo también.

In [None]:
ll = np.arange(20)
print(ll)
ll[0], ll[4], ll[-1]

Para hacer slicing, se pueden utilizar expresiones del tipo `start:stop:step`

In [None]:
ll[0:5:2]

Para contar empezando por detrás, se pueden usar números negativos

In [None]:
ll[-4:]

Ahora vayamos al caso de arrays de más de una dimensión

In [None]:
h = np.arange(34)
h.resize((6, 6))
h

Para hacer slicing se utilizar: `array[fila, columna]`

In [None]:
h[2, 2]

Usando `:` se seleccionan grupos de filas o columnas

In [None]:
h[1, 3:6]

Así selecciona de la matriz `h`todas las filas hasta la 2 (sin incluír esta) y todas las columnas hasta la penúltima (sin incluír esta).

In [None]:
h[:2, :-2]

Así seleccionamos toda una fila

In [None]:
h[-1, :]

Así seleccionamos toda una columna

In [None]:
h[:, 0]

También podemos hacer indexing condicional. Así seleccionamos todos los elementos distintos de cero.

In [None]:
h[h != 0]

## Ejercicio: Sustitución de ceros

Selecciona las primera columna de la matriz `p` proporcionada, y guárdala en la variable `p1`. Sustituye aquellos elementos de p1 que sean iguales a 0 por el valor $7$. Después, calcula el producto matricial de la matriz p por la p1 con el método `matmul` de numpy

In [None]:
p = np.array([[1,2,4],[0,0,0],[0,6,8]])
print(p)

""" Escribe tu código aquí"""

________

## Operaciones sobre filas o columnas

Podemos realizar operaciones por filas o columnas usando la opción `axis`. En concreto, para sumar por filas y columnas hacemos:

In [None]:
print(p)
print("Suma por filas: ", p.sum(axis = 1))
print("Suma por columnas: ", p.sum(axis = 0))

En concreto, con la función `np.apply_along_axis(función, eje, array)` podemos aplicar cualquier función que definamos por filas o columnas. Podemos especificar en qué eje queremos que se aplique la función con el argumento `axis` (p.e. 0 para las filas, 1 para las columnas)

In [None]:
def arggmax(x):
    return np.argmax(x)

print(np.apply_along_axis(arggmax, 1, p))
print(p.argmax(axis = 1))

### Iterar sobre arrays

Sea la siguiente matriz

In [None]:
test = np.random.uniform(0, 1, (4,3)) ## Por cierto, así se generan números con distribución  
                                      ## uniforme entre 0 y 1 en numpy.  
test

Iterar sobre filas:

In [None]:
for row in test:
    print(row)

Iterar sobre índices

In [None]:
for i in range(len(test)):
    print(test[i], i)

Iterar por fila e índice:

In [None]:
for i, row in enumerate(test):
    print('row', i, 'is', row)

In [None]:
test2 = test**2
test2

## Ejercicio: ¿Lo estamos haciendo bien?

`m` es un array que contiene las experiencias de los usuarios en un servicio determinado, los cuales lo evalúan con una puntuación entre 1 y 100. Queremos evaluar cómo de bueno es el servicio, y para ello tenemos 3 tandas de respuestas contenidas en `m`, cada una de ellas con un cierto número de muestras. Para hacer la evaluación, crea un vector denominado `medias` que contenga las medias por separado de cada una de las tandas de respuestas. Crea otro vector denominado `desviaciones`, que contenga las desviaciones estándar de cada tanda. Si divides el vector `desviaciones` elemento por elemento por la raíz cuadrada del número muestras de cada experimento (100 en este caso), `desviaciones` pasará a contener el número de desviaciones estándar de las medias anteriormente estimadas.

* Imprime las medias de cada tanda de respuestas por pantalla

* Después, imprime por pantalla, para cada grupo de muestras, la frase 

Intervalo de confianza del 95% - Cota inferior: (media - 1.96 * desviacion) ; Cota superior: (media + 1.96 * desviacion)

Observa cómo cambia el comportamiento de la estimación cuando aumentamos el número de muestras. Para ello, vuelve  a hacer lo anterior con `m2` y compara los resultados con los de `m`, teniendo en cuenta que `m2` tiene todas las muestras de m1 juntas

In [None]:
# Definición de m
m = np.random.normal(65, 10, (3,100))
m2 = np.reshape(m, (300))

In [None]:
# Representación gráfica para entender cómo son las muestras (histograma)
import matplotlib.pyplot as plt
plt.hist(m, 10)
plt.show

In [None]:
# Representación de todos los resultados combinados en "m2" 
plt.hist(m2, 25)
plt.show

In [None]:
'''
Tu código va aquí para el caso de m
'''
medias = _____
desviaciones = _____

print(_______)

for i, j in _____ :
    print( _____ )

In [None]:
'''
Tu código va aquí para el caso de m2

(usa lo anterior)
'''