# 2.1. Introducción a NumPy I.

# NumPy Basics: Arrays y Computación Vectorizada

- NumPy no es un módulo del core de Python, por lo que SIEMPRE habrá que importarlo de forma completa o componente a componente.

In [None]:
import numpy as np

- Las principlales motivaciones son su facilidad para realizar operaciones matemáticas (que no tenemos usando solo las listas).
- Y la rapidez de cómputo. Nos permite vectorizar los cálculos (al igual que hacíamos en R).

In [None]:
my_list = list(range(1000000))

- Con *%%timeit* medimos varias veces el tiempo que se tarda en ejecutar una celda.
- Vamos a comparar el rendimiento de lo aprendido hasta ahora, multiplicando por 2, elemento a elemento, una lista de 1 millón de elementos.

In [None]:
%%timeit
my_list2 = [x * 2 for x in my_list]

- Tarda X milisegundos por cada iteración (repite varias veces lo solicitado para mostrarnos una media y una desviación típica).
- Ahora hagamos lo mismo, pero usando numpy

In [None]:
my_arr = np.arange(1000000)

In [None]:
my_arr # Vemos que pinta tiene (es equivalente a la lista)

In [None]:
%%timeit
my_arr2 = my_arr * 2

- Numpy está en el órden de nanosegundos.
- Podemos ver, claramente, la diferencia entre usar np, o un bucle con listas.
- Para que os vaya sonando, Pandas es un array de numpy que tiene un índice por filas. 

## NumPy ndarray: Multidimensional Array Object

- Un ndarray puede contener elementos de <b>CUALQUIER TIPO</b></li>
- Todos los elementos de un ndarray deben tener <b>EL MISMO TIPO</b>.</li>
- El tamaño de un ndarray (número de elementos) se define en el momento de la creación y no puede modificarse.</li>
- Pero la organización de esos elementos entre diferentes dimensiones, sí puede modificarse</li>


In [None]:
# Generamos un array con datos aleatorios de distribución normal (media cero y desviación típica 1), de 2 filas y 3 columnas
data = np.random.randn(2, 3)
data

Podemos hacer operaciones elemento a elemento

In [None]:
data * 10

Podemos hacer operaciones entre arrays del mismo tamaño

In [None]:
data + data

NO podemos hacer operaciones entre arrays de distinto tamaño

In [None]:
data2 = np.random.randn(3, 3)

data + data2

Podemos consultar las dimensiones de array

In [None]:
data.shape

Podemos consultar el tipo de elementos que componen el array

In [None]:
data.dtype

### Creación de  ndarrays

- Existen varias formas de crear un ndarray en NumPy. Vamos a ver las más relevantes:

<center>
<img src="imgs/np_1.png"  alt="drawing" width="700"/>
</center>

Podemos crearlo desde una lista

In [None]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

Desde una lista de listas

In [None]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

Podemos consultar el número de dimensiones del array

In [None]:
print(arr1.ndim)
print(arr2.ndim)

Podemos consultar el tamaño de las dimensiones

In [None]:
arr2.shape

Podemos consultar el tipo

In [None]:
print(arr1.dtype)
print(arr2.dtype)

Podemos crear un array de ceros

In [None]:
np.zeros((10, 10))

Podemos crear arrays de unos

In [None]:
np.ones(10)

Arrays con un rango determinado (vectores)

In [None]:
np.arange(15)

Podemos consultar la ayuda de cualquier objeto / función
- En el caso de arrange podemos ver que tiene start, stop y step

In [None]:
?np.arange

Podemos crear rangos con un step determinado

In [None]:
np.arange(1, 10, 0.5)

O generar rangos entre dos valores, indicando el número de elementos. La distancia entre los mismos será equidistante.

In [None]:
np.linspace(0, 2, 100)

### Tipos de datos en ndarrays
- Lo elementos de los ndarrays pueden ser de cualquier tipo
- Pero todos los elementos deben ser del mismo tipo

<center>
<img src="imgs/np_2.png"  alt="drawing" width="700"/>
</center>

Hacemos un array de enteros, pero los almaceno como float64

In [None]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr1.dtype

Podría haberlos almacenado como interger32

In [None]:
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr2.dtype

O permitir a Python que sea él el que determine la naturaleza de los objetos almacenados

In [None]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

### Consulta de la composición de un ndarray
- <b>dtype</b>: Tipo del contenido del ndarray.
- <b>ndim</b>: Número de dimensiones/ejes del ndarray.
- <b>shape</b>: Estructura/forma del ndarray, es decir, número de elementos en cada uno de los ejes/dimensiones.
- <b>size</b>: Número total de elementos en el ndarray.


In [None]:
array = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
array

Obtenemos el tipo

In [None]:
array.dtype

El número de dimensiones

In [None]:
array.ndim

Los elementos en cada dimensión (la forma)

In [None]:
array.shape

Podemos hacer la consultar indicando la dimensión concreta sobre la que queremos la información

In [None]:
array.shape[1]

Podemos consultar el número total de elementos del array

In [None]:
array.size

### Operaciones aritméticas entre ndarrays y escalares

- Los dos términos de la operación tienen que ser ndarrays de las mismas dimensiones y forma (a diferencia de R, si no tienen las mismas dimensiones dará un error). 
- IMPORTANTE: Se aplica la operación elemento a elemento.

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [None]:
arr

In [None]:
arr * arr

In [None]:
arr - arr

In [None]:
1 / arr

In [None]:
arr ** 0.5

In [None]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [None]:
arr2

Con operadores de igualdad o comparativos, obtenemos máscaras booleanas

In [None]:
arr2 > arr

### Indexación y slicing básico
- En ndarrays unidimensionales el funcionamiento es idéntico al que se tiene en secuencias básicas de Python. 
- Se utiliza la indexación [a:b:c].
- El primer eje es el de las filas. Y el segundo eje es el de las columnas.
<center>
<img src="imgs/np_3.png"  alt="drawing" width="400"/>
</center>

In [None]:
arr = np.arange(10)
arr

Recuerda que en python se empieza a contar desde 0

In [None]:
arr[5]

In [None]:
arr[5:8]

Podemos extraer o asignar valores a unas posiciones determinadas

In [None]:
arr[5:8] = 12
arr

Podemos generar un nuevo array que sea un slice (un trozo) de otro. No hace una copia del primero, es una referencia a la memoria.

In [None]:
arr_slice = arr[5:8]
arr_slice

Si modificamos el contenido de la copia

In [None]:
arr_slice[1] = 12345
arr_slice

El array original se verá afectado.

In [None]:
arr

Hay que tener mucho cuidado con esto. Es importante recordarlo.

In [None]:
arr_slice[:] = 64
arr

Veremos que hay un método copy que permite hacer una copia de los elementos que queremos. Evitando el problema de la referencia a memoria.

En ndarrays multidimensionales, existen dos posibles formas de realizar el acceso:<br/>
<ul>
<li><b>Mediante indexación recursiva:</b> array[a:b:c en dim_1][a:b:c en dim_2]...[a:b:c en dim_n]</li>
<li><b>Mediante indexación con comas:</b> array[a:b:c en dim_1, a:b:c en dim_2, ...a:b:c en dim_n]</li>
</ul>

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

In [None]:
arr2d.shape

Podemos hacer la consulta por filas (indicando únicamente esa dimensión).

In [None]:
arr2d[2]

O extraer el dato exacto que queremos, indicando primero las filas y luego las columnas

In [None]:
arr2d[0][2]

Pero la más usada, al igual que en R, es la indexación por comas (separando así las dimensiones).

In [None]:
arr2d[0, 2]

#### Indexing con slices
- Depende de cómo hagas el slice, obtendrás una o dos dimensiones en el objeto resultante

<center>
<img src="imgs/np_4.png"  alt="drawing" width="400"/>
</center>

Con arrays de una dimensión (preguntar a los alumnos qué es lo que hace el código)

In [None]:
arr

In [None]:
arr[1:6]

Con arrays de dos dimensiones (preguntar a los alumnos qué es lo que hace el código)

In [None]:
arr2d

In [None]:
arr2d[:2]

In [None]:
arr2d[:2, :]

In [None]:
arr2d[:2, 1:]

In [None]:
arr2d[1, :2]

In [None]:
arr2d[:2, 2]

In [None]:
arr2d[:, :1]

In [None]:
arr2d[:2, 1:] = 0
arr2d

### Indexación y slicing booleano
- Nos permite realizar indexaciones mediante máscaras booleanas
- En este caso, vamos a tener un array de una dimensión con nombres, y un array de dos dimensiones con números aleatorios.

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

In [None]:
data = np.random.randn(7, 4)
data

Podría generar un índice booleano en función de los nombres

In [None]:
names == 'Bob'

Como tiene longitud 7, podría utilizarlo para consultar las filas del array de aleatorios

In [None]:
print(data.shape)
print(names.shape)

En este caso, me estaría devolviendo aquellas filas en las que el índice booleano era True (la primera y la cuarta).

In [None]:
data[names == 'Bob']

Le puedo pedir lo mismo, pero que nos devuelva solo desde la columna 2 hasta el final

In [None]:
data[names == 'Bob', 2:]

Con != le indico que sea distinto al elemento indicado

In [None]:
names != 'Bob'

Con ~ invierto el índice o la máscara booleana. Le estoy pidiendo "lo contrario"

In [None]:
data[~(names == 'Bob')]

Otro ejemplo de aplicación de ~

In [None]:
cond = names == 'Bob'
print(cond)
print(~cond)
data[~cond]

Con | expreso or, y con & expreso and.

In [None]:
mask = (names == 'Bob') | (names == 'Will')
mask

In [None]:
data[mask]

Evidentemente, tiene más sentido si aplicamos estos métodos con números

In [None]:
mascara = data < 0
mascara

Podemos utilizar una máscara booleana para hacer asignaciones

In [None]:
data[mascara] = 0
data

## Generación de números aleatorios

- Aunque el core de Pyhton incluye un módulo <b>random</b> para llevar a cabo la generación de números aleatorios.
- NumPy permite generar directamente ndarrays de valores aleatorios en base a diversas distribuciones.
- Las funciones estan disponibles a través del submódulo <b>np.random</b>.
- Algunas de las más comunes son:


|Función|Descripcción|
|----|---|
|`seed`| Establecimiento de semilla del generador de números aleatorios.|
|`permutation`| Devuelve una permutación aleatoria de una secuencia de entrada (por copia).|
|`shuffle`| Aplica una permutación aleatoria sobre los elementos de la secuencia de entrada (sin copia).|
|`rand`|  Genera una muestra de números aleatorios utilizando una distribución uniforme.|
|`randint`|  Genera una muestra de números aleatorios enteros dentro de un rango definido.|
|`randn`|  Genera una muestra de números aleatorios utilizando una distribución normal de media 0 y desviación 1.|
|`binomial`| Genera una muestra de números aleatorios utilizando una distribución binomial.|
|`normal`| Genera una muestra de números aleatorios utilizando una distribución normal.|
|`beta`|Genera una muestra de números aleatorios utilizando una distribución beta.|
|`chisquare`| Genera una muestra de números aleatorios utilizando una distribución chi cuadrado.|
|`gamma`|  Genera una muestra de números aleatorios utilizando una distribución gamma.|
|`uniform`| Genera una muestra de números aleatorios utilizando una distribución uniforme [0, 1). |




In [None]:
samples = np.random.normal(size=(4, 4))
samples

Esta manera de generar aleatorio es mucho más rápida que el core de python

In [None]:
from random import normalvariate
N = 1000000

In [None]:
%%timeit
samples = [normalvariate(0, 1) for _ in range(N)]

In [None]:
%%timeit
np.random.normal(size=N)

Podemos definir una semilla o un estado para matener los números generados.

In [None]:
np.random.seed(1234)

RandomState es otra manera de fijar una semilla

In [None]:
rng = np.random.RandomState(1234)
rng.randn(10)

## Funciones Universales: Element-Wise

- Las  "funciones universales" (o ufuncs), permiten la realización de operaciones elemento a elemento de un array. 
- En función del número de parámetros encontramos dos tipos de funciones universales: unarias y binarias

#### Funciones unarias
Son aquellas funciones que reciben como parámetro un único ndarray.<br/>

|Función|Descripcción|
|----|---|
|`abs, fabs`| Valor absoluto.|
|`sqrt`| Raíz cuadrada (equivalente a array \*\* 0.5).|
|`square`| Potencia al cuadrado (equivalente a array ** 2).|
|`exp`| Potencia de e.|
|`log, log10, log2, log1p`| Logaritmos en distintas bases.|
|`ceil`| Techo.|
|`floor`| Suelo.|
|`rint`| Redondeo al entero más cercano.|
|`modf`| Devuelve dos arrays uno con la parte fraccionaria y otro con la parte entera.|
|`isnan`| Devuelve un array booleano indicando si el valor es NaN o no.|
|`isfinite, isinf`| Devuelve un array booleano indicando si el valor es finito o no.|
|`cos, cosh, sin, sinh, tan, tanh`| Funciones trigonométricas.|
|`arccos, arccosh, arcsin, arcsinh, arctan, arctanh`| Funciones trigonométricas inversas.|
|`logical_not`| Inverso booleano de todos los valores del array (equivalente a -(array)).|


In [None]:
arr = np.arange(10)
arr

In [None]:
np.sqrt(arr)

In [None]:
np.exp(arr)

Multiplicación elemento a elementos

In [None]:
arr = np.random.randn(7) * 5

Podemos obtener dos arrays, uno con la parte fraccionaria y otro con la parte entera

In [None]:
remainder, whole_part = np.modf(arr)

In [None]:
remainder

In [None]:
whole_part

#### Funciones binarias
Son aquellas funciones que reciben como parámetro dos arrays.

|Función|Descripcción|
|----|---|
|`add`| Adición de los elementos de los dos arrays (equivalente a array1 + array2).|
|`subtract`| Resta de los elementos de los dos arrays (equivalente a array1 - array2).|
|`multiply`| Multiplica los elementos de los dos arrays (equivalente a array1 \* array2).|
|`divide, floor_divide`| Divide los elementos de los dos arrays (equivalente a array1 / (o //) array2).|
|`power`| Eleva los elementos del primer array a las potencias del segundo (equivalente a array1 ** array2).|
|`maximum, fmax`| Calcula el máximo de los dos arrays (elemento a elemento). fmax ignora NaN.|
|`minimum, fmin`| Calcula el mínimo de los dos arrays (elemento a elemento). fmin ignora NaN.|
|`mod`| Calcula el resto de la división de los dos arrays (equivalente a array1 % array2).|
|`greater, greater_equal, less, less_equal, equal, not_equal`| Comparativas sobre los elementos de ambos ndarrays (elemento a elemento).|
|`logical_and, logical_or, logical_xor`| Operaciones booleanas sobre los elementos de ambos ndarrays (elemento a elemento).|


In [None]:
x = np.random.randn(8)
y = np.random.randn(8)

In [None]:
x

In [None]:
y

In [None]:
np.maximum(x, y)

### Operaciones Mátematicas y estadísticas

- NumPy ofrece un amplio conjunto de funciones matemáticas y estadísticas que se pueden aplicar sobre ndarrays. 


|Función|Descripcción|
|----|---|
|`sum`| Suma de elementos.|
|`mean`| Media aritmética de los elementos.|
|`median`| Mediana de los elementos.|
|`std`| Desviación estándar de los elementos.|
|`var`| Varianza de los elementos.|
|`min`| Valor mínimo de los elementos.|
|`max`| Valor máximo de los elementos.|
|`argmin`| Índice del valor mínimo.|
|`argmax`| Índice del valor máximo.|
|`cumsum`| Suma acumulada de los elementos.|
|`cumprod`| Producto acumulado de los elementos.|


In [None]:
arr = np.random.randn(5, 4)
arr

Puedo calcular la suma

In [None]:
arr.sum()

Las operaciones podemos hacerlas de dos maneras distintas

- En operaciones simples da igual
- Se suele utilizar np."operación"

In [None]:
print(arr.mean())
print(np.mean(arr)) 

- Todas estas funciones pueden recibir, además del ndarray sobre el que se aplicarán, un segundo parámetro llamado <b>axis</b>. 
- Si no se recibe este parámetro las funciones se aplicarán sobre el conjunto global de los elementos del ndarray, pero si se incluye, podrá tomar dos valores:
<ul>
<li>Valor 0: Aplicará la función por columnas</li>
<li>Valor 1: Aplicará la función por filas</li>
    

In [None]:
arr = np.array([[0, 1, 2, 3, 4, 5, 6, 7], [0, 1, 2, 3, 4, 5, 6, 7]])
arr

In [None]:
arr.mean()

In [None]:
arr.mean(axis=0)

In [None]:
arr.mean(axis=1)

In [None]:
arr.sum()

In [None]:
arr.sum(axis=0)

In [None]:
arr.sum(axis=1)

In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr

In [None]:
arr.cumsum(axis=0)

In [None]:
arr.cumprod(axis=1)

## Operaciones Algebraicas

- Hasta el momento hemos visto cómo aplicar funciones "elemento a elemento" a matrices multidimensionales pero, en ningún caso, hemos aplicado funciones de cálculo matricial sobre las mismas. 
- NumPy ofrece un amplio conjunto de funciones que permiten realizar multitud de tratamientos/operaciones matriciales. 
- Todas estas funciones están disponibles a través del submódulo <b>linalg</b>.

Algunas de las más comunes son:<br/>

|Función|Descripcción|
|----|---|
|`diag`| Recupera la diagonal principal del ndarray pasado como parámetro.|
|`dot`| Realiza el producto matricial de dos ndarray.|
|`trace`| Calcula la suma de los elementos de la diagonal principal.|
|`det`| Calcula el determinante de un ndarray.|
|`eig`| Calcula los autovalores y autovectores de un ndarray.|
|`inv`| Calcula la inversa de una matriz.|
|`qr`| Calcula la descomposición QR de una matriz.|
|`svd`| Calcula la descomposición de valores singulares (Singular Value Decomposition) de una matriz.|
|`solve`| Calcula el resultado del sistema lineal Ax = B donde A y B son las matrices de entrada y x la salida.|
|`lstsq`| Calcula la solución de mínimos cuadrados a y = Xb, donde y y b son los parámetros de entrada y X la salida.|


In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])

In [None]:
x

In [None]:
y

In [None]:
x.shape

In [None]:
y.shape

IMPORTANTE: 

- Es vital diferenciar entre la multiplicación entre dos matrices elementos a elemento.
- Y la multiplicación matricial (fila X columna)
- Cuidado con el tamaño de la matriz resultante (2,3) * (3,2) = (2,2)

In [None]:
x.dot(y)

Suele escribirse haciendo referencia a la librería np

In [None]:
np.dot(x, y)

El simbolo @ tambien sirve para la multiplicación

In [None]:
x @ y

Ojo (2,3) * (3, ) = (2, ) Da como resultado una matriz de 2 filas por una columna

In [None]:
resultado = np.dot(x, np.ones(3))
print(resultado)
resultado.shape

Fuera de la multiplicación matricial, hay que importar las operaciones algebraicas para poder utilizarlas

In [None]:
from numpy.linalg import inv

X = np.random.randn(5, 5)
print(X)
inv(X)

Podemos concatenar operaciones, poniéndolas unas detrás de otras. Lo cual resulta muy cómodo

In [None]:
mat = X.T.dot(X)
mat

Podemos, por ejemplo, calcular la matriz identidad

- Matriz cuadrada donde todos sus elementos son ceros, menos los elementos de la diagonal principal que son unos

In [None]:
identidad = mat.dot(inv(mat))
identidad

## Funciones Financieras

|Función|Descripcción|
|----|---|
|`fv(rate, nper, pmt, pv[, when])`|Calcula el valor futuro.|
|`pv(rate, nper, pmt[, fv, when])`|Calcula el valor presente.|
|`npv(rate, values)`|VAN NPV (Net Present Value) de una serie de flujo de cajas.|
|`pmt(rate, nper, pv[, fv, when])`|Calcula el pago total, principal y intéres.|
|`ppmt(rate, per, nper, pv[, fv, when])`|Calcula el pago contra el principal.|
|`ipmt(rate, per, nper, pv[, fv, when])`|Calcula la proporción del interés del pago.|
|`irr(values)`|TIR: Internal Rate of Return (IRR).|
|`mirr(values, finance_rate, reinvest_rate)`| Internal Rate of Return (IRR) Modificada.|
|`nper(rate, pmt, pv[, fv, when])`|Calcula el número de pagos periodicos|
|`rate(nper, pmt, pv, fv[, when, guess, tol, …])`|Calcula la tasa de interes por periodo.|

- Estas funciones se ecuentran el la librería numpy_financial
- Recuerda a la ayuda se puede acceder con `?funcion`


In [None]:
import numpy_financial as npf

- Teniendo que pagar cuotas de 10.000 € anuales
- A 10 años
- Y un tipo de interés del 7% anual
- ¿Cual será su valor futuro?

In [None]:
npf.fv(rate = 0.07, nper = 10, pmt = 10000, pv = 0) 

___
# Ejercicios

**2.1.1.**  Crea un vector con valores de 10 a 49 en pasos de 0.5.

**2.1.2.** Muestra su dimensión y su tipo.

**2.1.3.** Crea un array con los números que elijas de dimensiones 2x3.

**2.1.4.** Indexing y slicing:

- Crea un array unidimensional de 10 elemento aleatorios.
- Crea un array bidimensional de 10x10 elementos aletorios.
- Accede al primer elemento y al penúltimo número de cada array. 
- Para el array unidimensional: muestra todos los elementos en posiciones pares desde la posición 6. 
- Para el array bidimensional: muestra una submatriz con las dos primeras filas y las tres primeras columnas.
- Divide el array bidimensional en dos: uno con las 2 primera filas y otro con las siguientes

**2.1.5.** Crea una función que reciba como parámetro un número n y devuelva una matriz cuadrada (dos dimensiones) de nxn donde los elementos de la diagonal principal valgan 5 y el resto valgan n.

**2.1.6.** Crea un vector de 30 elementos aleatorios y calcula su media.

**2.1.7.** Crea una matriz de 8x10 aleatoria y substrae la media por columnas.

**2.1.8.** Crea una función que reciba dos enteros n y m, 

- Genere dos matrices aleatorias (normales 0,1) de dimensiones nxm y mxn
- Haga el producto matricial de ambas para obtener una matriz nxn. 

**2.1.9.** Calule el capital final de invertir 500€ mensuales durante 10 años, a un interés anual del 10%