# 2.1. Introducción a NumPy I.

- Instalar la librería con: ```pip install numpy```
- Se puede desde una termimal o desde una celda con: *!pip install numpy*
- Reiniciar el kernel después.
- También instalar matplotlib.

In [None]:
!pip install numpy
!pip install matplotlib

# NumPy Basics: Arrays y Computación Vectorizada

- NumPy no es un módulo del core de Python, por lo que SIEMPRE habrá que importarlo de forma completa o componente a componente.

In [None]:
import numpy as np

- La librería para hacer gráficos (plot) es matplotlib.
- Importar numpy, pandas y matplotlib al inicio es un clásico

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt # pyplot es un conjunto de funciones que hacen fácil realizar gráficos

- Las principlales motivaciones son su facilidad para realizar operaciones matemáticas (que no tenemos usando solo las listas).
- Y la rapidez de cómputo. Nos permite vectorizar los cálculos (al igual que hacíamos en R).

In [None]:
my_list = list(range(1000000))

- Con *%%timeit* medimos varias veces el tiempo que se tarda en ejecutar una celda.
- Vamos a comparar el rendimiento de lo aprendido hasta ahora, multiplicando por 2, elemento a elemento, una lista de 1 millón de elementos.

In [None]:
%%timeit
my_list2 = [x * 2 for x in my_list]

- Tarda X milisegundos por cada iteración (repite varias veces lo solicitado para mostrarnos una media y una desviación típica).
- Ahora hagamos lo mismo, pero usando numpy

In [None]:
my_arr = np.arange(1000000)

In [None]:
my_arr # Vemos que pinta tiene (es equivalente a la lista)

In [None]:
%%timeit
my_arr2 = my_arr * 2

- Numpy tarda muchísimo menos.
- Podemos ver, claramente, la diferencia entre usar np, o un bucle con listas.
- Para que os vaya sonando, Pandas es un array de numpy que tiene un índice por filas. 

## NumPy ndarray: Multidimensional Array Object

- Un ndarray puede contener elementos de <b>CUALQUIER TIPO</b></li>
- Todos los elementos de un ndarray deben tener <b>EL MISMO TIPO</b>.</li>
- El tamaño de un ndarray (número de elementos) se define en el momento de la creación y no puede modificarse.</li>
- Pero la organización de esos elementos entre diferentes dimensiones, sí puede modificarse</li>


In [None]:
# Generamos un array con datos aleatorios de distribución normal (media cero y desviación típica 1), de 2 filas y 3 columnas
data = np.random.randn(2, 3)
data

Podemos hacer operaciones elemento a elemento

In [None]:
data * 10

Podemos hacer operaciones entre arrays del mismo tamaño

In [None]:
data + data

NO podemos hacer operaciones entre arrays de distinto tamaño

In [None]:
data2 = np.random.randn(3, 3)

data + data2

Podemos consultar las dimensiones de array

In [None]:
data.shape

Podemos consultar el tipo de elementos que componen el array

In [None]:
data.dtype

### Creación de  ndarrays

- Existen varias formas de crear un ndarray en NumPy. Vamos a ver las más relevantes:

<center>
<img src="imgs/np_1.png"  alt="drawing" width="700"/>
</center>

Podemos crearlo desde una lista

In [None]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

Desde una lista de listas

In [None]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

Podemos consultar el número de dimensiones del array

In [None]:
print(arr1.ndim)
print(arr2.ndim)

Podemos consultar el tamaño de las dimensiones

In [None]:
arr2.shape

Podemos consultar el tipo

In [None]:
print(arr1.dtype)
print(arr2.dtype)

Podemos crear un array de ceros

In [None]:
np.zeros((10, 10))

Podemos crear arrays de unos

In [None]:
np.ones(10)

Arrays vacíos (que no se inicializan vacíos). Cuidado con esto
- Le les asigna un espacio en memoria y muestran lo que tiene la memoria en ese espacio. Por eso no están vacíos.
- Podemos trabajar con N dimensiones. No tiene porqué ser únicamente con filas columnas.

In [None]:
np.empty((2, 3, 2))

Arrays con un rango determinado (vectores)

In [None]:
np.arange(15)

Podemos consultar la ayuda de cualquier objeto / función
- En el caso de arrange podemos ver que tiene start, stop y step

In [None]:
?np.arange

Podemos crear rangos con un step determinado

In [None]:
np.arange(1, 10, 0.5)

O generar rangos entre dos valores, indicando el número de elementos. La distancia entre los mismos será equidistante.

In [None]:
np.linspace(0, 2, 100)

### Tipos de datos en ndarrays
- Lo elementos de los ndarrays pueden ser de cualquier tipo
- Pero todos los elementos deben ser del mismo tipo

<center>
<img src="imgs/np_2.png"  alt="drawing" width="700"/>
</center>

Hacemos un array de enteros, pero los almaceno como float64

In [None]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr1.dtype

Podría haberlos almacenado como interger32

In [None]:
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr2.dtype

O permitir a Python que sea él el que determine la naturaleza de los objetos almacenados

In [None]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

Puedo convertir una tipología de datos a otra a través de Casting (siempre y cuando pueda hacerse)
- En este ejemplo estamos convirtiendo int32 a float64

In [None]:
float_arr = arr.astype(np.float64)
float_arr.dtype

Podemos generar un array de float y comprobar que se han guardado como float

In [None]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
print(arr)
arr.dtype

Y posteriormente, podemos convertir float64 a integer32, perdiendo información (mediante un redondeo)

In [None]:
arr.astype(np.int32)

Puedo almacenar números como string y convertirlos posteriormente a números de nuevo. Pero no puedo convertir letras a números.

In [None]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)

Podemos tener dos arrays y convertir uno al tipo del otro
- En este caso, estamos convirtiendo el array int_array, al tipo de datos que contiene el array calibers

In [None]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

int_array.astype(calibers.dtype)

### Consulta de la composición de un ndarray
- <b>dtype</b>: Tipo del contenido del ndarray.
- <b>ndim</b>: Número de dimensiones/ejes del ndarray.
- <b>shape</b>: Estructura/forma del ndarray, es decir, número de elementos en cada uno de los ejes/dimensiones.
- <b>size</b>: Número total de elementos en el ndarray.


In [None]:
array = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
array

Obtenemos el tipo

In [None]:
array.dtype

El número de dimensiones

In [None]:
array.ndim

Los elementos en cada dimensión (la forma)

In [None]:
array.shape

Podemos hacer la consultar indicando la dimensión concreta sobre la que queremos la información

In [None]:
array.shape[1]

Podemos consultar el número total de elementos del array

In [None]:
array.size

### Operaciones aritméticas entre ndarrays y escalares

- Los dos términos de la operación tienen que ser ndarrays de las mismas dimensiones y forma (a diferencia de R, si no tienen las mismas dimensiones dará un error). 
- IMPORTANTE: Se aplica la operación elemento a elemento.

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [None]:
arr

In [None]:
arr * arr

In [None]:
arr - arr

In [None]:
1 / arr

In [None]:
arr ** 0.5

In [None]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [None]:
arr2

Con operadores de igualdad o comparativos, obtenemos máscaras booleanas

In [None]:
arr2 > arr

### Indexación y slicing básico
- En ndarrays unidimensionales el funcionamiento es idéntico al que se tiene en secuencias básicas de Python. 
- Se utiliza la indexación [a:b:c].
- El primer eje es el de las filas. Y el segundo eje es el de las columnas.
<center>
<img src="imgs/np_3.png"  alt="drawing" width="400"/>
</center>

In [None]:
arr = np.arange(10)
arr

Recuerda que en python se empieza a contar desde 0

In [None]:
arr[5]

In [None]:
arr[5:8]

Podemos extraer o asignar valores a unas posiciones determinadas

In [None]:
arr[5:8] = 12
arr

Podemos generar un nuevo array que sea un slice (un trozo) de otro. No hace una copia del primero, es una referencia a la memoria.

In [None]:
arr_slice = arr[5:8]
arr_slice

Si modificamos el contenido de la copia

In [None]:
arr_slice[1] = 12345
arr_slice

El array original se verá afectado.

In [None]:
arr

Hay que tener mucho cuidado con esto. Es importante recordarlo.

In [None]:
arr_slice[:] = 64
arr

Veremos que hay un método copy que permite hacer una copia de los elementos que queremos. Evitando el problema de la referencia a memoria.

En ndarrays multidimensionales, existen dos posibles formas de realizar el acceso:<br/>
<ul>
<li><b>Mediante indexación recursiva:</b> array[a:b:c en dim_1][a:b:c en dim_2]...[a:b:c en dim_n]</li>
<li><b>Mediante indexación con comas:</b> array[a:b:c en dim_1, a:b:c en dim_2, ...a:b:c en dim_n]</li>
</ul>

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

In [None]:
arr2d.shape

Podemos hacer la consulta por filas (indicando únicamente esa dimensión).

In [None]:
arr2d[2]

O extraer el dato exacto que queremos, indicando primero las filas y luego las columnas

In [None]:
arr2d[0][2]

Pero la más usada, al igual que en R, es la indexación por comas (separando así las dimensiones).

In [None]:
arr2d[0, 2]

Los mismos conceptos se pueden extrapolar en arrays de más dimensiones. 
- Fijaros que leer las dimensiones con shape, en arrays de más de dos elementos cambia bastante

In [None]:
arr3d = np.ones((2,3,4))
arr3d

Tenemos dos capas de profundidad, 3 filas y 4 columnas. CUIDADO CON ESTO

In [None]:
arr3d.shape

Si pedimos que nos devuelva el primer elemento. Nos devuelve la primera capa. No la primera fila. INSISTO: Cuidado con esto.

In [None]:
arr3d[0]

#### Indexing con slices
- Depende de cómo hagas el slice, obtendrás una o dos dimensiones en el objeto resultante

<center>
<img src="imgs/np_4.png"  alt="drawing" width="400"/>
</center>

Con arrays de una dimensión (preguntar a los alumnos qué es lo que hace el código)

In [None]:
arr

In [None]:
arr[1:6]

Con arrays de dos dimensiones (preguntar a los alumnos qué es lo que hace el código)

In [None]:
arr2d

In [None]:
arr2d[:2]

In [None]:
arr2d[:2, :]

In [None]:
arr2d[:2, 1:]

In [None]:
arr2d[1, :2]

In [None]:
arr2d[:2, 2]

In [None]:
arr2d[:, :1]

In [None]:
arr2d[:2, 1:] = 0
arr2d

### Indexación y slicing booleano
- Nos permite realizar indexaciones mediante máscaras booleanas
- En este caso, vamos a tener un array de una dimensión con nombres, y un array de dos dimensiones con números aleatorios.

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

In [None]:
data = np.random.randn(7, 4)
data

Podría generar un índice booleano en función de los nombres

In [None]:
names == 'Bob'

Como tiene longitud 7, podría utilizarlo para consultar las filas del array de aleatorios

In [None]:
print(data.shape)
print(names.shape)

En este caso, me estaría devolviendo aquellas filas en las que el índice booleano era True (la primera y la cuarta).

In [None]:
data[names == 'Bob']

Le puedo pedir lo mismo, pero que nos devuelva solo desde la columna 2 hasta el final

In [None]:
data[names == 'Bob', 2:]

Con != le indico que sea distinto al elemento indicado

In [None]:
names != 'Bob'

Con ~ invierto el índice o la máscara booleana. Le estoy pidiendo "lo contrario"

In [None]:
data[~(names == 'Bob')]

Otro ejemplo de aplicación de ~

In [None]:
cond = names == 'Bob'
print(cond)
print(~cond)
data[~cond]

- OJO: En Numpy, con | expreso or, y con & expreso and. 
- Acordaros que en la base de python | y & eran operaciones binarias y no debíamos hacerlas. Teníamos que usar and y or.
- Pero en Numpy debemos usar | y &. Y names es un array de numpy.

In [None]:
mask = (names == 'Bob') | (names == 'Will')
mask

De hecho, si escribimos or da error

In [None]:
mask = (names == 'Bob') or (names == 'Will')
mask

Numpy tiene un método para hacer or, si queréis usarlo. Pero lo normal es usar |

In [None]:
mask = np.logical_or(names == 'Bob', names == 'Will')
mask

In [None]:
data[mask]

Evidentemente, tiene más sentido si aplicamos estos métodos con números

In [None]:
mascara = data < 0
mascara

Podemos utilizar una máscara booleana para hacer asignaciones

In [None]:
data[mascara] = 0
data

### Indexación y slicing basado en secuencias de enteros - Fancy indexing

Generamos un array donde cada fila contiene el mismo número para que se entienda bien el ejemplo

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

Podría ordenarlo, por filas, como quisiera (ponme primero la fila 4, luego la 3, la 0 y la 6, el resto no me interesan).

In [None]:
arr[[4, 3, 0, 6]]

O hacer lo mismo, pero empezando desde el final

In [None]:
arr[[-3, -5, -7]]

## Generación de números aleatorios

- Aunque el core de Pyhton incluye un módulo <b>random</b> para llevar a cabo la generación de números aleatorios.
- NumPy permite generar directamente ndarrays de valores aleatorios en base a diversas distribuciones.
- Las funciones estan disponibles a través del submódulo <b>np.random</b>.
- Algunas de las más comunes son:


|Función|Descripcción|
|----|---|
|`seed`| Establecimiento de semilla del generador de números aleatorios.|
|`permutation`| Devuelve una permutación aleatoria de una secuencia de entrada (por copia).|
|`shuffle`| Aplica una permutación aleatoria sobre los elementos de la secuencia de entrada (sin copia).|
|`rand`|  Genera una muestra de números aleatorios utilizando una distribución uniforme.|
|`randint`|  Genera una muestra de números aleatorios enteros dentro de un rango definido.|
|`randn`|  Genera una muestra de números aleatorios utilizando una distribución normal de media 0 y desviación 1.|
|`binomial`| Genera una muestra de números aleatorios utilizando una distribución binomial.|
|`normal`| Genera una muestra de números aleatorios utilizando una distribución normal.|
|`beta`|Genera una muestra de números aleatorios utilizando una distribución beta.|
|`chisquare`| Genera una muestra de números aleatorios utilizando una distribución chi cuadrado.|
|`gamma`|  Genera una muestra de números aleatorios utilizando una distribución gamma.|
|`uniform`| Genera una muestra de números aleatorios utilizando una distribución uniforme [0, 1). |




In [None]:
samples = np.random.normal(size=(4, 4))
samples

Esta manera de generar aleatorio es mucho más rápida que el core de python

In [None]:
from random import normalvariate
N = 1000000

In [None]:
%%timeit
samples = [normalvariate(0, 1) for _ in range(N)]

In [None]:
%%timeit
np.random.normal(size=N)

Podemos definir una semilla o un estado para matener los números generados.

In [None]:
np.random.seed(1234)

RandomState es otra manera de fijar una semilla

In [None]:
rng = np.random.RandomState(1234)
rng.randn(10)

___
# Ejercicios

**2.1.1.**  Crea un vector con valores de 10 a 49 en pasos de 0.5.

**2.1.2.** Muestra su dimensión y su tipo.

**2.1.3.** Crea un array con los números que elijas de dimensiones 2x3.

**2.1.4.** Indexing y slicing:

- Crea un array unidimensional de 10 elemento aleatorios.
- Crea un array bidimensional de 10x10 elementos aletorios.
- Accede al primer elemento y al penúltimo número de cada array. 
- Para el array unidimensional: muestra todos los elementos en posiciones pares desde la posición 6. 
- Para el array bidimensional: muestra una submatriz con las dos primeras filas y las tres primeras columnas.
- Divide el array bidimensional en dos: uno con las 2 primera filas y otro con las siguientes

**2.1.5.** Crea una función que reciba como parámetro un número n y devuelva una matriz cuadrada (dos dimensiones) de nxn donde los elementos de la diagonal principal valgan 5 y el resto valgan n.

**2.1.6.** Crea una función que genere un esquema de tablero de ajedrez (con valores 1 y 0, enteros) en base a dos parámetros: la dimensión (cuadrada) del tablero n y un flag que indique si el primer elemento de la primera fila debe ser un 1 (True) o un 0 (False).

**2.1.7.** Crea una matriz de números aleatorios de 4*3 (no importa la distribución)

- Localiza con una máscara booleana aquellos números que estén por encima del percentil 90
- Usa la máscara booleana para convertir a 1 aquellos que estén por encima de dicho percentil
- Usa la máscara booleana para convertir a 0 el resto

**2.1.8.** Crea un vector de números de 1 a 10. 

- Extrae las posiciones 6 a 8 y guárdalas un un nuevo vector
- Iguala el nuevo vector a ceros
- Haz todo lo anterior, de tal forma, que no modifiques el vector original

**2.1.9.** Genera una matriz de 3x3 de números aleatorios (da igual la distribución)

- Extrae la tercera columna en un array de 2 dimensiones
- Extrae la tercera columna en un array de 1 dimensión
- Extrae el segundo y tercer elemento, de la segunda fila, en un array de 2 dimensiones
- Extrae el segundo y tercer elemento, de la segunda fila, en un array de 1 dimensión