# CURSO INTENSIVO DE NUMPY

## INSTALACIÓN

Se instala con conda install numpy

## INTRODUCCIÓN E IMPORTACIÓN

Es un paquete de computación eficiente muy enfocado al álgebra lineal.

Muy rápido porque usa muchas librerías de C.

El resto de paquetes de ML están basados en él.

Dos estructuras básicas vectores (array de una dimensión) y matrices (array de 2 dimensiones).

Como término que unifica ambos usaremos array.

In [2]:
import numpy as np

**¿Por qué Numpy?**

Ahora que ya conocemos las estructuras de datos de Python vemos que no tiene realmente ninguna realmente orientada a trabajar con cálculos de manera masiva.

Están más orientadas a almacenar y recuperar información, pero no a procesarla en grandes cantidades y de forma eficiente.

Por otro lado casi todos los métodos de análisis y de machine learning se basan en el concepto de vector.

Lo más parecido que tiene Python a un vector podría ser una lista. Pero esta carece de lo que se llaman "operaciones vectorizadas", es decir, aplicar el mismo cálculo a todos los componentes del vector, y que es clave en data science.

In [None]:
# Por ejemplo si creamos una lista y la multiplicamos por dos
# No conseguimos el efecto que seguramente estábamos esperando
lista = [1,2,3]
lista * 2

In [None]:
# Necesitaríamos usar list comprehension (o un for) para hacerlo
[elemento * 2 for elemento in lista]

In [None]:
# Sin embargo si la pasamos a un vector de Numpy sí
lista_vec = np.array([1,2,3])
lista_vec * 2

A nivel de estructura de datos Numpy utiliza el array multidimensional (array de n dimensiones)

In [3]:
v = np.array([1,2,3])
type(v)

numpy.ndarray

A nivel de tipo de dato es importante ver cómo lo define: con el tipo de dato (por ejemplo entero) más el número de bits que usa (16, 32, 64, etc.).

Es importante porque en Pandas veremos que usa la misma notación.

In [None]:
v.dtype

Que no nos confunda que Numpy sea una librería numérica. También puede haber arrays no numéricos.

Pero eso sí, **todos los componentes del array tienen que ser del mismo tipo** (que será una de las cosas que nos llevará a Pandas).

In [None]:
v = np.array(['a','b','c'])
type(v)

In [None]:
#Si ponemos de diferentes tipos vemos que los convierte para que sean del mismo tipo
v = np.array(['a',2,'c'])
v

## COMO CREAR UN ARRAY

### A PARTIR DE UNA LISTA

In [4]:
#Crear un vector a partir una lista
v = np.array([1,2,3])
v

array([1, 2, 3])

In [None]:
#Crear una matriz a partir de una lista de listas
m = np.array([[1,2,3],[4,5,6]])
m

### A PARTIR DE UN RANGO

In [None]:
#Crear un vector a partir de un rango
np.arange(1,10,2)

In [None]:
#Crear un vector interpolando entre dos números
np.linspace(1,10,20)

### CREAR UN ARRAY PREDEFINIDO

In [None]:
#Crear un array de ceros (el parámetro es una tupla con filas, columnas)
np.zeros((4,3))

In [None]:
#Crear una matriz de identidad
np.eye(5)

### CREAR UN ARRAY ALEATORIO

Con los aletorios de Python que hemos visto solamente podíamos extraer uno de cada vez.

Teniendo que hacer list comprehension para obtener toda una lista.

In [None]:
#Esto nos devuelve solo un valor
import random as rd
rd.randint(1,10)

In [None]:
#Si quierámos por ejemplo 10
[rd.randint(1,10) for cada in range(10)]

Sin embargo vamos a ver cómo con Numpy generamos directamente vectores (que podrán ser variables) que es normalmente lo que queremos.

In [None]:
#Aleatorios de 0-1 con distribución uniforme
np.random.rand(5,10)

In [None]:
#Aleatorios de distribución normal con media cero
np.random.randn(20)

In [None]:
#Aleatorios entre dos enteros (inferior, superior, tamaño)
np.random.randint(1,11,20)

In [None]:
#También es muy útil establecer una semilla
np.random.seed(1234)

## COMO TRANSFORMAR UN ARRAY

### CAMBIAR LA FORMA Y ORDENAR

In [None]:
#Ver la forma de una array
v = np.array([[1,2,3],[4,5,6]])
print(v)
v.shape

In [None]:
#Cambiar la forma de un array
v = np.arange(20)
print(v)

In [None]:
v.shape

In [None]:
v2= v.reshape(2,10)
print(v2)
v2.shape

In [None]:
#Ordenar
v = np.random.rand(10)
print(v)

In [None]:
v.sort()
v

### ESTADÍSTICOS BÁSICOS SOBRE UN ARRAY

In [None]:
#Estadísticos
v = np.arange(20)
print(v.mean())
print(np.median(v))
print(np.std(v))
print(v.var())
print(v.max())
print(v.min())
print(np.corrcoef(v,v))

In [None]:
#Localizar los índices de los estadísticos
v = np.random.randint(1,11,10)
print(v)
print(v.argmax())
v[v.argmax()]
print(v.argmin())
v[v.argmin()]

### CREAR COPIAS

In [None]:
v1 = np.arange(5)
print(v1)

In [None]:
v2 = v1
v2

In [None]:
v2[:] = 5

In [None]:
v2

In [None]:
v1

In [None]:
#Para que no modifique el original hay que decir explícitamente que quieres una copia
#Si no lo entenderá como un puntero al original (parar ahorrar memoria) y lo podrá modificar
v1 = np.arange(5)
print(v1)
v2 = v1.copy()
v2[:] = 5
print(v1)
print(v2)

## COMO INDEXAR UN ARRAY

In [None]:
#Indexar vectores
v = np.arange(11) 
print(v)
print(v[2])
print(v[2:5])

In [None]:
#Indexar matrices
#Creamos la matriz
m = np.random.rand(3,4)
print(m)

In [None]:
#Indexar matrices
#Indexar celdas

#Opción 1: con dos corchetes, el primero para las filas y el segundo para las columnas
print(m[0][0])

#Opción 2: con un solo corchete pero filas y columnas separadas por comas
print(m[0,0])

In [None]:
#Indexar matrices
#Indexar filas o columnas

#Filas
print(m[0,:])

#Columnas
print(m[:,0])

In [None]:
#Indexar matrices
#Indexar parcialmente filas o columnas

#Filas
print(m[0,0:2])

#Columnas
print(m[0:1,0])

In [None]:
#Indexar mediante vectores booleanos
#Las condiciones generan vectores booleanos
v = np.random.rand(10)
print(v)
print(v < 0.5)

In [None]:
#Indexar mediante vectores booleanos
#Usar una condición como índice filtrará directamente el vector
v = np.random.rand(10)
print(v)
v[v < 0.5]

## EJERCICIOS DE CIERRE DE MODULO

### Crear una matriz de tamaño 6x3 con valores aleatorios enteros entre 10 y 100 y obtener el valor máximo de cada fila

In [4]:
import numpy as np

m = np.random.randint(10,101,(6,3))
print(m)

print(m.max(1))

[[79 65 96]
 [14 13 84]
 [44 44 36]
 [34 44 82]
 [26 82 50]
 [28 81 43]]
[96 84 44 82 82 81]


### A partir de una lista de números, crea un array y ordénalo en orden ascendente

In [5]:
lista = [7, 2, 9, 1, 5, 3]

v = np.array(lista)
v.sort()
print(v)

[1 2 3 5 7 9]


### Genera un array de 15 valores aleatorios con distribución normal y calcula su media, desviación estándar y varianza

In [6]:
v = np.random.randn(15)
print(v.mean())
print(v.std())
print(v.var())

-0.3097192073844381
0.9365015636542618
0.8770351787268774


### Genera un array de 20 números enteros entre 1 y 50 y filtra aquellos que sean menores a 25

In [9]:
v = np.random.randint(1,51,20)
print(v)
print(v[v < 25])

[ 1 39 28 39 29  2 28 17 14  9  3 36 46  6 28 11 34 50 41  8]
[ 1  2 17 14  9  3  6 11  8]


### Crea un array secuencial de 12 elementos e intenta cambiar su forma a una matriz de 3x4 y otra de 2x6

In [10]:
v = np.arange(12)
m1 = v.reshape(3,4)
m2 = v.reshape(2,6)

print(v)
print(m1)
print(m2)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


### Construye una matriz identidad de tamaño 4x4 y extrae su primera fila y su primera columna

In [12]:
m = np.eye(4)
print(m[0,:])
print(m[:,0])

[1. 0. 0. 0.]
[1. 0. 0. 0.]


### Genera un array de 8 elementos aleatorios entre 1 y 10 y muestra el valor y la posición del máximo elemento

In [14]:
v = np.random.randint(1,11,8)
print(v)
print(v[v.argmax()],v.argmax())

[4 9 2 5 8 9 5 9]
9 1


### Crea dos arrays aleatorios del mismo tamaño y calcula su matriz de correlación

In [15]:
a = np.random.rand(10)
b = np.random.rand(10)

print(np.corrcoef(a,b))

[[ 1.       -0.163503]
 [-0.163503  1.      ]]


### Muestra los valores mayores de 0.7 en un array de 12 números aleatorios entre 0 y 1

In [16]:
v = np.random.rand(12)

print(v)
print(v[v > 0.7])

[0.7626457  0.8680354  0.64274228 0.45182171 0.71379079 0.33839481
 0.99293231 0.48316508 0.97584315 0.90332288 0.07725082 0.93694254]
[0.7626457  0.8680354  0.71379079 0.99293231 0.97584315 0.90332288
 0.93694254]


###  A partir de un array creado con arange, genera una copia, modifica sus valores y muestra ambos para verificar que el original no ha cambiado

In [18]:
v1 = np.arange(6)
print(v1)

v2 = v1.copy()
print(v1)
print(v2)

v2[:] = 9

print(v1)
print(v2)

[0 1 2 3 4 5]
[0 1 2 3 4 5]
[0 1 2 3 4 5]
[0 1 2 3 4 5]
[9 9 9 9 9 9]


## REPASO Y A RECORDAR

* Numpy es la base del análisis de datos masivo y eficiente con Python
* Y la base de paquetes posteriores como Pandas
* Sobre todo hay que conocer su estructura base: el array multidimensional
* Podemos crear arrays a partir de listas, rangos, estructuras predefinidas, distribuciones aleatorias, etc
* Los indexamos con los mismos recursos que ya conocemos, poniendo énfasis en el tema de las copias

Como lectura complementaria (y voluntaria no necesaria) para consolidar y complementar lo que hemos aprendido te recomiendo el siguiente post:

https://medium.com/better-programming/numpy-illustrated-the-visual-guide-to-numpy-3b1d4976de1d

En el cual se refuerzan estos conceptos de una forma muy gráfica que puede ayudar a su consolidación.