# Numpy

[Biblioteca Numpy](https://docs.scipy.org/doc/numpy-1.10.0/index.html)

In [1]:
import numpy as np

In [2]:
escalar = 2
vector = [1,2,3,4]
resultado = []

for elemento in vector:
    resultado.append(escalar * elemento)
    
print(resultado)

[2, 4, 6, 8]


Sencillo no? Ahora queremos operar con matrices 

In [3]:
matriz = [[1,2,3,4],[5,6,7,8],[9,10,11,12]]
print(matriz)

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]


Vamos a intentar hacer lo mismo: multiplicar un escalar, pero esta vez por nuestra matriz: 

In [4]:
# Aquí la cosa ya se complica. Tenemos que utilizar dos iteraciones
# (bucles for) y utilizar dos listas distintas para ir
# guardando los resultados:

escalar = 2
resultado_final = []
resultado_de_cada_fila = []

for fila in matriz:
    for elemento in fila:
        resultado_de_cada_fila.append(escalar * elemento)
    # Una vez generados los resultados de cada fila
    # de la matriz, la añadimos a nuestra matriz resultado
    # final:
    resultado_final.append(resultado_de_cada_fila)
    # Y "limpiamos" la lista resultado_de_cada_fila,
    # volviendo a definirla como una lista vacía:
    resultado_de_cada_fila = []

print(resultado_final)

[[2, 4, 6, 8], [10, 12, 14, 16], [18, 20, 22, 24]]


 ### ¡Numpy al rescate!



Numpy fue diseñado para hacer este tipo de cálculos mucho más sencillos y rápidos.
Numpy nos ofrece una serie de objetos nuevos. El más importante es el array (que también verás por Internet como ndarray). Un array es similar a las listas de Python. De hecho, se puede construir un array con numpy.array(y_una_lista_de_python):

In [5]:
array = np.array([1,2,3,4])

In [6]:
# Numpy es muy listo, e infiere que si multiplicas
# un escalar por un array, es que quieres hacer
# una multiplicación de escalar x vector:
escalar = 2
resultado = escalar * array

print(resultado)

[2 4 6 8]


In [7]:
escalar = 2
matriz = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

resultado = escalar * matriz
print(resultado)

[[ 2  4  6  8]
 [10 12 14 16]
 [18 20 22 24]]


No solo es mucho más agradable de escribir, sino que encima, los Notebooks son muy listos y "reconocen" los objetos de Numpy, ve que es una matriz, y lo imprime con su forma matricial (lo cual facilita la lectura de los resultados). Y encima, resulta que la ejecución del código es mucho más rápida...

## Los tiempos de ejecución

Muchas veces nos interesa saber lo rápido que es el código que escribimos. Python nos ofrece muchas formas de medir cuánto tarda en ejecutarse un trozo de nuestro código; la forma más sencilla si estamos trabajando desde un notebook, es con el "magic method" **%timeit.**

¿Cuánto tarda la ejecución de nuestro producto de escalar por matriz hecha "a mano" con listas de Python:

In [8]:
# Vamos a meter el código dentro de una función,
# para poder pasarlo por %timeit más fácilmente.
# Pero el código es exactamente el mismo:
def escalar_por_matriz(escalar, matriz):
    resultado_final = []
    resultado_de_cada_fila = []
    for fila in matriz:
        for elemento in fila:
            resultado_de_cada_fila.append(escalar * elemento)
        resultado_final.append(resultado_de_cada_fila)
        resultado_de_cada_fila = []
    return resultado_final

In [9]:
%timeit escalar_por_matriz(2, [[1,2,3,4],[5,6,7,8],[9,10,11,12]])

4.23 µs ± 736 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


¿Cuánto tarda con Numpy?

In [10]:
# En el caso de Numpy, el código es mucho
# más cortito. No merece la pena hacer
# una función...
escalar = 2
matriz = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

In [11]:
%timeit escalar * matriz

2.08 µs ± 367 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Podemos ver que el código de Numpy es algo más rápido que el escrito a mano con listas de Python. 
Además, podría salirnos un aviso del tipo 
**The slowest run took 6.16 times longer than the fastest. This could mean that an intermediate result is being cached.100000 loops, best of 3: 14.4 µs per** 
de que resultados intermedios están siendo cacheados (lo cual indica que están teniendo lugar optimizaciones a nivel de la CPU).

Si nuestra matriz en vez de ser de dimensiones  3×4  (tres filas x cuatro columnas), fuera de dimensiones  100×100  por ejemplo... La diferencia de rendimiento es ya de órdenes de magnitud. Comprobémoslo...

In [12]:
# Generamos una matriz 100x100 de Python con listas "a mano":
matriz_100x100 = []
fila_de_la_matriz = []

for fila in range(100):
    for elemento in range(100):
        fila_de_la_matriz.append(elemento)
    matriz_100x100.append(fila_de_la_matriz)
    fila_de_la_matriz = []

Aplicamos nuestra función escalar 

In [13]:
%timeit escalar_por_matriz(2, matriz_100x100)

1.77 ms ± 88.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Y ahora multipliquemos con Numpy convirtiendo antes la matriz a arrays de Numpy

In [14]:
matriz_100x100_numpy = np.array(matriz_100x100)

In [15]:
%timeit 2 * matriz_100x100_numpy

15.4 µs ± 664 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## ¿Por qué es Numpy tan rápido?

Numpy es una bilbioteca escrita en una mezcla de **Python, C, Fortran y Cython**, principalmente. La gracia de esto es que nos trae lo mejor de ambos mundos:

Por un lado, su interfaz de alto nivel escrita en Python nos permite utilizar Numpy fácilmente desde Python (tal y como estamos viendo).
Por otro lado, el núcleo de Numpy está escrito en C, Fortran y Cython, lo cual nos ofrece enormes ganacias de velocidad y eficiencia en memoria RAM para nuestras operaciones matemáticas complejas.
Y no solo eso: Numpy es una biblioteca que, a su vez, utiliza otras bibliotecas a muy bajo nivel (literalmente escritas en ceros y unos en algunos casos) que permiten exprimir todo el rendimiento de nuestro procesador. Ejemplos de estas bilbiotecas son LAPACK, BLAS e Intel MKL. Estas bibliotecas permiten optimizar las operaciones a nivel de procesador, evitando bucles for internos, y organizando nuestros vectores y matrices de forma contigua en los transistores de la CPU, incluso paralelizando automáticamente el código para aprovechar todos los núcleos de nuestro ordenador sin que nosotros tengamos que hacer nada.

Así que a niveles efectivos, Numpy no es solo mucho más rápido que las listas de Python, sino que llega a ser más rápido que una implementación de operaciones matriciales escrita a mano en C o C++ (a menos que seas un/una experto/a en C y computación científica a bajo nivel).



## ¿Y comparado con otros lenguajes?

R: Depende de con qué comparemos. No obstante, incluso comparando contra soluciones comerciales, el rendimiento de Numpy es excepcional. Vamos uno por uno:

R: El núcleo de R está también programado en lenguajes de bajo nivel como C, C++ y Fortran. De hecho, algunas partes del lenguaje también aprovechan Atlas y BLAS. El rendimiento de R es difícil de medir, puesto que hay una gran cantidad de pequeñas bibliotecas; a diferencia de Python, donde las bibliotecas para computación científica y matemática son menos en número, pero más extensas. Para operaciones sencillas de álgebra lineal, Python con Numpy es en mis pruebas entre 3 y 10 veces más rápido; principalmente porque la gestión de memoria de R no es la más eficiente del mundo (los tipos de datos de R tienen un poco de overhead, lamentablemente). La guerra entre R y Python por el trono de mejor lenguaje para análisis de datos se libra día a día; en Internet podrás ver cientos de foros y discusiones de estilo: "R vs Python", o: "Por qué mi-lenguaje-favorito-de-los-dos es mucho mejor que el-otro". Aquí hay un ejemplo (bastante abierto al diálogo comparado con otros).

**MATLAB**: MATLAB, al igual que R y Python, es un lenguaje interpretado que aprovecha bilbiotecas de C. No obstante, la base de código de MATLAB tiene ya más de 30 años, y se nota. Existen partes del compilador escritas en ensamblador, en C, Java e incluso Python. En la práctica, MATLAB es del orden de 20 y 50 veces más lento que Numpy con multiplicación de matrices. MATLAB destaca por su sencillez y bibliotecas externas visuales y de automatización, lo cual lo hace un lenguaje ideal para prototipar y experimentar.

**SAS Base**: Misma historia que con MATLAB, solo que para encontrar el origen de la base de código para el compilador SAS no tenemos que remontarnos treinta años atrás, sino casi cuarenta. Si bien resulta complicado hacer pruebas con código equivalente (debido a la completamente distinta sintaxis de Base), mi experiencia en clientes que tenían SAS me dice que es probablemente el entorno de ejecución más lento de esta lista. SAS destaca sobre todo por su sencillez de uso, entorno integrado y soporte técnico; pero no es una herramienta de computación al nivel del resto de las mencionadas aquí.

**Spark**: en realidad, Spark juega en una liga distinta en lo que a análisis de datos se refiere. Spark está pensando para cantidades de datos que el resto de programas listados no pueden digerir. Regla común: si tus datos son analizables con R/Python(Numpy) sin obtener preciosos MemoryError o similares, olvídate de Spark, porque será más lento que los dos lenguajes. Si obtienes los MemoryError, Spark es la solución (recomendación así a muy grandes rasgos).

Para entender mejor el rendimiento de Numpy y de la computación matricial en sí, recomiendo leer **High Performance Python, de Micha Gorelick e Ian Ozsvald (O'Reilly Media), Capítulo 6.**

## ¿Funciones Básicas?

#### Creación de arrays

In [16]:
enteros_y_decimales = np.array([1, 2.3, 5, 6.7])
print(enteros_y_decimales)

[1.  2.3 5.  6.7]


#### Tipo de dato de elementos de un array

In [17]:
enteros_y_decimales.dtype

dtype('float64')

#### Dimensiones de una matriz

In [18]:
mi_matriz = np.array([[1,2], [3,4], [5,6]])
print(mi_matriz)
mi_matriz.shape

[[1 2]
 [3 4]
 [5 6]]


(3, 2)

### Otras formas de crear arrays

In [19]:
#Matriz de ceros
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [20]:
# Matriz de unos
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [21]:
#Matriz identidad
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [22]:
# Generación de datos uniformes 
np.arange(3,14)

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13])

In [23]:
#Podemos pasarle un tercer argumento para definir que vaya saltando. 
#Funcionaría como la built-in range de Python
np.arange(3,14,2)

array([ 3,  5,  7,  9, 11, 13])

In [28]:
# Transformar array unidimensional en una matriz 
mi_vector = np.arange(0,15)
print(mi_vector)
mi_vector.reshape((5,3))

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [29]:
mi_vector.reshape((3,5))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

## Operaciones con Numpy

In [30]:
# Transponer una matriz
mi_matriz = np.arange(5,15).reshape((5,2))
mi_matriz

array([[ 5,  6],
       [ 7,  8],
       [ 9, 10],
       [11, 12],
       [13, 14]])

In [31]:
mi_matriz.T

array([[ 5,  7,  9, 11, 13],
       [ 6,  8, 10, 12, 14]])

En Numpy existen una serie de funciones llamadas funciones universales o ufuncs. Estas funciones pueden actuar sobre uno o más arrays (dependiendo de cuál), que nos permiten hacer operaciones frecuentes sobre cada uno de los elementos del array

#### Raiz Cuadrada

In [32]:
# La raíz cuadrada de cada elemento de la matriz la 
# obtenemos con np.sqrt(array):
np.sqrt(mi_matriz)

array([[2.23606798, 2.44948974],
       [2.64575131, 2.82842712],
       [3.        , 3.16227766],
       [3.31662479, 3.46410162],
       [3.60555128, 3.74165739]])

### Máximo elemento de dos matrices

In [33]:
# Otras ufuncs necesitan de varios arrays.
# generamos otra de las mismas dimensiones
# que mi_matriz (5 x 2):
mi_otra_matriz = np.array([[1,18], # Aprovecho para mostrar que
                           [12,6], # podemos escribir así las
                           [9,11], # matrices; nos puede ayudar
                           [13,15],# a ver mejor lo que ponemos.
                           [0,1]]
                         )
print(mi_matriz)
print("")
print(mi_otra_matriz)

[[ 5  6]
 [ 7  8]
 [ 9 10]
 [11 12]
 [13 14]]

[[ 1 18]
 [12  6]
 [ 9 11]
 [13 15]
 [ 0  1]]


In [34]:
# Usamos la ufunc np.maximum
np.maximum(mi_matriz, mi_otra_matriz)

array([[ 5, 18],
       [12,  8],
       [ 9, 11],
       [13, 15],
       [13, 14]])

Existen bastantes más funciones universales(ufuncs) , lista completa [aquí](https://docs.scipy.org/doc/numpy-1.10.0/reference/ufuncs.html#available-ufuncs)

## Indexado y slicing

Ya sabemos cómo acceder al elemento número n de una lista de Python. Si tenemos una lista, y queremos obtener el tercero:

In [35]:
mi_lista = ["perro", "gato", "loro", "lince", "python", "oso", "equidna"]

# Tanto las lista de Python como los
# arrays de Numpy empiezan contando
# por 0. Así que para acceder al
# tercer elemento, será el que
# tiene el índice 2:
mi_lista[2]


'loro'

Y sabemos hacer slices:

In [36]:
# Un slice coge el elemento de la izquierda
# incluído, y el de la derecha sin incluir:
mi_lista[3:6]

['lince', 'python', 'oso']

En Numpy, estas operaciones son muy similares:

In [37]:
mi_array = np.array(mi_lista)
mi_array

array(['perro', 'gato', 'loro', 'lince', 'python', 'oso', 'equidna'],
      dtype='<U7')

In [38]:
print(mi_array[2])
print(mi_array[3:6])

loro
['lince' 'python' 'oso']


También podemos sobreescribir elementos de un array utilizando slices:

In [39]:
mi_array[3:6] = "tigre"
print(mi_array)

['perro' 'gato' 'loro' 'tigre' 'tigre' 'tigre' 'equidna']


Lo interesante viene cuando tenemos arrays de mayor orden dimensional (es decir, matrices). Podemos ver que:

In [40]:
# Recordamos una de nuestras matrices de antes:
mi_matriz

array([[ 5,  6],
       [ 7,  8],
       [ 9, 10],
       [11, 12],
       [13, 14]])

In [41]:
mi_matriz[2]

array([ 9, 10])

Al igual que en Python cuando teníamos una lista de listas, podemos acceder a un elemento en particular en Numpy con doble indexado:

In [42]:
# Si quiero el segundo elemento de
# la tercera fila:
mi_matriz[2][1]

10

En Numpy además, podemos ahorrarnos corchetes utilizando la siguiente notación equivalente con comas:

In [43]:
# Equivalente a mi_matriz[2][1]:
mi_matriz[2,1]

10

La sintaxis para llegar desde/hasta X elemento, es igual que en listas de Python también:

In [44]:
print(mi_array)
print(mi_array[:4])
# Si ponemos [:] sin más, nos
# devolverá el array íntegro:
print(mi_array[:])

['perro' 'gato' 'loro' 'tigre' 'tigre' 'tigre' 'equidna']
['perro' 'gato' 'loro' 'tigre']
['perro' 'gato' 'loro' 'tigre' 'tigre' 'tigre' 'equidna']


Y es igual en más dimensiones, solo que requiere pensarlo bien:

In [45]:
# Queremos que nos devuelva solo la primera columna,
# de forma que queremos que el primer índice (el de
# las filas) nos lo deje íntegro, y que nos haga el
# slicing por el elemento 0 (primero) del segundo 
# índice, que es el de las columnas. Quizás te cueste
# un poco verlo, pero es así:
mi_matriz[:,0]

array([ 5,  7,  9, 11, 13])

#### Indexado Booleano

El indexado en Numpy es una herramienta mucho más potente que en el Python estándar. Podemos utilizarlo por ejemplo para hacer "preguntas" a los arrays. Supongamos el siguiente array:

In [46]:
un_array = np.array(["Julio", "Jose", "Alberto", "Julio", "Nuria", "Daniel"])
un_array

array(['Julio', 'Jose', 'Alberto', 'Julio', 'Nuria', 'Daniel'],
      dtype='<U7')

Con la siguiente notación, podemos preguntarle al array: ¿Cuáles de tus elementos cumplen X condición?

El resultado es un array, de las dimensiones y tamaño de la original, con True y False en cada posición:

In [47]:
un_array == "Julio"

array([ True, False, False,  True, False, False])

Los arrays pueden utilizarse para indexar arrays:

In [48]:
# Si pasamos a un array como argumento de slice
# (es decir, dentro de [ ]) un array de booleanos,
# el resultado es un array filtrado, únicamente con
# los elementos que por posición, quedaría en un True.
# Para verlo, vamos a crear a mano un array sencillito,
# y otro de booleanos:
array_corto = np.array([0,1,2,3])
array_booleanos = np.array([True, False, True, False])

# De la misma longitud. Qué sucede si hacemos:
array_corto[array_booleanos]

array([0, 2])

Podemos utilizar esta combinación de "hacer preguntas" a los arrays (lo cual genera un nuevo array de booleanos) junto con el slicing para filtrar de forma muy rápida (y eficiente) un array de cualquier tipo. Volviendo al ejemplo del array de nombres:

In [49]:
un_array

array(['Julio', 'Jose', 'Alberto', 'Julio', 'Nuria', 'Daniel'],
      dtype='<U7')

In [50]:
# Me quiero quedar solo con los elementos que sean "Julio":
un_array[un_array == "Julio"]

array(['Julio', 'Julio'], dtype='<U7')

Evidentemente, también es ultraútil para realizar filtrados numéricos:

In [51]:
array_numerico = np.arange(20, 50)
array_numerico

array([20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36,
       37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])

In [52]:
# Quiero filtrar y quedarme con números mayores que 31.5:
array_numerico[array_numerico >= 31.5]

array([32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48,
       49])

Si quiero encadenar condiciones en estas preguntas a los arrays

In [53]:
#Me quiero quedar con los números entre 31.5 y 42:
array_numerico[(array_numerico >= 31.5) & (array_numerico < 42)]

array([32, 33, 34, 35, 36, 37, 38, 39, 40, 41])

Podemos utilizar esta técnica para una operación muy común, que puede ser convertir los números negativos de un dataset a 0:

In [54]:
mi_matriz = np.arange(-15, 15).reshape((5,6))
mi_matriz

array([[-15, -14, -13, -12, -11, -10],
       [ -9,  -8,  -7,  -6,  -5,  -4],
       [ -3,  -2,  -1,   0,   1,   2],
       [  3,   4,   5,   6,   7,   8],
       [  9,  10,  11,  12,  13,  14]])

In [55]:
mi_matriz[mi_matriz < 0] = 0 # Hago el slice, y reasigno a 0 dichos valores
mi_matriz

array([[ 0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  1,  2],
       [ 3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14]])

Dominar el slicing e indexing en Numpy es una herramienta esencial, que nos puede quitar muchos quebraderos de cabeza en el futuro. En el caso particular de slicing e indexado, la práctica lleva a la perfección.



## Métodos estadísticos con Numpy

In [56]:
mi_array = np.arange(0,11)
mi_array

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [57]:
print(mi_array.sum()) # Suma
print(mi_array.mean())# Media
print(mi_array.var()) # Varianza
print(mi_array.std()) # Desviación típica
print(mi_array.min()) # Mínimo
print(mi_array.max()) # Máximo

55
5.0
10.0
3.1622776601683795
0
10


También podemos ordenar los elementos de un array 

In [58]:
un_array = np.array([3,12,4,54,34,12,1,0,-4,3])
un_array

array([ 3, 12,  4, 54, 34, 12,  1,  0, -4,  3])

In [59]:
np.sort(un_array)

array([-4,  0,  1,  3,  3,  4, 12, 12, 34, 54])

Si la queremos de mayor a menor, nos toca revertir el array. 

In [60]:
np.sort(un_array)[::-1]

array([54, 34, 12, 12,  4,  3,  3,  1,  0, -4])

[Segundo Ejemplo de este link](https://docs.scipy.org/doc/numpy-1.10.1/reference/arrays.indexing.html#basic-slicing-and-indexing)

## Algebra Lineal con Numpy

#### Multiplicación de Matrices

In [61]:
# Creamos las matrices A y B:
A = np.arange(1,13).reshape((3,4))
B = np.arange(1,13).reshape((4,3))
print(A)
print("")
print(B)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [62]:
A_por_B = A.dot(B)
A_por_B

array([[ 70,  80,  90],
       [158, 184, 210],
       [246, 288, 330]])

In [63]:
# Efectivamente el resultado es una
# matriz de dimensiones 3x3:
A_por_B.shape

(3, 3)

La multiplicación de matrices, a diferencia de la de escalares, NO es conmutativa. Es decir: no es lo mismo  A⋅B  que  B⋅A :

In [64]:
B.dot(A)

array([[ 38,  44,  50,  56],
       [ 83,  98, 113, 128],
       [128, 152, 176, 200],
       [173, 206, 239, 272]])

Cambia tanto el resultado como las dimensiones de la matriz resultado.

### Inversa de una matriz

In [70]:
matriz_cuadrada = a = np.array([[1., 2.], [3., 4.]])
matriz_cuadrada

array([[1., 2.],
       [3., 4.]])

In [71]:
# Utilizamos np.linalg.inv(la_matriz):
np.linalg.inv(matriz_cuadrada)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

Otras funciones de álgebra lineal realizables desde Numpy [aquí](https://docs.scipy.org/doc/numpy-1.10.0/reference/routines.linalg.html)

### Concatenado de arrays y matrices

In [72]:
una_matriz = np.array([[1,2,3],[4,5,6],[7,8,9]])
una_matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Y tenemos un vector 

In [73]:
un_vector = np.array([41,42,43])
un_vector

array([41, 42, 43])

Y queremos añadirlo como cuarta columna en este caso. 

In [74]:
np.concatenate((una_matriz, un_vector.reshape(3,1)), axis=1)

array([[ 1,  2,  3, 41],
       [ 4,  5,  6, 42],
       [ 7,  8,  9, 43]])

Ojo: Probablemente hayas visto que hemos hecho un .reshape() en nuestro vector, y te preguntes por qué. Resulta que para Numpy, el siguiente vector:

In [75]:
un_vector

array([41, 42, 43])

In [76]:
un_vector.reshape(3,1)

array([[41],
       [42],
       [43]])

No son exactamente iguales. El primero es un array de dimensiones (3,), donde la segunda dimensión está vacía; mientras que el segundo es un array de dimensiones (3,1), es decir, una matriz hecha y derecha, que resulta tener una única columna.

Si bien en lenguaje popular y notación matemática ambos elementos son básicamente lo mismo (un vector con tres elementos), Numpy se nos puede quejar, porque para él el primero es un array sin dimensión que resulta tener tres elementos, y el segundo es una matriz real.

En muchas ocasiones podemos toparnos con errores y excepciones relacionados con la dimensión de nuestros arrays (al intentar sumar, concatenar, multiplicar, etcétera). Para solucionar estos problemas, suele ser útil tener en cuenta esta distinción, y hacer reshape() para convertir entre ambos formatos.

Vemos que para añadir columnas, se hace con axis=1 como hemos visto, para añadir el vector como fila, se hace con axis=0:

In [77]:
np.concatenate((una_matriz, un_vector.reshape(1,3)), axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [41, 42, 43]])

Y en este caso, necesitamos hacer el .reshape() al revés, como acabamos de ver.

La concatenación es muy importante y se utiliza mucho para añadir columnas/filas a una matriz o dataset ya existente.

## Operaciones con números aleatorios

Al igual que la biblioteca estándar de Python, Numpy tiene su propio módulo para generar números aleatorios y pseudoaleatorios a través de np.random. Por ejemplo: podemos generar datos pertenecientes a una distribución normal con np.random.normal(media, desvtip, (filas, columnas)):

In [78]:
normal = np.random.normal(0, 1, (10,3))
normal

array([[-0.52561629, -0.75361863,  0.72260561],
       [-0.15581166, -1.8302789 ,  0.12212706],
       [ 0.55985875,  0.68052592,  3.39332986],
       [-0.32566485,  0.3455661 ,  0.08800869],
       [ 0.17399685, -1.69198096,  1.17613952],
       [-1.45490233, -1.4418313 , -0.98946443],
       [ 2.22465942, -1.74721964,  0.20133817],
       [-0.69562639, -0.73194508,  0.4022099 ],
       [-0.75779397,  0.5389513 ,  0.95142337],
       [-0.22190644,  0.98273588,  2.08184045]])

In [79]:
# Comprobamos que la media está cercana a 0,
# y la desviación típica a 1:
print(normal.mean())
print(normal.std())

0.04405519893645685
1.197436075079502


También podemos generar arrays de números enteros entre dos valores con np.random.randint(minimo, maximo, (filas, columnas)) (mínimo incluido, máximo excluído):

In [80]:
numeros_entre_0_y_10 = np.random.randint(0,11, (4,3))
numeros_entre_0_y_10

array([[ 1,  6,  9],
       [ 3,  2,  6],
       [10,  8,  3],
       [10,  3,  2]])

Otra función muy útil es generar distribuciones aleatorias uniformes entre dos valores (similar a np.random.randint, pero con números decimales).

La lista completa de numpy.random está [aquí](https://docs.scipy.org/doc/numpy-1.10.0/reference/routines.random.html). 
No obstante, Scipy también es capaz de generar dichas distribuciones, y obtener mucho más partido de ellas con su módulo estadístico [scipy.stats](https://docs.scipy.org/doc/scipy/reference/stats.html)

## Algunos ejercicios para el que quiera practicar Numpy

### 1. Multiply a 5x3 matrix by a 3x2 matrix 

### 2. How to round away from zero a float array ?

In [None]:
Z = np.random.uniform(-10,+10,10)

### 3. Extract the integer part of a random array using 5 different methods

In [None]:
Z = np.random.uniform(0,10,10)

### 4. Create a 5x5 matrix with row values ranging from 0 to 4

### 5. Consider a generator function that generates 10 integers and use it to build an array

### 6. Create a vector of size 10 with values ranging from 0 to 1, both excluded

### 7. Create a random vector of size 10 and sort it

### 8. How to sum a small array faster than np.sum?

### 9. Make an array immutable (read-only)

### 10. Consider a random 10x2 matrix representing cartesian coordinates, convert them to polar coordinates

### 11. Given two arrays, X and Y, construct the Cauchy matrix C (Cij = 1/(xi - yj))

### 12. How to find the closest value (to a given scalar) in an array?

### 13. How to convert a float (32 bits) array into an integer (32 bits) in place?

### 14. Subtract the mean of each row of a matrix

In [None]:
X = np.random.rand(5, 10)

### 15. How to tell if a given 2D array has null columns?

In [None]:
Z = np.random.randint(0,3,(3,10))