# NumPy

NumPy (o Numpy) es una librería muy importante dentro del ecosistema Data Science en Python.  La mayor parte de las librerías en el ecosistema PyData, dependen o se apoyan en NumPy.

Numpy es muy rápido (usa librerías C).

## Instalación

**Puesto que la instalación de Python se ha ejecutado a través de Anaconda, Numpy ya viene instalado.  Los siguientes pasos nos ayudarían a instalar Numpy en caso de no tenerlo instalado.  A través de un terminal ejecutar:**
    
    conda install numpy
    
**En el caso de no tener instalado Anaconda, consultar [Documentación oficial Numpy's.](https://scipy.org/install.html)**

## Usando NumPy

Una vez instalado NumPy, lo importamos como librería:

In [3]:
import numpy as np

Numpy tiene muchas funciones y opciones.  No podremos cubrir todas ellas, pero nos vamos a centrar en algunos de los aspectos más importantes de Numpy: vectores,arrays (conjunto de datos del mismo tipo), matrices, y generación de números.

# Arrays Numpy (Arreglos)

Los arrays en Numpy son esencialmente vectores y matrices. Los vectores son arrays de una dimensión y las matrices de 2 dimensiones (aunque podemos tener matrices de 1 fila o columna).  Son de tipado **estático** y **homogéneo**.  Son más eficientes en el uso de la memoria.  Las funciones matemáticas complejas y computacionalmente costosas (p.ej: multiplicación de matrices) están implementadas en lenguajes compilados como C o Fortran).

## Creación Arrays en Numpy

### Desde una lista

Podemos generar un array directamente convirtiendo una lista o lista de listas:

In [12]:
my_list = [1,2,3]
my_list

[1, 2, 3]

In [13]:
arr = np.array(my_list)
arr

array([1, 2, 3])

In [18]:
my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
my_matrix

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [19]:
np.array(my_matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## Métodos incluidos para la generación de Arrays

### arange

Genera un rango de datos a partir de un intervalo definido.

In [24]:
np.arange(2,11,2)

array([ 2,  4,  6,  8, 10])

In [25]:
np.arange(0,11,2)

array([ 0,  2,  4,  6,  8, 10])

In [26]:
np.arange(10,-3,-2)

array([10,  8,  6,  4,  2,  0, -2])

In [None]:
np.arange(10,-1,-3)

array([10,  7,  4,  1])

Comparación con **range()**, visto previamente.

In [30]:
a = np.arange(0,11)
b = range(11)
print (type(a))
print (type(b))
print (a)
print (*b)

<class 'numpy.ndarray'>
<class 'range'>
[ 0  1  2  3  4  5  6  7  8  9 10]
0 1 2 3 4 5 6 7 8 9 10


In [37]:
a[-1]

10

In [38]:
b[-1]

10

### Ceros y unos

Generar arrays de unos y ceros.

In [39]:
np.zeros(3)

array([0., 0., 0.])

In [40]:
np.zeros((5,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [41]:
np.ones(3)

array([1., 1., 1.])

In [42]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### linspace

Devuelve números espaciados uniformemente en un intervalo especificado.

In [44]:
np.linspace(0,10,5)  #El intervalo viene definido por el número 4.  En este caso, divide el intervalo [0-10] en 4 partes iguales.

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [None]:
np.linspace(0,10,50)

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

## eye

Crea una matriz identidad (sólo unos en la diagonal y el resto ceros)

In [None]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

## Random

Numpy tiene muchas maneras de generar arrays con números aleatorios:

### rand
Crea un array con la estructura elegida y lo rellena con datos aleatorios obtenidos a partir de una distribución uniforme.

In [55]:
np.random.rand(8)

array([0.33147673, 0.3539822 , 0.0790303 , 0.55591438, 0.16579446,
       0.29523783, 0.84060849, 0.36256201])

In [46]:
np.random.rand(5,5)

array([[8.12337656e-02, 5.62954457e-01, 2.13613836e-01, 4.38380426e-01,
        9.30556455e-01],
       [6.89208798e-01, 5.70581719e-01, 7.69654469e-01, 7.80040215e-02,
        8.65695329e-01],
       [5.24269330e-01, 5.19729383e-01, 1.43309016e-01, 2.77538438e-01,
        1.58120977e-01],
       [6.59700354e-01, 8.35860015e-01, 5.39099674e-01, 3.14505694e-01,
        6.27737828e-01],
       [7.56002988e-01, 7.96487911e-01, 1.24439824e-01, 4.10998729e-01,
        1.86997398e-04]])

In [57]:
np.random.rand(3,5,4,3)

array([[[[0.08121773, 0.95347229, 0.05573827],
         [0.59953648, 0.72299763, 0.97028972],
         [0.82156946, 0.52755107, 0.33147673],
         [0.3539822 , 0.0790303 , 0.55591438]],

        [[0.16579446, 0.29523783, 0.84060849],
         [0.36256201, 0.34081398, 0.71040174],
         [0.03170775, 0.47238787, 0.73157662],
         [0.77321577, 0.24124479, 0.30619705]],

        [[0.13664964, 0.59573572, 0.16256887],
         [0.80232721, 0.50012665, 0.05949433],
         [0.39186578, 0.6197755 , 0.18819184],
         [0.42788848, 0.08898164, 0.73263044]],

        [[0.39329936, 0.34413639, 0.39688474],
         [0.01737203, 0.468365  , 0.89325052],
         [0.16156441, 0.84445946, 0.2750683 ],
         [0.76873253, 0.83400262, 0.90129632]],

        [[0.97182492, 0.42903617, 0.68608431],
         [0.32627748, 0.79748919, 0.43452837],
         [0.51019439, 0.76332864, 0.17391915],
         [0.45244554, 0.89819137, 0.68928312]]],


       [[[0.28597   , 0.42086349, 0.56792075],
 

¿Hemos obtenido todos los mismos resultados? ¿Porqué obtenemos diferentes arrays?
Ello se debe a que no estamos usando la misma 'semilla' para generar los números aleatorios.

In [58]:
np.random.seed(33)
np.random.rand(5,5)

array([[0.24851013, 0.44997542, 0.4109408 , 0.26029969, 0.87039569],
       [0.18503993, 0.01966143, 0.95325203, 0.6804508 , 0.48658813],
       [0.96502682, 0.39339874, 0.07955757, 0.35140742, 0.16363516],
       [0.98316682, 0.88062818, 0.49406347, 0.40095924, 0.45129146],
       [0.72087685, 0.24776828, 0.62277995, 0.14244882, 0.20117628]])

In [None]:
np.random.seed(30)
np.random.rand(5,5)

array([[0.64414354, 0.38074849, 0.66304791, 0.16365073, 0.96260781],
       [0.34666184, 0.99175099, 0.2350579 , 0.58569427, 0.4066901 ],
       [0.13623432, 0.54413629, 0.51817635, 0.76685511, 0.93385014],
       [0.08970338, 0.19577126, 0.99419368, 0.2351805 , 0.23898637],
       [0.62909983, 0.73495258, 0.68834438, 0.03113075, 0.90251384]])

### randn

Devuelve una muestra (o muestras) de una distribución estándar normal, al contrario que **rand** que es uniforme:


In [59]:
np.random.randn(2)

array([ 0.13385013, -0.59741404])

In [87]:
np.random.randn(50,50).mean()

-0.010854960471675806

In [62]:
media = 2.8
desviacion = 0.8
np.random.normal(media,desviacion,10)

array([3.04364708, 3.31255582, 2.30855819, 1.47086269, 3.17633022,
       2.85465976, 3.14632836, 2.8444647 , 2.38721763, 2.28575543])

In [64]:
np.random.seed(30)
np.random.randn(10)*0.8 + 2.8

array([1.78875787, 4.02232428, 2.02343125, 3.17644769, 2.71944263,
       3.04303455, 1.41923006, 4.0680763 , 2.90743727, 1.91451563])

### randint
Devuelve enteros aleatorios entre un rango inferior (incluido) y otro superior (no incluido).  El rango inferior, debe ser menor que el rango superior.

In [92]:
np.random.randint(1,100)  # El rango estaría comprendido entre 1 y 99,99999999999999999

39

In [93]:
np.random.randint(1,100,10)  # Con el tercer argumento, nos devuelve 10 números aleatorios.

array([81, 13, 55, 20, 49, 22, 43, 25, 19, 58])

In [95]:
# np.random.randint(100,1,10) # -->Error

## Atributos y métodos en Arrays


In [96]:
np.random.seed(30)
arr = np.arange(30)
ranarr = np.random.randint(0,50,10) # El método randint devuelve un entero del rango especificado.

In [97]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [98]:
ranarr

array([37, 37, 45, 45, 12, 23,  2, 17, 46,  3])

## Reshape
Devuelve un array que contiene los mismos datos, pero con una distribución diferente.

In [99]:
arr.reshape(6,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

In [109]:
arr.reshape(30,1)

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24],
       [25],
       [26],
       [27],
       [28],
       [29]])

In [110]:
arr.reshape(1,30)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]])

### max,min,argmax,argmin

Métodos prácticos para obtener los valores máximos y mínimos, o para encontrar su índice a través de argmin o argmax

In [111]:
ranarr

array([37, 37, 45, 45, 12, 23,  2, 17, 46,  3])

In [112]:
ranarr[0] = 46

In [113]:
ranarr

array([46, 37, 45, 45, 12, 23,  2, 17, 46,  3])

In [114]:
ranarr.max()

46

In [115]:
ranarr.argmax()

0

In [116]:
ranarr.min()

2

In [117]:
ranarr.argmin()

6

In [121]:
arr1 = np.arange(10,40).reshape(6,5)

In [122]:
arr1

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39]])

In [123]:
arr1.argmax()

29

In [125]:
arr1[5,4]

39

## Shape

Shape es un atributo que devuelve una tupla con las dimensiones del array

In [130]:
# Vector
arr.shape

(30,)

In [127]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [128]:
# Atención a los 2 sets de corchetes
arr.reshape(1,30)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]])

In [None]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

En el primer caso tenemos un array unidimensional con 30 elementos,  mientras que en el segundo caso tenemos un array de 2 dimensiones(1x30, 1 fila)

In [129]:
print(arr.ndim)
print(arr.reshape(1,30).ndim)

1
2


In [131]:
arr.reshape(1,30).shape

(1, 30)

In [132]:
arr.reshape(30,1)

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24],
       [25],
       [26],
       [27],
       [28],
       [29]])

In [133]:
arr.reshape(30,1).shape

(30, 1)

In [None]:
arr.ndim

1

### dtype

El método dtype devuelve el tipo de dato en el array.

In [138]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [134]:
arr.dtype

dtype('int64')

In [136]:
np.ones((5,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [137]:
np.ones((5,5)).dtype

dtype('float64')

# NumPy Indexación y Selección

Veremos cómo seleccionar elementos o grupos de elementos de un array.

In [139]:
#Generamos un array de muestra
arr = np.arange(0,11)

In [140]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

## Indexación y selección a través de "Corchetes"
Es la manera más sencilla de seleccionar uno o varios elementos de un array.  Se parece mucho a las listas de python:

In [141]:
#Devuelve el valor existente en la posición 9 del array
arr[9]

9

In [142]:
#Devuelve los valores existentes en un rango
arr[1:5]

array([1, 2, 3, 4])

In [143]:
#Devuelve los valores existentes en un rango
arr[0:5]

array([0, 1, 2, 3, 4])

## Difusión

Los arrays en numpy tienen la propiedad de "difusión":

In [144]:
#Asignar un valor a través de un rango en el índice (difusión)
arr[0:5]=100

arr

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9,  10])

In [145]:
# Resetear el array (vemos en un momento porqué)
arr = np.arange(0,11)

arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [146]:
#Extraemos una "porción" de los datos
slice_of_arr = arr[0:6]

slice_of_arr

array([0, 1, 2, 3, 4, 5])

In [147]:
a = arr[0:6].copy()
a

array([0, 1, 2, 3, 4, 5])

In [151]:
a[:] = 100
a

array([100, 100, 100, 100, 100, 100])

In [149]:
#Cambiamos de una vez los valores existentes en la "porción" extraída
slice_of_arr[:]=99

slice_of_arr

array([99, 99, 99, 99, 99, 99])

In [152]:
arr

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

¿Qué ha pasado con el array original?.  

In [None]:
arr

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

slice_of_arr es un alias de arr (ocupan el mismo espacio de memoria) y cualquier cambio en slice_of_arr se refleja en arr

In [None]:
#Para generar una copia del array, debemos hacerlo explícitamente.
arr_copy = arr.copy()

arr_copy

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

In [None]:
arr_copy[:]=100
print (arr_copy)
print (arr)

[100 100 100 100 100 100 100 100 100 100 100]
[99 99 99 99 99 99  6  7  8  9 10]


## Indexado de matrices 2D
El formato general es **arr_2d[filas][columnas]** o **arr_2d[filas,columnas]**. La notación a través de comas, suele ser más clara.

In [165]:
arr_2d = np.array(([5,10,15],[20,25,30],[35,40,45]))

arr_2d

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [155]:
#Indexado de fila 1.  Ojo, la fila 1 es la segunda fila del array.  La primera fila es la 0.
arr_2d[0]

array([ 5, 10, 15])

In [157]:
# Extrayendo un elemento individual
arr_2d[1][0]

20

In [159]:
# Extrayendo un elemento individual
arr_2d[1,2]

30

In [166]:
# Extracción de elementos en un array 2D array.
arr_2d[:2,1:]

array([[10, 15],
       [25, 30]])

In [167]:
#Extracción de la última fila
arr_2d[2]

array([35, 40, 45])

In [174]:
#Otra forma de extraer la última fila
arr_2d[2]

array([35, 40, 45])

Última columna

In [179]:
arr_2d[:,2]

array([15, 30, 45])

In [180]:
#Generamos un nuevo array de ejemplo
arr_2d = np.arange(50).reshape(5,10)
arr_2d

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [181]:
#Extraemos las filas 2 y 3 y las columnas 4 y 5.  Recordad que la primera fila y columna es la 0
arr_2d[1:3,3:5]

array([[13, 14],
       [23, 24]])

Podemos verlo gráficamente


<img src='./logo/numpy_indexing.png' />

## Selección de elementos en un array


In [182]:
arr = np.arange(1,11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [183]:
#Devuelve un lógico con los elementos que cumplen o no la condición a evaluar.
arr > 4

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

In [198]:
print(~(arr > 4))
print(arr <= 6)
print(~(arr > 4) & (arr <= 6))

[ True  True  True  True False False False False False False]
[ True  True  True  True  True  True False False False False]
[ True  True  True  True False False False False False False]


Con `and` no funciona

In [199]:
# print(~(arr > 4) and (arr <= 6))

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [214]:
bool_arr = arr>4
filtro = (arr > 4) & (arr <= 6)
arr[filtro]

array([5, 6])

In [188]:
arr[(arr > 4) & (arr <= 6)]

array([5, 6])

In [189]:
#Podemos usar el lógico creado, para seleccionar los elementos que cumplen la condición en el array
arr[bool_arr]

array([ 5,  6,  7,  8,  9, 10])

In [190]:
#De manera directa
arr[arr>2]

array([ 3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
x = 2
arr[arr>x]

array([ 3,  4,  5,  6,  7,  8,  9, 10])

## Operaciones matemáticas

In [200]:
import numpy as np
arr = np.arange(0,11)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [201]:
#Suma de elementos de un array
arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

In [None]:
#Multiplicación
arr * arr

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100])

In [None]:
#Sustracción
arr - arr

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [202]:
# Mensaje de advertencia de división entre 0.  No es un error.  Reemplaza la advertencia por nan.  0/0 = nan
arr = np.arange(0,11)
arr/arr

  arr/arr


array([nan,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [203]:
# Nos muestra otra advertencia, pero no error.  1/0 = infinito
1/arr

  1/arr


array([       inf, 1.        , 0.5       , 0.33333333, 0.25      ,
       0.2       , 0.16666667, 0.14285714, 0.125     , 0.11111111,
       0.1       ])

In [204]:
arr**3

array([   0,    1,    8,   27,   64,  125,  216,  343,  512,  729, 1000])

In [205]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [206]:
arr[2] = arr[2]**3
arr

array([ 0,  1,  8,  3,  4,  5,  6,  7,  8,  9, 10])

## Funciones universales en arrays

El listado completo de funciones disponibles en numpy puede consultarse aquí: http://docs.scipy.org/doc/numpy/reference/ufuncs.html)
Vemos algunos ejemplos:

In [207]:
#Raíces cuadradas
np.sqrt(arr)

array([0.        , 1.        , 2.82842712, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ,
       3.16227766])

In [208]:
#Exponenciales (e^)
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 2.98095799e+03, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03, 2.20264658e+04])

In [209]:
np.max(arr) #Se obtiene el mismo resultado a través de arr.max()

10

In [210]:
np.sin(arr) #Cálculo del seno

array([ 0.        ,  0.84147098,  0.98935825,  0.14112001, -0.7568025 ,
       -0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849,
       -0.54402111])

In [211]:
np.log(arr) #Cálculo del logaritmo

  np.log(arr) #Cálculo del logaritmo


array([      -inf, 0.        , 2.07944154, 1.09861229, 1.38629436,
       1.60943791, 1.79175947, 1.94591015, 2.07944154, 2.19722458,
       2.30258509])

In [213]:
np.log2(arr) #Cálculo del logaritmo en base 2

  np.log2(arr) #Cálculo del logaritmo en base 2


array([      -inf, 0.        , 3.        , 1.5849625 , 2.        ,
       2.32192809, 2.5849625 , 2.80735492, 3.        , 3.169925  ,
       3.32192809])