#  NumPy
NumPy es una librería diseñada para el cálculo científico y las operaciones
matemáticas con estructuras de datos matriciales. Guarda algunas semejanzas con
software de parecidos propósitos como MATLAB. Al igual que se hizo en el tema
anterior, ilustraremos el uso de esta librería con ejemplos varios.

In [1]:
import numpy as np
print ('numpy_version:', np.__version__)

numpy_version: 1.18.1


NumPy es una librería diseñada para trabajar con vectores multidimensionales. Los
valores almacenados en la estructura de datos deben ser todos del mismo tipo. Las
dimensiones de la estructura de datos reciben el nombre de “axes”. Funciones útiles
para probar esta librería son:

* ndarray.ndim – número de dimensiones de la estructura vectorial.
* ndarray.shape – muestra las dimensiones del vector.
* ndarray.size – devuelve el número total de elementos.
* ndarray.dtype – devuelve el tipo de los valores contenidos en el vector.
* ndarray.itemsize – devuelve el tamaño en bytes de los elementos del vector

teniendo en cuenta su tipo.

In [6]:
import numpy as np

a = np.array([[0,1,2,3],[4,5,6,7],[8,9,10,11]])
Filas, Columnas = np.shape(a)
print('Filas:{0:03d}; Columnas:{0:03d}'.format(Filas, Columnas))# aqui imprimiremos el numero de filas y columnas
print(a)

Filas:003; Columnas:003
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
Podemos contemplar una gran variedad de tipos en los elementos del vector, incluso
valores complejos.


In [9]:
import numpy as np

b = np.array([[2,3],[6,7]], dtype = np.complex64)
print (b)

[[2.+0.j 3.+0.j]
 [6.+0.j 7.+0.j]]


En ocasiones es de especial utilidad inicializar vectores de unas dimensiones
concretas a un valor que puede ser una constante como 0 o 1, o números aleatorios.

In [12]:
import numpy as np

np.zeros((3,4))



array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

La figura siguiente muestra ejemplos de otras funciones, se copia tipos y dimensiones
en el primer caso, valores vacíos en el segundo caso (y se muestran los valores que
existan en la memoria en ese momento) y, por último, una matriz con unos en la
diagonal principal y ceros en el resto.

In [13]:
import numpy as np

np.zeros_like(b)


array([[0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j]], dtype=complex64)

In [15]:
import numpy as np

np.empty((2, 3))

array([[2.12199579e-314, 6.36598737e-314, 1.06099790e-313],
       [1.48539705e-313, 1.90979621e-313, 2.33419537e-313]])

In [16]:
import numpy as np

np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Prueba ahora a ejecutar en tu equipo el siguiente código e intenta determinar
la función de cada uno:

In [17]:
import numpy as np

np.diag(np.arange(5))#imprimira de manera diagonal segun el rango

array([[0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 2, 0, 0],
       [0, 0, 0, 3, 0],
       [0, 0, 0, 0, 4]])

In [18]:
import numpy as np

np.arange(5)# imprime el rango pero solo ina fila

array([0, 1, 2, 3, 4])

In [23]:
import numpy as np

np.tile(np.array([[6, 7],[8, 9]]), (2, 2))

array([[6, 7, 6, 7],
       [8, 9, 8, 9],
       [6, 7, 6, 7],
       [8, 9, 8, 9]])

np.arange() es una función habitual para crear secuencias numéricas. reshape() es
útil para ajustar las dimensiones de la estructura. La siguiente imagen muestra un
ejemplo:

In [25]:
import numpy as np

x = np.arange(4).reshape(2,2)
print(x)

[[0 1]
 [2 3]]


No es necesario especificar los valores del vector uno a uno, también es posible
recurrir a generadores como el siguiente.

In [27]:
# Generar una matriz
c = np.array([[10*j+i for i in range(3)] for j in range(4)])
print(c)

[[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]


Para añadir una nueva dimensión o convertir un vector fila en columna, utilizamos
las siguientes funciones:

In [30]:
#genera 5 puntos equiespaciados en tre 0 y 12
d = np.linspace(0, 12, 5)
print(d)
print(d[:, np.newaxis])

[ 0.  3.  6.  9. 12.]
[[ 0.]
 [ 3.]
 [ 6.]
 [ 9.]
 [12.]]


**MATLAB** ha sido uno de los lenguajes de referencia para el cálculo matricial. La
función de grid de MATLAB activa líneas de cuadrícula genérico en 2-D cuando se
pretende dibujar una zona del espacio. Con la función meshgrid de MATLAB el usuario
determina completamente las líneas de cuadrícula horizontales y verticales que
aparecen en una gráfica. En Python, esta función encuentra su equivalente con el
ejemplo de debajo:



In [4]:
import numpy as np

x, y = np.mgrid[0:5, 0:5]
print(x)
print("--------")
print(y)


[[0 0 0 0 0]
 [1 1 1 1 1]
 [2 2 2 2 2]
 [3 3 3 3 3]
 [4 4 4 4 4]]
--------
[[0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]
 [0 1 2 3 4]]


En diversas situaciones, se generan matrices de dimensión considerable donde la
mayor parte de los valores son cero. Almacenar dicha información según los
procedimientos habituales sería ineficiente debido a que almacenaría un gran
número de nulos (la inmensa mayoría). Por ello surgen estructuras de datos
particulares para este caso.

In [37]:

from scipy import sparse
X = np.random.random((5, 6))
X[X < 0.85] = 0
print (X)
X_csr = sparse.csr_matrix(X)
print (X_csr)


[[0.         0.         0.         0.         0.90015968 0.        ]
 [0.         0.95966101 0.         0.         0.         0.        ]
 [0.92649017 0.         0.         0.         0.         0.94154629]
 [0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.90897516]]
  (0, 4)	0.9001596834826076
  (1, 1)	0.9596610139968158
  (2, 0)	0.9264901712574322
  (2, 5)	0.9415462944696401
  (4, 5)	0.9089751574841473


In [35]:
print(x_csr.toarray())

[[0.         0.         0.         0.86433735 0.         0.        ]
 [0.97981194 0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.95962266]
 [0.         0.         0.         0.         0.         0.        ]]


# Inicialización de matrices con números aleatorios.
NumPy permite la generación de números aleatorios en base a una semilla
previamente especificada. Aunque no es obligatorio, fijar de forma previa la semilla
es útil para conseguir la replicabilidad de los resultados.

In [11]:
np.random.seed(12345)
np.random.rand(4,5)

array([[0.92961609, 0.31637555, 0.18391881, 0.20456028, 0.56772503],
       [0.5955447 , 0.96451452, 0.6531771 , 0.74890664, 0.65356987],
       [0.74771481, 0.96130674, 0.0083883 , 0.10644438, 0.29870371],
       [0.65641118, 0.80981255, 0.87217591, 0.9646476 , 0.72368535]])

In [12]:
np.random.randn(4,5)

array([[ 1.35291684e+00,  8.86429341e-01, -2.00163731e+00,
        -3.71842537e-01,  1.66902531e+00],
       [-4.38569736e-01, -5.39741446e-01,  4.76985010e-01,
         3.24894392e+00, -1.02122752e+00],
       [-5.77087303e-01,  1.24121276e-01,  3.02613562e-01,
         5.23772068e-01,  9.40277775e-04],
       [ 1.34380979e+00, -7.13543985e-01, -8.31153539e-01,
        -2.37023165e+00, -1.86076079e+00]])

En otras ocasiones, es útil realizar ciertas transformaciones de tipos, pasar de decimal
en coma flotante a entero, de entero a carácter, etc. También podemos necesitar
redondear un número.

# Cambio de tipos y redondeo.

In [14]:
a = np.array([1.7, 1.2, 1.6])
b = a.astype(int)
b

array([1, 1, 1])

In [17]:
a = np.array([1.2, 1.5, 1.6, 2.5, 3.5, 4.5])
b = np.around(a)
print (b)
c = np.around(a).astype(int)
print (c)

[1. 2. 2. 2. 4. 4.]
[1 2 2 2 4 4]


Es interesante que trabajes con la conversión de tipos de carácter a numérico y
viceversa.

El término «broadcasting» describe la forma en la que NumPy trata a los vectores de
diferentes dimensiones durante la ejecución de ciertas operaciones. En términos
generales, el vector de menor dimensión es distribuido sobre el largo para conseguir
dimensiones compatibles. Esto evita la creación de copias de los datos y favorece la
creación de programas más eficientes. No obstante, es una técnica que requiere
emplearse con cuidado ya que a veces puede ser perjudicial su uso, como ante ciertas
operaciones binarias de funcionamiento particular previamente definidas por el
usuario.
## Broadcasting in Python.

In [19]:
from numpy import array
a = array([1.0, 2.0, 3.0])
b = array([2.0, 2.0, 2.0])
a * b #multiplicar entre matrices 

array([2., 4., 6.])

In [20]:
from numpy import array
a = array([[ 0.0, 0.0, 0.0],
           [10.0,10.0,10.0],
           [20.0,20.0,20.0],
           [30.0,30.0,30.0]])

b = array([1.0, 2.0, 3.0])

a + b # suma de matrices 



array([[ 1.,  2.,  3.],
       [11., 12., 13.],
       [21., 22., 23.],
       [31., 32., 33.]])

Las operaciones del álgebra lineal básica se realizan de forma muy sencilla con
NumPy, pongamos algunos ejemplos.

In [21]:
print(x.T)

[[0.         0.97981194 0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.86433735 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.95962266 0.        ]]


In [24]:
print(x*5)
print(x+3)

[[0.         0.         0.         4.32168677 0.         0.        ]
 [4.89905969 0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         4.79811331]
 [0.         0.         0.         0.         0.         0.        ]]
[[3.         3.         3.         3.86433735 3.         3.        ]
 [3.97981194 3.         3.         3.         3.         3.        ]
 [3.         3.         3.         3.         3.         3.        ]
 [3.         3.         3.         3.         3.         3.95962266]
 [3.         3.         3.         3.         3.         3.        ]]


In [None]:
print (x*x.T)
print (np.dot(x,x.T))

Para el cálculo del determinante y de la matriz inversa hay que acudir a la librería
SciPy.
## Cálculo del determinante

In [40]:
from scipy import linalg
arr = np.array([[1,2],
                [3,4]])
linalg.det(arr)

-2.0

## Cálculo de matriz inversa

In [41]:
print (linalg.inv(arr))

[[-2.   1. ]
 [ 1.5 -0.5]]


El acceso a los datos es bastante intuitivo en función de la indexación de los datos,
veamos algunos ejemplos.

In [None]:
#Accediendo a los datos.
print(b[0, 0])
print(b[-1, -1])
print(b[:, -1])

In [None]:
Accediendo a los datos.

In [49]:
a = np.array([[10*j+i for i in range(6)] for j in range(6)])

print (a)
print ("----")
print (a[4,:4:])
print ("------")
print (a[:, 2])
print ("------")
print (a[2::2, ::2])


[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]
----
[40 41 42 43]
------
[ 2 12 22 32 42 52]
------
[[20 22 24]
 [40 42 44]]


A la hora de copiar una matriz con todos sus atributos, se puede ejecutar la siguiente
instrucción:

In [50]:
c = np.array(a, copy = True)

Como ejercicio, puedes comprobar las diferencias existentes entre la sentencia
anterior y una asignación simple del tipo c = a

## Trabajo con Pandas

Una serie de Panda es un vector unidimensional sujeto a un índice que puede
especificarse o no. Para crear una serie básica empleamos la siguiente función.

In [54]:
import pandas as pd

s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

No obstante, quizá la estructura de datos más usada de Panda sean los DataFrames.
Los DataFrames se corresponden con estructuras bidimensionales donde las
columnas están etiquetadas con su valor y pueden ser de tipos distintos. Puede
pensarse en un DataFrame como algo similar a una hoja de cálculo de Excel. De forma
opcional, un DataFrame puede tener un índice, que corresponderá a los nombres que

se desea para las filas. A continuación se muestra un ejemplo de un DataFrame donde
el índice corresponde a fechas.