# Numpy para Ciencia de Datos

Numpy es una biblioteca fundamental para la computación científica en Python

**Listas**

Es una colección de elementos que pueden contener elementos de múltiples tipos de datos.

**Array**

Una matriz o array (arreglo) es un vector que contiene elementos homogéneos, es decir, elementos que pertenecen al mismo tipo de datos.

***Creando nuestro primer array***

Importamos la librería

In [6]:
import array as ar

Creamos la variable matriz y le asignamos un array. Recuerde que primero debe indicar, entre comillas simples, el tipo de dato que se almacenará dentro del array. En este caso, los valores que almacenaremos serán enteros, por lo que colocaremos la letra "i". Para los otros tipos de datos se usan las siguientes letras:

- Entero (int) : ' i '
- Flotante (float): ' f '
- Booleano (bool): ' b '
- Cadena (string): ' s '

In [11]:
matriz = ar.array('i',[1,2,3,4,5])

Ahora imprimimos nuestra primera matriz o array utilizando el comando "print"

In [12]:
print(matriz)

array('i', [1, 2, 3, 4, 5])


Observamos que el programa nos ha impreso todos los valores del array incluyendo el elemento que identifica el tipo de dato

Para poder imprimir solo los valores de la matriz, debemos utilizar un bucle. En este caso particular, utilizaremos el bucle for.

In [13]:
for ar in matriz:
    print(ar)

1
2
3
4
5


Ahora si sólo se imprimieron los datos numéricos de la matriz

Sin embargo, ahora crearemos el array utilizando la librería **Numpy**

En primer lugar, como casi siempre en Python, necesitamos importar la librería, en este caso, la librería numpy

In [3]:
import numpy as np

Por convención, a la librería numpy se le denomina np una vez que es importada en el programa

Abajo, crearemos la matriz mediante el comando **array** de la librería *numpy*

In [16]:
matriz = np.array([1,2,3,4,5])

Si lo imprimimos...

In [17]:
print(matriz)

[1 2 3 4 5]


Podemos observar que numpy nos da muestra de una mejor forma la matriz o array





**Diferencia entre una lista y un array**

Para ver la diferencia que hay entre una lista y un array. Vamos a utilizar el siguiente ejemplo.

En primer lugar, vamos a escribir ambas estructuras

In [3]:
lista = [1,3,5]  #numeros impares en una lista
matriz = np.array([2,4,6])  #numero pares en un array

Imprimimos...

In [4]:
print(lista)
print(matriz)

[1, 3, 5]
[2 4 6]


Si queremos añadir un elemento a la lista, utilizaremos la función *append*

In [5]:
lista.append(7)

In [6]:
print(lista)

[1, 3, 5, 7]


Observamos que se agregó el elemento sin problemas. Esto sucede debido a que la lista es una colección de datos, por lo que se le pueden añadir o sustraer elementos.
Ahora, tratemos de hacer lo mismo con el *array*

In [7]:
matriz.append(8)

AttributeError: 'numpy.ndarray' object has no attribute 'append'

Observamos que el programa nos arroja un error. Esto es debido a que en numpy, las matrices requieren otras funciones para poder trabajar con ellas.

Si utilizamos el simbolo **" + "** para añadir un elemento a la matriz...

In [8]:
matriz = matriz + np.array([8])

Con ello esperamos haber agregado el número 8 a la secuencia de numeros que ya teníamos en la matriz. Imprimimos el resultado

In [9]:
print(matriz)

[10 12 14]


Observamos que el resultado no es el esperado. El valor del segundo elemento (8) se está sumando a cada valor individual de la matriz

2 + 8 = 10

4 + 8 = 12

6 + 8 = 14

Cada uno de los valores de una matriz es independiente. Esto se debe a que cada elemento dentro de una matriz en numpy son ubicados en un espacio en la memoria del ordenador. Esto quiere decir que vamos a poder agregar elementos, eliminar elementos y modificar elementos de una manera sencilla

**Listas:** no se puede manejar operaciones aritméticas directamente

**Matrices:** se puede manejar operaciones aritméticas directamente

**Sumamos listas**

In [10]:
a = [1,2,3]
b = [4,5,6]

print(a+b)

[1, 2, 3, 4, 5, 6]


Se han combinado las listas *a* y *b*, no se han sumado

**Sumamos matrices**

In [15]:
a = np.array([1,2,3])
b = np.array([4,5,6])

print(a+b)

[5 7 9]


El resultado nos muestra la suma de cada elemento de cada matriz

1 + 4 = 5

2 + 5 = 7

3 + 6 = 9

**Multiplicando matrices**

In [16]:
print(a*b)

[ 4 10 18]


Del mismo modo que con la suma, ha multiplicado cada elemento de manera independiente

Pocos elementos --> utiliza lista
Muchos elemento --> utiliza un array de numpy

Esto con el fin de tener un mejor rendimiento de la memoria

**Creamos una matriz en 2D**

In [14]:
m2d = np.array([[1,2,3],[4,5,6]])

In [15]:
print(m2d)

[[1 2 3]
 [4 5 6]]


De esta manera se creó una matriz de 2 x 3. 2 filas y 3 columnas

***EJERCICIO***

Tomaremos una lista y desde ella, crearemos una matriz

In [17]:
lista = [1,2,3,4,5,6]
matriz = np.array(lista)
print(matriz)

[1 2 3 4 5 6]


Se observa que la matriz ha tomado los valores de la lista

Funciona de la misma manera para matrices en 2D

In [19]:
lista = [[1,2,3],[4,5,6],[7,8,9]]
matriz = np.array(lista)
print(matriz)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Otra forma de crear una matriz es brindando el número de elementos y la forma de la matriz a través del uso de los comandos ***arange*** y ***reshape*** respectivamente

In [21]:
matriz = np.arange(10).reshape(2,5)
print(matriz)

[[0 1 2 3 4]
 [5 6 7 8 9]]


Tomemos en cuenta que el producto de los valores de *reshape* debe ser igual al número de elementos de la matriz introducidos en la función *arange*. De otra manera nos dará error.

In [22]:
matriz = np.arange(10).reshape(3,5)

ValueError: cannot reshape array of size 10 into shape (3,5)

Para obtener el número de filas y columnas de una matriz utilizamos la función ***shape***

In [24]:
print(matriz.shape)

(2, 5)


Para obtener el número de ejes de la matriz utilizamos ***ndim***

In [25]:
print(matriz.ndim)

2


***size*** nos brinda el número de elementos dentro de la matriz

In [26]:
print(matriz.size)

10


En muchos ejercicios de álgebra lineal, necesitarás utilizar matrices con ceros. Para ello utilizaremos el comando ***zeros***

In [28]:
m = np.zeros((3,4))
print(m)
print(m.size)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
12


También tenemos la posibilidad de crear una matriz que tenga un valor inicial, un valor final y una cantidad de elementos.

Por ejemplo crearemos una matriz con las siguientes especificaciones

Valor inicial = 5

Valor final = 20

Cantidad de elementos = 4

In [32]:
m = np.linspace(5,20,4)
print(m)

[ 5. 10. 15. 20.]


**Crear matriz 3D**

Ahora crearemos una matriz con 3 dimensiones

In [37]:
m = np.arange(27).reshape(3,3,3)
print(m)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]


¿Cómo  podemos hallar el elemento de una determinada posición de la matriz?

Para realizar esto usamos el siguiente codigo

In [41]:
m = np.arange(24).reshape(4,6)
print(m[1,3])
print(m)

9
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]


Para odenar una matriz *unidimensional*, podemos utilizar la función **sort**

In [44]:
m1 = np.array([50,49,2,10,89,13])
m1 = np.sort(m1)
print(m1)

[ 2 10 13 49 50 89]


Para que cada elemento se eleve a una determinada potencia utilizaremos la función **power**

In [47]:
m1 = np.array([3,4])
print(np.power(m1,3))

[27 64]


Podemos incluir una condición a la matriz con el siguiente código:

In [48]:
m1 = np.array([1,5,7,8,3,4])
print(np.array(m1 >=4))

[False  True  True  True False  True]


Para hallar el valor máximo y mínimo de una matriz:

In [52]:
m1 = np.array([1,5,7,8,3,4])

print(np.array(m1.max()))
print(np.array(m1.min()))

8
1


Ahora sumaremos dos matrices de dos dimensiones

In [4]:
m1 = np.array([[1,2],[4,7]])
m2 = np.array([[2,2],[3,4]])

print(m1+m2)

[[ 3  4]
 [ 7 11]]


También podemos sumar un escalar a la matriz.

In [7]:
print(m1 + 2)

[[3 4]
 [6 9]]


Observamos que los resultados varían a comparación del anterior. El número 2 se ha sumado a cada elemento de la matriz ***m1***.

<h4>Algunas funciones</h4>

Función para sumar **add**

In [8]:
print(np.add(m1,m2))

[[ 3  4]
 [ 7 11]]


Función para restar **subtract**

In [10]:
print(np.subtract(m1,m2))

[[-1  0]
 [ 1  3]]


Función para multiplicar **multiply** *Ojo: multiplicación matricial*

In [11]:
print(np.multiply(m1,m2))

[[ 2  4]
 [12 28]]


Función para dividir **divide**

In [18]:
print(np.divide(m1,m2))

[[0.5        1.        ]
 [1.33333333 1.75      ]]


Función para multiplicación escalar **dot**

In [13]:
print(m1.dot(m2))

[[ 8 10]
 [29 36]]


<h3>Números aleatorios</h3>

<h4>Definición</h4>

Los números aleatorios son aquellos que pueden ser generados a partir de fuentes de aleatoriedad, las cuales, generalmente, son de naturaleza física (dados, ruletas, mecanismos electrónicos o mecánicos), y son gobernados por las leyes del azar; estos exhiben verdadera aleatoriedad en la realización de experimentos.

***Ejemplos***

Vamos a generar un número aleatorio utilizando la función *random* de la librería **numpy**

In [26]:
import numpy as np

m = np.random.randint(10)

print(m)

2


La función ***randint*** genera un número aleatorio de tipo entero no mayor al número que se le pasa como parámetro o argumento. En este caso específico, el número *10*.

Si queremos generar una matriz *unidimensional* con 6 elementos aleatorios, añadiremos el parámetro size

In [34]:
m = np.random.randint(20,size=(6))

print(m)

[13  4  2 18  3 15]


Ahora generaremos una matriz *bidimensional* con elementos aleatorios

In [38]:
m = np.random.randint(5,size=(2,2))

print(m)

[[1 4]
 [3 3]]


Para generar números decimales aleatorios utilizaremos la función **rand** 

In [39]:
m = np.random.rand(5)

print(m)

[0.85067259 0.09956193 0.74112671 0.66764191 0.91837104]


Hemos generado 5 valores aleatorios decimales

Generamos una matriz *3 x 3* con números decimales aleatorios

In [40]:
m = np.random.rand(3,3)

print(m)

[[0.90418799 0.64419077 0.35848127]
 [0.57492212 0.90427471 0.76991454]
 [0.62335791 0.59463717 0.71735755]]


**Choice**

Función que nos permite seleccionar un elemento aleatorio de una matriz

In [51]:
m = np.random.choice([3,4,2,1,3,3,7])

print(m)

1


Con esta función también podemos obtener una matriz con elementos seleccionados

In [53]:
m = np.random.choice([3,2,6,3],size=(2,4))

print(m)

[[3 2 6 3]
 [3 6 3 3]]


<h3>Distribución de probabilidad</h3>

<h4>Definición</h4>

Es un modelo teórico que describe la forma en que varían los resultados de un experimento aleatorio, es decir, nos da todas las probabilidades de todos los posibles resultados que podrían obtenerse cuando se realiza un experimento aleatorio.

Otra definición dice "es un conjunto de números aleatorios que siguen una determinada función de densidad de probabilidad"

El experimento aleatorio más usado porque explica de una manera sencilla la probabilidad es *el lanzamiento del dado*

***Ejemplo***

*¿Cuál es la probabilidad de sacar un número par?*

**espacio muestral** = {1, 2, 3, 4, 5, 6}

**espacio de evento (pares)** = {2,4,6}

**espacio de evento / espacio muestral** = 3 / 6 = 1 / 2 = 0.5

**0.5** de probabilidad que salga un número par

**0.5** de probabilidad que salga un número impar

Crear matriz con exclusivamente números [3,5,6,9] siguiendo estas probabilidades [0.2,0.1,0.6,0.1]

In [68]:
m = np.random.choice([3,5,6,9], p = [0.2,0.1,0.4,0.3],size=[100])

print(m)

[6 9 6 9 6 9 6 9 6 9 6 6 9 6 6 6 3 5 6 6 6 5 6 6 5 3 6 6 6 9 6 9 6 6 6 9 6
 6 6 3 6 6 9 9 9 6 5 5 3 9 9 3 3 9 6 3 9 6 6 3 6 9 9 3 6 9 3 9 3 6 9 3 6 5
 6 6 6 5 3 6 6 9 9 3 9 6 9 6 6 9 6 5 6 9 3 6 6 3 3 9]


Los ejes (*o axis*) en numpy son representados con 0 y 1. **0** si el eje es vertical y **1** si es horizontal.

***Ejemplo***

In [70]:
#Creamos la matriz m
m = np.array([[0,1,2],[4,5,2]])
print(m)

[[0 1 2]
 [4 5 2]]


Ahora sumaremos los elementos de la matriz con el eje en **0** (vertical)

In [71]:
print(np.sum(m,axis=0))

[4 6 4]


Si queremos sumarlo con el eje horizontal **1**

In [72]:
print(np.sum(m,axis=1))

[ 3 11]


También podemos aplicarlo con la función **concatenar**

In [75]:
#Creamos una nueva matriz m1
m1 = np.array([[1,1,5],[8,9,4]])
print(m1)

[[1 1 5]
 [8 9 4]]


In [93]:
print(np.concatenate([m1,m2],axis=1))

[[1 1 5 2 2]
 [8 9 4 3 4]]


Tenemos la siguiente matriz

In [92]:
m = np.array([[1,2,3],[4,5,6],[7,8,9]])

print(np.amin(m,1))

[1 4 7]


Utilizaremos las funciones **amax** y **amin** para hallar los valores maximos y minimos de la matriz

In [94]:
#Para hallar el valor mínimo
print(np.amin(m))

#Para hallar el valor máximo
print(np.amax(m))

1
9


Si queremos hallar el valor minimo y maximo según los ejes *(1 horizontal y 0 vertical)*

In [95]:
print(np.amin(m,1))

print(np.amin(m,0))

[1 4 7]
[1 2 3]


Para hallar el rango de una matriz, utilizaremos la función **ptp**

*el rango de una matriz es la diferencia entre su valor máximo y mínimo*

In [96]:
print(np.ptp(m))

8


De la misma forma puede utilizarse refiriéndonos a un eje específico

In [99]:
print(np.ptp(m,axis=0))

print(np.ptp(m,axis=1))

[6 6 6]
[2 2 2]


Podemos utilizar la función **median** para hallar la mediana de una matriz

In [100]:
print(np.median(m))

5.0


Del mismo modo, se puede acotar a un eje en específico

In [101]:
print(np.median(m,1))

[2. 5. 8.]


In [102]:
print(np.median(m,0))

[4. 5. 6.]


Podemos utiliza la función **mean** para hallar la media de una matriz

In [104]:
print(np.mean(m))

print(np.mean(m,0))

print(np.mean(m,1))

5.0
[4. 5. 6.]
[2. 5. 8.]


Podemos hallar el promedio ponderado utilizando la función **average**

In [121]:
print(np.average(np.array([2,3,4]),weights=[2,3.4,1.7]))

2.957746478873239


También podemos obtener el promedio ponderado utilizando los ejes

In [122]:
#VERTICAL AXIS=0
print(np.average(np.array([[1,3,5],[2,3,4]]),weights=[2,3.4],axis=0))

#HORIZONTAL AXIS=1
print(np.average(np.array([[1,3,5],[2,3,4]]),weights=[2,3,1],axis=1))

[1.62962963 3.         4.37037037]
[2.66666667 2.83333333]


In [123]:
print(np.std([1,2,3,3,5,4]))

1.2909944487358056
