# Introducción a Numpy

# Numpy

* Numpy es una biblioteca de **algebra lineal** para Python.
* Casi todas las bibliotecas de Python para **Data Science** y **ML** se basan en Numpy.
* Es muy **rápido**.

## Arreglos

* Veamos los areglos en Numpy.
* Tenemos dos tipos básicos: **vectores** y **matrices**.
  * El **vector** es un arreglo de una dimension.
  * La **matriz** es un arreglo que en la mayoria de las veces sera de dos dimensiones, pero **podemos tener una matriz de una sola fila o una sola columna**, pero hay que tener cuidado de no confundirlas con el tipo vector.


Lo primero que tenemos que hacer es importar numpy

In [2]:
! pip install numpy

Collecting numpy
  Downloading numpy-1.22.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.8 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.8/16.8 MB[0m [31m28.2 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
[?25hInstalling collected packages: numpy
Successfully installed numpy-1.22.4


In [4]:
import numpy as np
np.__version__

'1.22.4'

### Listas y listas anidadas a arreglos
* Ahora convertiremos una lista de Python a un Array

In [5]:
lista=[1,2,3,6,7,8]
print(lista)

arreglo=np.array(lista)
print(arreglo)

[1, 2, 3, 6, 7, 8]
[1 2 3 6 7 8]


In [8]:
import sys
print(sys.getsizeof(tuple(lista)))
print(sys.getsizeof(lista))
print(sys.getsizeof(arreglo))

88
152
160


* Vamos a crear una matriz desde una lista de listas de Python
* Es bueno notar que cuando tenemos un par de $[[$ indica que es un arreglo de dos dimensiones
* Es importante notar como se representan diferente visualmente la lista anidada y la matriz de numpy

In [9]:
miMatriz=[[1,2,3],[4,5,6]]
print(miMatriz)

matriz=np.array(miMatriz)
print(matriz)

[[1, 2, 3], [4, 5, 6]]
[[1 2 3]
 [4 5 6]]


In [10]:
print(sys.getsizeof(tuple(miMatriz)))
print(sys.getsizeof(miMatriz))
print(sys.getsizeof(matriz))

56
72
176


### Creación de arreglos desde numpy
* Numpy también tiene sus **propios mecanismos para crear los arreglos sin tener que depender de las listas de Python**.
* Una forma es por medio de `arange`, que crea un rango. Pasamos el valor de inicio, el final, el paso.
* El valor que colocamos como delimitador final no se incluye en el rango y tampoco en array.

* `np.arange(inicio, final, paso)`

In [16]:
a=np.arange(1,10)
print(a)

[1 2 3 4 5 6 7 8 9]


In [14]:
a=np.arange(0,11)
print(a)

[ 0  1  2  3  4  5  6  7  8  9 10]


In [18]:
a=np.arange(0,20,2)
print(a)

[ 0  2  4  6  8 10 12 14 16 18]


### Funciones para arreglos especificos, zero, ones, linspace, eye
* Tenemos funciones para generar tipos especificos de arreglos
  * zeros crea un arreglo lleno de ceros
  * Con un parametro indicamos la cantidad de elementos
  * Con una tupla indicamos la cantidad de filas y columnas

In [19]:
a0=np.zeros(5)
print(a0)

[0. 0. 0. 0. 0.]


In [8]:
m0=np.zeros((3,5))
print(m0)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


* Podemos hacer lo mismo pero con unos, al usar ones

In [20]:
a1=np.ones(5)
print(a1)

m1=np.ones((3,5))
print(m1)

[1. 1. 1. 1. 1.]
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


* `linspace` nos sirve para colocar n puntos que esten distribuidos uniformemente entre inicio y fin
* Por ejemplo cuatro puntos que esten distribuidos uniformemente entre 0 y 10. El fin es incluido.

In [22]:
# np.linspace(inicio, final, poarticiones)
a2=np.linspace(0,10,4)
print(a2)

[ 0.          3.33333333  6.66666667 10.        ]


In [23]:
a2=np.linspace(0,10,7)
print(a2)

[ 0.          1.66666667  3.33333333  5.          6.66666667  8.33333333
 10.        ]


* Podemos crear rapidamente una matriz identidad al usar `eye`.
* Solo colocamos un digito que es la cantidad de columnas/filas de la matriz.
* Es una **matriz cuadrada**.


In [12]:
m2=np.eye(5)
print(m2)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


### Arreglos creados con valores aleatorios
* Podemos crear arreglos con valores aleatorios que tengan una **distribucion normal** entre 0 y 1.

In [26]:
a3=np.random.rand(5)
print(a3)

[0.26493765 0.08088771 0.71975133 0.6703138  0.74423829]


In [38]:
m3=np.random.rand(3,5)
print(m3)

[[0.4703742  0.63888573 0.78928203 0.23325968 0.88501818]
 [0.63966336 0.28698743 0.15802279 0.90902216 0.42551734]
 [0.41499043 0.92412672 0.70018052 0.31019489 0.81452391]]


* Si lo deseamos con la **distribucion normal centrada** en 0 y varianza de 1, usamos `randn`.

In [39]:
a4=np.random.randn(5)
print(a4)

[ 0.77312309 -1.7270281   1.59971024 -0.34684593 -0.58112251]


In [16]:
m4=np.random.randn(3,5)
print(m4)

[[ 0.17144277 -0.60497703  0.36412277  0.99111403  0.01523456]
 [ 1.53041328  0.39057472  0.06024697  0.25410226 -1.19290207]
 [ 2.06735321  1.35292351 -1.07995207  0.01094494  0.48487079]]


* Cuando necesitamos crear **enteros aleatorios entre dos números** usamos `randint`.
* Pasamos el menor, el mayor y la cantidad de numeros. No toma al numero mayor.

In [48]:
# np.random.randint(menor,mayor,cantidad_de_numeros)
a5=np.random.randint(3,15,5)
print(a5)

[ 8 11  6 10 13]


In [49]:
m5=np.random.randint(3,15,(3,5))
print(m5)

[[ 3 12  5 11  4]
 [13 10  7  5 12]
 [14 11 12  6 11]]


### Shape y reshape
* Podemos conocer las dimensiones de los arreglos al usar `shape`.

In [50]:
print(a5.shape)
print(m5.shape)


print(m5.shape[0]) # Obtnemos la cantidad de filas
print(m5.shape[1]) # Obtnemos la cantidad de columnas
print(len(m5))

(5,)
(3, 5)
3
5
3


* El método `reshape` nos permite **conservar la información pero cambiar la forma** del arreglo.

In [51]:
a6=np.random.randint(0,100,10)
print(a6)

[54 38 10 33 28  7 76  0 22 91]


In [52]:
print(a6.shape)

(10,)


In [53]:
m7=a6.reshape(2,5)
print(m7)

[[54 38 10 33 28]
 [ 7 76  0 22 91]]


In [54]:
# El arreglo original conserva su forma
print(a6)

[54 38 10 33 28  7 76  0 22 91]


* Si no hay elementos suficientes o se exceden para el nuevo shape, obtenemos un **error**.
* Se deben de utilizar todos los elementos

In [55]:
m7=a6.reshape(2,7)
print(m7)

ValueError: cannot reshape array of size 10 into shape (2,7)

In [62]:
# Ejercicio
x = np.random.randint(5, 30, 12)
print(x)
x2 = x.reshape(6,2)
print(x2)
x3 = x.reshape(3,4)
print(x3)

[16  9 16 27 16 26 26 24 17 24 28 18]
[[16  9]
 [16 27]
 [16 26]
 [26 24]
 [17 24]
 [28 18]]
[[16  9 16 27]
 [16 26 26 24]
 [17 24 28 18]]


* El valor de **-1** nos indica que Python debe de encontrar en lo posible la cantidad de elementos, ya sea para esa fila o columna.
* Digamos que queremos que se tengan 2 filas y que python encuentre la cantidad de columnas.
* Cuidado por que deben de usarse todos los elementos para evitar un error

In [59]:
m8=a6.reshape(2,-1)
print(m8)

[[54 38 10 33 28]
 [ 7 76  0 22 91]]


Ahora queremos 2 columnas y la cantidad de filas que las deduzca python

In [64]:
m9=a6.reshape(-1,2)
print(m9)

[[54 38]
 [10 33]
 [28  7]
 [76  0]
 [22 91]]


### Maximos, minimos y tipo
* Podemos entcontrar facilmente el valor **máximo** o **mínimo** del arreglo.

In [65]:
print(m9.max())

91


In [66]:
print(m9.min())

0


* Si lo que necesitamos son los índices de donde se encuentran esos valores usarmos `argmax` y `argmin`.

In [67]:
print(m9.argmax())

9


In [68]:
print(m9.argmin())

7


## Tipo de dato
A veces es necesario conocer el tipo de datos que guarda el arreglo

In [69]:
m9.dtype

dtype('int64')