# Numpy Basics

**Numpy** es el paquete fundamental para la computacion cientifica en Python y es la base de muchos otros paquetes. Aunque sea dificil de creer, Python no fue hecho para ejecutar computaciones numericas pero cuando Python se comenzo a hacer popular en los 90's fue necesario ejecutar operaciones vectoriales mucho mas rapido de que lo Python podia hacer en ese tiempo y Numpy fue creado. Como podemos observar en la imagen Numpy es parte esencial de muchos paquetes populares en Python usados en el campo de Machine Learning. 

<img src='./data/img/numpy.jpg'>
![alt text](/data/img/numpy.jpg "numpystack")


En resumen podemos conlcuir que las ventajas de Numpy son:

- Es Open Source y gratis.
- Tiene una sintaxis muy amigable.
- Es mas eficiente que las lista de Python.
- Tiene funciones muy avanzadas y esta muy bien integrado en otras librerias.

### Instalar Numpy

Para instalar numpy simplemente ejecutamos la siguiente linea de codigo:

    - pip3 install numpy
    
Si queremos una version especifica de numpy:

    - pip3 install numpy==<version>


## Numpy Arrays

Como seguramente sabes lo que hace a Numpy muy util son las matrices multidimensionales o **ndarrays**. Un ejemplo:

In [1]:
# importamos numpy, para hacer nuestro codigo mas legible lo importamos como np
import numpy as np

x = np.array([[1,2,3,],[4,5,6]])
# imprime la matriz
print('Esta es nuestra matriz: ', (x))
# imprime el tipo de objeto que es nuestra matriz
print('Nuestra matriz es del tipo: ', type(x))
# imprime las dimensiones de la matriz
print('La dimension de nuestra matriz es: ', x.shape)
# imprime el tamano de nuestra matriz
print('El tamano de nuestra matriz es: ', x.size)
# imprime la dimension de nuestra matriz
print('La dimension de nuestra matriz es: ', x.ndim)
# imprime el tipo de dato que hay dentro de nuestra matriz
print('El tipo de dato de nuestra matriz es: ', x.dtype)
# imprime el numero de bytes que hay dentro de nuestra matriz
print('El total de bytes en nuestra matriz es: ', x.nbytes)

Esta es nuestra matriz:  [[1 2 3]
 [4 5 6]]
Nuestra matriz es del tipo:  <class 'numpy.ndarray'>
La dimension de nuestra matriz es:  (2, 3)
El tamano de nuestra matriz es:  6
La dimension de nuestra matriz es:  2
El tipo de dato de nuestra matriz es:  int64
El total de bytes en nuestra matriz es:  48


Vamos a ver que sucede cuando usamos un *float*, *complex* o *uint*: 

In [2]:
x = np.array([[1,2,3],[4,5,6]], dtype = np.float)
print(x)
print(x.nbytes)

[[1. 2. 3.]
 [4. 5. 6.]]
48


In [3]:
x = np.array([[1,2,3],[4,5,6]], dtype = np.complex)
print(x)
print(x.nbytes)

[[1.+0.j 2.+0.j 3.+0.j]
 [4.+0.j 5.+0.j 6.+0.j]]
96


In [4]:
x = np.array([[1,2,3],[4,-5,6]], dtype = np.uint32)
print(x)
print(x.nbytes)

[[         1          2          3]
 [         4 4294967291          6]]
24


Cada tipo consume un numero distinto de bytes:

In [5]:
x = np.array([[1,2,3],[4,5,6]], dtype = np.int64)
print("int64 consume",x.nbytes, "bytes")
x = np.array([[1,2,3],[4,5,6]], dtype = np.int32)
print("int32 consume",x.nbytes, "bytes")

int64 consume 48 bytes
int32 consume 24 bytes


Es importante tener en cuenta este tipo de cosas basicas especialmente cuando estamos hablando de Big Data en donde este tipo de conversiones es muy importante para el desempeno. Como podemos ver no podemos modificar el *dtype* de nuestra matriz una vez que la hemos creado, pero lo que si podemos hacer es copiarla y cambiar el *dtype* con el atributo *astype*, un ejemplo:

In [6]:
copia_x = np.array(x, dtype = np.float)
copia_x

array([[1., 2., 3.],
       [4., 5., 6.]])

In [7]:
copia_x_int = copia_x.astype(np.int)
copia_x_int

array([[1, 2, 3],
       [4, 5, 6]])

**Algo muy importante que tenemos que considerar es que *astype* no cambia el *dtype* "de copia_x", lo que sucede es que conserva las condiciones originales pero crea "copia_x_int"**

Hagamos un ejercicio de imaginacion en donde queremos encontrar a un asaltante en una ciudad con 100,000 habitantes y cada estudiante tiene 100 caracteristicas cada uno, obviamente nuestra matriz es [100000, 10]:

In [9]:
Datos_ciudad= np.random.rand(100000,100)
print(type(Datos_ciudad))
print(Datos_ciudad.dtype)
print(Datos_ciudad.nbytes)
Nuevo_Datos_Ciudad = np.array(Datos_ciudad, dtype = np.float32)
print(Nuevo_Datos_Ciudad.nbytes)

<class 'numpy.ndarray'>
float64
80000000
40000000


Como podemos ver nuestra primera matriz es un float64 pero la segunda es un float32, la diferencia de bytes es practicamente del 50%,de 80 MB paso a ser de 40 MB, lo que va a pasar es que vamos a tener una reduccion de precision despues del punto decimal, de 16 puntos decimales pasamos a solo 8, esto es importante dependiendo del algoritmo con el que estemos trabajando, cuando tenemos datasets muy grandes podemos quedarnos sin memoria al procesar los datos. 

## Operaciones con matrices Numpy


In [10]:
mi_lista = [2, 14, 6, 8]
mi_matriz = np.asarray(mi_lista)
type(mi_matriz)

numpy.ndarray

In [13]:
# Hagamos un par de operaciones aritmeticas
# suma
print('le sumamos 2 =', mi_matriz + 2)
# resta
print('le restamos 2 =', mi_matriz - 2)
# multiplicacion
print('multiplicamos *2 =', mi_matriz * 2)
# division
print('dividimos / 2 =', mi_matriz/2)

le sumamos 2 = [ 4 16  8 10]
le restamos 2 = [ 0 12  4  6]
multiplicamos *2 = [ 4 28 12 16]
dividimos / 2 = [1. 7. 3. 4.]


Por que no hicimos las operaciones con la lista? Porque las listas no estan vectorizadas y para hacer operaciones seria necesario iterar cada uno de los elementos dentro de la lista para hacer la operacion ergo numpy no ayuda a hacer esto de manera muy sencilla. Mas ejemplos:

In [16]:
# una matriz de zeros + 3 
segunda_matriz = np.zeros(4) + 3
print(segunda_matriz)
print(mi_matriz - segunda_matriz)
print(segunda_matriz/ mi_matriz)

[3. 3. 3. 3.]
[-1. 11.  3.  5.]
[1.5        0.21428571 0.5        0.375     ]


In [17]:
# una matriz de unos + 3
segunda_matriz = np.ones(4) + 3
print(segunda_matriz)
print(mi_matriz - segunda_matriz)
print(segunda_matriz/mi_matriz)

[4. 4. 4. 4.]
[-2. 10.  2.  4.]
[2.         0.28571429 0.66666667 0.5       ]


In [20]:
# una matriz de identidad
segunda_matriz = np.identity(4)
print(segunda_matriz)
segunda_matriz = np.identity(4) + 3
print(segunda_matriz)
print(mi_matriz - segunda_matriz) 
print(segunda_matriz/mi_matriz)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[4. 3. 3. 3.]
 [3. 4. 3. 3.]
 [3. 3. 4. 3.]
 [3. 3. 3. 4.]]
[[-2. 11.  3.  5.]
 [-1. 10.  3.  5.]
 [-1. 11.  2.  5.]
 [-1. 11.  3.  4.]]
[[2.         0.21428571 0.5        0.375     ]
 [1.5        0.28571429 0.5        0.375     ]
 [1.5        0.21428571 0.66666667 0.375     ]
 [1.5        0.21428571 0.5        0.5       ]]


In [21]:
# usemos el metodo arange, nos genera una matriz con un intervalo entre
# el primer y el ultimo valor de nuestra matriz
x = np.arange(3,7,0.5)
x

array([3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5])