#  Numpy

Numpy (Numeric Python) \es la librería sobre la que se construye Pandas. Sin embargo, puede ser menos intuitiva ya que da a los datos un tratamiento matricial más que de base de datos. 

Es importante saber al menos un poco de numpy porque:
- Varias aplicaciones de machine  learning se hacen puramente en numpy (como Deep Learning, o aplicaciones en computer vision).  Esto se debe a que: 
    - Es muy, muy rápido y eficiente haciendo cálculos. 
    - Provee un vector multidimensional de alto rendimiento (high performance multidimensional array). 
    

Numpy se especializa  en trabajar tipos de datos numéricos. 


notas reforzadas con el material del [DEC Python Course](https://github.com/worldbank/dec-python-course/blob/main/1-foundations/3-numpy-and-pandas/foundations-s3-numpy.ipynb)



<img src="../img/arraysn.png" width="600">

### Importando numpy

In [1]:
import numpy as np

Numpy puede asemejarse a las listas, pero tiene mucho mejor almacenamiento y mayor alcance en cuanto a hacer operaciones. 


In [2]:
import numpy as np

py_list = [1.0, 2, '3']
np_array = np.array([1, 2, 3])

Ahora crearemos los arrays del gráfico: 

In [3]:


mat_1d = np.array([7,2,9,10]) ## array  de 1-dimensión. 

mat_2d = np.array([[5.2,3.0,4.5],
                   [9.1,0.1,0.3]]) ## array  de 2-dimensiones. 

mat_3d = array_3d = np.array([
    [
        [1, 2],
        [4, 3],
        [7, 4]
    ],
    [
        [2, 6],
        [9, 7],
        [7, 5]
    ],
    [
        [1, 3],
        [3, 1],
        [0, 2]
    ],
    [
        [9, 4],
        [6, 5],
        [9, 8]
    ]
]) ## array  de 3-dimensiones. 

#### Ejercicios:
- ¿Cómo se vería el array si se traspusieran los ejes 1 y 2?
- Elige como eje 0 al eje 1 o 2 y propón otro array de 3 dimensiones basado en el gráfico. 

### Atributos del array. 


Lo primero que hacemos al tener un objeto array,  es verificar los siguentes **a**atributos**:

| Atributo            | Descripción                                                                                   |
|---------------------|-----------------------------------------------------------------------------------------------|
| `ndarray.ndim`      | El número de dimensiones/ejes del array.                                                |
| `ndarray.shape`     | Tupla con las dimensiones del array.|
| `ndarray.size`      | El número total de elementos del array.                                                       |
| `ndarray.dtype`     | El tipo de los elementos en el array.                                                         |
| `ndarray.itemsize`  | El tamaño en bytes de cada elemento en el array.                                              |

** ps. acordarse de los atributos y métodos de oop. 

In [None]:
print(mat_1d.shape) ## Tamaño de cada una de las dimensiones
print(mat_1d.ndim) ## Número de dimensiones
print(mat_1d.size) ## Tamaño total

print(mat_2d.shape)
print(mat_2d.ndim)
print(mat_2d.size) 

print(mat_3d.shape)
print(mat_3d.ndim)
print(mat_3d.size)

### Creación de ndarrays
Podemos crear arrays de distintas formas. Para ello utilizaremos los **métodos** proporcionados por el objeto _array_: 

| Método               | Descripción                                                                                   |
|----------------------|-----------------------------------------------------------------------------------------------|
| `np.array()`         | Da array a partir de una lista o tupla regular de Python.                                |
| `np.zeros()`         | Da array lleno de ceros.                                                                 |
| `np.ones()`          | Da array lleno de unos.                                                                  |
| `np.empty()`         | Da array sin inicializar sus entradas (los valores son asignados al azar).               |
| `np.arange()`        | Da array con valores en un rango dado, similar a `range()` en Python.                    |
| `np.linspace()`      | Da array con un número fijo de elementos espaciados uniformemente entre dos valores dados.|
| `np.full()`          | Da array lleno de un valor específico.                                                   |
| `np.eye()`           | Crea una matriz identidad (2D).                                                               |
| `np.random.rand()`   | Da array con muestras aleatorias de una distribución uniforme sobre `[0, 1)`.            |
| `np.random.randn()`  | Crea un array con muestras de la distribución normal.      |
| `np.random.randint()`| Crea un array de enteros aleatorios desde un rango bajo (inclusive) a un rango alto (exclusivo).|


In [5]:
#np.zeros((3, 3)) ## array de 3x3 con ceros
#np.ones((2, 2, 2)) ## array de 2x2x2 con unos
#np.ones((2,3,4),dtype=np.int16) ## array de 2x3x4 con unos de tipo int16
#np.arange(0, 10, 2) ## array de 0 a 10 de 2 en 2
#np.linspace(0, 1, 5) ## array de 0 a 1 con 5 elementos
#np.linspace(0,3,15) ## array de 0 a 3 con 15 elementos
#np.eye(3) ## matriz identidad de 3x3
#np.full((2, 2), 7) ## array de 2x2 con todos los elementos iguales a 7
#e = np.full((2,2,2),10) #hasta ahora no le hemos asignado una variable
#np.random.rand(4, 4) ## array de 2x2 con valores aleatorios de la distribución uniforme
#np.random.randn(2, 2) ## array de 2x2 con valores aleatorios de la distribución normal 

In [6]:
# Diferentes 
np.random.seed(2)  # seed for reproducibility

x1 = np.random.randint(10, size = 6) # Array de 1-dimensión con 6 elementos

x2 = np.random.randint(100, size = 100) # Array de 1-dimensión con 100 elementos

x3 = np.random.randint(100, size = (3, 4)) # Array de 2-dimensiones con 3 filas y 4 columnas

x4 = np.random.randint(100, size = (3, 4, 5))  # Array de 3-dimensiones con 3 matrices de 4 filas y 5 columnas


### Seleccionando, Indexando y Rebanando un array

In [None]:
mat_2d[1][0]

In [None]:
mat_2d[1,1:]

In [None]:
mat_3d

In [None]:
mat_3d[3,1,1]

In [None]:
mat_3d[3][1][1]

### - Indexación elegante (fancy indexing):
Numpy permite opciones mucho más amplias de indexar que trascienden a las de las listas. Consideremos el siguiente array



In [12]:
ejm_a = np.array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [None]:
ejm_a[[0, 4, 7]]

In [None]:
ejm_a[np.array([[0, 4, 7], [1, 2, 3]])]

In [None]:
b = np.array([(1,2,3), (4,5,6)], dtype = float)
b

In [None]:
b[[1, 0, 1, 0]]

In [None]:
b[[1, 0, 1, 0],[0, 1, 2, 0]]

In [None]:
b[[1, 0, 1, 0]][:,[0,1,2,0]]

### Agregaciones

In [None]:
mat_2d_n = np.array([[1,2,3], [4,5,6], [7,8,9]])
mat_2d_n

In [None]:
mat_2d_n.sum() ### Suma de todo el array

In [None]:
mat_2d_n.mean() ### Resta de todo el array

In [None]:
mat_2d_n.mean(axis = 1) ## Calcula promedio de las filas

In [None]:
mat_2d_n.mean(axis = 0)  ## Calcula promedio de las columnas

In [None]:
a = np.arange(0,12).reshape(3,4)
a

In [None]:
a.T

In [None]:
b = (np.arange(0,12) * 2).reshape(3,4)
b

In [None]:
a + b

In [None]:
a * b #### ESTA NO ES LA FORMA DE MULTIPLICACION MATRICIAL COMO APRENDEMOS EN MATE!! 

### Operaciones con matrices II

Las siguentes son funciones generales de numpy para realizar operaciones. 

| Método               | Descripción                                                                                   |
|----------------------|-----------------------------------------------------------------------------------------------|
| `np.dot()`           | Calcula el dot product de dos matrices.          |
| `np.transpose()`     | Transpone la matriz, invierte sus dimensiones.                                                |
| `np.trace()`         | Calcula la traza de una matriz (suma de los elementos en la diagonal principal).            |
| `np.matmul()`        | Multiplica arrays de dos dimensiones.         |
| `np.vstack()` | Apila arrays verticalmente (por filas).                    | 
| `np.hstack()` | Apila arrays horizontalmente (por columnas).               | 
| `np.arange()` | Crea arrays con un rango (como el constructor). |
| `np.cross()`         | Calcula el producto cruzado entre dos vectores en 3D o 2D.                                       |
| `np.linalg.inv()`    | Calcula la inversa de una matriz.                                                             |
| `np.linalg.det()`    | Calcula el determinante de una matriz.                                                        |
| `np.linalg.eig()`    | Calcula los valores propios y vectores propios de una matriz cuadrada.                        |
| `np.linalg.solve()`  | Resuelve un sistema de ecuaciones lineales.                                                   |
| `np.linalg.svd()`    | Realiza la descomposición en valores singulares de una matriz.                                |

In [29]:
# ejemplos
# con matrices 2x2
# a = np.array([[1, 2], [3, 4]])
# b = np.array([[5, 6], [7, 8]])

# np.dot(a, b)
# np.transpose(a)
# np.trace(a)
# np.linalg.det(a)
# np.linalg.inv(a)
# np.cross(a,b) 


In [None]:
a = (np.arange(0,12)*1).reshape(4,3)
c = (np.arange(0,15)).reshape(3,5)
np.dot(a,c)

In [None]:
c.T ## Trasponer un array

In [None]:
c = np.linalg.inv(np.eye(4))
c

### Ejemplo: MCO

La estimación por Mínimos Cuadrados Ordinarios en su  forma compacta se puede expresar de la siguiente manera: 

$$
\hat{\beta} = (X^\top X)^{-1} X^\top y
$$

donde:  

$\hat{\beta}$ es el vector de coeficientes estimados del modelo.  
$X$ es la matriz de observaciones con las variables explicativas. La primera columna suele ser el vector de interceptos.   
$y$ es es el vector de observaciones con la variable independiente.


In [33]:
# creando una X y una y de juguete con datos normales: 

X = np.random.rand(250, 4) 
y = np.random.rand(250, 1)

In [34]:
xtx = np.dot(X.T, X)

xt_x_1 = np.linalg.inv(xtx)


In [35]:
xty = np.dot(X.T, y)

In [None]:
xt_x_1

In [None]:
xty

In [38]:
beta = np.dot(xt_x_1, xty)

In [39]:
yhat = np.dot(X, beta)


Fuentes de esta  sesión:

- Numpy cheatsheet de DataCamp:  https://datacamp-community-prod.s3.amazonaws.com/e9f83f72-a81b-42c7-af44-4e35b48b20b7
- Data science handbook by Jake Van der Plas https://jakevdp.github.io/PythonDataScienceHandbook/02.02-the-basics-of-numpy-arrays.html