# Librerías importantes para el análisis de datos en Python

------------------------------------------------------


### Data Science and Machine Learning

#### Febrero 2023

**Aurora Cobo Aguilera**

**The Valley**

------------------------------------------------------




En este notebook, introduciremos una librería que usaremos en el resto del módulo y muy útil para realizar cálculo científico y opraciones con vectores y matrices.

El comienzo habitual de cualquier scrip de python es la importación de librerías a usar.


In [None]:
import numpy as np

## 1. Uso de la librería Numpy y matrices

El módulo _numpy_ es muy útil para cálculo científico en python.

La principal estructura de datos en _numpy_ es el array con N dimensiones. 

### 1.1. Matrices con Numpy

En Numpy una matriz se representa a través de un array de 2 dimensiones.

Puedes definir un _numpy_ _array_ a partir de una lista o una lista de listas. Python intentará construirlo con las dimensiones apropiadas. Puedes consultar las dimensiones con _shape()_


In [None]:
my_array = np.array([[1, 2], [3, 4]])
print(my_array)
print('-'*30)
print(np.shape(my_array)) #checking the dimensions

[[1 2]
 [3 4]]
------------------------------
(2, 2)


> **Ejercicio**: Define un nuevo array de 2x3 llamado *my_array2* con  [1, 2, 3] en la primera fila y [4,5,6] en la segunda.
Consulta las dimensiones del array.


In [None]:
#<SOL>
array = np.array([[1, 2, 3], [4, 5, 6]])
print(array)
print('-'*30)
'''
fila1 = [i for i in range(1,4)]
fila2 = [j for j in range(4,7)]
np.array([fila1, fila2]) #forma de pringao
'''
np.shape(array)
#</SOL>

[[1 2 3]
 [4 5 6]]
------------------------------


(2, 3)

Hay un número de operaciones que puedes hacer con arrays numpy. Una de las más importantes es **slicing**, que consiste en extraer un subarray de un array.

In [None]:
my_array3 = my_array[:, 1] #de todas las filas coge la columna numero 1
print(my_array3)
print(my_array[1, 0:2]) #de la fila 1 printea las columnas de la 0 a la 2 (no incluida la dos)

[2 4]
[3 4]


Algo importante a considerar cuando haces slicing son las dimensiones del array de salida. 

>**Ejercicio**: Consulta las dimensiones de *my_array3*. Consulta tambien sus dimensiones con la función [_ndim_](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.ndim.html):





In [None]:
#help(np.ndarray.ndim)
#<SOL>
print(my_array3)
print(np.shape(my_array3)) #o np.ndim para wque me diga las dimensiones
print(np.ndim(my_array3))
#</SOL>


[2 4]
(2,)
1


Si lo has calculado correctamente, verás que *my_array3* es de 1 dimensión. Esto puede ser un problema cuando trabajas con matrices de 2 dimensiones (y con vectores que se consideran de 2D con uno de los tamaños igual a 1). Para resolver esto, _numpy_ proporciona la constante [_newaxis_](https://stackoverflow.com/questions/29241056/how-do-i-use-np-newaxis).
Se puede llamar como [np.newaxis](https://numpy.org/doc/stable/reference/constants.html#numpy.newaxis)

Esta función lo que hace es coger un vector o columna que python interpetraba como un array de 1 dimensión y lo convierte en una matriz de 2 dimensiones, de esta forma aparece al preguntarle con `np.shape(my_array3)` las dos dimensiones.

In [None]:
my_array3 = my_array3[:, np.newaxis] #hace de un vector de numeros, una matrix n x 1
my_array3

array([[2],
       [4]])

>**Ejercicio**: Consulta de nuevo la dimensión de *my_array3*.


In [None]:
#<SOL>
print(my_array3)
print('-'*30)
print(np.shape(my_array3))
print('-'*30)
print(np.ndim(my_array3))
#<SOL>

[[2]
 [4]]
------------------------------
(2, 1)
------------------------------
2


Otro método importante de manipulación de array es _concatenation_ o _stacking_. Es útil para siempre declarar en qué dirección queremos apilar arrays. Por ejemplo, en la siguiente celda apilamos verticalmente `axis=1`.
Para aplicar [np.concatenate](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html) de manera horizontal sería con `axis=0` 

In [None]:
print(np.concatenate((my_array, array) , axis=1)) # columnwise concatenation
print('-'*30)
print(my_array)
print('-'*30)
print(array)

[[1 2 1 2 3]
 [3 4 4 5 6]]
------------------------------
[[1 2]
 [3 4]]
------------------------------
[[1 2 3]
 [4 5 6]]


> **Ejercicio**: *Concatena* la primera columna de *my_array* y la segunda columna de *my_array2*

In [None]:
#<SOL>
np.concatenate( (my_array[:,0], array[:,1]), axis=0) #así apilamos columnas
#<SOL>

array([1, 3, 2, 5])

Puedes crear _numpy_ arrays de diferentes formas, no sólo a partir de listas. Por ejemplo _numpy_ proporciona un número de funciones para crear tipos especiales de matrices.

> **Ejercicio**: Crea 3 arrays usando [_ones_](https://numpy.org/doc/stable/reference/generated/numpy.ones.html), [_zeros_](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html) and [_eye_](https://numpy.org/devdocs/reference/generated/numpy.eye.html). Si tienes alguna duda sobre los parámetros de las funciones, mira en la ayuda con la función _help( )_.

In [None]:
#<SOL>
print(np.ones((2, 2))) #matriz 2 x 2 de unos
print('-'*30)
print(np.zeros((3,3))) #matriz 3 x 3 de ceros, muy útil
print('-'*30)
print(np.eye(3)) #matriz identidad 3 x 3
#<SOL>

[[1. 1.]
 [1. 1.]]
------------------------------
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
------------------------------
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


Además _numpy_ ofrece todas las operaciones básicas con matrices: multiplicaciones, producto escalar, ...
Puedes encontrar información sobre ellas en [Numpy manual](https://numpy.org/doc/stable/user/) 



#### 1.1.1. Suma de matrices

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6]])
print(A)
print('-'*30)
B = np.array([[1, 2, 3], [4, 5, 6]])
print(B)
print('-'*30)
C = A + B
print(C)

[[1 2 3]
 [4 5 6]]
------------------------------
[[1 2 3]
 [4 5 6]]
------------------------------
[[ 2  4  6]
 [ 8 10 12]]


#### 1.1.2. Resta de matrices

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6]])
print(A)
print('-'*30)
B = np.array([[0.5, 0.5, 0.5], [0.5, 0.5, 0.5]])
print(B)
print('-'*30)
C = A - B
print(C)

[[1 2 3]
 [4 5 6]]
------------------------------
[[0.5 0.5 0.5]
 [0.5 0.5 0.5]]
------------------------------
[[0.5 1.5 2.5]
 [3.5 4.5 5.5]]


#### 1.1.3. Multiplicación de matrices (element-wise)

Este método multiplica elemento por elemento, de la misma forma que cuando hacemos el producto de vectores.

$\left(5\vec{e_1} + 6\vec{e_2} - 3\vec{e_3}\right)·\left(3\vec{e_1} - 2\vec{e_2} + 3\vec{e_3}\right)= (5·3)\vec{e_1} + (6·2)\vec{e_2} - (3·3)\vec{e_3} = 15\vec{e_1} + 12\vec{e_2} - 9\vec{e_3}$

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6]])
print(A)
print('-'*30)
B = np.array([[1, 2, 3], [4, 5, 6]])
print(B)
print('-'*30)
C = A * B
print(C)

[[1 2 3]
 [4 5 6]]
------------------------------
[[1 2 3]
 [4 5 6]]
------------------------------
[[ 1  4  9]
 [16 25 36]]


#### 1.1.4. División de matrices

Igual que el producto, se divide elemento a elemento

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6]])
print(A)
print('-'*30)
B = np.array([[1, 2, 3], [4, 5, 6]])
print(B)
print('-'*30)
C = A / B
print(C)

[[1 2 3]
 [4 5 6]]
------------------------------
[[1 2 3]
 [4 5 6]]
------------------------------
[[1. 1. 1.]
 [1. 1. 1.]]


#### 1.1.5. Producto escalar de matrices

En este caso el número de columnas de la primera matriz tiene que coincidir con el número de filas de la segunda, de tal manera que la matriz resultante tiene como dimensiones las filas de la primera y columnas de la segunda.


$A_{nm}·B_{lk} = C_{nk}$ $ \ \ \ \ \ \ \ \ $ siempre que    $\ \ \ \ \ \ \ m=l$

En cortito sería: el el producto de matrices tienen que coincidir columnas*(1)* y las filas*(2)* y la matriz resultante tiene filas(1) y columnas*(2)*

In [None]:
A = np.array([[1, 2], [3, 4], [5, 6]])
print(A)
print('-'*30)
print(C)
print('-'*30)
print(A @ B) # también funcion, y mejor para conquetatenar productos escalares



[[1 2]
 [3 4]
 [5 6]]
------------------------------
[[1. 1. 1.]
 [1. 1. 1.]]
------------------------------
[[ 9 12 15]
 [19 26 33]
 [29 40 51]]


#### 1.1.6. Producto de matrices y vectores

In [None]:
A = np.array([[1, 2], [3, 4], [5, 6]])
print(A)
print('-'*30)
B = np.array([0.5, 0.5])
print(B)
print('-'*30)
C = A.dot(B)
print(C)
print('-'*30)
D = A @ B
print(D)

[[1 2]
 [3 4]
 [5 6]]
------------------------------
[0.5 0.5]
------------------------------
[1.5 3.5 5.5]
------------------------------
[1.5 3.5 5.5]


#### 1.1.7. Producto de matrices y escalares

In [None]:
A = np.array([[1, 2], [3, 4], [5, 6]])
print(A)
print('-'*30)
b = 0.5
print(b)
print('-'*30)
C = A * b
print(C)

[[1 2]
 [3 4]
 [5 6]]
------------------------------
0.5
------------------------------
[[0.5 1. ]
 [1.5 2. ]
 [2.5 3. ]]


#### 1.1.8. Matriz transpuesta

In [None]:
A = np.array([[1, 2], [3, 4], [5, 6]])
print(A)
print('-'*30)
C = A.T
print(C)

[[1 2]
 [3 4]
 [5 6]]
------------------------------
[[1 3 5]
 [2 4 6]]


#### 1.1.9. Matriz inversa

Para hacer la inversa de una matriz tenemos que importar la función `inv` contenida dentro del paquete [numpy.linalg](https://numpy.org/doc/stable/reference/generated/numpy.linalg.inv.html) de la forma `from numpy.linalg import inv`

In [None]:
from numpy.linalg import inv #para calcular la inversa

# define matrix
A = np.array([[1.0, 2.0], [3.0, 4.0]])
print(A)
print('-'*30)
# invert matrix
B = inv(A)
print(B)
print('-'*30)
# multiply A and B
I = A.dot(B)
print(I)

[[1. 2.]
 [3. 4.]]
------------------------------
[[-2.   1. ]
 [ 1.5 -0.5]]
------------------------------
[[1.0000000e+00 0.0000000e+00]
 [8.8817842e-16 1.0000000e+00]]


Además de _numpy_ hay librerías más avanzadas para cálculos científicos, _scipy_. [Scipy](https://docs.scipy.org/doc/scipy/) incluye módulos para álgebra lineal, procesado de la señal, transformadas de Fourier, ...

## Definiciones de vectores con un rango de valores

Por último fíjate en las siguientes definiciones de vectores. Son muy útiles en ML o cualquier problema en el que queramos explorar un conjunto de valores equiespaciados o según escala logarítmica.

*  [np.logspace](https://numpy.org/doc/stable/reference/generated/numpy.logspace.html): Devuelve números espaciados uniformemente en escala logarítmica.
*   [np.arange](https://numpy.org/doc/stable/reference/generated/numpy.arange.html): Devuelve valores espaciados uniformemente dentro de un intervalo dado.

También es útil conocer la función _linspace_:

*   [np.linspace](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html): 
Devuelve un `num` de muestras espaciadas uniformemente, calculadas sobre el intervalo `[inicio, fin]`.






In [None]:
print(np.logspace(-6, 6, 13)) #Escala logaritmica, desde 1.e-06 a 1.e+06 y 13 puntos

[1.e-06 1.e-05 1.e-04 1.e-03 1.e-02 1.e-01 1.e+00 1.e+01 1.e+02 1.e+03
 1.e+04 1.e+05 1.e+06]


In [None]:
print(np.arange(0, 10, 2)) #Escala normal de 0 a 10 2n saltos de 2

[0 2 4 6 8]


> **Ejercicio**: Define un vector con puntos desde el -100 hasta el 200 y saltos de 3 en 3.

Esto se hace con la función `np.arange(inicio, fin, salto)` hay que tener en cuenta que el valor de la cota superior no lo cogepor definición de la función que define el intervalo de la forma $\longrightarrow$ $[inicio, fin)$.

De tal manera que si queremos coger el 200 devemos pasar esta cota... 203 por ejemplo

In [None]:
#<SOL>
np.arange(-100, 203, 3) #jeje
#</SOL>

array([-100,  -97,  -94,  -91,  -88,  -85,  -82,  -79,  -76,  -73,  -70,
        -67,  -64,  -61,  -58,  -55,  -52,  -49,  -46,  -43,  -40,  -37,
        -34,  -31,  -28,  -25,  -22,  -19,  -16,  -13,  -10,   -7,   -4,
         -1,    2,    5,    8,   11,   14,   17,   20,   23,   26,   29,
         32,   35,   38,   41,   44,   47,   50,   53,   56,   59,   62,
         65,   68,   71,   74,   77,   80,   83,   86,   89,   92,   95,
         98,  101,  104,  107,  110,  113,  116,  119,  122,  125,  128,
        131,  134,  137,  140,  143,  146,  149,  152,  155,  158,  161,
        164,  167,  170,  173,  176,  179,  182,  185,  188,  191,  194,
        197,  200])

Es importante ver que la función `np.linspace(inicio, fin, num)` hay que tener en cuenta que en este caso definimos un intervalo cerrado $[inicio, fin]$.
De tal manera que si definimos como intervalo `[1,10]` y le pedimos que nos dé `5` _num_ nos dá el 1 y el 10 más el resto de números equiespaciados entre ellos

In [None]:
np.linspace(1, 10, 5)

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])