<img src="https://marketing4ecommerce.net/wp-content/uploads/2015/09/logo-iebs.jpg" style="float:right" width="400">

# Introducción a los lenguajes de programación

## Estructuras de datos en Python

### Javier Cózar


[__NumPy__](http://www.numpy.org) es la librería para procesamiento numérico de Python. Proporciona funcionalidades para el manejo _eficiente_ de vectores, y es la base de otras librerías, como _SciPy_, _Pandas_ o _Scikit-learn_.

Es importante tener un conocimiento en profundidad de numpy para dominar el stack de data science de python. No obstante, cuando se está empezando se suele utilizar menos ya que sus funciones son de bajo nivel y solo se aprovechan para optimizar otras librerías o para implementar métodos personalizados.

A continuación vamos a explorar los conceptos básicos de numpy.  Esta introducción puede completarse con la abundante información existente en la red, y con la [documentación oficial](https://docs.scipy.org/doc/numpy/index.html). 

## Instalación

numpy no viene instalado por defecto en python, por lo que será necesario instalarlo previamente usando un gestor de paquetes desde el terminal.

`pip install numpy`

In [None]:
# ! pip install numpy

In [None]:
import numpy as np

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i> Numpy se suele renombrar de esta forma por convención.
</div>

## Vectores (Arrays)

En _NumPy_, un array (un objeto de la clase `ndarray`) es una secuencia _multidimensional_ de valores del mismo tipo, indexada por enteros.

Se diferencian de las listas y otras estructuras de python estándar por sus optimizaciones.

In [None]:
# Crea un vector de 6 elementos a partir de una lista
v = np.array([2, 4, 6, 8, 10, 12])  

print(v)    

## Tipado

El tipo de los elementos del array es definido por la propiedad `dtype`, y se establece de manera automática en función de los valores del array, a menos que se especifique en el constructor. 

Aunque los tipos más comunes son `int64` y `float64`, _Numpy_ implementa una gran cantidad de tipos. Información detallada al respecto puede encontrarse en la [documentación oficial](https://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

In [None]:
# Imprime el tipo de datos del vector anterior.
v = np.array([2, 4, 6, 8, 10, 12])  
print(v)
print(f"Tipo de v: {v.dtype}")   

print()

# Crea un vector similar, pero de tipo float
vf = np.array([2, 4, 6, 8, 10, 12], dtype = np.float64)
print(vf)
print(f"Tipo de vf: {vf.dtype}") 

Adicionalmente, la función `astype` nos permite cambiar el tipo de un array (genera otro array diferente con el dtype especificado).

In [None]:
vf.astype(np.str)

## Vectores multidimensionales (matrices)

Se puede crear con una "lista de listas" (en realidad, secuencia de secuencias). Por defecto, cada una de ellas corresponde a una dimensión. 

Por ejemplo, en la siguiente celda se construye esta matriz:

$$
m = \begin{bmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    \end{bmatrix}
$$

In [None]:
# Crea una matriz bidimensional
m = np.array([[1,2,3],[4,5,6]])
print(m)       

### Dimensiones

La propiedad `ndim` contiene el número de dimensiones del array, mientras que la propiedad denominada `shape` (una tupla) contiene el tamaño del array en cada dimensión.

In [None]:
print(v.ndim)
print(v.shape)

print(m.ndim)
print(m.shape)

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i>
En matrices bidimensionales, se considera que la primera dimensión se refiere a la fila y la segunda a la columna.</div>

Cambiando los valores de la propiedad `shape` se redimensiona el array. Se consigue el mismo resultado con la función reshape, salvo que esta función devuelve una nueva variable.

In [None]:
v = np.array([2, 4, 6, 8, 10, 12])  

print(v)                                
print()

v.shape = (3,2)                         
print(v)
print()

v.shape=(6,)
print(v)

In [None]:
print(v)                                
print()

m = v.reshape(3,2)
print(m)
print()

v2 = m.reshape(6)
print(v2)

## Inicialización de arrays

_NumPy_ proporciona funciones para llevar a cabo distintas inicializaciones de una matriz sin necesidad de especificar los elementos. En todos los casos, el primer argumento es **una tupla**, indicando la **dimensión**.

In [None]:
print("\nMatriz vacía:")
mv = np.empty((2,2))                                    # Crea la matriz vacía con valores indeterminados.
print(mv,'\n')  

print("Matriz de ceros:")
mz = np.zeros((2,3))                                    # Inicializa un array con ceros.
print(mz,'\n')  

print("\nMatriz de unos:")
mu = np.ones((2,3))                                     # Inicializa un array con unos.
print(mu,'\n')                

print("\nMatriz inicializada a un valor constante:")
mc = np.full((2,2), 7.2)                                # Inicializa un array con un valor constante.
print(mc,'\n')  

print("\nMatriz identidad:")
mi = np.eye(2)                                          # Crea la matriz identidad
print(mi,'\n')  
    
print("\nMatriz con valores aleatorios:")
mr = np.random.random((2,2))                            # Crea un array con valores aleatorios
print(mr,'\n')

### A partir de rangos numéricos

La función `np.arange()` devuelve un vector de valores distribuidos uniformemente en el rango especificado.

In [None]:
# Crea un array con valores del 0 al 9
x = np.arange(10)                           
print(x)

# Crea un array con valores del 2 al 9
x = np.arange(2, 10)                         
print(x)

# Crea un array con valores del 2 al 9 separados por intervalos de 2.5
x = np.arange(2, 10, 2.5)                       
print(x)


La función `np.linspace()` es muy parecida a la anterior, pero en lugar de especificar la distancia entre valores, permite especificar el número de valores dentro del intervalo (**por defecto, ambos extremos inclusive**).

In [None]:
# Crea un vector con 5 valores igualmente espaciados que van del 10 al 20
x = np.linspace(10, 20, 5)                  
print(x)        

## Indexación

Al igual que en las secuencias de Python, y los vectores y matrices en todos los lenguajes de programación, los elementos pueden ser accedidos mediante índices especificados entre corchetes.

In [None]:
v = np.arange(6)
print(v)

print(v[0])                               

print(v[-1])

print(v[2:4])

v[5] = 10 
print(v[-1])

En arrays multidimensionales, se especifica el rango para cada dimensión del array independientemente. 

In [None]:
a = np.arange(20)
m = a.reshape(4,5)
print(m)

In [None]:
# Imprime las posiciones (1,2) y (2,4)
print(m[1,2])                          
print(m[2,4])

In [None]:
# Imprime la segunda fila de dos modos distintos
print(m[1])
print(m[1,:])

In [None]:
# Imprime las dos primeras filas
print(m[:2])

In [None]:
# Imprime desde la primera a la tercera columna
print(m[:, 1:4])

In [None]:
# Imprime desde la segunda fila en adelante, y de la primera a la tercera columna")
print(m[1:, 1:4])

### Indexación mediante arrays

La indexación permite acceder a los elementos del array siguiendo un patrón. En el caso de que este patrón no exista, es decir, queramos acceder a una serie de índices arbitrario, se puede conseguir usando un array o lista con los índices que nos interese seleccionar.

In [None]:
v = np.arange(10)*2
print(v)

# Imprime las posiciones 0,3,5 y 6 del array v
print(v[[0,3,5,6]])

In [None]:
a = np.arange(20)                                   
m = a.reshape(4,5)
print(m)

print()

# Imprime un array con las filas 0, 1 y 2
print(m[[0, 1, 2]])

print()

# Imprime un array con m[0,0], m[0,2], m[1,3], m[2,4]
print(m[[0, 0, 1, 2],[0, 2, 3, 4]])                

### Indexación con booleanos

Permite acceder a elementos de un array arbitrariamente. Se suele usar para seleccionar elementos que satisfacen alguna condición.  El tamaño del array de booleanos debe coincidir con el del array al que se está indexando.

En el caso de usarse sobre arrays multidimensionales, estos se **aplanan** (transforman a array unidimensional).

In [None]:
v = np.array([0,1,2,3,4,5])
b = np.array([True, False, False, False, False, True])
print(v)

# v2 es un array que contiene el primer y último valor de v.
v2 = v[b];                                               
print(v2)                                                
print()

a = np.arange(20)
m = a.reshape(4,5)
print(m)
print()

# Imprime un array bidimensional de valores booleanos
# True si elvalor de m es par y False si es impar
b = m % 2 == 0
print(b) 
print()                                                  

# Crea un vector con los elemenentos pares de m.
mb = m[b]                                       
print(mb)

In [None]:
v = np.array([0,1,2,3,4,5])

In [None]:
v[v % 2 == 0]

## Vectorización

Acabamos de ver como aplicar una transformación a toda una lista a partir de un escalar. Esto se conoce como una operación __vectorizada__.

Una de las principales ventajas que aporta _Numpy_ es que muchas funciones se implementan internamente de esta forma, lo que supone un aumento de la eficiencia _muy importante_ (varios órdenes de magnitud) con respecto a las operaciones secuenciales.



In [None]:
# Crea un vector de 100000 números aleatorios.
gran_vector = np.random.randint(0,1000,1000000)
print(gran_vector.shape)

En esta primera llamada, se obtiene la suma de los elementos del vector mediante un bucle.

In [None]:
%%timeit -n 10
suma = 0
for elem in gran_vector:
    suma+=elem

En esta llamada se suman los elementos mediante la función vectorizada `np.sum()` (se verán las funciones en el siguiente apartado). Puede verse que el tiempo necesario se reduce en varios órdenes de magnitud.

In [None]:
%%timeit -n 10
suma = np.sum(gran_vector)

### Operaciones y funciones universales

_NumPy_ implementa numerosas funciones. Algunas de ellas, denominadas _universales_ (_ufunc_), se aplican de manera eficiente (son implementaciones _vectorizadas_) elemento por elemento. También se pueden aplicar entre cada elemento de un array y un escalar.

A continuación se describen algunas de las funciones universales de uso más frecuente. Una lista completa de este tipo de funciones puede consultarse [aquí](https://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs). El resto de funciones disponibles (también las no universales) pueden consultarse en la [referencia de Numpy](https://docs.scipy.org/doc/numpy/reference/index.html).

In [None]:
x = np.array([[1,2,3],[4,5,6]], dtype=np.float64)
y = np.array([[10,10,10],[20,20,20]], dtype=np.float64)

print(x)
print(y)

In [None]:
# Suma
print(np.add(x, y)) 

In [None]:
# Resta (con escalar)
print(np.subtract(y,5))

In [None]:
# Multiplicación
print(np.multiply(x,y))

In [None]:
# División
print(np.divide(y,x))

Estas operaciones también están implementadas en forma de operador.

In [None]:
print(x + y)                     
print(y - 5)                      
print(x * y)                    
print(y / x) 

## Operaciones matriciales

_NumPy_ implementa funciones optimizadas (vectorizadas) para el cálculo con arrays (no a nivel de elemento). Las de uso más común son el producto, la inversa y la transposición.


## Producto vectorial

La función `np.dot()`implementa el producto vectorial entre dos vectores o dos matrices.  En el caso de dos vectores, el producto vectorial se calcula como:

$$
[u_1, ... , u_n] \cdot \left[\begin{array}{c}
v_1 \cr
\ldots \cr
v_n
\end{array} \right] = u_1\cdot v_1 + \cdots + u_n \cdot v_n
$$

Por ejemplo:

$$
\left[\begin{array}{c c c} 1 & 2 & 3 \end{array} \right] \cdot \left[\begin{array}{c}
10 \cr
20 \cr
30
\end{array} \right] = 1\cdot 10 + 2\cdot 20 + 3 \cdot 30 = 140
$$

In [None]:
u = np.array([1,2,3])
v = np.array([10,20,30])

# Se puede llamar la función de las dos maneras. 
print(np.dot(u,v))              
print(u.dot(v))

El producto vectorial de una matriz de tamaño ($m \times n$) y otra de tamaño ($n \times o$), es una nueva matriz, de tamaño ($m \times o$), en la que el valor de la posición ($i,j$) es obtenido como el producto vectorial de la fila $i$ de la primera matriz, y la columna $j$ de la segunda matriz.

<br>

$$
 \left[\begin{array}{c c c}
u_{11} & \cdots & u_{1n} \cr
\cdots & \cdots & \cdots\cr
u_{m1} &\cdots & u_{mn} \cr
\end{array} \right] \cdot  \left[\begin{array}{c c c}
v_{11} & \cdots & v_{1o} \cr
\cdots &\cdots & \cdots \cr
v_{n1} & \cdots & v_{no} \cr
\end{array} \right] =
\left[\begin{array}{c c c}
u_{11}\cdot v_{11} + \cdots + u_{1n}\cdot v_{n1}& \cdots & u_{11}\cdot v_{10} + \cdots + u_{1n}\cdot v_{n0}\cr
\cdots &\cdots & \cdots \cr
u_{m1}\cdot v_{11} + \cdots + u_{mn}\cdot v_{n1}& \cdots & u_{m1}\cdot v_{10} + \cdots + u_{mn}\cdot v_{n0} \cr
\end{array} \right]
$$

Por ejemplo:
$$
\left[\begin{array}{c c}
1 & 2 \cr
3 & 4  \cr
5 & 6  \cr
\end{array} \right] \cdot
\left[\begin{array}{c c c c}
1&  10 & 100& 200\cr
2 & 4 &  6 & 8 \cr
\end{array} \right] = 
\left[\begin{array}{c c c c}
5 & 18 & 112& 216 \cr
11 & 46 & 324 & 632 \cr
17 & 74 & 536 & 1048 \cr
\end{array} \right]
$$

<br> 
Si el número de columnas de la primera matriz es distinto del número de filas de la segunda, las matrices no se pueden multiplicar.

In [None]:
u = np.array([[1,2],[3,4],[5,6]])
v = np.array([[1,10,100,200],[2,4,6,8]])

print(np.dot(u,v))             
print()
# Se puede llamar a la función de los dos modos. 
print(u.dot(v))

## Inversa

La función `numpy.linalg.inv()` devuelve la inversa de una matriz.

In [None]:
m = np.array([[1,1,1],[0,2,5],[2,5,-1]]) 

m_inv = np.linalg.inv(m)
print(m_inv)
print()

# El producto de una matriz por su inversa devuelve la matriz identidad
# Por precisión numérica, aparecen algunos decimales ínfimos. 
print(np.dot(m, m_inv))               

### Transposición


Aunque existen algunos otros métodos, `transpose` y `ndarray.T` son los más importantes.

In [None]:
a = np.array([[0,1,2,3],[4,5,6,7],[8,9,10,11]])
print(a)
print()

a_t = a.transpose()
print(a_t)
print()

a_t[0,0]=10
print(a)