# Arrays

Como anticipamos al hablar de los contenedores, el [array](https://en.wikipedia.org/wiki/Array_data_type) es el tipo de dato fundamental para la computación científica.

Es una estructura multidimensional cuyos elementos se especifican con una secuencia de índices. Un array de dimensión 1 es como un vector, cuyos elementos se especifican como `a[j]`. Un array de dimensión 2 es como una matriz, cuyos elementos se especifican con dos índices: `a[i,j]` (i-ésima fila, j-ésima columna). Un array de dimensión 3 admite tres índices `a[i,j,k]` (fila, columna, capa). Y así sucesivamente. Esta referencia a elementos de un array con el corchete se llama indexado.

La característica fundamental de los arrays es que podemos operar con todos sus elementos de forma automática sin bucles ni indexado explícito. Esto permite expresar los algoritmos de análisis de datos de forma muy elegante.

Las operaciones con arrays están disponibles en el módulo [numpy](https://en.wikipedia.org/wiki/NumPy), que es el corazón del ecosistema de computación científica de Python ([scipy](https://www.scipy.org/)), y una de las causas de la gran popularidad que ha adquirido este lenguaje.

Estas funciones pueden agruparse en las siguientes categorías:

- creación de arrays
- inspección de estructura
- operaciones "vectorizadas" con *broadcasting* automático
- reducción por filas o columnas
- *slicing* (troceado) y reconfiguración
- *masks* (selección de elementos en base a condiciones lógicas)
- álgebra lineal

## Operaciones básicas

A continuación mostramos algunos ejemplos de uso de las funciones más importantes. La tradición es usar el prefijo `np` para indicar las funciones que trabajan con arrays. 

In [None]:
import numpy as np

Construcción a partir de listas (u otros contenedores):

In [None]:
v = np.array([2,-3,7])

In [None]:
v[1]

In [None]:
m = np.array([[5,3, 2,10],
              [2,0, 7, 0],
              [1,1,-3, 6]])

In [None]:
m[1,2]

In [None]:
m[2]

Inspección de su tipo y estructura:

In [None]:
type(m)

In [None]:
m.dtype

In [None]:
m.shape

In [None]:
m.ndim

In [None]:
len(m)

In [None]:
m.size

Operaciones elemento a elemento automáticas:

In [None]:
v * np.array([10,0,5])

In [None]:
5*m + 2

Constructores especiales:

In [None]:
np.zeros([2,3])

In [None]:
np.ones([4])

In [None]:
np.linspace(0,5,11)

In [None]:
np.arange(10)

In [None]:
np.arange(1,10,0.5)

In [None]:
np.eye(7)

Iteración, a lo largo de la primera dimensión:

In [None]:
for e in np.ones(4):
    print(e)

In [None]:
for e in m:
    print(e)

In [None]:
sum(m)

In [None]:
np.sum(m,axis=1)

Operaciones matriciales:

In [None]:
m.T

In [None]:
v = np.array([3,2,-5,8])

El operador `@` (abreviatura de la función [np.dot](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.dot.html)) es el producto de matrices, el producto matriz-vector y, en general, realiza la [contracción](https://en.wikipedia.org/wiki/Tensor_contraction) de dos arrays multidimensionales.

In [None]:
m @ v

In [None]:
np.diag([10,0,1]) @ m

Funciones matemáticas optimizadas para arrays, elemento a elemento:

In [None]:
x = np.linspace(0,2*np.pi,30)

x

In [None]:
y = np.sin(x) + np.cos(2*x)
y

Los arrays son el tipo de datos que normalmente se utiliza para producir gráficas, como veremos en detalle en el siguiente capítulo.

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.plot(x,y);

Reconfiguración de los elementos:

In [None]:
np.arange(12).reshape(3,2,2)

In [None]:
np.arange(5).reshape(-1,1)

## Matrices por bloques

In [None]:
np.append(m,[[100,200,300,400],
             [0,  10,  0,  1] ],axis=0)

In [None]:
np.hstack([np.zeros([3,3]),np.ones([3,2])])

In [None]:
np.vstack([np.eye(3),5*np.ones([2,3])])

## Automatic broadcasting

Las operaciones elemento a elemento argumentos con las mismas dimensiones. Pero si alguna dimensión es igual a uno, se sobreentiende que los elementos se replican en esa dimensión para coincidir con el otro array.

In [None]:
m = np.array([[1, 2, 3, 4]
             ,[5, 6, 7, 8]
             ,[9,10,11,12]])

In [None]:
m + [[10],
     [20],
     [30]]

In [None]:
m + [100,200,300,400]

In [None]:
np.array([[1,2,3,4]])   + np.array([[100],
                                    [200],
                                    [300]])

## Slices

Extracción de elementos y "submatrices" o "subarrays", seleccionando intervalos de filas, columnas, etc.:

In [None]:
m = np.arange(42).reshape(6,7)
m

In [None]:
m[1,2]

In [None]:
m[2:5,1:4]

In [None]:
m[:3, 4:]

In [None]:
m[[1,0,0,2,1],:]

Los índices negativos indican que se empieza a contar desde el final.

In [None]:
# las dos últimas columnas y todas las filas menos las tres últimas.
m[:-3,-2:]

In [None]:
# la penúltima columna
m[:,-2]

In [None]:
# la penúltima columna pero como array 2D (matriz), para que se vea como un vector columna
m[:,[-2]]

## Masks

Son arrays de valores lógicos.

Extracción de elementos que cumplen una condición:

In [None]:
n = np.arange(10)

n

In [None]:
n < 5

In [None]:
n[n<5]

Reducción de arrays lógicos:

In [None]:
np.all( n > 3 )

In [None]:
np.any( n == 2 )

Operaciones similares a list comprehensions:

In [None]:
k = np.arange(1,101)

(k ** 2)[(k>10) & (k**3 < 2000)]

## Funciones con instrucciones de control

Cuando la función que deseamos representar contiene instrucciones `if`, `for`, etc., y no solo operaciones matemáticas, entonces no funcionará automáticamente sobre secuencias. Por ejemplo:

$$f(x) = \begin{cases}sin(x), & x\leq \frac{\pi}{2}\\e^{\left(\frac{\pi}{2}-x\right)}, &x> \frac{\pi}{2}\end{cases}$$

In [None]:
import numpy             as np
import matplotlib.pyplot as plt

In [None]:
def f(x):
    if x<= np.pi/2:
        return np.sin(x)
    else:
        return np.exp(np.pi/2-x)

In [None]:
f(2.3)

In [None]:
D = np.linspace(0,5,100)

In [None]:
# descomentando la siguiente línea dará error
# plt.plot(D, f(D))

Una posibilidad es crear una secuencia evaluando explícitamente cada elemento:

In [None]:
plt.plot( D, [f(x) for x in D] );

Pero lo mejor es utilizar la función `np.where`, que hace un papel análogo a if-else sobre arrays.

In [None]:
def h(x):
    return np.where(x<=np.pi/2, np.sin(x), np.exp(np.pi/2-x))

In [None]:
plt.plot(D,h(D));

## Mutabilidad

Las modificaciones de los elementos de un array son visibles fuera de las funciones donde ésto se realiza:

In [None]:
a = np.array([1,2,3])

b = 1

def cambia(x,y):
    x[1] = 10
    y    = 20

cambia(a,b)

print(a)
print(b)

Pero además, hay una diferencia importante en el comportamiento de los operadores `+=`, `*=`, etc., que a veces puede inducir a confusión.

In [None]:
k = 1
b = k
b = b + 3
print(k, b)

In [None]:
k = 1
b = k
b += 3
print(k, b)

In [None]:
k = np.array([1,1,1])
b = k
b = b + 3
print(k,b)

In [None]:
k = np.array([1,1,1])
b = k
b += 3
print(k,b)

## Lectura desde archivo

Los arrays se pueden guardar en ficheros de [texto plano](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.savetxt.html#numpy.savetxt) o en un [formato comprimido especial](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.savez_compressed.html#numpy.savez_compressed) para su uso posterior.

En la carpeta `datos` hay un archivo de texto con una tabla de números. Puedes abrirlo con jupyter para echar un vistazo.

In [None]:
hubble = np.loadtxt('datos/hubble-0.txt')
hubble

Las filas son casos observados y las columnas son las variables medidas.

In [None]:
vel = hubble[:,0]
mag = hubble[:,2]

# también podemos dar nombre a las columnas así:
# vel, reds, mag = hubble.T

plt.plot(vel,mag,'.')
plt.xlabel('velocidad (Km/s)')
plt.ylabel('Magnitud');

Hay otra versión de los mismos datos que contiene comentarios y una cabecera con los nombres de las columnas. Comienza así:

    # https://ned.ipac.caltech.edu/cgi-bin/objsearch?refcode=1996AJ....112.2398H&search_type=Search&of=pre_text
    
    V(km/s) Redshift Magnitud
    
    18287  0.060998  17.62
    5691   0.018983  15.00 
    ...

Se puede leer saltando filas:

In [None]:
hubble = np.loadtxt('datos/hubble.txt', skiprows=3)
hubble

La función `np.loadtxt` admite también archivos remotos, que pueden incluso estar comprimidos:

In [None]:
hubble = np.loadtxt('https://aruiz.org/data/inforfis/hubble.txt.bz2', skiprows=3)
hubble.shape

Finalmente, el módulo `pandas` proporciona el tipo "dataframe", muy utilizado en análisis de datos y que estudiaremos más adelante.

In [None]:
import pandas as pd

df = pd.read_table('https://aruiz.org/data/inforfis/hubble.txt', sep='\\s+', comment='#')
df

Más adelante estudiaremos los dataframes. Por ahora convertimos los datos a un array normal.

## Números pseudoaleatorios

`numpy` permite generar arrays de números pseudoaleatorios con diferentes tipos de distribuciones (uniforme, normal, etc.).

In [None]:
# enteros uniformemente distribuidos en un intervalo
np.random.randint(1, 6+1, (3,4))

In [None]:
# reales entre cero y 1, uniformemente distribuidos
np.random.rand(3,4)

In [None]:
# reales con distribución normal (gaussiana) con media cero y varianza 1
np.random.randn(2,5)

## Estadística descriptiva

`numpy` proporciona funciones de estadística descriptiva para calcular características de conjuntos de datos tales como la media, mediana, desviación típica, máximo y mínimo, etc. Todas estas funciones de "reducción" de arrays pueden actuar sobre el array completo, por filas o por columnas, dependiendo del argumento opcional `axis`.

In [None]:
m = np.random.randint(0,10, (5,3))
m

In [None]:
np.mean(m), np.max(m), np.min(m), np.median(m), np.std(m), np.var(m)

In [None]:
np.sum(m)

In [None]:
np.sum(m, axis=0)

In [None]:
np.sum(m, axis=1)

Además de las funciones `np.max` y `np.min`, tenemos `np.argmax` y `np.argmin`, que devuelven respectivamente el **índice** del máximo o mínimo elemento.

In [None]:
np.argmax( [2,-4,8,0,7,5] )

## Caso de estudio: Teorema central del límite *

Como ejemplo, podemos estudiar la distribución de puntuaciones al lanzar varios dados.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
ndados  =   4 # int(input('Número de dados:'))
tiradas = 200 # int(input('Número de tiradas:'))
dados = np.random.randint(1,6+1,(tiradas,ndados))
dados[:10]

In [None]:
s = np.sum(dados,axis=1)
s[:10]

In [None]:
plt.hist(s);

Comparamos con la teoría:

In [None]:
from scipy.stats import norm, randint

In [None]:
dado = randint(low=1, high=7)
dado.mean(), dado.std(), dado.var()

In [None]:
mu  = s.mean()
tmu = dado.mean()*ndados
print(f'Media: teoría = {tmu:.3f}, experimento = {mu:.3f}')

In [None]:
sigma = s.std()
tsigma = np.sqrt(ndados) * dado.std()
print(f'Desviación. teoría = {tsigma:.4f}, experimento = {sigma:.4f}')

In [None]:
x = np.linspace(ndados,6*ndados,100)

plt.hist(s,bins=np.arange(ndados,6*ndados)+0.5, density=True, edgecolor='black');

plt.plot(x,norm.pdf(x,tmu,tsigma),lw=3, label='teoría')
plt.plot(x,norm.pdf(x,mu,sigma),lw=1, color='gray', label='experimento')
plt.xticks(np.arange(ndados,6*ndados+1))
plt.legend();

Veremos otros ejemplos de estas funciones en el tema dedicado al análisis de datos.

## Caso de estudio: estimación de la probabilidad de un suceso

Deseamos estimar mediante simulación la probabilidad de obtener una puntuación mayor de 8 al lanzar dos dados.

El valor real es:

In [None]:
sum([1 for i in range(1,7) for j in range(1,7) if i + j > 8])/36

La frecuencia de éxitos en un número grande de simulaciones del experimento será un valor parecido al real.

In [None]:
N = 1000

Repetimos el lanzamiento simulado de los dados en un bucle, acumulando en una variable los éxitos.

In [None]:
import numpy as np

total = 0
for k in range(N):
    d1 = np.random.randint(1,6+1)
    d2 = np.random.randint(1,6+1)
    if d1 + d2 > 8:
        total = total + 1
print(total/1000)

Es conveniente separar la simulación del experimento de su ejecución repetida, para poder adaptarlo fácilmente a otros problemas parecidos.

In [None]:
def exper():
    d1 = np.random.randint(1,6+1)
    d2 = np.random.randint(1,6+1)
    return d1 + d2 > 8

In [None]:
total = 0
for k in range(N):
    if exper():
        total = total + 1
print(total/1000)

Es equivalente a esta definición, más elegante:

In [None]:
np.mean([exper() for _ in range(1000)])

Esto funciona porque en las operaciones aritméticas numpy convierte automáticamente los valores lógicos True y False en 1 y 0.

En este ejemplo el resultado se puede obtener de forma directa con operaciones de arrays:

In [None]:
dados = np.random.randint(1,6+1, (1000,2))

print(dados)

Podemos recorrer cada fila de esta forma, nombrando sus dos elementos:

In [None]:
total = 0
for d1,d2 in dados:
    if d1 + d2 > 8:
        total = total + 1
print(total/1000)

Pero es mucho mejor utilizar una máscara:

In [None]:
puntos = np.sum(dados, axis=1)

éxitos = puntos > 8

np.mean(éxitos)

## Álgebra lineal

El submódulo `linalg` ofrece las operaciones usuales de álgebra lineal.

In [None]:
import scipy.linalg as la

Por ejemplo, podemos calcular fácilmente el módulo de un vector:

In [None]:
la.norm([1,2,3,4,5])

o el determinante de una matriz:

In [None]:
la.det([[1,2],
        [3,4]])

Observa que muchas de las funciones que trabajan con arrays admiten también otros contenedores como listas o tuplas, que son transformadas automáticamente en arrays.

Un problema muy importante es la resolución de sistemas de ecuaciones lineales. Si tenemos que resolver un sistema como

$$
\begin{align*}
x + 2y &= 3\\
3x+4y  &= 5
\end{align*}
$$

Lo expresamos en forma matricial $AX=B$ y podemos resolverlo con la inversa de $A$, o directamente con `solve`.

$$\begin{bmatrix}1 & 2 \\ 3 & 4\end{bmatrix} X = \begin{bmatrix}3 \\ 5 \end{bmatrix}
$$

In [None]:
m = np.array([[1,2],
              [3,4]])

In [None]:
m

In [None]:
la.inv(m)

In [None]:
la.inv(m) @ np.array([3,5])

Es mejor (más eficiente y numéricamente estable) usar la función `solve`:

In [None]:
la.solve(m,[3,5])

La solución se debería mostrar como una columna, pero en Python los arrays de una dimensión se imprimen como una fila porque no siempre representan vectores matemáticos. Si lo preferimos podemos usar matrices de una sola columna.

In [None]:
x = la.solve(m,[[3],
                [5]])

x

In [None]:
m @ x

Si el lado derecho de la ecuación matricial $A X = B$ es una matriz, la solución $X$ también lo será.

## Computación matricial *

Python proporciona una [amplia colección](https://docs.scipy.org/doc/scipy/reference/linalg.html) de funciones de álgebra lineal numérica.

In [None]:
la.eigh([[1,2],
         [2,3]])

In [None]:
la.eig([[1,2],
        [7,1]])

In [None]:
np.sqrt([[1,2],
         [3,4]])

In [None]:
r = la.sqrtm([[1,2],
              [2,6]])
r

In [None]:
r @ r

## Caso de estudio: mínimos cuadrados *

Como ejemplo de uso de las herramientas de álgebra lineal realizaremos el ajuste de un modelo polinomial a unas observaciones ficticias. Encontraremos la solución de mínimo error cuadrático a un sistema de ecuaciones sobredeterminado.

En primer lugar generamos unos datos de prueba artificiales que simulan observaciones contaminadas con ruido de una función no lineal.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

x = np.linspace(0,2,30)

y = np.sin(x) + 0.05*np.random.randn(x.size)

plt.plot(x,y,'.');

Vamos a ajustar un modelo del tipo $y = ax^2 + bx + c$. Los coeficientes desconocidos $a$, $b$ y $c$ se pueden obtener resolviendo un sistema de ecuaciones lineales.

La matriz de coeficientes tiene potencias de $x$ hasta el grado que nos interesa.

In [None]:
A = np.vstack([x**2, x, np.ones(x.size)]).T

A

En realidad es una matriz de Vandermonde:

In [None]:
np.vander(x,3)

El lado derecho del sistema es directamente el vector con los valores de $y$, la variable independiente del modelo.

In [None]:
B = np.array(y)

B

El sistema que hay que resolver está sobredeterminado: tiene solo tres incógnitas y tantas ecuaciones como observaciones de la función.

$$A \begin{bmatrix}a\\b\\c\end{bmatrix}= B$$

La solución de [mínimo error cuadrático](https://en.wikipedia.org/wiki/Least_squares) para los coeficientes del modelo se obtiene de manera directa:

In [None]:
sol = la.lstsq(A,B)[0]

sol

In [None]:
ye = A @ sol

plt.plot(x,y,'.',x,ye,'r');

Se puede experimentar con polinomios de mayor o menor grado.

Una forma de llegar a esta solución es resolver las "ecuaciones normales" del sistema
$Ax=b$. Como está sobredeterminado, vamos a minimizar el error cuadrático $E=||Ax-b||^2$, que es matemáticamente tratable. Hay que resolver

$$\frac{\partial E}{\partial x_k} =0 $$

Se puede comprobar que la solución es

$$x = A^+ b$$

donde $A^+$ es la [pseudoinversa](https://en.wikipedia.org/wiki/Moore%E2%80%93Penrose_inverse) de $A$:

$$A^+ = (A^TA)^{-1}A^T$$


In [None]:
la.inv(A.T @ A) @ A.T @ B

In [None]:
la.pinv(A) @ B

En el tema dedicado al análisis de datos se muestra un ejemplo de ajuste de un modelo lineal por mínimos cuadrados usando el módulo `sklearn`.

## Implementación eficiente *

Las operaciones de `numpy` están "optimizadas" (escritas internamente en código C eficiente).

In [None]:
x = np.random.rand(10**8)

In [None]:
x

In [None]:
%%time

np.mean(x)

In [None]:
%%timeit

np.mean(x)

In [None]:
%%timeit

x @ x

Si la misma operación se realiza "manualmente" con instrucciones normales de Python requiere mucho más tiempo:

In [None]:
%%time

s = 0
for e in x:
    s += e
print(s/len(x))

Por tanto, si usamos los módulos apropiados los programas en Python no tienen por qué ser más lentos que los de otros lenguajes de programación. Python es "glue code", un pegamento para combinar bibliotecas de funciones, escritas en cualquier lenguaje, que resuelven eficientemente problemas específicos.

## Ejemplo de repaso

En el notebook [dist.ipynb](tareas/dist.ipynb) se muestran diferentes formas de definir una función para calcular la distancia entre dos puntos.

## Ejercicios

- Resuelve el sistema:

$$ 
\begin{align*}
x + 2y + 5z + 4w&= 24\\
y-z  &= 1 \\
2x+2y &= 6 \\
-x+2y+3w &= 15
\end{align*}
$$


- Escribe una función para calcular la distancia entre dos puntos de $\mathbb R^n$.


- Escribe un programa que calcule la letra del DNI ([aquí explican la forma de hacerlo](http://www.cespedes.org/dni2nif/)).


- Escribe un programa que encuentre el segundo mayor número contenido dentro de un array de enteros.


- Escribe una función que admita un array 2D $m$ y un escalar $s$ y extraiga las filas de $m$ cuya suma sea mayor $s$.


- A partir de los datos experimentales contenidos en `datos/hubble.txt` calcula el valor medio de redshift de las observaciones con velocidad < 5000Km/s.


- Escribe una función para ordenar un array de enteros de menor a mayor.


- Escribe una función para calcular el [producto vectorial](http://en.wikipedia.org/wiki/Cross_product) de dos vectores.


- Escribe una función para calcular los coeficientes $l=(a,b,c)$, de la ecuación de la recta $ax+by+c=0$ que pasa por dos puntos $P=(x_1,y_1)$, $Q=(x_2,y_2)$ dados.


- Escribe una función para calcular el punto de intersección de dos rectas con coeficientes $l=(a,b,c)$ y  $l'=(a',b',c')$.


- Escribe una función para calcular la distancia de un punto $P=(x,y)$ a una recta $l=(a,b,c)$ y la proyección de P en la recta.


- Escribe una función para calcular la recta paralela a una recta $l$ que pasa por un punto $P$. Escribe una función para calcular la recta perpendicular a una recta $l$ que pasa por un punto $P$.


- Dado un triángulo definido por sus tres vértices $P$, $Q$ y $R$ calcula la longitud de una base $b$ y su correspondientes altura $h$ y comprueba que el área obtenida mediante la fórmula habitual $A=bh/2$ coincide con la de Herón.


- Calcula una aproximación numérica a la siguiente integral usando una [aproximación lineal a trozos](http://en.wikipedia.org/wiki/Trapezoidal_rule) con 20 intervalos:

  $$ \int_0^1 e^{-2x^2}\cos(3\pi x) dx $$



- Escribe una función para calcular la desviación típica de un conjunto de números.


- Un polinomio $p(x)$ de grado $n$ se puede representar mediante un vector de coeficientes de dimensión $n+1$. Escribe funciones para: **a)** calcular (los coeficientes de) la derivada del polinomio. **b)** calcular (los coeficientes de) la integral del polinomio. **c)** evaluar un polinomio en un valor concreto de $x$. **d)** multiplicar dos polinomios.


- Simula el lanzamiento de 5 dados mil veces, y comprueba gráficamente que la distribución de resultados de la puntuación total es aproximadamente normal.


- Determina mediante simulación qué suceso es más probable: **a)** obtener al menos un seis al lanzar 6 dados, **b)** obtener al menos 2 seises al lanzar 12 dados. **c)** obtener al menos 3 seises al lanzar 18 dados.
