# Taller de Manejo y Análisis de Datos

**Profesor**: Pedro Montealegre

# Numerical Python (numpy)


## Introducción

El paquete NumPy (por NUMerical PYthon) provee acceso a una estructura de datos llamada `array` (arreglo), que permite:

- operaciones eficientes de manejo de matrices y vectores y
- herramientas de álgebra lineal, como por ejemplo resolución de sistemas de ecuaciones, cálculo de valores y vectores propios, etc.


### Historia

Hay dos implementaciones que entegan aproximadamente la misma funcionalidad que NumPy. Esta son "Numeric" y "numarray":

- Numeric fue el primer módulo que incluía en Python un conjunto de métodos numéricos (similares a Matlab). Evolucionó a partir de una tesis doctoral. 

- Numarray es una re-implementación de Numeric con ciertas mejoras (pero para nuestros propósitos Numeric y Numarray se comportan de manera virtualmente idéntica)

- A comienzos de 2006 se decidió combinar los mejores espectos de Numeric y Numarray en el paquete `scipy` (Scientific Python) y entregar el tipo de datos `array` en el módulo `NumPy`



## Arreglos
Introducimos un nuevo tipo de datos, llamado `array`. Un arreglo se parece mucho a una lista, con la diferencia que un arreglo solo puede guardar elementos de un mismo tipo (mientras que en una lista podemos mezclar diferentes tipos de objetos). Esto implica que los arreglos se almacenan de manera más eficiente, porque no está la necesidad de guardar en cada elemento el tipo de datos. Esto también los hace el tipo de datos ideal para cálculo numérico, donde a menudo hay que lidiar con matrices y vectores. 

Los vectores y matrices (dos o más índices) se llaman *arreglos* en NumPy.


### Vectores (arreglos unidimensionales)

La estructura de datos que necesitaremos con más frecuencia son los vectores. A continuación veremos como crearlos, operar con ellos y cuáles son sus ventajas.

In [None]:
import numpy as np  # Abreviamos el nombre Numpy como np

#### Creación y acceso a vectores:

Hay varias formas de crear vectores. 

-   Transformación de una lista (o tupla) en un arreglo usando <span>`numpy.array`</span>:

In [None]:
[0, 0.5, 1, 1.5]

In [None]:
x = np.array([0, 0.5, 1, 1.5])
print(x)


In [None]:
type(x)

In [None]:
type(x[0])

-   Creación de un vector usando `arange` (por "ArrayRANGE”):

In [None]:
x = np.array(range(10))
print(x)

``` Python
np.arange(x,y,z) = np.array(range(x,y,z))
```

In [None]:
x = np.arange(10)
x

In [None]:
print(type(x[0]))

In [None]:
x = np.arange(0, 2, 0.5)
print(x)

- Usando los métodos `zeros` y `ones`

In [None]:
x = np.zeros(10)
print(x)  # Observación: se genera una lista de float

In [None]:
type(x[0])

In [None]:
x = np.zeros(10, dtype = int) # Para forzar que la lista sea de enteros (numpy)
print(x)

In [None]:
type(x[0])

In [None]:
x = np.ones(5)
print(x)

In [None]:
x = np.ones(5, dtype = int)
print(x)

#### Recuperar valores de un vector

Una vez que el arrego está definido, podemos definir y recuperar valores individuales igual que con una lista. Por ejemplo:

In [None]:
x = np.array([0,0.5,1,1.5,2,2.5])
x

In [None]:
x[0] = -1
x[2] = 4
print(x)

In [None]:
print(x[0])
print(x[0:-1]) # Silce

In [None]:
lista = [1,2,3,4,5,6,7]
lista[4:6]

Pero a diferencia de las listas, podemos recuperar una lista (o arreglo) desde cualquier índice: 

In [None]:
arreglo = np.array(lista)
arreglo[[0,2,4,6]]

In [None]:
x[np.array([0,2,4])]

No necesariamente respetando el orden:

In [None]:
x[[0,4,2]]

e incluso se pueden repetir índices:

In [None]:
x[[1,1,1,0,2,1,1]]

También podemos escoger elementos con una lista (o arreglo) de valores Booleanos del mismo largo:

In [None]:
print(x)
x[[False,False,True,False,True,False]]

In [None]:
x > 0

In [None]:
x[x>0] # Para qué sirve

#### Operaciones de vectores

Otra diferencia con las listas es que en un vector podemos realizar cálculos sobre todos los elementos con un solo comando: 

- Sumar 10 a cada elemento:

In [None]:
x

In [None]:
print(x + 10)

- Elevar cada elemento al cuadrado

In [None]:
print(x**2)

- NumPy incluye las funciones de la librería `math`, que se pueden aplicar a todos los elementos de un vector:

In [None]:
print(np.sin(x))

Por lo tanto, a diferencia de las listas, cuando multiplicamos un vector por un número, multiplicamos todos sus elementos:

In [None]:
y = 5*x
print(x)
print(y)

Además, a diferencia de las listas, podemos comparar un arreglo con un número, lo que equivale a comparar elemento por elemento. Por ejemplo, si tomamos el siguiente vector:

In [None]:
x = np.array([10,15,20,25,30])
x = np.append(x,5)
print(x)

In [None]:
lista = [10,15,20,25,30]
lista.append(5)
print(lista)

entonces al comparar `x` con un número, obtenemos un arreglo de las mismas dimensiones, donde cada elemento es `True` o `False`:

In [None]:
x>20

In [None]:
x == 25

In [None]:
x != 30

y esto último permite recuperar partes del arreglo de manera muy eficiente:

In [None]:
x[x>20]

In [None]:
x[x!=30]

In [None]:
[i for i in x if i != 30]

**Observación:** Se puede transformar una lista en un arreglo cambiando el tipo de dato de cada elemento usando el argumento opcional `dtype` de la función `array()`. Por ejemplo:

In [None]:
lista_num = ["1.1","1.5\n","2"]
arreglo_num = np.array(lista_num, dtype = "float")
print(arreglo_num)

In [None]:
lista_num = ["1\n","2\n","3 "]
arreglo_num = np.array(lista_num, dtype = "int")
print(arreglo_num)

In [None]:
lista_num = ["1\n","2\n","3"]
arreglo_num = np.array(lista_num)
arreglo_num

### Ejercicio

1. Un científico norteamericano estaba haciendo estudios de la altura de las personas en nuestro país, y guardó sus datos en un arreglo numpy llamado alturas. Sin embargo, utilizó pulgadas como medida (maldito sistema métrico inglés). Escriba el código para transformar esas mediciones en centímetros (1 pulgada equivale a 2.54 cm)

In [None]:
# Escriba aquí su solución

2. Escriba una función en Python  llamada estadistica que reciba un arreglo con las notas de un curso y calcule el promedio de notas del curso, y extraiga la nota menor y mayor, para luego mostrar estas tres cosas por pantalla.

In [None]:
# Escriba aquí su solución

3. El archivo `datos.txt` contiene 100000 líneas de números entre 0 y 9. Escriba un programa que lea el archivo y sin usar ningún ciclo for calcule cuántas líneas tienen números mayores que 6.

In [None]:
# Para generar datos.txt
import numpy as np
file = open("datos.txt","w")
for i in range(100000-1):
    file.write("%d"% np.random.randint(10) + "\n") # obs: randint(n) entrega un entero al azar entre 0 y n-1
file.write("%d"% np.random.randint(10))
file.close()

In [None]:
# Escriba aquí su solución

4.  Si a es un arreglo de números, entonces `numpy.argmin(a)` devuelve la coordenada de a que contiene al mínimo elemento del arreglo. Por ejemplo, si `a = numpy.array([4,5,1,3,2])` entonces `numpy.argmin(a)` devuelve `2`, ya que `1` es el mínimo elemento en `a` y `a[2] = 1`. Si el elemento mínimo se repite en varias coordenadas, se entrega la primera de dichas coordenadas.  Use la función `argmin` (junto a otras de la bilbioteca numpy) para escribir una función llamada `argprom(a)`, que reciba un arreglo `a`, y retorne la coordenada del elemento más cercano al promedio de los elementos de `a`. Si hay varios elementos más cercanos al promedio, se entrega la menor coordenada.

In [None]:
# Escriba aquí su solución

### Matrices (arreglos bidimensionales)

#### Creación de arreglos bidimensionales

Hay dos modos de crear un arreglo bidimensional: 

- Transformando una lista de listas en un arreglo:

In [None]:
x = np.array([[1, 2, 3], [4, 5, 6],[7,8,9]])
print(x)

-   Usando el método `zeros` o `ones` (por ejemplo para crear una matriz con 5 filas y 4 columnas):

In [None]:
x = np.zeros((5, 4))
x

que se extiende fácilmente a más dimensiones

In [None]:
x = np.zeros((2, 5, 4))
x

Se pueden recuperar las dimensiones de una matriz con el comando `shape`:

In [None]:
x=np.array([[1, 2, 3], [4, 5, 6]])
print(x)
x.shape

In [None]:
np.zeros((2,5,4)).shape

#### Recuperar elementos

Se puede acceder elementos individuales usando la sintaxis que usamos para las listas: 

In [None]:
x

In [None]:
x[1][1]

o bien:

In [None]:
x[0, 0]

In [None]:
x[0, 1]

In [None]:
x[0, 2]

In [None]:
x[1, 0]  # equivalente a x[1][0]

También podemos recuperar una fila de la matriz usando la sitaxis de las listas:

In [None]:
x[0]

o bien

In [None]:
x[0,:]

Pero a diferencia de las listas, podemos recuperar las columnas:

In [None]:
x

In [None]:
x[:, 0]

In [None]:
x[:, 1]

In [None]:
x[:,2]

#### Definiendo matrices a partir de vectores

La función `eye` sirve para generar una matriz identidad:

In [None]:
np.eye(5)

Podemos usar la función `diag` para crear una matriz diagonal a partir de una lista o vector:

In [None]:
x = np.diag([1,2,3,4,5])
x

In [None]:
x[1:4,1:-1]  # Slices complicados

Con el método `.reshape` podemos transformar un vector en una matriz

In [None]:
x = np.arange(6)
print(x)

In [None]:
y = x.reshape(2,3)
print(y)

o transformar una matriz en una de otras dimensiones pero los mismos valores:

In [None]:
y.reshape(6,1)

In [None]:
y.reshape(3,2)

### Ejercicio:



1. Escriba una función `crear_matriz`que reciba como argumentos `m` y `n` y devuelva la matriz de `m` filas y `n` columnas con los elementos de 1 a mn en orden. Por ejempo `crear_matriz(3,5)` entrega la matriz:

$$A = \left(\begin{array}{ccccc} 1 & 2 & 3 & 4 & 5\\ 6 & 7 & 8 & 9 & 10 \\  11 & 12 &13&14&15 \end{array}\right)$$

In [None]:
# Escriba aquí su solución

2. Escriba una función llamada `filas_iguales` que reciba como argumento una matriz `A` y devuelva un Booleano que represente si la matriz tiene dos filas iguales.

In [None]:
# Escriba aquí su solución

### Transformar arreglos en listas o tuplas

Para crear una lista o tupla a partir de un arreglo, podemos usar funciones estandar de Python como `list()` o `tuple()`, las cuales toman una secuencia `s` como argumento de entrada, y devuelven una lista o una tupla, respectivamente:

In [None]:
a = np.array([1, 4, 10])
a

In [None]:
list(a)

In [None]:
tuple(a)

### Módulo `random`

NumPy también incorpora el módulo `random`, que permite generar números pseudoaleatorios. 
Por ejemplo, el la función `randint(low=0,high)`, que genera un valor al azar entre low (por defecto 0) y high, se puede llamar apelando al módulo `random` y a `np`:

In [None]:
np.random.randint(100)

Del mismo modo, podemos usar el método `random()` (que genera un número al azar entre 0 y 1). 

In [None]:
np.random.random()

Pero además, al incluirlas con el módulo NumPy, estas funciones permiten crear arreglos y matrices de valores aleatorios:

In [None]:
np.random.randint(100,size=10)

In [None]:
np.random.randint(100,size=(3,3))

In [None]:
np.random.random(size=(3,3))

Para este último caso, hay una forma un poco más abreviada:

In [None]:
np.random.rand(3,3)

In [None]:
np.random.randint(42,size=3)

## Operaciones de álgebra lineal 

### Multiplicación de matrices

Dos arreglos se pueden multiplicar usando la función `.dot()`. Aquí hay un ejemplo:

In [None]:
A = np.random.randint(2,size=(3, 3))    # genera una matriz aleatoria de 3,3 con valores 0 o 1
x = np.random.randint(1,3,size=[3])     # genera un vector aletorio de 3 elementos entre 1 o 2
b=np.dot(A, x)                          # multiplica A por x
print("A=")
print(A)
print("x=")
print(x)
print("Ax=")
print(b)

Otro ejemplo

In [None]:
x = np.random.randint(1,3,size=[3])
y = np.random.randint(0,2,size=[3])
print(x)
print(y)
np.dot(x,y)

Observe que las dimensiones deben ser compatibles, y que `size=3` no es igual a `size=[1,3]` ni  `size=[3,1]`

In [None]:
x = np.random.randint(1,3,size=(3,1))
y = np.random.randint(0,2,size=[1,3])
print(x)
print(y)
np.dot(x,y)

In [None]:
np.dot(y,x)

### Ejercicio

1. Una matriz cuadrada se conoce como *cuadrado mágico* si todas sus filas, sus columnas y ambas diagonales suman el mismo valor. Escriba la función `es_magico` que reciba como argumento un arreglo bidimensional, y devuelva un valor Booleano dependiendo de si el arreglo representa o no un cuadrado mágico.

Hint: puede servirle los comandos:
- `np.transpose(M)` para calcular la transpuesta de una matriz M.
- `np.diag(M)` entrega la diagonal de la matriz M.
- `np.fliplr(M)` invierte el orden de las columnas.

Además, puede probar su código con la siguiente matriz (que es mágica):

$$A = \left(\begin{array}{ccccc} 17 & 24 & 1 & 8 & 15 \\ 23& 5& 7& 14& 16 \\  4& 6& 13& 20& 22\\ 10& 12& 19& 21& 3\\ 11& 18& 25& 2& 9 \end{array}\right)$$

In [None]:
# Escriba aquí su solución

#### Resolviendo sistemas de ecuaciones lineales

Para resolver el sistema de ecuaciones $Ax = b$ que es dado en su forma matricial (*i.e.* $A$ es una matriz, $x$ y $b$ son vectores, donde $A$ y $b$ son conocidos y queremos encontrar el vector $x$), podemos usar el paquete de álgebra lineal `linalg` de `numpy`: 

In [None]:
import numpy.linalg as LA

A = np.array([[1,1,1],[0,1,1],[0,0,1]])  
b = np.array([1,2,2])  

print("A=")
print(A)
print("b=", b)
x = LA.solve(A, b)  # np.linalg.solv(A,b) encuentra la solución del sistema de ecuaciones
#x = np.linalg.solve(A,b)
print("x=",x)
np.dot(A,x)

El comando ``np.linalg.solve(A,b)`` encuentra la solución del sistema de ecuaciones $Ax=b$, siempre que éste tenga solución única. Cuando hay infinitas soluciones, o no hay solución, el comando arroja error. 

#### Calculando valores y vectores propios

El paquete `linalg` también incluye la función `eig`, que calcula los valores y vectores propios de una matriz. Aquí hay un pequeño ejemplo que calcula los valores y vectores propios de la matriz identidad:

In [None]:
import numpy

A = numpy.eye(3)    
print(A)

In [None]:
evalues, evectors = LA.eig(A)
print(evalues)

In [None]:
print(evectors)

In [None]:
evalues, evectors = LA.eig(magica)

In [None]:
evalues

In [None]:
evectors

#### Minimos cuadrados

Asumamos que tenemos datos representados por pares ordenados, y que queremos ajustar a una curva polinomial que minimice el cuadrado de la distancia a los datos. 

Numpy provee la función `polyfit(x,y,n)`, que toma una lista `x` correspondientes a las abscisas/variables de los datos, una lista `y`que corresponde a las ordenadas (valor a predecir) de los mismos datos, y el grado `n` del polinomio deseado que se ajustará a los datos, usando el método de minimos cuadrados. El polinomio que devuelve la función `polyfit` es representado por un arreglo que contiene los coeficientes del polinomio ordenados de grado mayor a menor.

En el siguiente ejemplo, utilizamos el polinomio generado por la función `polyfit` usando la función `poly1d` de NumPy, que entrega el polinomio como función:

In [None]:
a = [1,1,1,1]
p = np.poly1d(a) # a[0]x^3 + a[1]*x^2 + a[2]*x + a[3]
print(p(2))

In [None]:
%matplotlib inline
import numpy as np

# demostración de curva de ajuste: xdata e ydata son los datos de entrada
xdata = np.array([0.0 , 1.0 , 2.0 , 3.0 , 4.0 , 5.0])
ydata = np.array([0.0 , 0.8 , 3 , 0.1 , -0.8 , -1.0])
# ahora ajustamos a un polinomio de grado 3
z = np.polyfit(xdata, ydata, 5)
print(z)
# z es un arreglo con sus coeficientes
#                 X^3            X^2          X             0
# z = array ([ 0.16481481 -1.5468254   3.44867725 -0.27301587])

p = numpy.poly1d(z) # crea el polinomio como función p a partir de los coeficientes
                    # y entonces p puede ser evaluado en todo x .

    
# hacemos un gráfico
import matplotlib.pyplot as plt

xs = np.arange(0,5.1,0.1)
ys = [p(x) for x in xs]   

plt.plot(xdata, ydata,'o')
plt.plot(xs, ys)
plt.ylabel('y')
plt.xlabel('x');

Se muestra la curva ajustada (línea continua) junto a los datos de entrada representados por puntos.

### Ejercicio:

1. Escriba un programa que genere 6 puntos aleatorios entre 0 y 1, y luego ajuste una polinomio de grado 4. 

In [None]:
# Escriba aquí su solución

### Más ejemplos de NumPy…

…se pueden encontrar aquí: <http://www.scipy.org/Numpy_Example_List>

### Numpy para usuarios de Matlab

Hay una sitio web específico, que explica Numpy desde la perspectiva de un usuario experimentado en Matlab: https://docs.scipy.org/doc/numpy-dev/user/numpy-for-matlab-users.html.