# Numeric Python: NumPy - numpy

* Manejo de arreglos multidimensionales
* Integración con librerías en C y C++
* Librerías de algebra lineal, transformada de fourier y numero aletarorios

# Importar NumPy

In [None]:
import numpy as np

* Es común usar _np_ en lugar de _numpy_

# Arreglos

* $\mathbf x = [3, 4, 5, 7]$
* $\mathbf x_0 = 3$
* $\mathbf x_2 = 5$

In [None]:
lst = [3, 4, 5, 7]
print(lst[0])
print(lst[2])
lst.append(32)
print(lst[-1])
lst.append('un elemento')
lst

* Lo anterior son listas no arreglos

In [None]:
import array
ar = array.array('d', lst)
print(ar)

* ¿Por qué usar NumPy?

In [None]:
ar = np.array([10, 3, 4, 5, 7])
print(ar)

# Mínimo

In [None]:
ar.min()
lst = [10, 3, 4, 5, 7]
min(lst), ar.min()

# Máximo

In [None]:
ar.max()

# Elementos únicos

## Generar un problema simple de elementos únicos

In [None]:
import random
lst = [random.randint(0, 3) for _ in range(100)]

* ¿Cuáles son los eleméntos únicos?  
son [0, 1, 2, 3]
* ¿Cuántos de cada uno?

In [None]:
import collections
ar = np.array(lst)
np.unique(ar, return_counts=True)
a = collections.Counter(lst)

# Ordenar

## Generar un problema

In [None]:
ar = np.array([random.random() for _ in range(100)])
ar

In [None]:
ar.sort()
ar

In [None]:
index = ar.argsort()
b = ar[index]

# Búsqueda en arreglos ordenados

In [None]:
c = b.searchsorted(0.15)
b[c-2:c+2]
ar.searchsorted(0.15)

# Media

In [None]:
np.mean(ar), np.mean(b)

# Varianza

In [None]:
np.var(ar), np.var(b)

# Desviación Estandar

In [None]:
np.std(ar)

# Media geométrica

In [None]:
from scipy.stats.mstats import gmean
gmean(ar)

# Media armónica

In [None]:
from scipy.stats.mstats import hmean
hmean(ar)

# Ejemplos

In [None]:
%pylab inline
muestra = np.random.uniform(size=1000)
_ = hist(muestra)
grid()

In [None]:
muestra = np.random.normal(size=1000)
_ = hist(muestra)

In [None]:
np.mean(muestra), muestra.min(), muestra.max(), np.std(muestra)

# Estadísticas del titanic

In [None]:
header = open('Titanic_codificado_train.csv').readline().strip().split(',')
print(header, len(header))
titanic = np.loadtxt('Titanic_codificado_train.csv',
                     delimiter=',', skiprows=1)
clase = titanic[:, 2]
data = titanic[:, 3:]
print(header[3:])

## Sobrevivientes

In [None]:
_, c = np.unique(clase, return_counts=True)
c / c.sum()

## Sexo

In [None]:
_ = hist(data[:, 1])

## Edad

In [None]:
_ = hist(data[:, 2])

* ¿Cuántas mujeres sobrevivieron?
* ¿Cuáles eran sus edades?

In [None]:
genero = data[:, 1]
mask = genero == 0
_, count = np.unique(clase[mask], return_counts=True)
print(count / count.sum())
_, count = np.unique(clase[~mask], return_counts=True)
print(count / count.sum())

In [None]:
edad = data[:, 2]
edad_mujer = edad[mask]
clase_mujer = clase[mask]
hist(edad_mujer[clase_mujer == 0])

In [None]:
hist(edad_mujer[clase_mujer == 1])

In [None]:
a, b = 12, -23
a, b
c = np.array([12, -23])
a, b = c
a, b

# Vectores - suma

In [None]:
import numpy as np
a = np.random.uniform(size=10)
np.set_printoptions(precision=2)
b = np.random.uniform(size=10)
c = a + b
print(a[:3], b[:3], a + b)

# Vectores - producto
* $dot(\mathbf a, \mathbf b) = \sum_i \mathbf a_i \mathbf b_i$

In [None]:
c = np.dot(a, b)
print(c)

# Arreglos - producto

* $\mathbf c_i = \mathbf a_i \mathbf b_i$

In [None]:
c = a * b
print(c)

# Minkowski

* $D(a, b) = (\sum_i^n \mid a_i - b_i \mid^p )^{\frac{1}{p}}$

## $p \rightarrow \infty$
* $d(a, b) = \max_i \mid a_i - b_i \mid$

In [None]:
print(np.fabs(a - b).max())

##  $p \rightarrow -\infty$
* $d(a, b) = \min_i \mid a_i - b_i \mid$

In [None]:
print(np.fabs(a - b).min())

# Euclideana

In [None]:
np.sqrt(((a - b)**2).sum())

# Norma

* $\mid \mid \mathcal a \mid \mid = \sqrt{\sum_i \mathcal a_i^2}$ 

In [None]:
c = (a)**2
c = c.sum()
print(np.sqrt(c))

In [None]:
c = np.dot(a, a)
print(np.sqrt(c))

# Similaridad coseno

* $s(\mathbf a, \mathbf b) = \cos(\theta) = \frac{\mathbf a \cdot \mathbf b}{\mid \mid \mathbf a \mid \mid ~ \mid \mid \mathbf b \mid \mid}$

In [None]:
norm = lambda x: np.sqrt(np.dot(x, x))
print(np.dot(a, b) / (norm(a) * norm(b)))
print(np.dot(a, a) / (norm(a) * norm(a)))

# Índice Jaccard
* $j(\mathbf a, \mathbf b) = \frac{\mid \mathbf a \cap \mathbf b \mid}{\mid \mathbf a \cup \mathbf b \mid}$

In [None]:
a = np.random.randint(0, 2, size=10)
b = np.random.randint(0, 2, size=10)
_ = a + b
_[_ > 1] = 1
print(np.dot(a, b) / _.sum())
print(np.dot(a, b) / ((a + b) >= 1).sum())

# Regresión lineal

* $y = m x + b$
* $A \mathbf x = \mathbf y$
* $A' A \mathbf x = A' \mathbf y $
* $(A' A)^{-1} A' A \mathbf x = ( A' A)^{-1} A' \mathbf y $
* $\mathbf x = ( A' A)^{-1} A' \mathbf y $

In [None]:
from sklearn import datasets
boston = datasets.load_boston()
print(boston.DESCR)

In [None]:
boston.data[10]

In [None]:
coef = np.linalg.lstsq(boston.data, boston.target)[0]
print(coef, boston.data[10])
np.dot(coef, boston.data[10]), boston.target[10]

In [None]:
%pylab inline
plot(np.dot(boston.data, coef), boston.target, '.')

In [None]:
y = boston.target.copy()
np.random.shuffle(y)
plot(np.dot(boston.data, coef), y, '.')

* $f(x) = d \sin(x) + c x^2 + m x + b$
* $f(x) = d \sin(x) + c x^2 + m x + b + \cos(l \cdot x)$

In [None]:
A = np.concatenate((np.atleast_2d(boston.data[:, 5]**2).T, boston.data),
                   axis=1)

In [None]:
coef2 = np.linalg.lstsq(A, boston.target)[0]

In [None]:
plot(np.dot(A, coef2), boston.target, '.')
plot(np.dot(boston.data, coef), boston.target, '.')

In [None]:
B = np.concatenate((np.atleast_2d(boston.data[:, 5]**2).T,
                    np.atleast_2d(np.ones_like(boston.target)).T,
                    boston.data),
                    axis=1)

In [None]:
coef3 = np.linalg.lstsq(B, boston.target)[0]

In [None]:
plot(np.dot(B, coef3), boston.target, '.')
plot(np.dot(A, coef2), boston.target, '.')
plot(np.dot(boston.data, coef), boston.target, '.')
legend(['B', 'A', 'Data'])

# Ejercicios
- Cargue la base de datos del Titanic como un arreglo de numpy
- Ordene los registros de la colección por la columna de edad utilizando `slices`
    - Sugerencia: resuelva el ejercicio en el menor número de **líneas** que pueda, es posible ordenar los registros con una sola línea 
- Calcule la matriz de similitud de coseno de todos los elementos a todos los elementos de la colección de Titanic
    - Nota: intente calcular la matriz con el menor número de **operaciones**