# NumPY - numpy

* Manejo de arreglos multidimensionales
* Integración con librerías en C y C++
* Librerías de algebra lineal, transformada de fourier y numero aletarorios

# Importar NumPy

In [None]:
import numpy as np

* Es común usar _np_ en lugar de _numpy_

# Arreglos

* $\mathbf x = [3, 4, 5, 7]$
* $\mathbf x_0 = 3$
* $\mathbf x_2 = 5$

In [None]:
lst = [3, 4, 5, 7]
print(lst[0])
print(lst[2])
lst.append(32)
print(lst[-1])
lst.append('un elemento')
lst

* Lo anterior son listas no arreglos

In [None]:
import array
ar = array.array('d', lst)
print(ar)

* ¿Por qué usar NumPy?

In [None]:
ar = np.array([10, 3, 4, 5, 7])
print(ar)

# Mínimo

In [None]:
ar.min()
lst = [10, 3, 4, 5, 7]
min(lst), ar.min()

# Máximo

In [None]:
ar.max()

# Elementos únicos

## Generar un problema simple de elementos únicos

In [None]:
import random
lst = [random.randint(0, 3) for _ in range(100)]

* ¿Cuáles son los eleméntos únicos?  
son [0, 1, 2, 3]
* ¿Cuántos de cada uno?

In [None]:
import collections
ar = np.array(lst)
np.unique(ar, return_counts=True)
a = collections.Counter(lst)

# Ordenar

## Generar un problema

In [None]:
ar = np.array([random.random() for _ in range(100)])
ar

In [None]:
ar.sort()
ar

In [None]:
index = ar.argsort()
b = ar[index]

# Búsqueda en arreglos ordenados

In [None]:
c = b.searchsorted(0.15)
b[c-2:c+2]
ar.searchsorted(0.15)

# Media

In [None]:
np.mean(ar), np.mean(b)

# Varianza

In [None]:
np.var(ar), np.var(b)

# Desviación Estandar

In [None]:
np.std(ar)

# Media geométrica

In [None]:
from scipy.stats.mstats import gmean
gmean(ar)

# Media armónica

In [None]:
from scipy.stats.mstats import hmean
hmean(ar)

# Ejemplos

In [None]:
%pylab inline
muestra = np.random.uniform(size=1000)
_ = hist(muestra)
grid()

In [None]:
muestra = np.random.normal(size=1000)
_ = hist(muestra)

In [None]:
np.mean(muestra), muestra.min(), muestra.max(), np.std(muestra)

# Estadísticas del titanic

In [None]:
header = open('Titanic_codificado_train.csv').readline().strip().split(',')
print(header, len(header))
titanic = np.loadtxt('Titanic_codificado_train.csv',
                     delimiter=',', skiprows=1)
clase = titanic[:, 2]
data = titanic[:, 3:]
print(header[3:])

## Sobrevivientes

In [None]:
_, c = np.unique(clase, return_counts=True)
c / c.sum()

## Sexo

In [None]:
_ = hist(data[:, 1])

## Edad

In [None]:
_ = hist(data[:, 2])

* ¿Cuántas mujeres sobrevivieron?
* ¿Cuáles eran sus edades?

In [None]:
genero = data[:, 1]
mask = genero == 0
_, count = np.unique(clase[mask], return_counts=True)
print(count / count.sum())
_, count = np.unique(clase[~mask], return_counts=True)
print(count / count.sum())

In [None]:
edad = data[:, 2]
edad_mujer = edad[mask]
clase_mujer = clase[mask]
hist(edad_mujer[clase_mujer == 0])

In [None]:
hist(edad_mujer[clase_mujer == 1])

In [None]:
a, b = 12, -23
a, b
c = np.array([12, -23])
a, b = c
a, b

# Vectores - suma

In [None]:
import numpy as np
a = np.random.uniform(size=100)
b = np.random.uniform(size=100)
print(a + b)

# Vectores - producto

In [None]:
c = np.dot(a, b)
print(c)

# Arreglos - producto

In [None]:
c = a * b
print(c)

# Minkowski

* $D(a, b) = (\sum_i^n \mid a_i - b_i \mid^p )^{\frac{1}{p}}$

## $p \rightarrow \infty$
* $d(a, b) = \max_i \mid a_i - b_i \mid$

##  $p \rightarrow -\infty$
* $d(a, b) = \min_i \mid a_i - b_i \mid$

# Norma

* $\mid \mid \mathcal v \mid \mid = \sqrt{\sum_i \mathcal v_i^2}$ 