# Clase 3: SciPy
---
## ¿Qué es SciPy?
* Scipy es un conjunto de algoritmos matematicos y funciones de utilidad construidas en Numpy, como una extensión de Python.
* Empleandolas podemos acelerar la escritura de nuestro código y el entendimiento de las funcionas al desglosarlas.
* El uso de Scipy para procesamiento de datos y prototipado de sistemas permite un entorno que compite con el presentado en MATLAB, IDL, Octave, R-Lab y SciLab.
* En general, de aquí en adelante se supondra que las paqueterias (numpy, scipy y matplotlib) serán importadas de la siguiente forma:

In [None]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt


## ¿Qué incluye SciPy?
A continuación se enlistan las subpaqueterias que incluye Scipy. 

Remarcaremos aquellas que se consideran de interes para el curso.

|Subpaqueteria|	Descripción 
|---|---|
|cluster	|Clustering algorithms|
|constants	|Physical and mathematical constants|
|fftpack	|Fast Fourier Transform routines|
|integrate	|Integration and ordinary differential equation solvers|
|interpolate|Interpolation and smoothing splines|
|io	        |Input and Output|
|linalg	    |Linear algebra|
|ndimage    |N-dimensional image processing|
|odr	    |Orthogonal distance regression|
|optimize   |Optimization and root-finding routines|
|signal	    |Signal processing|
|sparse	    |Sparse matrices and associated routines|
|spatial    |Spatial data structures and algorithms|
|special    |Special functions|
|stats	    |Statistical distributions and functions|

Es necesario considerar que al llamar cada subpaquetería lo haremos por separado, por ejemplo:


In [None]:
from scipy import linalg, optimize

Respecto a la instalación, se seguirán los siguentes comandos:
>conda install scipy

>conda install -c anaconda scipy 

Para profundizar sobre scipy se dejan los siguientes enlaces de interes:

https://scipy.org/index.html

https://scipy.org/install.html

## Funciones Básicas
---
### Atajos de Indexado
A continuación se verán las funciones:

*np.mgrid , np.ogrid , np.r_ , np.c*

que nos permiten indexar más cómodamente arreglos de Numpy

In [None]:
# La sentencia
a = np.concatenate(([3], [0]*5, np.arange(-1, 1.002, 2/9.0)))
# Equivale a
print("Primer resultado de a:\n", a)
a = np.r_[3,[0]*5,-1:1:10j]
b=np.c_[-1:1:10j]
print("\n Resultados de a y b con concatenadores a:\n",a)
print("\n b:", b)


Dónde .r_ hace referencia a la palabra en inglés "row", concatenador de filas. 

De la misma forma tenemos .c_ , concatenador de columnas.

En cuanto .mgrid y .ogrid retornan arreglos n-dimensionales con todos sus elementos de la misma dimensión y con una dimensión diferente a 1 respectivamente.

In [None]:
#np.mgrid[0:2,0:3]  #Dimensiones combinadas, 2 elementos de 2x3
#np.mgrid[0:1,0:3,0:2] #Dimensiones combinadas, 3 elementos de 1x2x3
#np.mgrid[0:1,0:2,0:3] #Dimensiones combinadas, 3 elementos de 1x3x2
np.mgrid[0:1,0:1,0:1,0:1] #Dimensiones combinadas, 4 elementos de 1x1x1x1


In [None]:
np.ogrid[0:4,0:3] #Arreglo de 1 fila de 4, 1 columna de 3. [agregar más elementos aumenta la dimensionalidad]

### Polinomios
La paquetería "poly1d" nos permite trabajar con una variable simbolica que arroja una ecuación polinomial. A la cual le ingresamos los coeficientes polinomiales.

Esta ecuación puede ser integrada, derivada y evaluada.
Además, es posible realizar algebra de polinomios siempre y cuando se cumplan las propiedades requeridas.

In [None]:
p = np.poly1d([3, -5, 5])
print(p)
#Evaluar
p(2)

In [None]:
#Encontrar raices
print(p.r)
p(p.r)

In [None]:
#Retorno de coeficientes, derivación e integración
print("\n",p.c)
print("\n",p.deriv())
print("\n",p.integ())
p.order

### Miscelaneas 
* linspace
* logspace
* angle
* absolute
* factorial
* comb

In [None]:
A = np.linspace(0.0, 3.0, num=5)
B = np.logspace(0.0, 3.0, num=5)
C = np.logspace(0.0, 3.0, num=5,base=2.0)
print ("Arreglos lineales y logaritmicos: \n", A)
print ("\n",B)
print ("\n",C)
a = np.angle(1+1j)
b = np.angle(1+1j, deg=True)  
print ("\nResultados de la operación angulo: \n", a,b)

a = np.absolute(1+1j)
print("\nResultados de la operación absoluto: \n",a)

x = np.arange(9.).reshape(3, 3)
c = np.where( x > 4 )
print(x)
print("\nResultado de la busqueda:\n",c) #Tipo de dato
print(x[np.where(x>4)])                  #Resultado siempre vector
d=np.where(x < 5, x, -1)                   #Aquello que no cumpla es sustituido por el elemento señalado
print("\nResultado de la busqueda: \n",d)

from scipy.special import factorial as fac
#exact hace referencia a utilizar flotante o no en la precisión del resultado
a=fac(4) 
b=fac(3.4)
print("Resultados de la operación factorial:",a,b)
 

$n!=\Gamma(n+1)=\int_0^\infty{x^{n}}e^{-x}dx$

In [None]:
from scipy.special import comb

a=comb(10, 3, exact=True)
b=comb(10, 3.2, exact=False, repetition=True)
print("Resultado de combinatorias: \n",a,b)

$ C^n_k =\binom{n}{k} = \dfrac{n!}{k!(n-k)!} \ \ y \ \  CR^n_k = \binom{n+k-1}{k}= \dfrac{(n+k-1)!}{k!(n-k)!}$

## Funciones especiales
---
Paquetería con ciertas funciones especiales.

Importación común:
>from scipy import special

>import scipy.special as sc
 
Incluye las siguientes clasificaciones de funciones:
* Error handling
* Airy functions: $y''(x)=xy(x)$
* Elliptic Functions and Integrals: $K(m)=\int_{0}^{\pi/2}[1-m \sin(t)^2]^{-1/2} dt$
* Bessel Functions: $x^2\dfrac{d^2 y}{d x^2}+x\dfrac{dy}{dx}+(x^2-\alpha^2)y=0$
* Sturve Functions: $H_v(x)=(z/2)^{v+1}\Sigma_{n=0}^{\infty}\dfrac{(-1)^n(z/2)^{2n}}{\Gamma(n+\dfrac{3}{2})\Gamma(n+v+\dfrac{3}{2})}$
* Raw Statistical Functions (Funciones de distribusión y distribusión acumulada, entre funciones de interés estádistico)
* Information Theory Functions (entropia computacional, etc)
* Gamma and Related Functions $\Gamma$
* ETC (Otras 13 categorias)

Se puede encontrar un sumario de las funciones en: 

https://docs.scipy.org/doc/scipy/reference/special.html#module-scipy.special

In [None]:
#Uso de la función gamma y factorial
import numpy as np
import matplotlib.pyplot as plt
from scipy.special import gamma,factorial 

x = np.linspace(-3.5, 5.5, 2251)
y = gamma(x)

plt.plot(x, y, 'K', alpha=0.8, label='$\Gamma(x)$')
k = np.arange(1, 7)
plt.plot(k, factorial(k-1), 'b^', alpha=0.6,label='$(x-1)!, x = 1, 2, ...$')
plt.xlim(-3.5, 5.5)
plt.ylim(-10, 25)
plt.grid()
plt.xlabel('x')
plt.legend(loc='lower right')
plt.show()

## Integracion
---
Paquetería dedicada a la integración númerica así como integrales relacionadas a ecuaciones diferenciales de primer orden.


In [None]:
from scipy import integrate
#help(integrate)


#### quad
Integración númerica de una integral definida, esta puede ser una integral impropia

In [None]:
# Intrgración mediante quad
import numpy as np
import scipy.integrate as integrate
x2 = lambda x: x**2
r1 = integrate.quad(x2, 0, 4.5)

x3 = lambda x: np.exp(-x)
r2 = integrate.quad(x3,0, np.inf)

x4 = lambda x: np.exp(-(x**2))
r3 = integrate.quad(x4,-np.inf,np.inf)

print("\n", r1)

print("\n", r2 )

print("\n", r3 )

In [None]:
np.sqrt(np.pi)


$$ \int_{0}^{4.5}{x^2} dx \ \ \ \ , \ \ \ \ \int_{0}^{\infty}{e^{-x}} dx \ \ \ \ , \ \ \ \ \int_{-\infty}^{\infty}{e^{-x^{2}}} dx $$
 
## Operador lambda $\lambda$
 
El operador/función lambda crea pequeñas funciones anonimas, es decir, funciones sin nombre. De forma que estas funciones serán empleadas solo dentro de una función y no otra vez. 
Su funcionamiento es equivalente a la creación de multiples variables simbolicas y la operación a realizar entre ellas.
Su empleo general es:
> lambda lista_de_argumentos: expresion

Aunque también es posible asignarle un nombre a nuestra función para emplearla más adelante y evaluarla nuevamente. 

In [None]:
import numpy as np
Fun = lambda x,y,z: x**2+y**2-2*x*y*np.cos(z)
print (Fun(1,2,0))

#Ejemplo de uso único
Celsius = [39.2, 36.5, 37.3, 37.8]
Fahrenheit = map(lambda x: (float(9)/5)*x + 32, Celsius)
print(Fahrenheit)


#### dblquad y tplquad 
funciones que sirven para integrar sobre 4 y 6 argumentos, respectivamente. 

Los límites de las integrales internas deben ser declarados como funciones

In [None]:
from scipy.integrate import quad, dblquad
def Inte(n):
    return dblquad(lambda x, y: n*x*y, 0, 0.5, 
                   lambda x: 0, 
                   lambda x: 1-2*x)
Inte(1)

$$\int_{y=0}^{1/2}{\int_{x=0}^{1-2x}{nxy \ dx \ dy}} = n \dfrac{1}{96}$$

Como se intuye, dblquad tiene los argumentos:

dblquad("función",'limite inferior 1', 'limite superior 1','limite inferior 2', 'limite superior 2') 

de forma que cada vez son más internos los limites.

La función tplquad funciona analogamente para integrales triples.

#### nquad
Función que sirve para n-integrales iteradas, a diferencia de las anteriores su estructura es:
>integrate.nquad(funcion, [[limites más internos],[limites cada vez más externos]])

Por ejemplo para la integral:
$$ I_n = \int_{1}^{\infty}{\int_{0}^{\infty}{\dfrac{e^{-xt}}{t^n}} } $$

In [None]:
import numpy as np
from scipy import integrate

N = 5
def f(t, x):
    return np.exp(-x*t) / t**N
integrate.nquad(f, [[1, np.inf],[0, np.inf]])

#### Ecuaciones diferenciales ordinarias [odeint]
En este caso, la función odeint nos permitirá integrar un conjunto de ecuaciones ordinarias diferenciales dadas sus condiciones iniciales. De forma general tenemos:
$$ \dfrac{d \textbf{y}}{dt} = \textbf{f}(\textbf{y},t); \ \ \ con \ \ \ \textbf{y}(0)=y_0 \ \ \ considerando: $$
$ \textbf{y}, $
vector de N elementos.
$\textbf{f}, $
funcion que mapea de $ \textbf{R}^n$  a $ \textbf{R}^n $

Aplicando esto al problema del pendulo simple de ecuación: 
$$ \theta''(t) + b*\theta'(t) + c* \sin{( \theta(t) )}=0 $$

Podemos reescribir el sistema como:
$$\theta'(t) = \omega(t) $$
$$\omega'(t) = -b*\omega(t) -c*\sin{( \theta(t))}  $$

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.integrate import odeint


def pend(y, t, b, c): #Declaración de simbolicas
    theta, omega = y
    dydt = [omega, -b*omega - c*np.sin(theta)]
    return dydt
#Variables númericas del modelo
b=1;
c=5;
#Declaración de condiciones iniciales
y01 = [np.pi/2, 0.0]     
y02 = [np.pi, 0.0] #Eq. Inestable
y03 = [np.pi, 0.1] #Eq. Inestable     
y04 = [0.0 , 0.3]  #Eq. Estable   
y0=[y01,y02,y03,y04];
#Declaración del tiempo base para la solución
t = np.linspace(0, 10, 1001) #10 segundos de simulación, con 1001 divisiones

#Ejecutar odeint
m=0;
plt.figure(figsize=(15,10))
for i in y0:
    
    sol = odeint(pend, i, t, args=(b, c)) 
    #Argumentos: Función simbolica, Condiciones iniciales, Tiempo de solución, argumentos internos
    m=m+1;
    plt.subplot(2,2,m)
    plt.plot(t, sol[:, 0], 'b', label='$\Theta(t)$')
    plt.plot(t, sol[:, 1], 'r--', label='$\omega(t)$')

    plt.legend(loc='best') #Localización automatica
    plt.xlabel('time (s)')   
    plt.grid()
    
plt.show()

La paquetería integral posee más funciones y elementos de útilidad, debido a que su matemática trasciende a lo esperado en este curso no serán contempladas.

Se recomienda a los asistentes revisar la paquetaría directamente en: https://docs.scipy.org/doc/scipy/reference/integrate.html#module-scipy.integrate

## Interpolar
---
La interpolación se define como obtener información caracteristica de una curva n-dimensional partiendo de los datos y caracteristicas propias de la curva. El calculo y los métodos suelen ser númericos y tratan de ajustar un cierto error o variable de control.

Empezando con la clase "interp1d" que sirve para interpolar curvas de una dimensión a partir de un vector de datos

Dada una curva $y=f(x)$
> interp1d(x,y,'kind','axis','assume_sorted')

* kind: (‘linear’, ‘nearest’, ‘zero’, ‘slinear’, ‘quadratic’, ‘cubic’, ‘previous’, ‘next’)
* axis: (respecto a que eje va a interpolar, default 'y')
* assume_sorted : (True/False) Asume o no que los valores están ordenados de forma creciente, sino entonces los ordena

In [None]:
import matplotlib.pyplot as plt
from scipy.interpolate import interp1d

x  = np.linspace(0, 10, num=15) 
y  = np.cos(-x**2/9.0)
f  = interp1d(x, y)  
f2 = interp1d(x, y, kind='cubic') #Declaración de clases como funciones
f3 = interp1d(x, y, kind='next')  

xnew = np.linspace(0, 10, num=50) #Resolución objetivo

plt.figure(figsize=(9,5))
plt.plot(x, y, 'o', 
         xnew, f(xnew), '-', 
         xnew, f2(xnew), '--', 
         xnew, f3(xnew),':')

plt.legend(['data', 'linear', 'cubic', 'next'], loc='best')
plt.show()

Para la interpolación multivariable o n-dimensional necesitamos los valores a interpolar en el respectivo arreglo matricial.

Así como definir la resolución de la interpolación de salida que buscamos.

La clase a emplear es 'griddata'

>griddata()

* Lista de argumentos*

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.interpolate import griddata

def func(x, y):
      return np.sin(x**2+y**2)/(x**2+y**2)

grid_x, grid_y = np.mgrid[-1:1:100j, -1:1:100j] #Declaración de la grid, con resolución de 100*100

points = 2*(np.random.rand(50, 2)-0.5)
values = func(points[:,0], points[:,1])

#Métodos provados: near, linear, cubic

grid_Or = func(grid_x, grid_y) #Función evaluada
grid_z0 = griddata(points, values, (grid_x, grid_y), method='nearest')
grid_z1 = griddata(points, values, (grid_x, grid_y), method='linear')
grid_z2 = griddata(points, values, (grid_x, grid_y), method='cubic')
# One can see that the exact result is reproduced by all of the methods to some degree,
# but for this smooth function the piecewise cubic interpolant gives the best results:

plt.figure(figsize=(15,10))
methods = ['Original','Nearest','Linear','Cubic']
graphs  = [grid_Or,grid_z0,grid_z1,grid_z2]
count   = 1;
for i in methods:
    plt.subplot(2,2,count)
    plt.imshow(graphs[count-1], extent=(-1,1,-1,1), origin='lower')
    if(count==1): plt.plot(points[:,0], points[:,1], 'k.', ms=1)      #Colocar los puntos random sobre la primer figura
    plt.title(i)
    count=count+1
plt.show()

Interpolación por spline
---
Esta clase nos servirá para calcular derivadas de una trayectoria interpolada así como evaluar puntos sobre la misma.
> interpolate.splrep: representación de la interpolación

> interpolate.splev   : evaluación de la interpolación, permite obtener aproximacióndes de derivadas

> interpolate.splroot : raíces de la función interpolada

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import interpolate

#Spline cubic

x = np.arange(0, 2*np.pi+np.pi/4, np.pi/2)
y = np.sin(x)
tck = interpolate.splrep(x, y, s=0) # s: smoth, suavisa o no la función interpolada

xnew = np.arange(0, 2*np.pi, np.pi/50)
ynew = interpolate.splev(xnew, tck, der=0)

plt.figure(figsize=(12,8))
plt.plot(x, y, 'x',
         xnew, ynew,
         xnew, np.sin(xnew),
         x, y, 'b')
plt.legend(['Data', 'Linear', 'Cubic Spline', 'sin(x)'])
plt.title('Interpolación de spline cubica')
plt.show()

#Derivada

yder = interpolate.splev(xnew, tck, der=1)
plt.figure()
plt.plot(xnew, yder,
         xnew,np.cos(xnew),'--')
plt.legend(['Cubic Spline', 'cos(x)'])
plt.title('Estimación de la derivada')
plt.show()

A   = interpolate.sproot(tck)
    #Es necesario que las raices estén contenidad por ambos lados al momento de buscar sus raíces
x   = np.linspace(-np.pi/4, 2.*np.pi + np.pi/4, 21)
y   = np.sin(x)
tck = interpolate.splrep(x, y, s=0)
B   = interpolate.sproot(tck)

print('Raices: \n ',A)
print('Raices: \n ',B)

## FT

La transformada de fourier, TF o FT en inglés; es una transformación lineal que lleva de un espacio temporal a un espacio frecuencial o de repeticiones/muestras. 

La teoría mátematica entorno a transformaciones lineales, transformada de fourier, discretización de la misma y su algoritmo de optimización se dejan de lado en este curso por motivos de tiempo.

Sin embargo se verá la transformada debido a su importancia en el analisis de datos, primordialmente para entender caracteristicas de una señal que no están presentes en su representación temporal.

La transformada de fourier se define como:
$$ F(\tau) = \int_{-\infty}^{\infty}f(x)e^{-2 \pi i x \tau} dx $$

Pero la transformada rápida de fourier FFT que es el algoritmo computacional discreto, se define como:
$$ y[k]= \Sigma_{n=0}^{N-1}e^{-2 \pi j x \tfrac{kn}{N}} x[n] $$

Las funciones relacionadas a esta transformación lineal se encuentran en la paquetería scipy.fftpack

#### fft / ifft


<img src='Class3D/FT.gif'>

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from scipy.fftpack import fft,ifft

N = 600 # Puntos
T = 1.0 / 800.0 #Periodo de muestreo / inv. Frecuencia de muestreo
x = np.linspace(0.0, N*T, N) # vector de tiempo de 1 seg

#Creación de señal del tipo: sin(2 Pi f t) 
y = np.cos(10.0 * 2.0*np.pi*x) + 0.5*np.cos(40.0 * 2.0*np.pi*x)
yf = fft(y) #Transformada

#Conversión del tiempo a espacio de frecuencias
#      frec=0 a N con intervalos de 1/(2T)
xf = np.linspace(0.0, 1.0/(2.0*T), N//2)
plt.figure(figsize=(20,25))
plt.subplot(4,1,1)
plt.plot(x,y)
plt.title('Señal original')
plt.xlabel('Tiempo (s)')
plt.ylabel('Amplitud')

plt.subplot(4,1,2)
plt.stem(xf, 2.0/N * np.abs(yf[0:N//2])) 
#Nota, la fft retorna valores complejos, sin embargo el absoluto y su fase nos dan información de la señal
plt.grid()
plt.title('Magnitud de la transformada')
plt.xlabel('Frecuecia (Hz)')
plt.ylabel('Magnitud')

plt.subplot(4,1,3)
plt.plot(xf,np.angle(yf[0:N//2]))
plt.grid()
plt.title('Fase de la transformada')
plt.xlabel('Frecuencia (Hz)')
plt.ylabel('Fase (rads)')

plt.subplot(4,1,4)
plt.plot(x,ifft(yf))
plt.title('Inversa de la transformada')
plt.xlabel('Tiempo (s)')
plt.ylabel('Amplitud')
plt.show()

La transformada de Fourier, como otras transformadas se puede extender a n-dimensiones, funcionando así para señales que distribullen sus valores a lo aplio de un plano. Tal como es el caso de las imagenes, a continuación se muestra un ejemplo rápido de la transformación y la inversa

In [None]:
from scipy.fftpack import ifftn
import matplotlib.pyplot as plt
import matplotlib.cm as cm


N = 31
f, ((ax1, ax3, ax5), (ax2, ax4, ax6)) = plt.subplots(2, 3, sharex='col', sharey='row')


xf = np.zeros((N,N))
xf[0, 5] = 1
xf[0, N-5] = 1
Z = ifftn(xf)
ax1.imshow(xf, cmap=cm.Reds)
ax2.imshow(np.abs(Z), cmap=cm.gray)

xf = np.zeros((N, N))
xf[5, 0] = 1
xf[N-5, 0] = 1
Z = ifftn(xf)
ax3.imshow(xf, cmap=cm.Reds)
ax4.imshow(np.abs(Z), cmap=cm.gray)

xf = np.zeros((N, N))
xf[5, 5] = 1
xf[N-5, N-5] = 1
Z = ifftn(xf)
ax5.imshow(xf, cmap=cm.Reds)
ax6.imshow(np.abs(Z), cmap=cm.gray)



## Estádistica
La paquetería scipy.stats orientada a la estadistica nos ofrece un conjunto de funciones y herramientas para la estádistica en general. A continuación se nombrarán algunos métodos generales.

Para una lista de todas las funciones disponibles en la paquetería recomendamos revisar la documentación en el siguiente enlace:
https://docs.scipy.org/doc/scipy/reference/stats.html

### Funciones elementales
* Media
* Varianza
* Desviación Estandar

> norm.mean(),  norm.var(), norm.std()

$$ \bar{X}=\dfrac{ 1}{N}\Sigma_{i=0}^N{x_i}, \ \ \ \ \ \sigma^2_n=\dfrac{1}{n}{\Sigma_{i=0}^{N}{(x_i-\bar{X})^2}}, \ \ \ \ \ \sigma $$

In [None]:
from scipy.stats import norm #Importamos la distribución normal

print (norm.mean())
print(norm.var())
print(norm.std())


#### Repaso de propiedades estádisticas y distribución de probabilidad estandar 
---
Función de probabilidad de masa

$$p(x_k)=P[X=x_k] $$
$$f(x) = \sum_k \ {p(x_k)\delta (x-x_k)}$$

Función acumulativa

$$F(x)=P[X<x] $$

Función superviviente

$$S(x)=1-F(x)=P[X>x] $$

Inversa de la función acumulativa

$$ G(q)=F^{-1}(q) $$

Inversa de la superviviente

$$  Z(\alpha)=S^{-1}(\alpha)=G(1-\alpha)$$

Momentos Geneales

$$ \mu^{'}_m =\sum_k{x_k^m p(x_k)} $$
*Promedio*
$$\mu= \mu^{'}_1 =\sum_k{x_k p(x_k)}  $$
*Varianza*
$$\sigma = \mu^{'}_2 =\sum_{x_k}{x_k^2 p(x_k)} - \mu^2 $$
*Asimetria*
$$ \gamma_1 = \dfrac{\mu_3}{\mu_2^{3/2}} $$
*Kurtosis de fisher*
$$ \gamma_2 = \dfrac{\mu_4}{\mu_2^2}-3$$





In [None]:
from scipy.stats import skewnorm
import matplotlib.pyplot as plt
fig, ax = plt.subplots(1, 1)

# Parametro de asimetria
a = -0

mean, var, skew, kurt = skewnorm.stats(a, moments='mvsk')
x = np.linspace(skewnorm.ppf(0.01, a)-1,
                 skewnorm.ppf(0.99, a)+1, 100)
ax.plot(x, skewnorm.pdf(x, a),
        'r-', lw=5, alpha=0.6, label='skewnorm pdf')

# Generar muestras aleatorias
r = skewnorm.rvs(a, size=1000)
ax.hist(r, density=True, bins=10,
        histtype='stepfilled', alpha=0.2)

title = 'Asimetria=' + str(a) + '    Media=' + "{0:.2f}".format(mean)
ax.axvline(x=mean)

desEst = np.sqrt(var)
ax.axvspan(xmin=mean-desEst, 
          xmax=mean+desEst,
          alpha=0.3)

plt.xticks([mean - desEst, mean, mean + desEst],
          ['$\mu-\sigma$ \n' + "{0:.2f}".format(mean - desEst),
           '$\mu$',
           '$\mu+\sigma$ \n' + "{0:.2f}".format(mean + desEst)])
plt.title(title)
plt.show()

## Distribuciones de Probabilidad

<img src='Class3D/distribution.png'>

### Distribuciones Discretas
---

Las distribuciones discretas parametrizan y describen  el comportamiento de eventos en los cuales se obtiene la probabilidad de observar en elemento predefinido perteneciente a un conjunto.

Ejemplo: Probabilidades de obtener un lado de una moneda, probabilidades de obtener un número al lanzar dados.

#### Todas las distribuciones de acontinuación poseen la siguiente lista de métodos
---
|Nombre|Escritura
|---|---
|Variables aleatorias | rvs(n, p, loc=0, size=1, random_state=None)	
|Función de probabilidad de masa| pmf(k, n, p, loc=0)	
|Logaritmo de pmf| logpmf(k, n, p, loc=0)	
|Función de distribución acumulativa| cdf(k, n, p, loc=0)	
|Logaritmo de cdf |logcdf(k, n, p, loc=0)	
|Función de supervivencia|sf(k, n, p, loc=0)	
|Logaritmo de sf|logsf(k, n, p, loc=0)	
|Inversa de sd | isf(q, n, p, loc=0)	
|Caracteristicas| stats(n, p, loc=0, moments=’mv’) 
|Retorna| Media, varianza, asimetria y kurtosis|
|Entropia|entropy(n, p, loc=0)	
|Mediana|median(n, p, loc=0)	
|Media  |mean(n, p, loc=0)	
|Varianza |var(n, p, loc=0)	
|Derivación Estandar| std(n, p, loc=0)	

Donde las expresiones
> k, q, n, p: son dependientes de cada una de las propiedades que calculamos

> loc=0: Es referente a la centralización o centro de la distribución 


#### Distribuciones a ver
* Bernoulli
* Binomial

Las siguentes distribuciones se encuentran presentes en la paquetería:
    * Bernoulli
    * Binomial
    * Boltzman
    * Plank
    * Poisson
    * Geometrica
    * Binomial Negativa
    * Hyper Geometrica
    * Zipf
    * Logaritmica
    * Distribución laplaciana discreta
    * Distribución discreta uniforme

##### Bernoulli
$$f(k)= \Bigg\{  \begin{array}{cc}  1-p \ si \ k=0 \\ p \ si \ k=1 \end{array}, donde \ k \in \{0,1\}$$

In [None]:
from scipy.stats import bernoulli
import numpy as np
import matplotlib.pyplot as plt
fig, ax = plt.subplots(1, 1)

p = 0.3
mean, var, skew, kurt = bernoulli.stats(p, moments='mvsk')

print("Valor medio: ", mean,
      "\nVarianza:", var,
      "\nAsimetria:",skew,
      "\nKurtosis:",kurt)

x = np.arange(0,1.1,0.1)
ax.plot(x, bernoulli.pmf(x, p), 'bo', ms=8)
ax.vlines(x, 0, bernoulli.pmf(x, p), colors='b', lw=5, alpha=0.5)
plt.title("Bernoulli")
plt.xlabel("Eventos")
plt.ylabel("Probabilidades")

plt.show()


##### Binomial
$$f(k)=\binom{n}{k}p^k(1-p)^{n-k} , \  donde \ k \in \{0,1,2,3,...,n\}$$

In [None]:
from scipy.stats import binom
import numpy as np
import matplotlib.pyplot as plt
fig, ax = plt.subplots(1, 1)

n, p = 4, 0.5
mean, var, skew, kurt = binom.stats(n,p, moments='mvsk')

print("Valor medio: ", mean, "\nVarianza:", var,"\nAsimetria:",skew,"\nKurtosis:",kurt)

x = np.arange(0,5.1,1)
ax.plot(x, binom.cdf(x, n, p), 'bo', ms=8)
ax.vlines(x, 0, binom.pmf(x, n, p), colors='b', lw=5, alpha=0.5)
plt.title("Binomial")
plt.xlabel("Eventos")
plt.ylabel("Probabilidades")

plt.show()

### Distribuciones Continuas
---

Las distribuciones continuas sirven para medir probabilidades sobre variables que pueden caer en un rango de valores dentro de los números reales.

Distribuciones a ver:
* Normal
* Beta

Las siguentes distribuciones se encuentran presentes en la paquetería:
    * Alpha 
    * Beta
    * Chi-cuadrada
    * Coseno
    * Exponencial
    * Hiperbólica
    * T-student
    * Gauss asimétrica
    * https://docs.scipy.org/doc/scipy-1.1.0/reference/tutorial/stats/continuous.html



##### Normal

$$f(x)=\frac{1}{\sqrt{2\pi\sigma}} * e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$


In [None]:
from scipy.stats import norm
import matplotlib.pyplot as plt

mean = 30
std = 20

x = np.linspace(norm.ppf(0.001, loc=mean, scale=std),
               norm.ppf(0.999, loc=mean, scale=std),
               1000)

# Genrar muestras aleatorias
r = norm.rvs(size=1000, loc=mean, scale=std)

plt.plot(x, norm.pdf(x, loc=mean, scale=std),
         'r-', lw=5, alpha=0.6,)
plt.hist(r, density=True, 
         histtype='stepfilled', alpha=0.2)

plt.axvline(x=mean)
plt.show()

In [None]:
plt.plot(x, norm.cdf(x, loc=mean, scale=std),
         'r-', lw=5, alpha=0.6,)
plt.hist(r, density=True, histtype='stepfilled', 
         alpha=0.2, cumulative=True)
plt.axvline(x=mean)
plt.axhline(y=0.5)
plt.show()

##### Beta

$$f(x)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(a, b)}$$

$$B(\alpha, \beta) = \frac{\Gamma(\alpha) + \Gamma(\beta)}{\Gamma(\alpha+\beta)}$$

In [None]:
from scipy.stats import beta

a = 10
b = 300

mean = a/(a+b)

x = np.linspace(beta.ppf(0.001, a, b),
               beta.ppf(0.999, a, b),
               1000)

r = beta.rvs(a, b, size=1000)

plt.plot(x, beta.pdf(x, a, b),
         'r-', lw=5, alpha=0.6,)
plt.hist(r, density=True, 
         histtype='stepfilled', alpha=0.2)

plt.axvline(x=mean)
plt.show()

## Pruebas estadísticas
Un factor importante a considerar en una investigación es la validez estadística que esta posee, esta está determinada por las muestras y las diferencias que presenten los fenómenos a estudiar.

In [None]:
# Generar dos funciones normales

puntos = 10
media1 = 0.1
media2 = 2

des1 = 0.3
des2 = 0.2

x1 = norm.rvs(size=puntos, loc=media1)
x2 = norm.rvs(size=puntos, loc=media2)
plt.hist(x1,
        alpha=0.3)
plt.hist(x2,
         alpha=0.3)
plt.show()

In [None]:
# Prueba de t-student
from scipy.stats import ttest_ind

statistics, pvalue = ttest_ind(x1, x2, equal_var=False)
print("El valor t de la prueba fue de: ", statistics)
print("El valor p de la prueba fue de: ", pvalue)

In [None]:
# Prueba r de Pearson
puntos = 100
t = np.linspace(0, 1, puntos)
x = np.sin(2 * np.pi *t)
y = 1*x + np.random.randn(puntos)/10
plt.plot(t, x,
         alpha=0.3)
plt.plot(t, y,
         alpha=0.3)



In [None]:
from scipy.stats import pearsonr

r, pvalue = pearsonr(x, y)
print("El valor r de la prueba fue de: ", r)
print("El valor p de la prueba fue de: ", pvalue)

In [None]:
x = (np.random.randn(100)) * 4 + 2

mean, std = norm.fit(x)
print(mean)
print(std)

## Pandas

Pandas es una librería desarrollada para dar funcionalidades de manipulación de datos a Python. Está basado en las funciones de __R__ para procesamiento de datos.

In [None]:
from __future__ import print_function
import numpy as np
import pandas as pd

### Características
* Objetos eficientes para manipulación de datos
    * Serie
    * DataFrame
* Herramientas para lectura de archivos
* Alineación de datos y manejo de datos faltantes
* Múltiples de tipos de variables
    * Objeto
    * Int
    * Float
    * Bool
    * datetime64
    * timedelta
    * Categoría
* Graficación
    * Histograma
    * Dispersión
    * Línea
    * Pie
    * Caja

In [None]:
df = pd.DataFrame((np.random.randn(1000, 4)) * np.array([1, 2, 0.5, 0.1]) + np.array([1, 3, 5, 7]),
                  columns=['A', 'B', 'C', 'D'])

In [None]:
### Funciones para referencia

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
df.info()

### Manipulación de datos

In [None]:
# Accesar a las columnas
print(df['A'])

In [None]:
print(df.A)

In [None]:
# Comparaciones
print(df.A<0.5)

In [None]:
# Función loc
df.loc[2:6, ['A', 'C']]

In [None]:
# Combinando funciones de manejo
subset = df.loc[df['A']<0.1, ['A', 'B']]
subset.describe()

In [None]:
# Usando query
query1 = df.query('A<0.1 | B<0.2')
query1.describe()

In [None]:
# Obtener un array de numpy
print(df.query('A<0.1 & B<0.2').as_matrix())

In [None]:
# Funciones estadísticas
print("Media de la columna A: ", df.A.mean())
print("Desviación estándar de la columna A: ", df.A.std())
print("Asimetría de la columna A: ", df.A.skew())
print("Kurtosis de la columna A: ", df.A.kurt())
print("Media de cada columna: \n", df.mean())

# Lectura de datos
Pandas permite la lectura de archivos csv, xlsx, txt, hdf5, entre otros.
Para los ejemplos siguentes se usará el dataset _Iris_ (disponible en https://www.kaggle.com/jchen2186/machine-learning-with-iris-dataset)

## Datset titanic

El dataset de titanic muestra información sobre pasajeros de los cuales se tiene conocimiento de si sobrevivieron al accidente junto con datos personales. Algunos de estos datos sin embargo, son desconocidos para algunos pasajeros.


In [None]:
titanic = pd.read_csv('data/titanic-train.csv')
titanic.head()

In [None]:
titanic.loc[titanic['Sex']=='male', ['Name']].head()

In [None]:
ordenado = titanic.sort_values('Age', ascending=False)
ordenado.head()

In [None]:
# Función unique
print("Valores posibles para la clase del pasajero: ", titanic['Pclass'].unique())
print("Valores posibles para el género del pasajero: ", titanic['Sex'].unique())

In [None]:
print("Resumen de sobrevivientes: \n", titanic['Survived'].value_counts())

In [None]:
# Función de groupby
titanic.groupby(['Pclass', 'Survived'])['PassengerId'].count()

In [None]:
titanic.pivot_table(index='Pclass',
                   columns='Survived',
                   values='PassengerId',
                   aggfunc='count')

In [None]:
# Correlación
corr_sobrevivir = titanic.corr()['Survived'].sort_values()
corr_sobrevivir.plot.bar()

### Funciones visualización

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

In [None]:
df.plot(subplots=False)

In [None]:
df.plot.hist(alpha=0.4,
            bins=100)

In [None]:
df.plot.kde()

In [None]:
df.plot.box()

## Dataset Iris

El dataset Iris contiene información sobre medidas de diversas flores. Es muy usado para ejemplificar modelos de clasificación y agrupamiento.

In [None]:
iris = pd.read_csv('Data/Iris.csv')
iris.head()

In [None]:
iris.describe()

In [None]:
iris.corr()

In [None]:
iris.plot.scatter(x='sepal_length', y='sepal_width',
               alpha=0.4)

In [None]:
iris.plot.scatter(x='sepal_length', y='sepal_width',
                c='petal_length')

In [None]:
from pandas.plotting import scatter_matrix
scatter_matrix(iris, alpha=0.2, figsize=(8, 8), diagonal='hist')
plt.show()

## ggplot

ggplot es una librería usada ampliamente para análisis de datos. Está basado en las reglas para visualizar información a través de gráficas en _The Grammar of Graphics_ https://www.springer.com/us/book/9780387245447

Las gráficas de ggplot incorporan dos elementos principales:

* aesthetics: Mapea los valores a características de la gráfica como ejes, colores, tamaño, etc.
* geoms: Selecciona cuáles gráficas se generan con los datos, es posible sobreponerlas y modificarlas individualmente. Se añaden usando el símbolo de suma "+".

Diversas implementaciones de ggplot han sido desarrolladas para Python.

### Plotnine

Implementación de ggplot2 en Python. Funciona con los mismos comandos que ggplot2 en R para facilitar la transición entre lenguajes.

conda install -c conda-forge plotnine   
pip3 install plotnine

pip3 install ggplot


#### Actualización de pip
python -m pip install --upgrade pip

In [None]:
from plotnine import *
#from plotnine import *

In [None]:
p = ggplot(aes(x='sepal_length',
              color='species',
              fill='species'), data=iris) + geom_density(alpha=0.5)# + geom_dotplot(bins=25, alpha=0.5)
p

In [None]:
p = ggplot(aes(x='species', 
               y = 'sepal_length',
               color='species',
              fill='species'), data=iris) + geom_jitter() +  geom_violin(alpha=0.4)
p

In [None]:
p = ggplot(aes(x='species', 
               y = 'sepal_length',
               color='species',
               fill='species'), data=iris) +  geom_boxplot(alpha=0.5) + geom_jitter()
p

In [None]:
ggplot(aes(x='sepal_length', y='sepal_width'), data=iris) + geom_jitter()


In [None]:
ggplot(aes(x='sepal_length', y='sepal_width', 
           color='species', size='petal_length'), 
           data=iris) + geom_jitter()

In [None]:
ggplot(aes(x='sepal_length', y='sepal_width', 
           color='species', size='petal_length'), 
           data=iris) + geom_point()

In [None]:
ggplot(aes(x='sepal_length', y='sepal_width', 
           color='species', size='petal_length'), 
           data=iris) + geom_point() + \
           geom_hline(yintercept=[2.7, 4.5, 3.5], linetype='dashed') + \
           geom_vline(xintercept=[4.1, 6], linetype='dashed')

In [None]:
ggplot(aes(x='sepal_length', y='sepal_width', 
           color='species'), 
           data=iris) + geom_point() + facet_wrap('species')

In [None]:
ggplot(aes(x='sepal_length', y='sepal_width', 
           color='species'), 
           data=iris) + geom_point() + facet_wrap('species') + geom_quantile()

In [None]:
ggplot(aes(x='sepal_length', y='sepal_width', 
           color='species'), 
           data=iris) + geom_point() \
            + facet_wrap('species') \
            + geom_smooth(method='lm')

In [None]:
ggplot(aes(x='sepal_length',
           y='sepal_width', 
           color='species'), 
           data=iris) + geom_point() \
            + facet_wrap('species', scales='free_x') \
            + geom_step()

In [None]:
ggplot(aes(x='sepal_length', y='sepal_width', 
           color='species', fill='species'), 
           data=iris) + geom_bin2d(alpha=0.5, binwidth = (0.3, 0.3))

In [None]:
trade = pd.read_csv('data/cansim.csv', skiprows=6,
                 skipfooter=10)
trade.Adjustments = pd.to_datetime(trade.Adjustments,  errors='coerce')
trade.head()

In [None]:
ggplot(aes(x='Adjustments',
           y='Unadjusted'), data=trade) + geom_line()

In [None]:
ggplot(aes(x='Adjustments', y='Unadjusted'), data=trade) + geom_line() \
    + geom_smooth(method='lm', level=0.9)

In [None]:
ggplot(aes(x='Adjustments', y='Unadjusted'), data=trade) + geom_line() \
    + geom_ribbon(alpha=0.3, ymax=trade.Unadjusted+3e6, ymin=trade.Unadjusted-3e6)

In [None]:
trade2 = pd.melt(trade, id_vars='Adjustments')
trade2.head()

In [None]:
ggplot(aes(x='value', color='variable', fill='variable'), data=trade2) \
    + geom_density(alpha=0.8)

In [None]:
ggplot(aes(x='Adjustments', y='value', color='variable'), data=trade2) \
    + geom_line() + geom_point()

In [None]:
ggplot(aes(x='Adjustments', y='value', color='variable'), data=trade2) \
    + geom_line() + geom_point() + facet_wrap('variable', nrow=2, ncol=1)

In [None]:
air = pd.read_csv('data/international-airline-passengers.csv')
air.Month = pd.to_datetime(air.Month)
air.info()

In [None]:
ggplot(aes(x='Month', y='Thousand Passengers'), data=air) + geom_line()

In [None]:
ggplot(aes(x='Month', y='Thousand Passengers'), data=air) + geom_line() \
    + geom_smooth(method='lm')

In [None]:
ggplot(aes(x='Month', y='Thousand Passengers'), data=air) + geom_line() \
    + geom_area(alpha=0.3) + theme_bw()

## Ejercicios
* Abrir el dataset de peso y altura 'data/weight_height' y mostrar su información relevante.
* Mostrar el histograma(ggplot) para cada uno de los valores de peso y altura.
* Obtener el histograma(ggplot) de altura para cada género usando comandos de pandas.
* Usando los datos de peso ajustar una distribución normal y obtener sus parámetros.
* Mostrar la distribución cumulativa para la distribución resultante para un rango de valores a elegir.
* Mostrar la correlación entre las variables.
* Hacer una pivot table para el dataset de titanic usando como criterio el género del pasajero.
* Hacer una prueba estadística para verificar si el género influye en la supervivencia.