# La terminal e iPython: directorio de trabajo

In [None]:
!pwd

In [None]:
!cd ..

In [None]:
!pwd

## Cambiar el directorio de trabajo? Tenemos que usar los comandos "magic" con `%`

In [None]:
%cd ..

In [None]:
!pwd

### Automagic? `%automagic`

In [None]:
cd semana2

## Otros comandos!

In [None]:
!ls -lha

## Info de la terminal a Python?

In [None]:
env = !printenv

In [None]:
print(env)

In [None]:
type(env)

## Info de Python a la terminal?

In [None]:
msg = "Este es un mensaje"

In [None]:
!echo {msg}

## Podemos listar los paquetes instalados? Instalar paquetes?

In [None]:
which conda

In [None]:
!pip list --outdated

In [None]:
!pip show ipykernel

### Importancia de usar la libreria `sys` de Python: `pip` y `conda`

In [None]:
import sys
print(sys.prefix)

In [None]:
!conda install --yes --prefix {sys.prefix} pandas numpy matplotlib scikit-learn configparser scipy seaborn pytest traitlets

In [None]:
!conda install --yes --prefix {sys.prefix} numba cython progressbar2 tweepy

In [None]:
!conda update --yes --prefix {sys.prefix} python-utils

In [None]:
!which pip

In [None]:
print(sys.executable)

In [None]:
!{sys.executable} -m pip install pandas numpy matplotlib scikit-learn

## Verificar existencia de paquetes?

In [None]:
import pkg_resources
def checkDeps(filename):
    try:
        with open(filename,'r') as f:
            reqs = [line for line in f]
        packages = ", ".join([pkg_resources.Requirement.parse(line).name for line in reqs])
        deps = pkg_resources.require(reqs)
        del reqs
    except ValueError as err:
        print("ERROR: Invalid requirement specifier ->",err)
        raise ValueError
checkDeps(filename='requirements.txt')

# Tipos de variables en Python y operaciones
* `None`
* integers, floats
* tuples, lists
* strings
* unordered dictionaries and ordered dictionaries
> Funciones convenientes:
> * `?` o `??`
> * `type(#var)`
> * `dir(#var)`
> * `isinstance(#var,<type>)`
> * `help(<#any>)`
> * `sys.float_info` & `sys.int_info`
> * `del` y `sys.getsizeof(#var)`

# Condicionales y ciclos: `if`, `elif`, `else`, "one liner", `for`, `while`

# Scoping en Python y su utilidad: la sentencia `with`

# Funciones,recurrencia y librerías

# Numpy: Vectores y arreglos, operaciones

# Visualización: [PyViz.org](https://pyviz.org/)

In [None]:
a = 1

In [None]:
type(a)

In [None]:
a = [5,4,6,2]

In [None]:
if isinstance(a,dict):
    print("soy un dictionario")
elif isinstance(a,tuple):
    print("soy una tupla")
elif isinstance(a,list):
    print("soy una lista")
elif isinstance(a,str):
    print("soy una cadena")
else:
    raise TypeError("Mismatch of type")

In [None]:
for it in range(10):
    it = it-1 if it%2==0 else 2*it; print("iterator: %ld"%it); # Nota: el punto y coma ";" es frecuente en C y C++, ¡en Python también se puede usar para delimitar comandos!

In [None]:
it

In [None]:
with open('requirements.txt', 'r') as f:
    for line in f:
        print(line,end='')

In [None]:
f

In [None]:
for line in f:
    print(line,end='')

In [None]:
dir()

In [None]:
b = []

In [None]:
b.append(2)

In [None]:
b

In [None]:
dir(b)

In [None]:
try:
    b.index(1)
except ValueError:
    print("no encontre el valor")

In [None]:
def f1(x,y):
    if y == 0 and x == 0:
        a = 1
    else:
        a = x**y
    return(a)

In [None]:
f1(y=2,x=3)

In [None]:
f1(2,3)

In [None]:
d = dict(x=2,y=3)
l = [2,3]

In [None]:
f1(*l)

In [None]:
f1(**d)

In [None]:
def f2(x,y,n=0,*args,**kwargs):
    print('args:',type(args))
    print('\t',args)
    print('kwargs:',type(kwargs))
    print('\t',kwargs)
    if n== 0:
        return(f1(x,y))
    else:
        return(f1(y,x))

In [None]:
f2(2,3,0)

In [None]:
f2(2,3,1)

In [None]:
f2(2,3,1,3,4,5)

In [None]:
f2(2,3,1,nam=4,3,4,5)

In [None]:
f2(2,3,1,3,4,5,nam=4)

In [None]:
def factorial(n):
    if n == 0:
        return 1
    return n*factorial(n-1)
def f3(n,k,p):
    if not (isinstance(n,int) and isinstance(k,int) and n >= k and k >=0):
        print("Error")
        return None
    return f1(p,k)*f1(1-p,n-k)*(factorial(n)//(factorial(n-k)*factorial(k)))

In [None]:
s = 0
for it in range(4+1):
    print("el",it,"val=",f3(4,it,0.5))
    s += f3(4,it,0.5)

In [None]:
print(s)

$$1,1,2,3,5,8,13,...$$

In [None]:
def fibo(n):
    if n==1:
        return 1
    if n==2:
        return 1
    return(fibo(n-1)+fibo(n-2))
    

In [None]:
fibo(40)

# ¿Cómo verificamos las variables que tenemos *cargadas* en el entorno?

In [None]:
import sys
# These are the usual ipython objects, including this one you are creating
ipython_vars = ['In', 'Out', 'exit', 'quit', 'get_ipython', 'ipython_vars']
# Get a sorted list of the objects and their sizes
tmpvar = sorted(
    [(x, sys.getsizeof(globals().get(x))) for x in dir() if not x.startswith('_') and x not in sys.modules and x not in ipython_vars],
    key=lambda x: x[1],
    reverse=True
)
print(tmpvar)
del ipython_vars,tmpvar

# Algunos temas faltantes

* Cargar librerías: math, numpy y matplotlib
* Trabajar con numpy
* Graficar con matplotlib y Seaborn

Aunque no hayamos podido ver con detalle estos temas, los invito a que revisen la documentación que está en los siguientes enlaces:
* https://numpy.org/doc/1.17/reference/index.html
* https://matplotlib.org/tutorials/introductory/lifecycle.html
* https://seaborn.pydata.org/api.html

**A continuación haré dos ejemplos de tiro parabólico usando Numpy**

Suponga que queremos graficar el tiro parabólico teniendo en cuenta que conocemos la posición $(0,0)$ y velocidad inicial ($v_0$ a un ángulo $\theta$) como parámetros para una función. Para ellos vamos a emplear dos métodos:
1. Calcular las parejas $(x,y)$ utilizando el parámetro temporal. Sabemos que el tiempo total de caida es de $t_c=\frac{2v_0}{g}\sin\theta$
1. Calcular las parejas $(x,y)$ a partir de $y=f(x)$ que en el caso de tiro parabólico es $y=\tan\theta\,x-\frac{g}{2v_{0}^{2}\cos^2\theta}x^2$ siendo que el alcance máximo es $x_M=\frac{v_{0}^{2}}{g}\sin(2\theta)$

## Método 1:

In [None]:
# importamos las librerías de referencia
import math

# creamos la func que a valores de tiempo nos devuelve una "dupla" x,y
def parabolico1(t,v0,theta,g=9.8):
    x = v0*math.cos(theta)*t
    y = v0*math.sin(theta)*t - 0.5*g*(t**2)
    return (x,y)

In [None]:
# probamos la func
print("test: v0=10, theta=45º");
v0=10; theta=math.pi/4; g=9.8; tc=math.sin(theta)*2*v0/g
print("\tXmax=",parabolico1(tc,v0,theta,g=g))
print("\tHmax=",parabolico1(0.5*tc,v0,theta))
del v0,theta,g,tc

### Creamos un vector de tiempos para obtener $(x,y)$ en cada momento usando **Numpy**

In [None]:
import numpy as np
# Fijamos # de puntos para graficar
NUM_T=100
# Fijamos condiciones iniciales
v0=10; theta=np.pi/4; g=9.8
# creamos el vector de tiempos T
T = np.linspace(0,np.sin(theta)*2*v0/g,NUM_T)
# creamos los vectores de coordenadas x,y
X = np.zeros(NUM_T)
Y = np.zeros(NUM_T)

In [None]:
# llenamos los vectores x,y
for it,t in enumerate(T):
    X[it],Y[it] = parabolico1(t,v0,theta,g)

In [None]:
# Graficamos
import seaborn as sns; sns.set()
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

plt.clf()
plt.scatter(X,Y)
plt.plot(X,Y)

In [None]:
# intentamos otra libreria
sns.scatterplot(X,Y)

In [None]:
# Limpiamos la basura
del NUM_T,g,v0,theta,T,X,Y

> **Existe otra manera de llenar los vectores X y Y respectivamente?** *Si* gracias a la vectorización de Numpy (Ver [Vectorización en Numpy](https://docs.scipy.org/doc/numpy/reference/generated/numpy.vectorize.html))

In [None]:
# Fijamos # de puntos para graficar
NUM_T=100
# Fijamos condiciones iniciales
v0=10; theta=np.pi/4; g=9.8
# creamos el vector de tiempos T
T = np.linspace(0,np.sin(theta)*2*v0/g,NUM_T)
# creamos los vectores de coordenadas con una sola linea!
X,Y=parabolico1(T,v0,theta,g)
# graficamos!
sns.scatterplot(X,Y)

In [None]:
# Limpiamos la basura
del NUM_T,g,v0,theta,T,X,Y

## Método 2:

In [None]:
# creamos la func que a valores de pos en X nos devuelve pos en Y
def parabolico2(x,v0,theta,g=9.8):
    y = x*np.tan(theta) - (g/(2*(v0**2)*(np.cos(theta)**2)))*(x**2)
    return y

In [None]:
# probamos la func
print("test: v0=10, theta=45º");
v0=10; theta=math.pi/4; g=9.8; x_max=np.sin(2*theta)*v0**2/g
print("\tat X=0, Y=",parabolico2(0,v0,theta,g=g))
print("\tat X=%lf, Y="%(x_max/2),parabolico2(x_max/2,v0,theta))
print("\tat X=%lf, Y="%x_max,parabolico2(x_max,v0,theta))
del v0,theta,g,x_max

### Creamos un vector de pos en $x$ para obtener pos en $y$ usando **Numpy**

In [None]:
import numpy as np
# Fijamos # de puntos para graficar
NUM_X=100
# Fijamos condiciones iniciales
v0=10; theta=np.pi/4; g=9.8
# creamos el vector de tiempos T
X = np.linspace(0,np.sin(2*theta)*v0**2/g,NUM_X)
# creamos el vector de pos en y en una sola linea aprovechando vectorizacion
Y = parabolico2(X,v0,theta,g=g)
# Graficamos
sns.scatterplot(X,Y)

In [None]:
# Limpiamos la basura
del NUM_X,g,v0,theta,X,Y

# Semana 3: principios de probabilidad

# Notas de clase (por favor lea con atención)

La clase pasada discutimos la importancia de la Teoría de Probabilidad y vimos las características de las distribuciones de probabilidad. Hagamos un breve repaso. Sea $\mathcal{X}$ una variable aleatoria cuyo soporte $\Omega^\prime\subseteq\Omega$ ($\Omega$ el espacio muestral de todas las variables aleatorias de valor real) es el conjunto de todos los posibles valores de $\mathcal{X}$

## Función acumulativa y densidad de probabilidad de probabilidad

Se define la función acumulativa de probabilidad, o **CDF**, como $F_\mathcal{X}(x)\colon=P(\mathcal{X}\leq x)$ y tiene las siguientes propiedades
* Definida positiva y no mayor a $1$ para todos los reales. *i.e.* $0\leq F_\mathcal{X}(x)\leq1\,\forall x\in\Re$
* $F_\mathcal{X}(x)\colon=P(\mathcal{X}\leq x)$, siendo $P(\mathcal{X}\leq x)$ la probabilidad de que 
* Contínua por derecha. *i.e.* $\lim_{\epsilon\to x^+}F_\mathcal{X}(\epsilon)=F_\mathcal{X}(x)$

> ***Caso Discreto***
> 1. $F_{\mathcal{X}}(x)=\sum_{y\leq x}P(\mathcal{X}=y)$
> 1. $P(\mathcal{X}=x)=P(\mathcal{X}\leq x)-\lim_{\epsilon\to x^-}P(\mathcal{X}\leq \epsilon)$
> 1. $F_{\mathcal{X}}^{\prime}(x)=0$
> 1. El soporte de la variable aleatoria es a lo sumo un número contable de elementos
> 1. $P(\mathcal{X}=x)$ se conoce como la función de masa de probabilidad o **PMF**

> ***Caso Contínuo***
> Para variables aleatorias contínuas el caso es más sencillo. Veamos,
> 1. Es diferenciable excepto en a lo sumo un número contable de puntos.
> 1. A la derivada de la **CDF** se le conoce como función densidad de probabilidad o **PDF** y la denotamos como $f_{\mathcal{X}}(x)\colon=F_{\mathcal{X}}^{\prime}(x)$
> 1. $P(\mathcal{X}\in(x,x+\delta x])=P(\mathcal{X}\leq x+\delta x)-P(\mathcal{X}\leq x)=F_{\mathcal{X}}(x+\delta x)-F_{\mathcal{X}}(x)$. Luego, en el límite cuando $\delta x\to0$, *i.e.* $\delta x\to dx$, $P(\mathcal{X}\in(x,x+dx])=f_{\mathcal{X}}(x)dx$
> 1. $F_{\mathcal{X}}(x)=\int_{-\infty}^{x}f_{\mathcal{X}}(y)dy$

Nota: En adelante nos referiremos a la **CDF** o a la **PDF**/**PMF** como distribución de probabilidad

## Algunas distribuciones conocidas

* Uniforme (discreta y contínua): todos los eventos son igualmente probables. Es la que se implementa en los algoritmos de *pseudo*-generadores de números aleatorios. ¿Por qué *pseudo*? Por que en realidad no son generadores de números de forma estocástica, es determinística: con una semilla un algoritmo me genera una <u>única</u> secuencia de números. ¡Esto quiere decir que si vamos a usar estos generadores tenemos que primer probar que sean buenos!
$$\text{Discreto:}\,\,P(x;n)=\frac{1}{n}\,\,\, \forall x\in\mathcal{S}$$
$$\text{Contínuo:}\,\,f_{\text{Uniform}}(x;a,b)=\frac{1}{b-a}\,\,\, \forall a\leq x\leq b$$
* Binomial y multinomial: sirve para validad la probabilidad de $x$ éxitos en $n$ intentos con probabilidad de éxito $0<p<1$. $$B(x;n,p)=\binom{n}{x} \cdot p^x(1-p)^{n-x}\,\,\, \forall x\in\mathbb{N}_{\leq n}$$
* Poisson: muy útil para eventos en el tiempo. *e.g.* número de partículas radiactivas emitidas en el tiempo como resultado de un decaimiento radiactivo. $$P(x;\lambda(t))=\frac{\lambda(t)^x}{x!}e^{-\lambda(t)}\,\,\, \forall x\in\mathbb{N}$$
* Exponencial: para simular decaimientos radiactivos por ejemplo. $$f_{\text{Exp}}(x;\lambda)=\lambda e^{-\lambda x}\,\,\, \forall x\in\Re_{>}$$
* Normal: mejor conocida como la Gaussiana o campana de Gauss esta distribución es muy importante ya que es el resultado de la [ley de grandes números](https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-041-probabilistic-systems-analysis-and-applied-probability-fall-2010/video-lectures/lecture-19-weak-law-of-large-numbers/). $$f_{\text{Normal}}(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\,\,\, \forall x\in\Re$$

## Momentos de las distribuciones

A la pregunta de que podemos hacer con las distribuciones se me ocurre que <u>todo</u> y <u>nada</u> a la vez. Nada por que la distribución de probabilidad nos da información de los eventos que son probables y en qué medida pero no me da certeza absoluta de un acontecimiento. Por otra parte todo porque esa información es suficiente para obtener los valores esperados de los experimentos con un rango de **confiabilidad**. Definimos entonces el valor esperado de un observable $\mathbf{A}$ como,
$$\langle\mathbf{A}\rangle\colon=\int_{-\infty}^{\infty}\mathbf{A}(x)f_{\mathcal{X}}(x)dx$$

Por eso hablamos de los promedios o los momentos de una distribución. El momento $k$-ésimo $\langle x^k\rangle$ es,
$$E[\mathcal{X}^k]=\int_{-\infty}^{\infty}x^kf_{\mathcal{X}}(x)dx,$$
con $\langle x\rangle$ el más conocido y denominado la media de la distribución o $\mu$.

Definimos igualmente el momento central $k$-ésimo $\mu_k$,
$$\mu_k=\langle(x-\mu)^k\rangle=\int_{-\infty}^{\infty}(x-\mu)^kf_{\mathcal{X}}(x)dx,$$
con $\mu$ la media de la distribución. Respecto a los momentos centrales, noten que $\mu_0=1$, $\mu_1=0$ y $\mu_2$ es la varianza $VAR[\mathcal{X}]$ o mejor conocida como el cuadrado de la desviación estándar $\sigma^2$. Cabe resaltar que existen otros dos momentos centrales que resultan muy útiles cuando se están analizando distribuciones y son la asimetría (*skewness*) y la curtosis (*kurtosis*) definidas respectivamente,
$$\gamma_1\colon=\frac{\mu_3}{\sigma^3}$$
$$\gamma_2\colon=\frac{\mu_4}{\sigma^4}$$

> Ejercicio: Calcular la media, $\sigma$, asimetría y curtosis para las distribuciones mencionadas en la sección anterior.

### Calcular promedios

En la práctica los promedios se calculan a partir de la secuencia de números resultantes de la medición sobre una variable aleatoria $\mathcal{X}$. Si $\{x_1,x_2,x_3,\dots,x_{N-1},x_N\}$ es la secuencia de $N$ mediciones sobre $\mathcal{X}$, entonces,
$$\langle\mathbf{A}\rangle\simeq\langle\mathbf{A}\rangle_N\colon=\frac{1}{N}\sum_{j=1}^{N}\mathbf{A}(x_j).$$
Aunque no lo podremos alcanzar a ver en el contexto de este curso,
$$\langle\mathbf{A}\rangle-\langle\mathbf{A}\rangle_N=\mathbb{O}\left(\frac{1}{\sqrt{N}}\right),$$
o el orden de las fluctuaciones. Quiere decir que cuando $N\to\infty$, las cantidades calculadas coinciden con los promedios.

## Funciones generadoras

Aunque este tema sea un poco avanzado para la clase, los invito a que revisen el tema de funciones generadoras que para el caso contínuo se conoce como función generadora de momentos (**MGF**) y para el caso discreto se conoce como función generadora de probabilidad (**PGF** - o transformada $\mathcal{Z}$). **MGF** se define como $M_{\mathcal{X}}(t)=E[e^{t x}]$ y **PGF** como $P_{\mathcal{X}}(z)=E[z^{x}]$. Nota matemática: se dice que la **MGF** existe si $\exists\,\epsilon>0\,\mid\,M_{\mathcal{X}}(t)<\infty\,\forall t\in(-\epsilon,\epsilon)$. Para el caso de la transformada $\mathcal{Z}$ la condición de existencia está garantizada al menos para $z\in[0,1]$.

¿Porqué se llaman funciones generadoras?

Si **MGF** existe entonces quiere decir que,
$$M_{\mathcal{X}}(t)=E[e^{t x}]=E\left[\sum_{k=0}^{\infty}\frac{x^k t^k}{k!}\right]=\sum_{k=0}^{\infty}\frac{\langle x^k\rangle}{k!}t^k.$$
¡Esto implicando que los coeficientes de la expansi\'on contienen la informaci\'on de los momentos!

> Preguntas interesantes para reflexionar:
> * ¿Tienen alguna relación **MGF** con la transformada de Laplace o la de Fourier en su efecto?
> * ¿Qué quiere decir que $P_{\mathcal{X}}(z)=M_{\mathcal{X}}(\log z)$?
> * ¿Puede usted calcular cualquier momento de la distribución a partir de **PGF** o **MGF**?

## Composición de variables aleatorias

En teoría de la probabilidad es importante entender como se pueden relacionar múltiples variables para lo cual es importante entender el condepto de independencia. Se dice que dos variables aleatorias son independientes si $P(\mathcal{X}=x,\mathcal{Y}=y)=P(\mathcal{X}=x)P(\mathcal{Y}=y)$. Esta regla se le conoce la regla de composición. Por ejemplo, si $\mathcal{X}$ representa la intensidad lumínica del sol y $\mathcal{Y}$ la cantidad de lluvia, ¿son $\mathcal{X}$ y $\mathcal{Y}$ independientes?

### Probabilidad marginal

Si un evento se describe mediante dos variables $\mathcal{X}$ y $\mathcal{Y}$, entonces $P(\mathcal{X}=x)=\sum_{y}P(\mathcal{X}=x,\mathcal{Y}=y)$

### Probabilidad condicionada y el teorema de Bayes

$P(\mathcal{Y}=y\mid\mathcal{X}=x)$ lee la probabilidad que $\mathcal{Y}$ sea $y$ dado que $\mathcal{X}$ es $x$. Lo que estamos haciendo es limitando el espacio de muestreo a una región específica. En otras palabras,
$$P(\mathcal{Y}=y\mid\mathcal{X}=x)=\frac{P(\mathcal{Y}=y,\mathcal{X}=x)}{P(\mathcal{X}=x)},$$
lo que nos lleva al teorema de Bayes o "regla de composición",
$$P(\mathcal{Y}=y\mid\mathcal{X}=x)=\frac{P(\mathcal{Y}=y)P(\mathcal{X}=x\mid\mathcal{Y}=y)}{P(\mathcal{X}=x)}$$

### Tareas de composición

**Tarea:**
* Demostrar que si $\mathcal{X}=\mathcal{X}_1+\mathcal{X}_2$, siendo $\mathcal{X}_1$ y $\mathcal{X}_2$ dos variables aleatorias, entonces $\mathcal{X}$ es una variable aleatoria cuya función generadora cumple la siguiente regla:
$$\text{Discreto:}\,\,P_{\mathcal{X}}(z)=P_{\mathcal{X}_1}(z)\times P_{\mathcal{X}_2}(z)$$
$$\text{Contínuo:}\,\,M_{\mathcal{X}}(t)=M_{\mathcal{X}_1}(t)\times M_{\mathcal{X}_2}(t)$$
* A partir del resultado anterior, muestre que la composición de dos distribuciones exponenciales dan como resultado una distribución $\Gamma$-Gamma
* A partir de **MGF** encuentre los momentos $k$-ésimos de la distribución

## Números aleatorios

Ya hemos comentado que para generar una variable aleatori $\mathcal{X}$ de una distribución $F_{\mathcal{X}}(x)$ sólo necesitamos generar una distribución uniforme entre $[0,1)$. Para probar que esto en efecto es así, tomemos la densidad de probabilidad de una distribución uniforme para $\mathcal{Y}$ ($f_{\text{Uniform}(y)=1}\,\,\forall y\in[0,1)$) y calculemos la probabilidad ,
$$P(\mathcal{Y}\in(y,y+dy])=dy,$$
pero como $0\leq F_{\mathcal{X}}(x)\leq1$, entonces yo puedo hacer la siguiente sustitución: $y=F_{\mathcal{X}}(x)$ con $dy=f_{\mathcal{X}}(x)dx$. Dado que la distribución acumulativa es no decreciente entonces existe una correspondencia 1 a 1 <u>por la derecha</u> para cada valor de $x$ y $y$. Esto implica entonces que si $x=F_{\mathcal{X}}^{-1}(y)$,
$$P(\mathcal{X}\in(x,x+dx])=f_{\mathcal{X}}(x)dx.$$

Sin embargo, como sólo podemos acceder a *pseudo*-generadores debemos probar la eficiencia de los generadores. Para ello se deben realizar las siguientes pruebas:
1. Test de ergodicidad: verificar que $\langle y^k\rangle=\frac{1}{k+1}+\mathbb{O}(1/\sqrt{N})$ con $N$ el número de ensayos de la variable aleatoria $\mathcal{Y}$
1. Test de independencia/estocasticidad: el promedio de ensayos consecutivos de la variable aleatoria $\mathcal{Y}$ debe ser $\langle y_{\text{pares}\equiv2i}y_{\text{impares}\equiv2i+1}\rangle=\frac{1}{4}$
1. Graficar $y_{\text{impares}\equiv2i+1}$ vs $y_{\text{pares}\equiv2i}$: No deberíamos observar patrones
1. Graficar $\sqrt{N}\left(\langle y^k\rangle-\frac{1}{k+1}\right)$ vs $k$. Deberíamos observar que es de orden 1!

Si todos estos tests pasan, entonces tenemos un buen generador de números aleatorio.

# Ejercicios para la clase:

* Utilizar [Numpy Random](https://docs.scipy.org/doc/numpy-1.14.0/reference/routines.random.html) para generar números aleatorios con una distribución uniforme
* Correr los tests de verificación de aleatoriedad (estocasticidad) y ergodicidad
* Graficar la distribución uniforme, exponencial, $\Gamma$-gamma y normal con Seaborn [distplot](https://seaborn.pydata.org/generated/seaborn.distplot.html)
* Calcular la distribución de números de $\pi$ hasta $n$ número de digitos. (¡Ver y correr el código de la siguiente celda que me devuelve una cadena de caracteres con $N$ digitos decimales de $\pi$!)
* Bono: Graficar la distribución de <u>pares</u> de digitos consecutivos de $\pi$ sin repetición. *e.g.*
$14159265358979\dots$ lo convierto en la siguiente lista,
```python
pi_pairs=[14,15,92,65,35,89,79,...]
```
para graficar con Matplotlib histogram o Seaborn distplot (La elección es personal)

## Para el ejercicio a entregar la siguiente semana (viernes 14 de febrero a la media noche) debe escoger el primero y uno de los dos puntos finales
* Revisar repositorios de datos y leer un artículo (¿Qué les parece el de Tarantino?): [538](http://fivethirtyeight.com/), [538 data](https://data.fivethirtyeight.com/)
* Descargar la base de datos de [FIFA 20](https://www.kaggle.com/stefanoleone992/fifa-20-complete-player-dataset) y determinar con base a la información obtenida desde el año 2015 hasta la fecha cual es la probabilidad de que un jugador mejore su puntaje total, se mantenga igual y desmejore. ¿Podría repetir este ejercicio y validar si existen diferencias entre los jugadores de los diferentes sub-continentes? (Africa, Asia, America del Sur, Europa, America del Norte, Oceanía)
* Instalar y configurar Twitter developer account para extraer los Tweets de su personaje político favorito (Por favor usar [Tweepy](https://towardsdatascience.com/tweepy-for-beginners-24baf21f2c25)) - Hay personajes políticos que tienen una actividad gigantesca en twitter y por ende entre más datos mejor. La idea es que con base a los textos minados de los Tweets ud pueda graficar: un histograma de las palabras más utilizadas, un histograma del número de palabras usadas por tweet (con y sin emoji's), un histograma de la longitud de los tweets en caracteres (con y sin espacios), un histograma de la longitud de las palabras utilizadas y un histograma que contabilice el # de emoji's que la persona escribe por tweet. Responda si ¿puede identificar alguna distribución en los histogramas analizados? Las mejores 5 respuestas tendrán un bono y la oportunidad de presentar el trabajo a sus compañeros.

In [1]:
## Binary file "pi50.4.bin" authored from https://www.angio.net/pi/
# If you want to crunch in some numbers go to http://www.numberworld.org/y-cruncher
import mmap
N = 100 # 100 decimal places from PI
pi_string = ""
with open("pi50.4.bin", "r+b") as f:
    mm = mmap.mmap(f.fileno(), 0)
    mm.readline()
    print("length of map?",len(mm))
    for j in range(N//2+1):
        pi_string += "%d%d"%((mm[j]&0xf0)>>4,mm[j] & 0xf)
    pi_string = pi_string[:N]
    print("pi(%d)="%(N),pi_string)
    mm.close()

length of map? 25000000
pi(100)= 1415926535897932384626433832795028841971693993751058209749445923078164062862089986280348253421170679
