# Funciones de probabilidad

## Distribución uniforme

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

La probabilidad de una variable aleatoria que toma valores dentro el intervalo $[a,b]$ es: $$p(x)=\frac{1}{b-a}$$

In [None]:
# uniform() genera números aleatorios que siguen
# la distribución uniforme
a = 1
b = 100
n = 1000000
data = np.random.uniform(a, b, n)

In [None]:
%matplotlib inline
plt.hist(data)

## Distribución normal

In [None]:
# randn() genera números aleatorios que siguen
# la distribución normal
data = np.random.randn(1000000)

In [None]:
x = range(1,1000001)
plt.plot(x,data)

Los datos que se generan con `randn()` corresponden a una distribución normal típica con $\mu = 0$ y $\sigma = 1$.

In [None]:
plt.hist(data)

Una manera de verificar que efectivamente se están generando datos que siguen una distribución normal es graficando los datos ordenados. La gráfica mostrará la forma de la distribución normal acumulada.

In [None]:
# grafica los datos ordenados
plt.plot(x,sorted(data))

Una manera de generar valores aleatorios que sigan una distribución normal con cualquier valor de la media y desviación estándar $X \rightarrow N(\mu, \sigma)$ consiste en utilizar la expresión para normalizar cualquier variable aleatoria: $$X = \mu + \sigma Z$$ donde $Z \rightarrow N(0, 1)$

In [None]:
mu = 5.5
sd = 2.5
z = np.random.randn(10000)
data = mu + z * sd
plt.hist(data)

In [None]:
# genera un array de dimensiones datas cuyos valores
# siguen una distribución normal típica
data = np.random.rand(2,4)

## Simulación de Monte Carlo

Para mostrar el funcionamiento de la simulación de Monte Carlo, se utiliza la simulación de $\pi$ de manera numérica. Por medio de un círculo de radio $r$ inscrito en un cuadrado de lado $2r$ se calcula la probabilidad de que un punto $z$ con coordenadas $x,y$ caiga dentro del círculo. Para un número suficiente de puntos generados aleatoriamente, la relación de valores que caen dentro del círculo sobre el total de valores generados proporciona una buena aproximacion de $pi$ dado que:
$$ p(z) = \frac{area del circulo}{area del cuadrado} = \frac{\pi r^2 }{4r^2} = \frac{\pi}{4}$$ 

**Algoritmo:**
- generar dos números aleatorios en $[0,r]$.
- calcular $z = \sqrt{x^2 + y^2}$.
    - si el valor es inferior a r se está dentro del círculo.
    - si el valor no es inferior a r se está fuera del círculo.
- calcular la probabilidad de caer dentro del círculo para un número suficiente de puntos.
- utilizar esta probabilidad para aproximar el valor de $\pi = 4p(x)$.
- repetir el experimento un número suficiente de veces para obtener diferentes aproximaciones de $\pi$.
- calcular el promedio de los experimentos realizados para tener la aproximación final de $\pi$.

In [None]:
# se generan 1000 puntos
# se repite el experimento 100 veces
# el radio radio del círculo es r = 1 



## Dummy Data Sets

Un Dummy Data Set puede crearse por medio de la generación de números aleatorios combinado con el uso de estructuras de datos de Python. 

In [None]:
n = 10000
data = pd.DataFrame(
    {
        'A' : np.random.randn(n),
        'B' : 1.5 + 2.5 * np.random.randn(n),
        'C' : np.random.uniform(5, 32, n)
    }
)

In [None]:
data.head()

In [None]:
data.describe()

In [None]:
plt.hist(data["A"])

In [None]:
plt.hist(data["B"])

In [None]:
mainpath = "/home/oscar/Escritorio/misnotebooks/data/"
filename = "Customer Churn Model.txt"
data = pd.read_csv(mainpath + filename)
data.head()

In [None]:
colum_names = data.columns.values.tolist()

In [None]:
a = len(colum_names)
a

In [None]:
new_data = pd.DataFrame(
    {
        'Colum Name': colum_names,
        'A': np.random.randn(a),
        'B': np.random.uniform(0, 1, a)
    }, index = range(42, 42 + a)
)

In [None]:
new_data.head()