## Funciones de Distribución de Probabilidades

### Distribución Uniforme


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
#se genera un conjunto de datos aleatrios pero que sigan la distribucion uniforme con a<b, debe ser una gran cantidad de datos
a = 1
b = 100
n = 1000000
data = np.random.uniform(a,b,n)

In [None]:
#verificamos con un histograma para ver si los datos siguen la distribucion uniforme
%matplotlib inline
plt.hist(data)

## La distribución Normal 

In [None]:
data = np.random.randn(1000000)

In [None]:
x = range(1,1000001)
plt.plot(x,data)

In [None]:
plt.hist(data)

In [None]:
#grafico distrubucion acumulada, para constrastar que es una distribucio normal
plt.plot(x,sorted(data))

In [None]:
# distrubucion normal con parametros personalizados
# Z = (X - mu) / sd--->N(0,1)--> despejamos X = mu +sd *Z (Teorema central del limite)
mu = 5.5
sd = 2.5
data = mu + sd*np.random.randn(10000)
plt.hist(data)

In [None]:
#retorna 2 colecciones  aleatorias normales de 4 elementos cada uno, usar para generar datasets con valores aleatorios
data = np.random.randn(2,4)
data

### Simulación de Montecarlo: aplicacion de uso de los numeros aleatorios


* generar 2 variables aleatorias x e y entre 0 y 1 con n valores por cada variable
* Calcular x*x e y*y
    * si el valor es inferior a 1-> estamos dentro del circulo
    * si el valor es superior a 1 -> estamos fuera del circulo
* Se calcular el numero total de veces que se está dentro del circulo y se dividide por el numero total de intentos, para obtener una aproximación de la probabilidad de caer dentro del circulo
* Usar dicha probabilidad para aproximar el valor de PI
* Se repite el experimento un numero suficiente de veces (100 por ejemplo), para obtener (100) diferentes aproximaciones de PI
* Se calcula el promedio de los 100 experimentos anteriores para dar un valor final de PI

In [None]:
def pi_montecarlo(n,n_exp):
    pi_avg = 0
    pi_value_list = []
    for i in range(n_exp):
        value = 0
        x = np.random.uniform(0,1,n).tolist()
        y = np.random.uniform(0,1,n).tolist()
        for j in range(n):
            z = np.sqrt(x[j] * x[j] + y[j] * y[j])
            if z <= 1:
                value += 1
        float_value = float(value)
        pi_value = float_value * 4 / n
        pi_value_list.append(pi_value)
        pi_avg += pi_value

    pi = pi_avg/100

    print(pi)
    fig = plt.plot(pi_value_list)
    return (pi,fig)

In [None]:
pi_montecarlo(1000,100)

### Dummy Data Sets

In [None]:
# se genera un dataframe a partir de un diccionario de 3 variables aleatorias con distintas distribuciones de probabilidad
n = 10000
data = pd.DataFrame(
    {
        'A' : np.random.randn(n), # variable aletoria normal
        'B' : 1.5 + 2.5 * np.random.randn(n), # variale aletoria con media y sd desplazada
        'C' : np.random.uniform(5,32,n) #variable aleatoria uniforme
    }    
)

In [None]:
# se verifica que en la columna A la media es en torno a 0 y la sd en torno a 1 y en la columna B la media es 1.5 y sd 2.5
data.describe()


In [None]:
#graficamos individualmente las columnas para verificar si siguen las distribuciones
plt.hist(data['C'])

In [None]:
#generar dummy dataframe con variables categoricas
data = pd.read_csv("../datasets/customer-churn-model/Customer Churn Model.txt")

In [None]:
data.head()


In [None]:
column_names = data.columns.values.tolist()

In [None]:
a = len(column_names)
a


In [None]:
#diccionario con indice personalizado 
new_data = pd.DataFrame(
        {
            'Column Name':column_names,
            'A' : np.random.randn(a),
            'B' : np.random.uniform(0,1,a)
        }, index = range(42,42+a)
)

In [None]:
new_data