---
# Guía Muestreo

Ejecute las instrucciones y resuelva el desafío final.


In [None]:
import pandas as pd
import numpy as np
import random
import matplotlib.pyplot as plt
%matplotlib inline

random.choice()

In [None]:
bmi_list = [29, 18, 20, 22, 19, 25, 30, 28, 22, 21, 18, 19, 20, 20, 22, 23]
len(bmi_list)

In [None]:

print("First random choice:", random.choice(bmi_list)) 
print("Second random choice:", random.choice(bmi_list))
print("Third random choice:", random.choice(bmi_list))

El método 'random.sample ()' es útil para muestrear aleatoriamente N elementos de una lista. Por ejemplo, si queremos tomar muestras de N = 5 elementos de nuestra lista de IMC, hacemos lo siguiente:

In [None]:
print("Random sample, N = 5 :", random.sample(bmi_list, 0))

In [None]:
n=10
print("Random sample, N = 10:", random.sample(bmi_list, n))

Además de la selección y el muestreo aleatorios, el módulo aleatorio tiene una función para mezclar elementos en una lista. Imprimamos nuestra lista de IMC y luego imprimamos el resultado de barajar nuestra lista de IMC:

In [None]:
print("BMI list: ", bmi_list)
pob2=random.shuffle(bmi_list)
print("Shuffled BMI list: ", bmi_list)

El módulo aleatorio tiene una función para generar un número entero aleatorio proporcionado un rango de valores. Generemos un número entero aleatorio en el rango de 1 a 5:

In [None]:
print("Random Integer: ", random.randint(1,5))

### Muestreo aleatorio Estratificado con DataFrame

In [None]:
import pandas as pd
import numpy as np


# crearemos un dataframe ficticio
data = pd.DataFrame(np.random.randn(7, 4))
data['Healthy'] = [1, 1, 0, 0, 1, 1, 1]
data

Estos datos tienen dos muestras no saludables y cinco saludables. Para elegir al azar dos muestras de la población sana que haces:

In [None]:
healthy_indices = data[data.Healthy == 1].index
random_indices = np.random.choice(healthy_indices, 2, replace=False)

healthy_sample = data.loc[random_indices]
random_indices
healthy_sample

Para elegir automáticamente una submuestra del mismo tamaño que el grupo no saludable que puede hacer:

In [None]:
sample_size = sum(data.Healthy == 0)  # Equivalent to len(data[data.Healthy == 0])
no_healthy_indices = data[data.Healthy == 0].index
random_indices = np.random.choice(no_healthy_indices, sample_size, replace=False)
sample_size
random_indices
no_healthy_sample = data.loc[random_indices]
no_healthy_sample

### Desafío

Como variante, puede usar el método estocástico. Suponga que tiene un conjunto de datos data que es una gran cantidad de tuplas (X, Y), Donde Y es información del ojo enfermo (0 o 1). Puede preparar un contenedor para su conjunto de datos, que pasa todos los ojos no enfermos y los ojos enfermos con probabilidad 0.3/0.7 (solo necesita el 30% de los ojos enfermos del conjunto de datos).

In [None]:
from random import random


def wrapper(data):
    prob = 0.3 / 0.7

    for X, Y in data:
        if Y == 0:
            yield X, Y
        else:
            if random() < prob:
                yield X, Y


# now you can use the wrapper to extract needed information
your_dataset= # complete el código de acuerdo a las instrucciones #


for X, Y in wrapper(your_dataset):
    print (X, Y)

## Teorema del Límite Central

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

from scipy.stats import expon
from scipy.stats import uniform

### Para una distribución exponencial

In [None]:
poblacion_expo = pd.DataFrame()
poblacion_expo['number'] = expon.rvs(10, size = 100000)

In [None]:
poblacion_expo['number'].hist(bins=100)

In [None]:
muestra_promedio_dis_expo = []

tamano = 5000

for i in range(0,tamano):
  muestra_promedio_dis_expo.append(poblacion_expo.sample(n=100).mean().values[0])

In [None]:
fig, ax = plt.subplots()
ax.hist(muestra_promedio_dis_expo, bins=50, alpha = 0.5)
ax.set_xlabel('Valor promedio')
ax.set_ylabel('Frecuencia')
ax.grid()

### Para una distribución uniforme

In [None]:
poblacion_uniforme = pd.DataFrame()
poblacion_uniforme['number'] = uniform.rvs(10, size = 100000)

In [None]:
poblacion_uniforme['number'].hist(bins=100)

In [None]:
muestra_promedio_pob_uniforme = []

tamano = 5000

for i in range(0,tamano):
  muestra_promedio_pob_uniforme.append(poblacion_uniforme.sample(n=100).mean().values[0])

In [None]:
fig, ax = plt.subplots()
ax.hist(muestra_promedio_pob_uniforme, bins=50, alpha = 0.5)
ax.set_xlabel('Valor promedio')
ax.set_ylabel('Frecuencia')
ax.grid()

Comparación:

In [None]:
fig, ax = plt.subplots()

ax.hist(muestra_promedio_pob_uniforme, bins=50, alpha = 0.5, label='Variable uniforme')
ax.hist(muestra_promedio_dis_expo, bins=50, alpha = 0.5, label='Variable exponencial')

ax.set_xlabel('Valor promedio')
ax.set_ylabel('Frecuencia')
ax.legend()
ax.grid()

In [None]:
fig, ax = plt.subplots()

# Estandarizacion
z_uniforme = (muestra_promedio_pob_uniforme - np.mean(muestra_promedio_pob_uniforme)) / np.std(muestra_promedio_pob_uniforme)
z_expo = (muestra_promedio_dis_expo - np.mean(muestra_promedio_dis_expo)) / np.std(muestra_promedio_dis_expo)

ax.hist(z_uniforme, bins=50, alpha = 0.5, label='Variable uniforme')
ax.hist(z_expo, bins=50, alpha = 0.5, label='Variable exponencial')

ax.axvline(np.mean(z_uniforme), c='r', linestyle='--', label='Promedio uniforme')
ax.axvline(np.mean(z_expo), c='b', linestyle='--', label='Promedio expo')

ax.set_xlabel('Valor promedio')
ax.set_ylabel('Frecuencia')
ax.legend()
ax.grid()

## Estimadores muestrales

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

Vamos a simular que tomamos una muestra de tamaño 1. La muestra tuvo un valor de 3. Al no conocer los parametros poblacionales de la distribucion, vamos a generar una serie de hipotesis.

Supongamos tener dos medias y calculemos la probabilidad de obtener la muestra bajo la hipotesis de los parametros poblacionales (las dos medias).

In [None]:
from scipy.stats import norm

x1 = 3

#medias
mu1 = 4
mu2 = 7
#desviacion estandar
sigma = 1
p_muestra = norm.pdf(x1, mu1, sigma)
p_muestra_2 = norm.pdf(x1, mu2, sigma)


print('La probabilidad de obtener ', x1, ' en una muestra con una media ', mu1, ' y desviacion de ', sigma, ' es ', p_muestra)
print('La probabilidad de obtener ', x1, ' en una muestra con una media ', mu2, ' y desviacion de ', sigma, ' es ', p_muestra_2)

Queremos ver la probabilidad conjunta de que ocurran dos casos x1 y x2.

In [None]:
from scipy.stats import norm

x1 = 3
x2 = 10


#medias
mu1 = 4
mu2 = 7
#desviacion estandar
sigma = 1
p_muestra = norm.pdf(x1, mu1, sigma) * norm.pdf(x2, mu1, sigma)
p_muestra_2 = norm.pdf(x1, mu2, sigma) * norm.pdf(x2, mu2, sigma)

print('La probabilidad de obtener ', x1, 'y ', x2, ' en una muestra con una media ', mu1, ' y desviacion de ', sigma, ' es ', p_muestra)
print('La probabilidad de obtener ', x1, 'y ', x2, ' en una muestra con una media ', mu2, ' y desviacion de ', sigma, ' es ', p_muestra_2)

Obtegamos valores aleatorias de la muestra

In [None]:
mu = 5
sigma = 1

muestra_10 = norm.rvs(mu, sigma, size = 10)
muestra_10

In [None]:
#medias
mu1 = 4
mu2 = 7
#desviacion estandar
sigma = 1

data_1 = norm.rvs(mu1, sigma, size=100000)
data_2 = norm.rvs(mu2, sigma, size=100000)

In [None]:
muestra_10
y = list([])

for i in range(len(muestra_10)):
  y.append(3000)

In [None]:
ax = sns.distplot(data_1, bins = 50, color = 'blue', kde = False)
ax.set(xlabel = 'Distribucion Normal mu1', ylabel = 'Frecuencia')

ax = sns.distplot(data_2, bins = 50, color = 'red', kde = False)
ax.set(xlabel = 'Distribucion Normal mu2', ylabel = 'Frecuencia')

ax.scatter(muestra_10, y, c = 'k')

In [None]:
fig, ax = plt.subplots()

ax.hist(data_1, bins = 50, color = 'blue', alpha=0.5)
ax.set(xlabel = 'Distribucion Normal mu1', ylabel = 'Frecuencia')

ax.hist(data_2, bins = 50, color = 'red', alpha=0.5)
ax.set(xlabel = 'Distribucion Normal mu2', ylabel = 'Frecuencia')

ax.scatter(muestra_10, y, c = 'k')

Con esto podemos ver como la muestra de 10 elementos puede pertencer con mayor probabilidad a una hipotesis respecto a la otra.

La primer hipotesis en la de color azul y la segunda hipotesis de color rojo. Los puntos obtenidos de forma aleatoria fueron graficados todos a una misma altura y podemos observar que se encuentran la mayoria dentro de la primer hipotesis.

## Distribuciones muestrales

In [None]:
import matplotlib.pyplot as plt
from IPython.core.display import Image
import seaborn as sns

%matplotlib inline

# T-student

En probabilidad y estadística, la [distribución t (de Student)](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. 

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos varianzas muestrales y para la construcción del intervalo de confianza para la diferencia entre las partes de dos poblaciones cuando se desconoce la desviación típica de una población y esta debe ser estimada a partir de los datos de una muestra. 

In [None]:
from scipy.stats import t

# Generemos dos muestras aleatorias para verlas graficadas. 
data1 = t.rvs(100, size = 1000000)
data2 = t.rvs(10, size = 1000000)

ax = sns.distplot(data2, bins = 500, kde = False, color = 'blue')
ax = sns.distplot(data1, bins = 500, kde = False, color = 'red')

# Chi - cuadrado

La [distribución Chi Cuadrado](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_%CF%87%C2%B2) o de Pearson, ésta es una distribución probabilística continua que se apoya en un parámetro que representa los grados de libertad, la utilidad de este tipo de distribución es que permite determinar la relación entre dos variables, es decir, si existe o no, dependencia estadística entre ellas.

Para poder utilizarla se deben plantear 2 hipotesis. 

Una hipotesis nula y una hipotesis alternativa. Realizando la prueba de chi-cuadrada podemos obtener cual de las hipotesis es mas probabe. Una chi-cuadrada se calcula y la otra se obtiene por [tabla](http://uregina.ca/~gingrich/appchi.pdf).

In [None]:
from scipy.stats import chi2

# Generemos dos muestras aleatorias para verlas graficadas. 
data1 = chi2.rvs(5, size = 1000000)
data2 = chi2.rvs(15, size = 1000000)

ax = sns.distplot(data2, bins = 500, kde = False, color = 'blue')
ax = sns.distplot(data1, bins = 500, kde = False, color = 'red')

# F Fisher-Snecdecor

La [distribución F de Fisher](https://es.qwe.wiki/wiki/F-distribution) es una distribución que depende de dos parámetros. Se utiliza para evaluar la capacidad explicativa que tiene un grupo de variables independientes sobre la variación de la variable dependiente. Este test es de uso común en inferencia estadística para realizar contrastes de hipótesis.

In [None]:
from scipy.stats import f

# Generemos dos muestras aleatorias para verlas graficadas. 
data1 = f.rvs(5, 25, size = 1000000)
data2 = f.rvs(15, 25, size = 1000000)

ax = sns.distplot(data2, bins = 500, kde = False, color = 'blue')
ax = sns.distplot(data1, bins = 500, kde = False, color = 'red')

## Calculo de probabildad

In [None]:
# Calculo de probabilidad
# 15 y 25 son los grados de libertad de muestra x, y
# ¿que probabilidad hay de obtener un 4 en esa distribucion?
f.pdf(4,15,25) 

In [None]:
# Calculo de probabilidad ACUMULADA

f.cdf(4,15,25) 

In [None]:
# calculo del valor que acumula una determinada probabilidad
f.ppf(0.9988900520089906, 15, 25)

In [None]:
# Veamos cual es el valor que acumula el 50%
f.ppf(0.5, 15, 25)