In [1]:
import pandas as pd
import statistics
import numpy as np
import random
from random import sample
import itertools
import matplotlib.pyplot as plt
import scipy.stats as stats

UNIDAD 3

DISTRIBUCIÓN EN EL MUESTREO


<blockquote>
Todos los grandes científicos han sido, en cierto sentido, grandes artistas. Sin imaginación se pueden recopilar hechos, pero no se pueden hacer grandes descubrimientos.<br/>
Karl Pearson
</blockquote>

---


Objetivo para esta guía de Actividades: pensar la filosofía estadística desde el largo plazo -o _long run_-.

Cerca del año 1900, el estadístico inglés Karl Pearson lanzó una moneda el aire 24.000 veces, resultando 12012 caras (una proporción de 0,5005).


- Contexto: lanzamiento de una moneda.

Aunque hemos lanzado la moneda ya varias veces, lo hicimos solo para algunos lanzamientos, 2 o 3 veces.

Ahora la propuesta es acompañar la intuición -sobre que sucede en el largo plazo- con resultados numéricos mediante simulación.

Hasta aquí, centramos la atención en el número de caras que aparecía en relación al experimento de lanzar una moneda. En cambio, desde aquí comenzaremos a considerar el comportamiento de la proporción, cuando la variable de interés sea categórica, y el comportamiento del promedio cuando la variable sea cuantitativa.


- Ejercicio 1

  1.a. Aplica el lanzamiento de la siguiente _moneda_ 20 veces. Presta atención a los valores de la proporción de caras resultante. Nota: para aplicar una y otra vez y así visualizar el efecto por aleatoriedad, aprieta de manera secuencial el botón con el ícono ▷ play en cada celda.

  1.b. Ya no 20, hagamos 20000 lanzamientos. Por comparación con la situación anterior, ¿qué comportamiento observas? ¿Qué sucede cuando la proporción se contextualiza en relación a la información que proveen 20 lanzamientos en contraste con aquella otra que proviene de 20000 lanzamientos?


In [None]:
# código 1.a.

n = 20
moneda = ['cara', 'cruz']
res = random.choices(moneda, k = n)
df_res = pd.DataFrame(
 data=res,
 columns=['lanzamiento']
)
df_res.value_counts(normalize=True).sort_index()

In [None]:
# código 1.b.

n = 20000
moneda = ['cara', 'cruz']
res = random.choices(moneda, k = n)
df_res = pd.DataFrame(
 data=res,
 columns=['lanzamiento']
)
df_res.value_counts(normalize=True).sort_index()

- Actividad 2

Contexto: comportamiento de la proporción muestral en muestras aleatorias

Consideraremos dos poblaciones finitas diferentes. De cada una de ellas, aplicaremos selecciones aleatorias con reemplazo. Revisa la teoría para verificar estas condiciones.

Estaremos interesados en la proporción de personas que utilizan o bien _Android_ o _IOS_ como sistema operativo de sus celulares o móviles. Además, supondremos que la información sobre la proporción poblacional es conocida y proviene de fuentes que realizan mediciones permanentes del mercado.

- Población 1: proporción de usuarios con sistema Android = 0.5, proporción de usuarios con IOS = 0.5.

- Población 2: proporción de usuarios con sistema Android = 0.74, proporción de usuarios con IOS = 0.26.

Antes de continuar y según tu conocimiento y percepción, ¿qué población te resulta más cercana a la realidad?


- Aplicación actividad 2

En las siguientes dos celdas, encontrarás el código para aplicar la selección aleatoria.

La idea es repetir la selección con diferentes tamaños: primero igual a 10, luego 20, después 50 y por último 100. Puedes probar con otros a modo de complemento, siempre que no supere el tamaño de 100.

De cada aplicación -recuerda cliquear el botón ▷ play una y otra vez para repetir la selección-, presta atención precisamente al comportamiento de la proporción en cada situación y luego comparativamente a medida que aumentas el tamaño (10, 20, etcétera).

Finalmente, comenta cuáles tamaños de muestra cumplirían con las condiciones vistas en la Teoría.


In [None]:
df_b = pd.read_csv('https://raw.githubusercontent.com/usebien/concurso/refs/heads/main/data/sdist/df_mobile_b.csv')

In [None]:
df_b.sample(
    n=10, # Modifica esta línea: 10, luego 20, 50, hasta 100.
    replace=True,
    ).value_counts(normalize=True)

In [None]:
df_unb = pd.read_csv('https://raw.githubusercontent.com/usebien/concurso/refs/heads/main/data/sdist/df_mobile_unb.csv')

In [None]:
df_unb.sample(
    n=10, # Modifica esta línea: 10, luego 20, 50, 100.
    replace=True,
    ).value_counts(normalize=True)

- Actividad 3

Contexto: comportamiento de la media muestral en muestras aleatorias.

La información contenida en la siguiente actividad pertenece al libro de Spiegel y Stephens -ver Referencias-.

Objetivo: analizar cómo se comporta la media muestral a medida que aumenta tanto la cantidad de información (o tamaño de _n_) así como también la repetición de muestras.

A tal fin dividiremos la actividad en varias etapas:

3.a. Encuentra la media de la población.

- Población: [2, 3, 6, 8, 11].

  3.b. Considera todas las muestras posibles de tamaño 2 que se puedan extraer con reemplazo de la población y calcula la media para cada una de esas muestras posibles.

  3.c. Luego calcula la media -valor esperado- de la distribución muestral de la media (X_Raya) y verifica si es igual a la media de la población original.

  3.c. Visualiza la regularidad que aparece en el largo plazo para el comportamiento de la media muestral.


In [None]:
# Solución 3.a. 

pob = [2, 3, 6, 8, 11]

mu =  statistics.mean(pob)
print(f'La media de la población µ =', mu)

In [None]:
# Solución 3.b

swr =  list(itertools.product(pob, repeat=2))
df =  pd.DataFrame(data=swr,
                        columns=['x1', 'x2'])
df['x_raya'] = df[['x1', 'x2']].mean(axis=1)
df

In [None]:
# Solución 3.c 

esperanza_x_raya =  df['x_raya'].mean()
print(f'La media -valor esperado- de la distribución de X_raya es', esperanza_x_raya) 

In [None]:
# Solución 3.c
# Verificamos que la media -valor esperado- de la distribución X_Raya es igual a la media  de la distribución original X.

mu == esperanza_x_raya

In [None]:
# 3.c.

n_muestras = 10000
info = [2, 3, 6, 8, 11]
info_muestras = random.choices(info, k = n_muestras)
cum_media = np.cumsum(info_muestras)/(np.arange(1, n_muestras+1))

plt.plot(cum_media, color= '#363636')
plt.axhline(y=6, linestyle='dotted', color='#9F79EE')

- Ejercicio 4

Contexto: consideraremos una última situación en donde -a diferencia de la actividad anterior- en la que cada elemento de la población describía la misma probabilidad de ser seleccionado, ahora dispondremos de una distribución de probabilidad que asignará valores distintos.

Además, para que verifiquemos cada cálculo y sea posible volver a revisar cada paso, utilizaremos la información contenida en el siguiente ejercicio del libro de Jay Devore -p.205, Ejemplo 5.20, ver Referencias-.

4.a. Visualiza la información.

4.b. Crea una tabla en donde se puedan resumir:

- Todas las muestras posibles de tamaño igual a 2.

- Correspondiente asignación de probabilidades.

- Valores de la media para cada una de las muestras.

  4.c. Calcula el valor esperado para X_Raya y verifica si es igual a la media de la población original.

  4.d. Calcula el valor de la varianza para X_Raya y verifica si es igual a la Varianza de la población original.


In [None]:
# Solución 4.a. 

x = [40, 45, 50]
p = [0.2, 0.3, 0.5]

df_pob = pd.DataFrame(
    data=zip(x, p),
    columns=('x', 'p(x)')
)
df_pob

In [None]:
# Solución 4.b.

swr =  list(itertools.product(x, repeat=2))
df =  pd.DataFrame(data=swr,
                        columns=['x1', 'x2'])

swr_p = list(itertools.product((p), repeat=2))
df_p =  pd.DataFrame(data=swr_p,
                        columns=['p_x1', 'p_x2'])
df['p(x1,x2)'] = df_p.p_x1 * df_p.p_x2
df['x_raya'] = df[['x1', 'x2']].mean(axis=1)
df

In [None]:
# Solución 4.c.

original = stats.rv_discrete(name='original', values=(df_pob['x'], df_pob['p(x)']))

dist_x_raya = stats.rv_discrete(name='dist_x_raya', values=(df['x_raya'], df['p(x1,x2)']))

print('La media de la Población Original es igual a', original.mean())
print('La media de la Distribución de X_Raya es igual a', dist_x_raya.mean())

In [None]:
# Solución 4.d.

original = stats.rv_discrete(name='original', values=(df_pob['x'], df_pob['p(x)']))

dist_x_raya = stats.rv_discrete(name='dist_x_raya', values=(df['x_raya'], df['p(x1,x2)']))

print('La Varianza de la Población Original es igual a', original.var())
print('La Varianza de la Distribución de X_Raya es igual a', dist_x_raya.var())

- Referencias

Devore, J. L. (2008). _Probabilidad y Estadística para Ingeniería y Ciencias. (7ma Edición)_. Cengage Learning Editores.

Spiegel M. y Stephens L. _Schaum's outline Statistics_. (6ta Edición). McGraw-Hill Education.
