# 📘 Actividad Evaluativa Interactiva: Muestreo Aleatorio Simple (MAS)
### 🎯 Objetivo:
Aplicar el diseño de Muestreo Aleatorio Simple (MAS) en Python para estimar parámetros poblacionales, evaluando su comportamiento tanto con medias como con proporciones usando diferentes datasets reales.

Al final, deberás reflexionar sobre la representatividad de las muestras y los resultados obtenidos.

## 1. 🗂️ Cargar el dataset de tu elección

In [None]:
# Ejemplos de URLs públicas:
# IMDb: https://raw.githubusercontent.com/justmarkham/DAT8/master/data/imdb_1000.csv
# Wine Quality: https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv
# Estilo de vida  (sube el archivo 'estilo_vida.csv' si estás en Colab)

import pandas as pd

url = input("Pega aquí la URL de tu archivo CSV: ")
sep = input("Indica el separador (por defecto ,): ") or ","

df = pd.read_csv(url, sep=sep)
df.head()

## 2. 🔍 Explorar variables disponibles y seleccionar una cuantitativa y una binaria

In [None]:
# Revisa tipos de datos
print(df.dtypes)

# Cambia los nombres de las variables seleccionadas
variable_cuantitativa = input("Variable cuantitativa para estimar la media: ")
variable_binaria = input("Variable binaria para estimar proporciones (0 y 1): ")

## 3. 🎯 Estimación con MAS de la media poblacional

In [None]:
import numpy as np

n = 100
media_poblacional = df[variable_cuantitativa].mean()
media_muestral = df.sample(n=n, replace=False)[variable_cuantitativa].mean()

print(f"Media poblacional: {media_poblacional:.2f}")
print(f"Media muestral (n={n}): {media_muestral:.2f}")

## 4. 🧪 Simulación MAS para la media (TCL)

In [None]:
medias = []
for i in range(1000):
    muestra = df.sample(n=n, replace=False)
    medias.append(muestra[variable_cuantitativa].mean())

import matplotlib.pyplot as plt
import seaborn as sns

sns.histplot(medias, bins=30, kde=True)
plt.axvline(media_poblacional, color='red', linestyle='--', label='Media real')
plt.title("Distribución Muestral de la Media")
plt.xlabel("Media muestral")
plt.legend()
plt.show()

## 5. ✅ Estimación de proporción con MAS

In [None]:
proporcion_real = df[variable_binaria].mean()
proporcion_muestral = df.sample(n=n, replace=False)[variable_binaria].mean()

print(f"Proporción real: {proporcion_real:.3f}")
print(f"Proporción muestral (n={n}): {proporcion_muestral:.3f}")

## 6. 🧪 Simulación MAS para proporciones

In [None]:
proporciones = []
for i in range(1000):
    muestra = df.sample(n=n, replace=False)
    proporciones.append(muestra[variable_binaria].mean())

sns.histplot(proporciones, bins=30, kde=True, color='green')
plt.axvline(proporcion_real, color='red', linestyle='--', label='Proporción real')
plt.title("Distribución Muestral de Proporciones")
plt.xlabel("Proporción muestral")
plt.legend()
plt.show()

## 7. 🧠 Reflexión Final

### ✍️ Preguntas para responder:
1. ¿Qué tan cercanas estuvieron las estimaciones muestrales a los valores reales?
2. ¿Cómo se comportaron las distribuciones muestrales? ¿Evidencian el Teorema Central del Límite?
3. ¿Qué ventajas observas del MAS? ¿Qué limitaciones?
4. ¿Cómo cambiarían los resultados si aumentas el tamaño muestral a 300?
5. ¿Qué variable elegirías diferente si repitieras esta actividad con otro dataset?
