# Estadística para Ciencia de los Datos

---



# Tarea

 La presente asignación busca que los estudiantes apliquen intervalos de confianza como un medio para explorar los conjuntos de datos de la Tarea \#2.  En esa tarea se pidió analizar un grupo de columnas en busca de las distribuciones que modelaban más adecuadamente cada una.

Se pide a los estudiantes que seleccionen 2 columnas de variables cuantitativas del conjunto de datos y exploren intervalos de confianza y el contexto alrededor de ellos.

Para toda esta tarea vamos a suponer que el set de datos de diamantes es nuestra población de interés. Partiendo de este supuesto, para ambas columnas obtenga el promedio poblacional y la desviación estándar poblacional.

Con estas medias poblacionales los estudiantes deberán, para ambas columnas:
- Seleccionar una muestra aleatoria con un $n$ = 25.
- Crear 1 intervalo de confianza para la media con un nivel de confianza de 90\% e indique si incluye el promedio poblacional.(**10 puntos**)
- Igual que el anterior, con un nivel de confianza de 95% e indique si incluye el promedio poblacional. (**5 puntos**)
- Igual que el anterior, con una confianza de 99% e indique si incluye el promedio poblacional. (**5 puntos**)

¿Qué concluye de los intervalos de confianza anteriores? ¿Aumentan, disminuyen, se mantienen igual?
Si hay cambios, ¿por qué ocurre esto? (**10 puntos**)

- Analizar al menos 3 valores de $n$, es decir use al menos 3 muestras aleatorias de diferentes tamaños (por ejemplo 5, 20, 50). Explique que impacto tiene $n$ en el intervalo de confianza, además indique si se incluye o no el promedio poblacional en cada caso. En este caso use un nivel de confianza de 95\% (**20 puntos**)

- Establecer al menos 2 valores de margen de error $\rho$ para la media y determinar cuál sería el tamaño de $n$ necesario para poder tener un nivel de confianza de 95\% (**20 puntos**)

Recuerde que suponemos que el set de datos es nuestra población de interés.

Por último, se pide a los estudiantes que para ambas columnas realicen lo siguiente:

- Seleccionar 16 muestras aleatorias con número de observaciones $n=10$. Repita lo mismo con $n=25$.
- Graficar la comparación del promedio de cada una de las muestras de 10 observaciones con la media poblacional.(pueden usar `scatter` de `matplotlib` con barras de error, como en el siguiente ejemplo). Repita lo mismo con $n=25$. (**15 puntos**)
![](https://drive.google.com/uc?id=1q4Gs2Z3LSKk3HvtWJbe926-4Hma2eOLh)
- Graficar un histograma que ilustre la distribución de las medias muestrales de $n=10$ observaciones. Repita lo mismo con $n=25$. ¿Qué diferencia encuentra entre ambos histogramas?(**15 puntos**)

Nótese que los apartados anteriores deben desarrollarse 2 veces. Una vez por cada columna.

Como ha sido costumbre, se espera que los estudiantes entreguen un notebook de colab con tanto nivel de detalle como sea posible. La calificación de cada apartado depende que los estudiantes hayan logrado demostrar con claridad y detalle lo planteado en cada punto.

Los estudiantes deberán realizar la entrega a través de TEC Digital a más tardar el día 4 de febrero de 2026 a las 11:00 PM.

In [34]:
%%capture
# Correr esto solo una vez en su .venv
%pip install numpy
%pip install pandas
%pip install matplotlib
%pip install scipy
%pip install torch

In [None]:
# Carga del dataset
import pandas as pd
import numpy as np
from scipy import stats

print("Cargando dataset de diamantes...")
diamonds_data = pd.read_csv("diamonds.csv")

## Funciones a reutilizar

# Función para generar múltiples muestras aleatorias
def generar_muestras_aleatorias(columna, n_muestras, elementos_por_muestra):
    muestras = []
    for i in range(n_muestras):
        muestra = columna.sample(elementos_por_muestra, replace=False)
        muestras.append(muestra)
    return muestras

# Función para calcular intervalo de confianza
def calcular_intervalo_confianza(media_muestral, sigma, n, nivel_confianza):
    alpha = 1 - nivel_confianza
    z_critico = stats.norm.ppf(1 - alpha/2)
    margen_error = (sigma * z_critico) / np.sqrt(n)
    lim_inf = media_muestral - margen_error
    lim_sup = media_muestral + margen_error
    return lim_inf, lim_sup, margen_error, z_critico

def imprimir_analisis(lim_inf, lim_sup, margen_error, z_critico, nivel_confianza, media_pob):
    incluye_media = lim_inf <= media_pob <= lim_sup
    print(f"Nivel de confianza: {nivel_confianza}")
    print(f"Valor z crítico: {z_critico:.4f}")
    print(f"Margen de error: ±{margen_error:.2f}")
    print(f"Intervalo: [{lim_inf:.2f}, {lim_sup:.2f}]")
    print(f"¿Incluye la media poblacional ({media_pob:.2f})? {'Sí' if incluye_media else 'No'}")
    print(f"Amplitud del intervalo: {lim_sup - lim_inf:.2f}\n")

## Primera columna escogida: `price`

In [43]:
# Se escoge la columna price, se obtendra los parametros poblaciones
# usando la funcion mean() y std()

columna = diamonds_data["price"]
media_poblacional = columna.mean()
desviacion_poblacional = columna.std()

print(f"Media poblacional: {media_poblacional:.2f}")
print(f"Desviación estándar poblacional: {desviacion_poblacional:.2f}")

Media poblacional: 3932.80
Desviación estándar poblacional: 3989.44


In [44]:
# se obtiene una muestra de 25 elementos
n = 25
muestra = columna.sample(n)
# Parámetros
media_muestral = muestra.mean()
print(f"Media de la muestral (n={n}): {media_muestral:.2f}")

Media de la muestral (n=25): 4578.76


Como se tienen los parametros poblacionales, se procede a calcular el intervalo de confianza con la siguiente formula

\begin{equation}
\overline{x}\pm\frac{\sigma\, z_{\alpha/2}}{\sqrt{n}}
\end{equation}

In [45]:
# Cálculo de intervalos de confianza para la columna price

nivel_confianza = 0.90

lim_inf, lim_sup, margen_error, z_critico = calcular_intervalo_confianza(
    media_muestral, desviacion_poblacional, n, nivel_confianza
)
imprimir_analisis(lim_inf, lim_sup, margen_error, z_critico, nivel_confianza, media_poblacional)

nivel_confianza = 0.95

lim_inf, lim_sup, margen_error, z_critico = calcular_intervalo_confianza(
    media_muestral, desviacion_poblacional, n, nivel_confianza
)
imprimir_analisis(lim_inf, lim_sup, margen_error, z_critico, nivel_confianza, media_poblacional)

nivel_confianza = 0.99

lim_inf, lim_sup, margen_error, z_critico = calcular_intervalo_confianza(
    media_muestral, desviacion_poblacional, n, nivel_confianza
)
imprimir_analisis(lim_inf, lim_sup, margen_error, z_critico, nivel_confianza, media_poblacional)

Nivel de confianza: 0.9
Valor z crítico: 1.6449
Margen de error: ±1312.41
Intervalo: [3266.35, 5891.17]
¿Incluye la media poblacional (3932.80)? Sí
Amplitud del intervalo: 2624.82

Nivel de confianza: 0.95
Valor z crítico: 1.9600
Margen de error: ±1563.83
Intervalo: [3014.93, 6142.59]
¿Incluye la media poblacional (3932.80)? Sí
Amplitud del intervalo: 3127.66

Nivel de confianza: 0.99
Valor z crítico: 2.5758
Margen de error: ±2055.22
Intervalo: [2523.54, 6633.98]
¿Incluye la media poblacional (3932.80)? Sí
Amplitud del intervalo: 4110.45



¿Qué concluye de los intervalos de confianza anteriores? ¿Aumentan, disminuyen, se mantienen igual?
Si hay cambios, ¿por qué ocurre esto? (**10 puntos**)

Los intervalos de confianza aumentan la amplitud de cada intervalo si el intervalo de confianza es mayor. Tambien influye en el valor de z critico, lo que aumenta el margen de error.

In [46]:
# se obtiene una muestra de 5 elementos
n = 5
muestra = columna.sample(n)
# Parámetros
media_muestral = muestra.mean()
print(f"Media de la muestral (n={n}): {media_muestral:.2f}")

nivel_confianza = 0.95

lim_inf, lim_sup, margen_error, z_critico = calcular_intervalo_confianza(
    media_muestral, desviacion_poblacional, n, nivel_confianza
)
imprimir_analisis(lim_inf, lim_sup, margen_error, z_critico, nivel_confianza, media_poblacional)

Media de la muestral (n=5): 3044.60
Nivel de confianza: 0.95
Valor z crítico: 1.9600
Margen de error: ±3496.83
Intervalo: [-452.23, 6541.43]
¿Incluye la media poblacional (3932.80)? Sí
Amplitud del intervalo: 6993.67



In [39]:
# se obtiene una muestra de 10 elementos
n = 20
muestra = columna.sample(n)
# Parámetros
media_muestral = muestra.mean()
print(f"Media de la muestral (n={n}): {media_muestral:.2f}")

nivel_confianza = 0.95

lim_inf, lim_sup, margen_error, z_critico = calcular_intervalo_confianza(
    media_muestral, desviacion_poblacional, n, nivel_confianza
)
imprimir_analisis(lim_inf, lim_sup, margen_error, z_critico, nivel_confianza, media_poblacional)

Media de la muestral (n=20): 2409.75
Nivel de confianza: 0.95
Valor z crítico: 1.9600
Margen de error: ±1748.42
Intervalo: [661.33, 4158.17]
¿Incluye la media poblacional (3932.80)? Sí
Amplitud del intervalo: 3496.83



In [47]:
# se obtiene una muestra de 50 elementos
n = 50
muestra = columna.sample(n)
# Parámetros
media_muestral = muestra.mean()
print(f"Media de la muestral (n={n}): {media_muestral:.2f}")

nivel_confianza = 0.95

lim_inf, lim_sup, margen_error, z_critico = calcular_intervalo_confianza(
    media_muestral, desviacion_poblacional, n, nivel_confianza
)
imprimir_analisis(lim_inf, lim_sup, margen_error, z_critico, nivel_confianza, media_poblacional)

Media de la muestral (n=50): 3306.24
Nivel de confianza: 0.95
Valor z crítico: 1.9600
Margen de error: ±1105.80
Intervalo: [2200.44, 4412.04]
¿Incluye la media poblacional (3932.80)? Sí
Amplitud del intervalo: 2211.59



- Analizar al menos 3 valores de $n$, es decir use al menos 3 muestras aleatorias de diferentes tamaños (por ejemplo 5, 20, 50). Explique que impacto tiene $n$ en el intervalo de confianza, además indique si se incluye o no el promedio poblacional en cada caso. En este caso use un nivel de confianza de 95\% (**20 puntos**)

Podemos observar que el valor de n influye en la amplitud del intervalo de confianza o mejor dicho a mayor tamaño muestral, mayor precisión (intervalo más estrecho). En los 3 casos (n=5, n=20 y n=50) la media poblacional si esta incluida en los 3 intervalos de confianza porque el margen de error es suficiente

- Establecer al menos 2 valores de margen de error $\rho$ para la media y determinar cuál sería el tamaño de $n$ necesario para poder tener un nivel de confianza de 95\% (**20 puntos**)

Si queremos determinar n dado 2 valores de $\rho$ necesitamos hacer la inversa de lo que hemos estado calculando:
- Dado: n, σ, nivel de confianza → Calcula: margen de error
- Inversa: Dado: margen de error deseado ($\rho$), σ, nivel de confianza → Calcula: n necesario

$$
\bar{x} \pm \frac{\sigma z_{\alpha/2}}{\sqrt{n}}
$$

$$
\sqrt{n} \pm \frac{\sigma z_{\alpha/2}}{\bar{x}}
$$

$$
(\sqrt{n})^2 \pm \left( \frac{\sigma z_{\alpha/2}}{\bar{x}} \right)^2
$$

$$
n \pm \left( \frac{\sigma z_{\alpha/2}}{\bar{x}} \right)^2
$$

Vamos a proceder a calcular n dado 2 casos de p.

Primer caso $\rho1$: queremos que la estimación este dentro de +- 500 del precio real

$$
\begin{aligned}
\sigma &= 3989.44 \\
z_{\alpha/2} &\approx 1.96 \\
E &= 500 \\[6pt]

n &= \left( \frac{z_{\alpha/2}\,\sigma}{E} \right)^2 \\[6pt]

n &= \left( \frac{1.96 \cdot 3989.44}{500} \right)^2 \\[6pt]

n &\approx 245
\end{aligned}
$$

Segundo caso $\rho2$: queremos que la estimación este dentro de +- 200 del precio real

$$
\begin{aligned}
\sigma &= 3989.44 \\
z_{\alpha/2} &\approx 1.96 \\
E &= 200 \\[6pt]

n &= \left( \frac{z_{\alpha/2}\,\sigma}{E} \right)^2 \\[6pt]

n &= \left( \frac{1.96 \cdot 3989.44}{200} \right)^2 \\[6pt]

n &\approx 1529
\end{aligned}
$$