In [6]:
import pandas as pd
import numpy as np

In [7]:
#Importar base de datos
df = pd.read_csv("streaming_usuarios.csv")
df.shape

(90, 2)

In [8]:
df.head()

Unnamed: 0,estrato,horas
0,18-29,15.291233
1,18-29,17.905935
2,18-29,12.893841
3,18-29,14.017014
4,18-29,13.823676


In [9]:
# Saber el tipo de datos
df.dtypes

Unnamed: 0,0
estrato,object
horas,float64


In [10]:
# Contar estratos
estratos = df['estrato'].value_counts()
print(estratos)

estrato
18-29    30
30-49    30
50+      30
Name: count, dtype: int64


In [11]:
estrato1 = df[df['estrato'] == '18-29']['horas']
estrato2 = df[df['estrato'] == '30-49']['horas']
estrato3 = df[df['estrato'] == '50+']['horas']
n1 = estrato1.count()
n2 = estrato2.count()
n3 = estrato3.count()
n = n1 + n2 + n3

In [12]:
# Tamaño de cada grupo
N1 = 350
N2 = 450
N3 = 200
N = N1 + N2 + N3

In [13]:
# Promedio de horas de cada estrato
mean1, mean2, mean3 = estrato1.mean(), estrato2.mean(), estrato3.mean()
print(f"Media estrato 1: {mean1:.2f}")
print(f"Media estrato 2: {mean2:.2f}")
print(f"Media estrato 3: {mean3:.2f}")

Media estrato 1: 14.94
Media estrato 2: 11.62
Media estrato 3: 8.56


In [14]:
# Promedio de horas por estrato / promedio estratificado de horas de uso /media estratificada
Y_estr = (N1*mean1 + N2*mean2 + N3*mean3) / N
print(f"Promedio de horas por estrato: {Y_estr:.2f}")

Promedio de horas por estrato: 12.17


In [15]:
# Peso de cada estrato
W1, W2, W3 = N1/N, N2/N, N3/N
print(f"Pesos: W1={W1:.3f}, W2={W2:.3f}, W3={W3:.3f}")

Pesos: W1=0.350, W2=0.450, W3=0.200


In [16]:
Y_st = W1*mean1 + W2*mean2 + W3*mean3
print(f"Estimación puntual de la media estratificada: {Y_st:.2f}")

Estimación puntual de la media estratificada: 12.17


In [17]:
# Estimacion del total de horas de uso.
T_hat = N * Y_st
print(f"Estimación puntual del total de horas de uso: {T_hat:.2f}")

Estimación puntual del total de horas de uso: 12169.33


In [18]:
# Estimacion  del total de horas de streaming en la poblacion
T_estr = N * Y_estr
print(f"Total estratificado: {T_estr:.2f}")

Total estratificado: 12169.33


In [19]:
# Varianzas muestrales
var1, var2, var3 = estrato1.var(ddof=1), estrato2.var(ddof=1), estrato3.var(ddof=1)
print(f"Varianza estrato 1: {var1:.2f}")
print(f"Varianza estrato 2: {var2:.2f}")
print(f"Varianza estrato 3: {var3:.2f}")

Varianza estrato 1: 7.43
Varianza estrato 2: 16.78
Varianza estrato 3: 3.59


In [20]:
V_Yst = (W1**2 * var1 / n1 * (1-n1/N1) +
         W2**2 * var2 / n2 * (1-n2/N2) +
         W3**2 * var3 / n3 * (1-n3/N3))
SE_Yst = np.sqrt(V_Yst)
print(f"Varianza de la media estratificada: {V_Yst:.2f}")
print(f"Desviación estándar: {SE_Yst:.2f}")

Varianza de la media estratificada: 0.14
Desviación estándar: 0.37


In [21]:
# Intervalo de confianza del 95% para la media estratificada
# Usamos el valor crítico z=1.96 para el nivel de confianza del 95%.
z = 1.96
IC_media = (Y_st - z*SE_Yst, Y_st + z*SE_Yst)
print(f"IC 95% para la media estratificada: ({IC_media[0]:.2f}, {IC_media[1]:.2f})")

IC 95% para la media estratificada: (11.44, 12.90)


In [22]:
# IC al 95% para el total de horas de uso
V_T = N**2 * V_Yst
SE_T = np.sqrt(V_T)
IC_total = (T_hat - z*SE_T, T_hat + z*SE_T)
print(f"IC 95% para el total de horas de uso: ({IC_total[0]:.2f}, {IC_total[1]:.2f})")

IC 95% para el total de horas de uso: (11442.41, 12896.25)
