## Latveria y Symkaria son dos poblaciones vecinas. Los hombres y mujeres de Latveria miden de media 175 cm y 169 cm respectivamente y tienen para ámbas distribuciones una desviación típica de 6 cm. En Symkaria, en cambio, las mujeres miden de media 173 cm y los hombres 171. La desviación típica en la altura de las mujeres de Symkaria es de 7 cm y en la de los hombres de 3 cm.

In [1]:
import numpy as np
import pandas as pd
from pandas.core.common import flatten

## a) Con estos datos, conforma un dataframe que contenga las medidas de 2000 hombres y de 2000 mujeres de cada población. Calcula la media y la desviación típica de la población.

In [2]:
np.random.seed(seed=3)
latveria_h = np.random.normal(175,6,2000)
latveria_m = np.random.normal(169,6,2000)
symkaria_h = np.random.normal(171,3,2000)
symkaria_m = np.random.normal(173,7,2000)

l_lh = latveria_h.tolist()
l_lm = latveria_m.tolist()
l_sh = symkaria_h.tolist()
l_sm = symkaria_m.tolist()

l_comb = l_lh + l_lm + l_sh + l_sm
sexo = [["hombre"]*2000, ["mujer"]*2000]*2
pais = [["latveria"]*4000, ["symkaria"]*4000]

flattened_sexo = list(flatten(sexo))
flattened_pais = list(flatten(pais))

In [3]:
d = {"Altura": l_comb, "Sexo": flattened_sexo, "Pais": flattened_pais}
df = pd.DataFrame(d)

df

Unnamed: 0,Altura,Sexo,Pais
0,185.731771,hombre,latveria
1,177.619059,hombre,latveria
2,175.578985,hombre,latveria
3,163.819044,hombre,latveria
4,173.335671,hombre,latveria
...,...,...,...
7995,178.735655,mujer,symkaria
7996,172.388692,mujer,symkaria
7997,169.920577,mujer,symkaria
7998,167.041882,mujer,symkaria


In [4]:
media = np.mean(df["Altura"])
desv = np.std(df["Altura"])

print("media: " , round(media,2), ", Desviacion: ", round(desv,2))

media:  171.85 , Desviacion:  6.14


## b) Realiza un muestreo estratificado con 4 estratos y n = 100/estrato. Calcula la media y desviación típica de cada estrato.

### Para seleccionar los estratos debemos seleccionar las 4 combinaciones distintas de sexo y país. POsteriormente, se realiza una estracción aleatoria de 100 individuos por estrato con la función sample sobre el dataframe. Por último, se calcula la media y la desviación estándar para cada estrato.

In [5]:
np.random.seed(seed=11)

In [6]:
#filtros
e_h = df["Sexo"] == "hombre"
e_m = df["Sexo"] == "mujer"
e_l = df["Pais"] == "latveria"
e_s = df["Pais"] == "symkaria"

#generar estratos
estrato1 = df[e_h & e_l]
estrato2 = df[e_m & e_l]
estrato3 = df[e_h & e_s]
estrato4 = df[e_m & e_s]

In [7]:
n1 = 100/len(estrato1)
n2 = 100/len(estrato2)
n3 = 100/len(estrato3)
n4 = 100/len(estrato4)

sample_1 = estrato1.sample(frac=n1)
sample_2 = estrato2.sample(frac=n2)
sample_3 = estrato3.sample(frac=n3)
sample_4 = estrato4.sample(frac=n4)

In [8]:
#media estrato 1
print(round(np.mean(sample_1["Altura"]),2))
#desviacion tipica estrato 1
print(round(np.std(sample_1["Altura"]),2))

174.61
6.14


In [9]:
#media estrato 2
print(round(np.mean(sample_2["Altura"]),2))
#desviacion tipica estrato 2
print(round(np.std(sample_2["Altura"]),2))

168.28
6.06


In [10]:
#media estrato 3
print(round(np.mean(sample_3["Altura"]),2))
#desviacion tipica estrato 3
print(round(np.std(sample_3["Altura"]),2))

170.99
2.78


In [11]:
#media estrato 4
print(round(np.mean(sample_4["Altura"]),2))
#desviacion tipica estrato 4
print(round(np.std(sample_4["Altura"]),2))

173.94
6.04


## c) Realiza un muestreo por conglomerados con 2 conglomerados y n = 200/conglomerado. Calcula la media y desviación típica de cada conglomerado.

### Aprovechando los estratos definidos del apartado anterior se conforman los conglomerados. En concreto, cada conglomerado estará formado por 50 observaciones de cada uno de los estratos.

In [12]:
np.random.seed(seed=11)

In [13]:
# muestrear en cada estrato para el conglomerado 1---------------
sample_1 = estrato1.sample(frac = 0.025)
sample_2 = estrato2.sample(frac = 0.025)
sample_3 = estrato3.sample(frac = 0.025)
sample_4 = estrato4.sample(frac = 0.025)

In [14]:
# conformar conglomerado 1---------------------------------------
con_1=sample_1.append(sample_2).append(sample_3).append(sample_4)

In [15]:
# muestrear en cada estrato para el conglomerado 1---------------
sample_1 = estrato1.sample(frac = 0.025)
sample_2 = estrato2.sample(frac = 0.025)
sample_3 = estrato3.sample(frac = 0.025)
sample_4 = estrato4.sample(frac = 0.025)

In [16]:
# conformar conglomerado 2---------------------------------------
con_2=sample_1.append(sample_2).append(sample_3).append(sample_4)

In [17]:
print(round(np.mean(con_1["Altura"]),2))
print(round(np.std(con_1["Altura"]),2))

172.31
6.07


In [18]:
print(round(np.mean(con_2["Altura"]),2))
print(round(np.std(con_2["Altura"]),2))

172.64
6.27
