In [1]:
import pandas as pd
import numpy as np

# Muestreo Aleatorio Estratificado

Este tipo de muestreo se utiliza cuando la poblacion esta clasificada en **estratos** que son de interes para la propiedad estudiada. Se toma una muestra aleatoria de cada estrato y se unen en una muestra global. A este proceso se le llama **muestreo aleatorio estratificado**.

## Ejemplo

Vamos a considerar que la tabla de datos iris esta estratificada segun tres estratos. Cada estrato esta compuesto por las 50 flores de la misma especie. Vamos a hallar una muestra de tamaño 12 hallando tres muestras de tamaño 4 de cada especie (estrato) con reposicion y despues juntaremos la tres submuestras.

In [15]:
iris = pd.read_csv(r"..\datasets\iris.csv", sep=",")
iris.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


A continuacion, tomamos la muestra de la especie **setosa**.

In [16]:
mask = iris['species'] == 'setosa'
iris_setosa = iris[mask].sample(5,replace=True)
iris_setosa

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
47,4.6,3.2,1.4,0.2,setosa
12,4.8,3.0,1.4,0.1,setosa
22,4.6,3.6,1.0,0.2,setosa
39,5.1,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa


A continuacion, tomamos la muestra de la especie **versicolor**.

In [17]:
mask = iris['species'] == 'versicolor'
iris_versicolor = iris[mask].sample(5,replace=True)
iris_versicolor

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
58,6.6,2.9,4.6,1.3,versicolor
79,5.7,2.6,3.5,1.0,versicolor
58,6.6,2.9,4.6,1.3,versicolor
85,6.0,3.4,4.5,1.6,versicolor
65,6.7,3.1,4.4,1.4,versicolor


A continuacion, tomamos la muestra de la especie **virginica**.

In [18]:
mask = iris['species'] == 'virginica'
iris_virginica = iris[mask].sample(5,replace=True)
iris_virginica

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
111,6.4,2.7,5.3,1.9,virginica
110,6.5,3.2,5.1,2.0,virginica
124,6.7,3.3,5.7,2.1,virginica
107,7.3,2.9,6.3,1.8,virginica
123,6.3,2.7,4.9,1.8,virginica


Finalmente mostramos la muestra estratificada, juntando las muestras de cada espcie.

In [22]:
df = pd.concat([iris_setosa, iris_versicolor, iris_virginica], axis=0)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
47,4.6,3.2,1.4,0.2,setosa
12,4.8,3.0,1.4,0.1,setosa
22,4.6,3.6,1.0,0.2,setosa
39,5.1,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
58,6.6,2.9,4.6,1.3,versicolor
79,5.7,2.6,3.5,1.0,versicolor
58,6.6,2.9,4.6,1.3,versicolor
85,6.0,3.4,4.5,1.6,versicolor
65,6.7,3.1,4.4,1.4,versicolor
