In [1]:
import numpy as np
import pandas as pd

# Muestreo por conglomerados

El proceso de obtener y estudiar una muestra aleatoria en algunos casos es caro o dificil, aunque dispongamos de la lista completa de la poblacion. 

Una alternativa posible sería, en vez de extraer una muestra aleatoria de todos los individuos de la poblacion, escoger primero al azar unos subconjuntos en los que la poblacion esta dividida, a las que llamamos en este contexto **conglomerados (clusters)**.

## Ejemplo

Consideremos la tabla de datos worldcup. Esta tabla de datos nos da informacion sobre 595 jugadores que participaron en el Mundial de Futbol del año 2010 celebrado en Sudáfrica. La tabla nos da la informacion siguiente sobre cada jugador:

- Team: pais del jugador.
- Position: posicion en la que juega el jugador
- Time: tiempo que ha jugado el jugador en minutos
- Shots: numero de tiros a puerta
- Passes: numero de pases
- Tackles: numero de entradas
- Saves: numero de paradas

In [5]:
data = pd.read_csv('..\datasets\worldcup.csv', sep=',', index_col=0 )

In [7]:
data.sample(5)

Unnamed: 0,Team,Position,Time,Shots,Passes,Tackles,Saves
Heskey,England,Forward,176,2,53,7,0
Cech,Slovakia,Defender,90,0,35,2,0
Abe,Japan,Midfielder,351,0,101,14,0
RodriguezM,Mexico,Defender,360,2,212,7,0
Javi Martinez,Spain,Midfielder,17,0,17,0,0


Supongamos que queremos calcular una muestra de tamaño indeterminado de los jugadores por conglomerados eligiendo como conglomerados los paises a los que estos pertenecen. 

En nuestro dataset existe un total de 32 paises. 

Elegiremos primero 4 paises aleatoriamente y la muestra elegida seran los jugadores que pertenecen a dichos paises:

In [11]:
paises = data['Team'].unique()
print('Total de paises: ',len(paises))
paises

Total de paises:  32


array(['Algeria', 'Japan', 'France', 'Cameroon', 'Uruguay', 'Ghana',
       'Netherlands', 'Nigeria', 'Denmark', 'Mexico', 'Argentina',
       'North Korea', 'Paraguay', 'Portugal', 'Spain', 'Honduras',
       'England', 'Greece', 'Germany', 'Brazil', 'Switzerland',
       'New Zealand', 'Ivory Coast', 'USA', 'Australia', 'Chile',
       'Slovenia', 'Italy', 'Slovakia', 'South Korea', 'South Africa',
       'Serbia'], dtype=object)

Los paises elegidos son:

In [14]:
paises_elegidos = np.random.choice(paises, 4, replace=False)
paises_elegidos

array(['Ghana', 'South Korea', 'Algeria', 'Portugal'], dtype=object)

La muestra elegida sera:

In [26]:
mask = data['Team'].isin(paises_elegidos)
data_sample = data[mask]
print(f'La muestra tiene un total de:  {len(data_sample)} registros.')
data_sample


La muestra tiene un total de:  74 registros.


Unnamed: 0,Team,Position,Time,Shots,Passes,Tackles,Saves
Abdoun,Algeria,Midfielder,16,0,6,0,0
Addy,Ghana,Defender,138,0,51,2,0
Adiyiah,Ghana,Forward,33,0,9,0,0
Almeida,Portugal,Forward,136,5,42,3,0
Amoah,Ghana,Forward,11,0,4,1,0
...,...,...,...,...,...,...,...
Vorsah,Ghana,Defender,210,1,56,2,0
Yahia,Algeria,Defender,269,1,79,4,0
Yebda,Algeria,Midfielder,269,8,138,10,0
Yeom Ki-Hun,South Korea,Midfielder,249,2,80,6,0
