<a href="https://colab.research.google.com/github/rpizarrog/probabilidad-y-estad-stica/blob/master/2024/Caso_32_Tipos_de_muestreo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivo

Decribir la muestra conforme y de acuerdo al tipo de muestreo aleatorio.

# Descripción

Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.






# Fundamento teórico

El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.

Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. (Lind, Marchal, and Wathen 2015).

Por otra parte la importancia del muestreo como lo menciona (Anderson, Sweeney, and Williams 2008) es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.

Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas (Lind, Marchal, and Wathen 2015).

## Muestreo aleatorio simple

Una muestra aleatoria simple de tamaño $n$
de una población finita de tamaño $N$
es una muestra seleccionada de manera que cada posible muestra de tamaño n
tenga la misma probabilidad de ser seleccionada (Anderson, Sweeney, and Williams 2008).

De un conjunto de $N$ elementos de una población, un muestreo aleatorio simple sería una especie de rifa o tómbola para elegir de de entre los $N$ total de población una cantidad de $n$ número de la muestra.

## Muestreo aleatorio sistematizado

Se selecciona un punto aleatorio de inicio y posteriormente se elige cada *k-ésimo* miembro de la población (Lind, Marchal, and Wathen 2015).

Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente (Anderson, Sweeney, and Williams 2008).

El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población (Anderson, Sweeney, and Williams 2008)


## Muestreo estratificado

Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra (Lind, Marchal, and Wathen 2015).

(Anderson, Sweeney, and Williams 2008) describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, entre otros, está a discreción de la persona que diseña la muestra.

Por otra parte, para asegurar que la muestra sea una representación imparcial de las N
observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. (Lind, Marchal, and Wathen 2015).

## Muestreo por conglomerado

La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo (Lind, Marchal, and Wathen 2015).




# Desarrollo

## Cargar librerías




In [39]:
import pandas as pd
import numpy as np

import random

## Cargar funciones

In [112]:
# Función que hace un muestreo sistematizado, recibe, tamaño de poblacion y de muestra
# Aleatoriamente comienza en un valor numérico en el rango de la población

def f_muestreo_sistematizado_ver1(N, n):
    # Define el inicio y los saltos
    inicio = np.random.randint(1, N)
    saltos = int(np.round(N / n, 0))

    indices = [0] * n
    indices[0] = inicio
    i = 1
    while i < n:
        indice = indices[i-1] + saltos
        if indice <= N:
            indices[i] = indice
        else:
            indices[i] = indice - N
        i += 1

    return indices

# Esta función mejorada a la version  f_muestreo_sistematizado_ver1()
# Recibe los datos y el tamaño de la muestra
# Devuele los regisrtos aleatoriamente sistematizados y la muestra
def f_muestreo_sistematizado_ver2(datos, n):
    # Define el inicio y los saltos
    inicio = np.random.randint(0, N-1)
    saltos = int(np.round(N / n, 0))

    indices = [0] * n
    indices[0] = inicio
    i = 1
    while i < n:
        indice = indices[i-1] + saltos
        if indice <= N:
            indices[i] = indice
        else:
            indices[i] = indice - N
        i += 1

    # Convertir a índices de Python (0-based). Porque los arreglos comienzan en 0
    indices = [x - 1 for x in indices]

    # Obtener la muestra usando los índices
    muestra = datos.iloc[indices]

    return indices, muestra

## Cargar datos

Se carga el conjunto de datos de personas del enlace https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2024/datos/datos_alumnos_deportes.csv por medio de la librería pandas

In [59]:
datos_alumnos_deportes  = pd.read_csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2024/datos/datos_alumnos_deportes.csv")
print (datos_alumnos_deportes.head(10))
print (datos_alumnos_deportes.tail(10))


   no    nombres sexo  futbol  basquetbol  voleybol  atletismo  ajedrez  tenis
0   1     Adrián    M       1           0         1          1        1      0
1   2    Adriana    F       1           1         0          0        0      0
2   3    América    F       1           1         1          1        1      0
3   4        Ana    F       0           0         0          0        0      0
4   5      Angel    M       1           1         0          0        0      0
5   6   Angélica    F       1           1         1          0        0      0
6   7  Antonieta    F       0           0         0          0        0      1
7   8    Antonio    M       0           0         0          0        0      0
8   9    Aracely    F       0           0         0          0        0      1
9  10    Arcelia    F       0           0         0          0        1      1
     no   nombres sexo  futbol  basquetbol  voleybol  atletismo  ajedrez  \
90   91      Saul    M       1           0         1   

## Muestreo aleatorio simple

De este conjunto de datos se desea hacer una muestra de 20 alumnos, entonces $n=20$. Aquí el tamaño de la muestra fue arbitrario pero en el caso 31 se calculan tamaños de muestra mediante fórmulas estadísticas descritas en ese caso.

La pregunta es ¿cuáles elegir?. El muestreo aleatorio simple implica elegir por aleatoriedad o random.

En *pynthon* un valor aleatorio sería usando una función como sample(), con el tamaño de la muestra *n* y tal vez un valor *random_state*.

El argumento *random_state* como una semilla o un valor fijo (por ejemplo, 1), se garantiza que cada vez que se ejecute el código, se obtendrá la misma muestra aleatoria. Sin *random_state*, la muestra sería diferente en cada ejecución.


In [4]:
# Realizar el muestreo aleatorio simple
muestra = datos_alumnos_deportes.sample(n=20)
print (muestra[['no', 'nombres', 'sexo']])

    no    nombres sexo
9   10    Arcelia    F
52  53   Leonardo    M
54  55    Lorenzo    M
55  56      Lucía    F
37  38    Gerardo    M
29  30     Felipe    M
10  11    Argelia    F
94  95     Teresa    F
13  14     Arturo    M
60  61     Manuel    M
77  78      Perla    F
83  84    Rosario    F
75  76       Paty    F
47  48       Juan    M
96  97   Verónica    F
6    7  Antonieta    F
0    1     Adrián    M
93  94   Teobaldo    M
45  46    Joaquín    M
36  37  Gerardina    F


In [23]:
muestra = datos_alumnos_deportes.sample(n=20, random_state=2024)  # random_state asegura la reproducibilidad
print (muestra[['no', 'nombres', 'sexo']])

    no    nombres sexo
35  36     Genaro    M
19  20  Dagoberto    M
26  27    Ernesto    M
17  18     Carmen    F
77  78      Perla    F
24  25    Eraclio    M
70  71    Orlando    M
58  59      Luisa    F
95  96   Tiburcio    M
14  15       Bety    F
91  92     Sotelo    M
87  88     Sandra    F
50  51       Lalo    M
49  50      Julio    M
21  22       Dany    F
6    7  Antonieta    F
16  17     Carlos    M
5    6   Angélica    F
15  16    Calixto    M
34  35   Gabriela    F


## Muestreo aleatorio sistematizado

Del conjunto de datos *datos_alumnos_deportes* que tiene 100 registros se iniciará en un valor entero entre 1 y 100 considerando el atributo *no* que identiica a cada registro o alumno.

Toda vez iniciado el siguiente registro será el valor inicial + el salto, y se repite el proceso. Si se llega al valor máximo de 100, el proceso continua con los valores empezando en 1.

Se quiere una  muestra de tamanño $n=20$ de una poblacion de 100 observaciones. La sistematizada consiste en seleccionar el registro por decir arbitrariamente el 7 y los saltos es la relación que hay entre $N/n \equiv 100/20 = 5$.

La muestra incluye los valores {7, 12, 17, 22, 27, 32, 37, 42, 47, 52, 57, 62, 67, 72, 77, 82, 87, 92, 97, 2} que es lo correspondiene a:

$$
\text{Inicia en 7 con saltos de 5 en 5}\\
\text{7 + 5 = 12}\\
\text{12 + 5 = 17}\\
\text{17 + 5 = 22}\\
\text{17 + 5 = 22}\\
\text{... ... ...}\\
\text{92 + 5 = 97}\\
\text{97 + 5 = 102}\\
\text{102 o sea el registro 2, se regresa}
$$

Se manda llamar la función *f_muestreo_sistematizado(datos, n)*, esta devuelve la lista de registros a seleccionar para crear una muestra.

De los registros a seleccionar se impirme la lista y luego se accedo a cada uno de los registros que correspondan al atributo '*no*' del conjunto de datos *datos_alumnos_deportes*.


Los datos en la muestra aparecen en orden conforme a la columna '*no*' de manera ascendente de tal forma que al observar la lista de los registros, estos mismos registros deben corresponder al valor del atributo '*no*'.

Para este conjunto de datos la instrucción *datos_alumnos_deportes[datos_alumnos_deportes['no'].isin([index for index in registros])]* tiene efecto dado que hay una columna '*no*' en el conunto de datos; si no estuviera esta, habrpa que hacer ajustes al código.


In [115]:
# Semilla
np.random.seed(2024) # Siempre y cuando se utilice np.random.() ...

In [116]:
N = len(datos_alumnos_deportes) # Tamaño de población
n = 20 # Tamaño de muestra

registros = f_muestreo_sistematizado_ver1(N, n)
print ("Los registros a seleccionar de la población para la muestra")
print (registros)
print()

# Acceder a los registros correspondientes en el DataFrame datos_alumnos_deportes que contiene el campo No
# por el cual es como el número de registro o número de control de los alumnos
muestra = datos_alumnos_deportes[datos_alumnos_deportes['no'].isin([index for index in registros])]
print (muestra[['no', 'nombres', 'sexo']])


Los registros a seleccionar de la población para la muestra
[9, 14, 19, 24, 29, 34, 39, 44, 49, 54, 59, 64, 69, 74, 79, 84, 89, 94, 99, 4]

    no    nombres sexo
3    4        Ana    F
8    9    Aracely    F
13  14     Arturo    M
18  19   Consuelo    F
23  24      Efren    M
28  29   Federico    M
33  34    Gabriel    M
38  39   Giovanni    M
43  44     Javier    M
48  49    Julieta    F
53  54    Liliana    F
58  59      Luisa    F
63  64  Margarito    M
68  69     Miguel    M
73  74       Paco    M
78  79    Plácido    M
83  84    Rosario    F
88  89     Sandro    M
93  94   Teobaldo    M
98  99    Xóchitl    F


Ahora mandar llamar la función *f_muestreo_sistematizado_ver2(datos, n)* que envía como argumentos los datos y el tamaño de la muestra.

La función regresa los registros aleatoiamente sistematizados y la muestra

In [103]:
registros, muestra = f_muestreo_sistematizado_ver2(datos_alumnos_deportes, n)
print ("Los registros a seleccionar de la población para la muestra")
print (registros)
print()

print (muestra[['no', 'nombres', 'sexo']])

Los registros a seleccionar de la población para la muestra
[96, 1, 6, 11, 16, 21, 26, 31, 36, 41, 46, 51, 56, 61, 66, 71, 76, 81, 86, 91]

    no    nombres sexo
96  97   Verónica    F
1    2    Adriana    F
6    7  Antonieta    F
11  12    Armenia    F
16  17     Carlos    M
21  22       Dany    F
26  27    Ernesto    M
31  32   Fernando    M
36  37  Gerardina    F
41  42  Guillermo    M
46  47      Jorge    M
51  52      Laura    F
56  57       Lucy    F
61  62    Marcela    F
66  67       Mary    F
71  72      Oscar    M
76  77      Pedro    M
81  82   Romualdo    M
86  87   Salvador    M
91  92     Sotelo    M


# Interpretación

* ¿Cómo se puede hacre un muestreo aleatorio simple?
* ¿Cómo hacer un muestreo aleatorio sistematizado?
* Para qué sirve la instrucción *np.random.seed(2024)?*



# Bibliografía

* Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

* Lind, Douglas, William Marchal, and Samuel
Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.