<a href="https://colab.research.google.com/github/rpizarrog/probabilidad-y-estad-stica/blob/master/2024/Caso_32_Tipos_de_muestreo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Objetivo

Decribir la muestra conforme y de acuerdo al tipo de muestreo aleatorio.

# Descripción

Con un conjunto de datos utilizar mecanismos de programación para determinar muestreos mediante técnicas de aleatorio simple, aleatorio sistemático, aleatorio estratificado y por conglomerados.






# Fundamento teórico

El propósito de la estadística inferencial consiste en determinar y conocer el comportamiento sobre una población a partir de una muestra.

Una muestra es una porción, una proporción o parte de la población de interés. En muchos casos, el muestreo resulta más accesible y sencillo que el estudio de toda la población. (Lind, Marchal, and Wathen 2015).

Por otra parte la importancia del muestreo como lo menciona (Anderson, Sweeney, and Williams 2008) es cuestión de minimizar costo de trabajo, recopilar información de una muestra es sustancialmente menor, que hacerlo de una población completa; especialmente cuando se deben realizar entrevistas personales para recopilar la información.

Finamente, los métodos de muestreo aleatorio y sin sesgos son muy importantes para realizar inferencias estadísticas válidas (Lind, Marchal, and Wathen 2015).

## Muestreo aleatorio simple

Una muestra aleatoria simple de tamaño $n$
de una población finita de tamaño $N$
es una muestra seleccionada de manera que cada posible muestra de tamaño n
tenga la misma probabilidad de ser seleccionada (Anderson, Sweeney, and Williams 2008).

De un conjunto de $N$ elementos de una población, un muestreo aleatorio simple sería una especie de rifa o tómbola para elegir de de entre los $N$ total de población una cantidad de $n$ número de la muestra.

## Muestreo aleatorio sistematizado

Se selecciona un punto aleatorio de inicio y posteriormente se elige cada *k-ésimo* miembro de la población (Lind, Marchal, and Wathen 2015).

Suele emplearse como alternativa al muestreo aleatorio simple, en especial cuando las poblaciones son grandes se lleva mucho tiempo tomar una muestra aleatoria simple en la que primero hay que hallar un número aleatorio y después contar o buscar en el marco el elemento correspondiente (Anderson, Sweeney, and Williams 2008).

El primer elemento se elige aleatoriamente, lo que permite suponer que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Esta suposición suele ser correcta cuando el marco es un ordenamiento aleatorio de los elementos de la población (Anderson, Sweeney, and Williams 2008)


## Muestreo estratificado

Cuando una población se divide en grupos a partir de ciertas características, el muestreo aleatorio estratificado garantiza que cada grupo o estrato se encuentre representado en la muestra (Lind, Marchal, and Wathen 2015).

(Anderson, Sweeney, and Williams 2008) describe el muestreo aleatorio estratificado en donde los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria, entre otros, está a discreción de la persona que diseña la muestra.

Por otra parte, para asegurar que la muestra sea una representación imparcial de las N
observaciones, se debe determinar la frecuencia relativa y a partir de ahí generar las cantidad de muestra de cada estrato. (Lind, Marchal, and Wathen 2015).

## Muestreo por conglomerado

La población se divide en conglomerados a partir de los límites naturales geográficos u otra clase. A continuación, estos se seleccionan al azar y se toma una muestra de forma aleatoria con elementos de cada grupo (Lind, Marchal, and Wathen 2015).




# Desarrollo

## Cargar librerías




In [83]:
import pandas as pd
import numpy as np

import random

import folium

## Cargar funciones

In [107]:
# Función que hace un muestreo sistematizado, recibe, tamaño de poblacion y de muestra
# Aleatoriamente comienza en un valor numérico en el rango de la población

def f_muestreo_sistematizado_ver1(N, n):
    # Define el inicio y los saltos
    inicio = np.random.randint(1, N)
    saltos = int(np.round(N / n, 0))

    indices = [0] * n
    indices[0] = inicio
    i = 1
    while i < n:
        indice = indices[i-1] + saltos
        if indice <= N:
            indices[i] = indice
        else:
            indices[i] = indice - N
        i += 1

    return indices

# Esta función mejorada a la version  f_muestreo_sistematizado_ver1()
# Recibe los datos y el tamaño de la muestra
# Devuele los regisrtos aleatoriamente sistematizados y la muestra
def f_muestreo_sistematizado_ver2(datos, n):
    # Define el inicio y los saltos
    inicio = np.random.randint(0, N-1)
    saltos = int(np.round(N / n, 0))

    indices = [0] * n
    indices[0] = inicio
    i = 1
    while i < n:
        indice = indices[i-1] + saltos
        if indice <= N:
            indices[i] = indice
        else:
            indices[i] = indice - N
        i += 1

    # Convertir a índices de Python (0-based). Porque los arreglos comienzan en 0
    indices = [x - 1 for x in indices]

    # Obtener la muestra usando los índices
    muestra = datos.iloc[indices]

    return indices, muestra

def f_mostrar_mapa(datos):
    # Crear el mapa centrado en una ubicación inicial
    m = folium.Map(location=[24.0, -104.5], zoom_start=10)

    # Añadir marcadores al mapa
    for i, row in datos.iterrows():
      folium.Marker(
        location=[row['latitud'], row['longitud']],
        popup=f"{row['localidad']}<br>n: {row['n']}",
        tooltip=row['localidad']).add_to(m)

    # Mostrar el mapa
    return m

## Cargar datos

Se carga el conjunto de datos de personas del enlace https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2024/datos/datos_alumnos_deportes.csv por medio de la librería pandas para simular muestreo aleatorio simple y estratificdo.

Los datos tienen variables ue se relacionan con *no,    nombres, sexo,  futbol,  basquetbol,  voleybol,  atletismo,  ajedrez,  tenis*.

El atributo *no* define un valor único para cada alumno; el atributo nombres distingue el nombre del alumno; el atributo sexo define si es de género M Masculino o F Femenino y los atributos de deportes tienen valores de 1 y 0 para indicar si practican o están inscritos en una actividad deportiva específica.

In [85]:
datos_alumnos_deportes  = pd.read_csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2024/datos/datos_alumnos_deportes.csv")
print (datos_alumnos_deportes.head(10))
print (datos_alumnos_deportes.tail(10))



   no    nombres sexo  futbol  basquetbol  voleybol  atletismo  ajedrez  tenis
0   1     Adrián    M       1           0         1          1        1      0
1   2    Adriana    F       1           1         0          0        0      0
2   3    América    F       1           1         1          1        1      0
3   4        Ana    F       0           0         0          0        0      0
4   5      Angel    M       1           1         0          0        0      0
5   6   Angélica    F       1           1         1          0        0      0
6   7  Antonieta    F       0           0         0          0        0      1
7   8    Antonio    M       0           0         0          0        0      0
8   9    Aracely    F       0           0         0          0        0      1
9  10    Arcelia    F       0           0         0          0        1      1
     no   nombres sexo  futbol  basquetbol  voleybol  atletismo  ajedrez  \
90   91      Saul    M       1           0         1   

## Muestreo aleatorio simple

De este conjunto de datos se desea hacer una muestra de 20 alumnos, entonces $n=20$. Aquí el tamaño de la muestra fue arbitrario pero en el caso 31 se calculan tamaños de muestra mediante fórmulas estadísticas descritas en ese caso.

La pregunta es ¿cuáles elegir?. El muestreo aleatorio simple implica elegir por aleatoriedad o random.

En *pynthon* un valor aleatorio sería usando una función como sample(), con el tamaño de la muestra *n* y tal vez un valor *random_state*.

El argumento *random_state* como una semilla o un valor fijo (por ejemplo, 1), se garantiza que cada vez que se ejecute el código, se obtendrá la misma muestra aleatoria. Sin *random_state*, la muestra sería diferente en cada ejecución.


In [86]:
# Realizar el muestreo aleatorio simple
muestra = datos_alumnos_deportes.sample(n=20)
print (muestra[['no', 'nombres', 'sexo']])

    no    nombres sexo
97  98     Walter    F
19  20  Dagoberto    M
34  35   Gabriela    F
17  18     Carmen    F
87  88     Sandra    F
26  27    Ernesto    M
72  73     Otilia    F
49  50      Julio    M
89  90      Sandy    F
14  15       Bety    F
67  68       Memo    M
50  51       Lalo    M
85  86       Rubý    F
44  45   Jeorgina    F
21  22       Dany    F
6    7  Antonieta    F
16  17     Carlos    M
5    6   Angélica    F
15  16    Calixto    M
35  36     Genaro    M


In [87]:
muestra = datos_alumnos_deportes.sample(n=20, random_state=2024)  # random_state asegura la reproducibilidad
print (muestra[['no', 'nombres', 'sexo']])

    no    nombres sexo
35  36     Genaro    M
19  20  Dagoberto    M
26  27    Ernesto    M
17  18     Carmen    F
77  78      Perla    F
24  25    Eraclio    M
70  71    Orlando    M
58  59      Luisa    F
95  96   Tiburcio    M
14  15       Bety    F
91  92     Sotelo    M
87  88     Sandra    F
50  51       Lalo    M
49  50      Julio    M
21  22       Dany    F
6    7  Antonieta    F
16  17     Carlos    M
5    6   Angélica    F
15  16    Calixto    M
34  35   Gabriela    F


## Muestreo aleatorio sistematizado

Del conjunto de datos *datos_alumnos_deportes* que tiene 100 registros se iniciará en un valor entero entre 1 y 100 considerando el atributo *no* que identiica a cada registro o alumno.

Toda vez iniciado el siguiente registro será el valor inicial + el salto, y se repite el proceso. Si se llega al valor máximo de 100, el proceso continua con los valores empezando en 1.

Se quiere una  muestra de tamanño $n=20$ de una poblacion de 100 observaciones. La sistematizada consiste en seleccionar el registro por decir arbitrariamente el 7 y los saltos es la relación que hay entre $N/n \equiv 100/20 = 5$.

La muestra incluye los valores {7, 12, 17, 22, 27, 32, 37, 42, 47, 52, 57, 62, 67, 72, 77, 82, 87, 92, 97, 2} que es lo correspondiene a:

$$
\text{Inicia en 7 con saltos de 5 en 5}\\
\text{7 + 5 = 12}\\
\text{12 + 5 = 17}\\
\text{17 + 5 = 22}\\
\text{17 + 5 = 22}\\
\text{... ... ...}\\
\text{92 + 5 = 97}\\
\text{97 + 5 = 102}\\
\text{102 o sea el registro 2, se regresa}
$$

Se manda llamar la función *f_muestreo_sistematizado(datos, n)*, esta devuelve la lista de registros a seleccionar para crear una muestra.

De los registros a seleccionar se impirme la lista y luego se accedo a cada uno de los registros que correspondan al atributo '*no*' del conjunto de datos *datos_alumnos_deportes*.


Los datos en la muestra aparecen en orden conforme a la columna '*no*' de manera ascendente de tal forma que al observar la lista de los registros, estos mismos registros deben corresponder al valor del atributo '*no*'.

Para este conjunto de datos la instrucción *datos_alumnos_deportes[datos_alumnos_deportes['no'].isin([index for index in registros])]* tiene efecto dado que hay una columna '*no*' en el conunto de datos; si no estuviera esta, habrpa que hacer ajustes al código.


In [88]:
# Semilla
np.random.seed(2024) # Siempre y cuando se utilice np.random.() ...

In [89]:
N = len(datos_alumnos_deportes) # Tamaño de población
n = 20 # Tamaño de muestra

registros = f_muestreo_sistematizado_ver1(N, n)
print ("Los registros a seleccionar de la población para la muestra")
print (registros)
print()

# Acceder a los registros correspondientes en el DataFrame datos_alumnos_deportes que contiene el campo No
# por el cual es como el número de registro o número de control de los alumnos
muestra = datos_alumnos_deportes[datos_alumnos_deportes['no'].isin([index for index in registros])]
print (muestra[['no', 'nombres', 'sexo']])


Los registros a seleccionar de la población para la muestra
[9, 14, 19, 24, 29, 34, 39, 44, 49, 54, 59, 64, 69, 74, 79, 84, 89, 94, 99, 4]

    no    nombres sexo
3    4        Ana    F
8    9    Aracely    F
13  14     Arturo    M
18  19   Consuelo    F
23  24      Efren    M
28  29   Federico    M
33  34    Gabriel    M
38  39   Giovanni    M
43  44     Javier    M
48  49    Julieta    F
53  54    Liliana    F
58  59      Luisa    F
63  64  Margarito    M
68  69     Miguel    M
73  74       Paco    M
78  79    Plácido    M
83  84    Rosario    F
88  89     Sandro    M
93  94   Teobaldo    M
98  99    Xóchitl    F


Ahora mandar llamar la función *f_muestreo_sistematizado_ver2(datos, n)* que envía como argumentos los datos y el tamaño de la muestra.

La función regresa los registros aleatoiamente sistematizados y la muestra

In [90]:
registros, muestra = f_muestreo_sistematizado_ver2(datos_alumnos_deportes, n)
print ("Los registros a seleccionar de la población para la muestra")
print (registros)
print()

print (muestra[['no', 'nombres', 'sexo']])

Los registros a seleccionar de la población para la muestra
[95, 0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90]

    no      nombres sexo
95  96     Tiburcio    M
0    1       Adrián    M
5    6     Angélica    F
10  11      Argelia    F
15  16      Calixto    M
20  21        Dalia    F
25  26    Ernestina    F
30  31     Fernanda    F
35  36       Genaro    M
40  41  Guillermina    F
45  46      Joaquín    M
50  51         Lalo    M
55  56        Lucía    F
60  61       Manuel    M
65  66        Mario    M
70  71      Orlando    M
75  76         Paty    F
80  81         Raul    M
85  86         Rubý    F
90  91         Saul    M


## Cargar datos

Se cargan datos el enlae "https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2024/datos/datos_alumnos_lat_long.csv" que permite emular muestreos estratificado y por conglomerado.

Los datos *datos_alumnos_carrera_lat_long* tienen variables que se relacionan con *"alumno","semestre","cred_apr.","carga","promedio","carrera","localidad","latitud","longitud"*.

El atributo *alumno* define un valor único para cada alumno; el atributo semestre es el semestre en que están inscritos los alumnos; "cred_apr" son los créditos que ha aprobado el alumno; *carga* son los créditos que cursa el alumno; *promedio* es el promedio escolar; *carrera* es la carrera que cursa; *localidad* es el nombre del lugar en donde vive; *latitud y longitud* definen las coordenadas del lugar donde viven.


In [91]:
datos_alumnos_carrera_lat_long  = pd.read_csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2024/datos/datos_alumnos_lat_long.csv")
print (datos_alumnos_carrera_lat_long.head(10))
print (datos_alumnos_carrera_lat_long.tail(10))

   alumno  semestre  cred_apr.  carga  promedio   carrera  \
0       1        11      198.0     19     80.21  SISTEMAS   
1       2        11      235.0     10     84.33  SISTEMAS   
2       3         9      235.0     10     95.25  SISTEMAS   
3       4         9      226.0     19     95.00  SISTEMAS   
4       5        10      231.0     14     82.32  SISTEMAS   
5       6         9      212.0     23     95.02  SISTEMAS   
6       7        12      221.0     10     79.06  SISTEMAS   
7       8         9      226.0      9     92.47  SISTEMAS   
8       9         9      231.0      4     91.08  SISTEMAS   
9      10        11      222.0     13     80.42  SISTEMAS   

                    localidad    latitud    longitud  
0         Victoria de Durango  24.023988 -104.670194  
1  Los Arroyos (Las Colonias)  23.691424 -105.032756  
2         Victoria de Durango  24.023988 -104.670194  
3         Victoria de Durango  24.023988 -104.670194  
4         Victoria de Durango  24.023988 -104.670194 


## Muestreo aleatoro estratificado

Son $N=5929$ registros en toda la población, se quiere encontrar una muestra aproximada de  $n=361$

Con un nivel de confianza de $95\%$; valor de margen de error de $E=0.05$ y un valor de $p=0.5$, usando la fórmula:

$$
n=\frac{(z^2⋅N⋅p⋅q)}{E^2 \cdot (N-1)+z^2⋅p⋅q)} \\
n=\frac{(1.9599^2) ⋅ (5929)⋅ (0.25)}{(0.05^2) \cdot (5929-1)+((1.9599)^2\cdot (0.25) )} \\
n= 361.00≈361 \text{ sería el tamaño de la muestra}
$$




In [92]:
N = len(datos_alumnos_carrera_lat_long)
n = 361
print ("Tamaño de población: ", N)
print ("Tamaño de muestra: ", n)

Tamaño de población:  5929
Tamaño de muestra:  361


Valores únicos de carrera


In [93]:
# Obtener valores únicos de la columna 'Carrera'
valores_unicos = datos_alumnos_carrera_lat_long['carrera'].unique()

print("Valores únicos en la columna 'Carrera':", valores_unicos)

Valores únicos en la columna 'Carrera': ['SISTEMAS' 'ARQUITECTURA' 'BIOQUIMICA' 'CIVIL' 'ELECTRICA' 'ELECTRONICA'
 'INDUSTRIAL' 'MECANICA' 'MECATRONICA' 'QUIMICA' 'GESTION EMPRESARIAL'
 'TIC' 'INFORMATICA' 'ADMINISTRACION']


In [94]:
# Calcular la tabla de frecuencias
tabla_frec_car = datos_alumnos_carrera_lat_long['carrera'].value_counts(normalize=True).reset_index()
tabla_frec_car.columns = ['carrera', 'rf']
tabla_frec_car['rf_porc'] = np.round(tabla_frec_car['rf'] * 100, 2)
print(tabla_frec_car)

                carrera        rf  rf_porc
0            INDUSTRIAL  0.119244    11.92
1          ARQUITECTURA  0.113847    11.38
2                 CIVIL  0.109293    10.93
3   GESTION EMPRESARIAL  0.098668     9.87
4               QUIMICA  0.095800     9.58
5        ADMINISTRACION  0.083825     8.38
6              SISTEMAS  0.076235     7.62
7            BIOQUIMICA  0.074380     7.44
8           MECATRONICA  0.072862     7.29
9              MECANICA  0.050767     5.08
10            ELECTRICA  0.047226     4.72
11          ELECTRONICA  0.027155     2.72
12          INFORMATICA  0.017035     1.70
13                  TIC  0.013662     1.37


De cada carrera se toma el procentae correspondiente en relación al tamaño de la muestra.



In [95]:
tabla_frec_car['n_estrato'] = np.round(tabla_frec_car['rf'] * n)
print(tabla_frec_car)
print()
print ("Suma de n_estrato = ", sum(tabla_frec_car['n_estrato']))

                carrera        rf  rf_porc  n_estrato
0            INDUSTRIAL  0.119244    11.92       43.0
1          ARQUITECTURA  0.113847    11.38       41.0
2                 CIVIL  0.109293    10.93       39.0
3   GESTION EMPRESARIAL  0.098668     9.87       36.0
4               QUIMICA  0.095800     9.58       35.0
5        ADMINISTRACION  0.083825     8.38       30.0
6              SISTEMAS  0.076235     7.62       28.0
7            BIOQUIMICA  0.074380     7.44       27.0
8           MECATRONICA  0.072862     7.29       26.0
9              MECANICA  0.050767     5.08       18.0
10            ELECTRICA  0.047226     4.72       17.0
11          ELECTRONICA  0.027155     2.72       10.0
12          INFORMATICA  0.017035     1.70        6.0
13                  TIC  0.013662     1.37        5.0

Suma de n_estrato =  361.0


Ahora para cada carrera se hace un muestreo aleatorio simple o sistematizado



In [96]:
# Pendiente ...
# Pendiente ...


## Muestreo aleatorio por conglomerado

Se utilizan el atributo de localidad y se usan los atributos de latitud y longitud para definir espacios geográficos.



Valores únicos por localidad



In [97]:
# Obtener valores únicos de 'localidad' y sus respectivas coordenadas
# Obtener valores únicos de 'localidad' junto con 'latitud' y 'longitud'
localidades = datos_alumnos_carrera_lat_long.drop_duplicates(subset=['localidad'])[['localidad', 'latitud', 'longitud']]

print("Valores únicos en la columna 'localidad'; latitud y longitud:")
print(localidades)

Valores únicos en la columna 'localidad'; latitud y longitud:
                     localidad    latitud    longitud
0          Victoria de Durango  24.023988 -104.670194
1   Los Arroyos (Las Colonias)  23.691424 -105.032756
6          La Criba (Don Toño)  24.180146 -104.548244
11                La Esperanza  23.921388 -105.297257
17    Los Caballos de Don Cruz  23.957366 -104.551930
19                  Las Curras  24.011718 -104.468644


In [105]:
# Calcular la tabla de frecuencias
tabla_frec_loc = datos_alumnos_carrera_lat_long['localidad'].value_counts(normalize=True).reset_index()
tabla_frec_loc.columns = ['localidad', 'rf']
tabla_frec_loc['rf_porc'] = np.round(tabla_frec_loc['rf'] * 100, 2)
tabla_frec_loc['n'] = np.round(tabla_frec_loc['rf'] * n)
print(tabla_frec_loc)
print()
print ("Suma de n_estrato = ", sum(tabla_frec_loc['n']))


                    localidad        rf  rf_porc      n
0         Victoria de Durango  0.594873    59.49  215.0
1         La Criba (Don Toño)  0.126497    12.65   46.0
2  Los Arroyos (Las Colonias)  0.096981     9.70   35.0
3                La Esperanza  0.070670     7.07   26.0
4    Los Caballos de Don Cruz  0.059875     5.99   22.0
5                  Las Curras  0.051105     5.11   18.0

Suma de n_estrato =  362.0


Se hace un *join* o *merge* entre esta tabla de de frecuencias y las localidades.


In [106]:
# Realizar el "join" entre los dos DataFrames en la columna 'localidad'
datos_join = pd.merge(tabla_frec_loc, localidades, on='localidad', how='left')
print (datos_join[['localidad', 'n', 'latitud', 'longitud']])

                    localidad      n    latitud    longitud
0         Victoria de Durango  215.0  24.023988 -104.670194
1         La Criba (Don Toño)   46.0  24.180146 -104.548244
2  Los Arroyos (Las Colonias)   35.0  23.691424 -105.032756
3                La Esperanza   26.0  23.921388 -105.297257
4    Los Caballos de Don Cruz   22.0  23.957366 -104.551930
5                  Las Curras   18.0  24.011718 -104.468644


Mostrar mapa por localidad. Se manda llamar la función *f_mostrar_mapa()* que muestra el mapa.

In [108]:

mapa = f_mostrar_mapa(datos_join)
mapa

Ahora para cada localidad se hace un muestreo aleatorio simple o sistematizado



In [101]:
# Pendiente
# Pendiente

# Interpretación

* ¿Cómo se puede hacre un muestreo aleatorio simple?
* ¿Cómo hacer un muestreo aleatorio sistematizado?
* Para qué sirve la instrucción *np.random.seed(2024)?*



# Bibliografía

* Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

* Lind, Douglas, William Marchal, and Samuel
Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.