# Funciones de Muestreo en Python

Se le conoce como muestreo a la técnica para la selección de una muestra a partir de una población estadística.

Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio a toda la población. En las investigaciones llevadas por empresarios y de la medicina se usa muestreo extensivamente en recoger información sobre poblaciones.

**Fuente:**
> https://es.wikipedia.org/wiki/Muestreo_(estad%C3%ADstica)

## Tabla de datos de economía y turismo en el Centro Histórico CDMX

In [1]:
import os

def import_or_install(package):
    try:
        __import__(package)
    except ImportError:
        os.system("pip install "+ package)

In [2]:
import_or_install('pandas')
import_or_install('numpy')
import_or_install('random')
import_or_install('wget')
import_or_install('io')

In [3]:
import pandas as pd
import numpy as np
import random
import wget
import io

**Leemos la base de datos a trabajar en nuestra ruta de origen**

In [4]:
!wget -O datos.csv https://datos.cdmx.gob.mx/dataset/d19d49ea-8a73-4bf5-910e-81060068bd3f/resource/db7830a7-ee22-408d-bdb3-8054292ed6f8/download/economia-y-turismo-en-el-centro-historico.csv
econdata = pd.read_csv("datos.csv")

--2023-09-27 05:25:11--  https://datos.cdmx.gob.mx/dataset/d19d49ea-8a73-4bf5-910e-81060068bd3f/resource/db7830a7-ee22-408d-bdb3-8054292ed6f8/download/economia-y-turismo-en-el-centro-historico.csv
Resolving datos.cdmx.gob.mx (datos.cdmx.gob.mx)... 45.60.240.232
Connecting to datos.cdmx.gob.mx (datos.cdmx.gob.mx)|45.60.240.232|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 57045 (56K) [application/octet-stream]
Saving to: ‘datos.csv’


2023-09-27 05:25:12 (504 KB/s) - ‘datos.csv’ saved [57045/57045]



In [5]:
econdata.head()

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
0,0,"19.424781053,-99.1327537959","{""type"": ""Polygon"", ""coordinates"": [[[-99.1332...",307_130_11,Cuauhtémoc,B,Mercado,Pino Suárez
1,1,"19.4346139576,-99.1413808393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_008_01,Cuautémoc,A,Museo,Museo Nacional de Arquitectura Palacio de Bell...
2,2,"19.4340695945,-99.1306348409","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_002_12,Cuautémoc,A,Museo,Santa Teresa
3,3,"19.42489472,-99.12073393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_102_06,Venustiano Carranza,B,Hotel,Balbuena
4,4,"19.42358238,-99.12451093","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_115_12,Venustiano Carranza,B,Hotel,real


## Funciones de muestreo:

### 1) Muestreo aleatorio Simple:

Es considerado el método más sencillo. Mediante una tabla de números al azar se eligen las zonas que se quieren muestrear. Este tipo de muestreo posee algunos inconvenientes. Por un lado, supone definir de antemano los límites de un yacimiento, y no siempre se conocen con certeza. Por otro lado, el carácter aleatorio de las tablas numéricas provoca que en algunas áreas se acumulen las muestras, mientras que en otras permanecen intactas.

**Fuente:**
> https://es.wikipedia.org/wiki/Estrategias_de_muestreo

In [6]:
aleat_8 = econdata.sample(n=8)
aleat_8

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
169,169,"19.4365391003,-99.1335799561","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_093_16,Cuautémoc,A,Hotel,Azores
148,148,"19.4388349207,-99.1502578596","{""type"": ""MultiPoint"", ""coordinates"": [[-99.15...",012_147_13,Cuautémoc,B,Hotel,"Miño, S.A. DE C.V."
173,173,"19.4314834886,-99.1259717478","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",006_026_38,Cuautémoc,A,Hotel,Soledad
224,224,"19.4238397797,-99.1371356587","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",001_109_11,Cuautémoc,B,Hotel,"Costa Azul, SA DE CV"
20,20,"19.4357307042,-99.1326583218","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_098_26,Cuautémoc,A,Museo,La Caricatura
13,13,"19.43878785,-99.1490443182","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",012_147_02,Cuautémoc,B,Hotel,Monaco
29,29,"19.4291936373,-99.1244027626","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_145_10,Venustiano Carranza,B,Hotel,Tampico
34,34,"19.438545231,-99.1481820852","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_103_23,Cuautémoc,A,Hotel,Managua


In [7]:
aleat_8_2 = econdata.sample(n=8)
aleat_8_2

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
126,126,"19.42774805,-99.12796532","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",006_078_04,Cuautémoc,A,Hotel,San Marcos
123,123,"19.4378770032,-99.1358867181","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_086_36,Cuautémoc,A,Hotel,Florida
180,180,"19.4357633849,-99.1330511805","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_094_32,Cuautémoc,A,Hotel,"Catedral, S.A. DE C.V."
22,22,"19.4348361174,-99.1467786287","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_015_01,Cuautémoc,B,Hotel,Fiesta Inn
116,116,"19.43339234,-99.14617457","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_017_02,Cuautémoc,B,Hotel,"Monte RealL, S.A."
215,215,"19.4383767258,-99.1331865203","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_082_16,Cuautémoc,A,Hotel,"La Fontelina , S.A. DE C.V."
212,212,"19.42155871,-99.1426572917","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",001_095_08,Cuautémoc,B,Hotel,Orense
67,67,"19.4434657626,-99.1247401574","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",005_057_01,Cuautémoc,B,Hotel,Sevilla


**Proporción al 25%**

In [8]:
prop_25 = econdata.sample(frac = .25)
prop_25.head()

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
68,68,"19.4273142523,-99.1255788881","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",006_082_02,Cuautémoc,A,Hotel,Anpudia
22,22,"19.4348361174,-99.1467786287","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_015_01,Cuautémoc,B,Hotel,Fiesta Inn
19,19,"19.4317119617,-99.1269115285","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",006_026_28,Cuautémoc,A,Museo,Alondiga La Merced
205,205,"19.435760727,-99.1309926143","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",005_129_16,Cuautémoc,A,Museo,Anfiteatro Bolivar
139,139,"19.4331109726,-99.1250977437","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",006_009_11,Cuautémoc,A,Hotel,Continental Méxicano


### 2) Muestreo sistemático:

Muestreo sistemático
Este tipo de muestreo se basa en el empleo de una red de lugares equidistantes, como por ejemplo eligiendo un cuadrado cada dos. Uno de los problemas que tiene es que es muy probable errar, ya que este método de espaciado regular corre el riesgo de errar (o acertar) todas las muestras sin excepción si la distribución misma es también constante.

**Fuente:**
> https://es.wikipedia.org/wiki/Estrategias_de_muestreo

In [9]:
def systematic_sampling(econdata,step):
    indexes = np.arange(0,len(econdata),step=step)
    systematic_sample = econdata.iloc[indexes]
    return systematic_sample

systematic_sample = systematic_sampling(econdata,3)
systematic_sample

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
0,0,"19.424781053,-99.1327537959","{""type"": ""Polygon"", ""coordinates"": [[[-99.1332...",307_130_11,Cuauhtémoc,B,Mercado,Pino Suárez
3,3,"19.42489472,-99.12073393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_102_06,Venustiano Carranza,B,Hotel,Balbuena
6,6,"19.43553422,-99.12324801","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",318_116_11,Venustiano Carranza,B,Hotel,San Antonio Tomatlan
9,9,"19.4407152937,-99.1498060057","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",012_146_22,Cuautémoc,B,Hotel,Detroit
12,12,"19.43990186,-99.14813347","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_079_16,Cuautémoc,B,Hotel,La Paz
...,...,...,...,...,...,...,...,...
216,216,"19.4247697438,-99.1249707246","{""type"": ""Polygon"", ""coordinates"": [[[-99.1250...",323_118_37,Venustiano Carranza,B,Mercado,Lamininas de La Merced
219,219,"19.4234096295,-99.1438351156","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_118_03,Cuautémoc,B,Hotel,Prado Floresta
222,222,"19.4397905042,-99.134628735","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_063_10,Cuautémoc,A,Hotel,Ladero
225,225,"19.43094655,-99.12455418","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_027_04,Venustiano Carranza,B,Hotel,Gran Veracruz


### 3) Muestreo Estratificado:

Este tipo de muestreo se caracteriza por la combinación de elementos de los otros tipos de muestreo: muestreo aleatorio simple, aleatorio estratificado y sistemático. Es un intento de reducir la arbitrariedad en la toma de muestras.

**Fuente:**
> https://es.wikipedia.org/wiki/Estrategias_de_muestreo

In [10]:
econdata['estratificado'] = econdata['delegacion'] + "," + econdata['tipo']
(econdata['estratificado'].value_counts()/len(econdata)).sort_values(ascending = False)

Cuautémoc,Hotel                0.643478
Cuautémoc,Museo                0.156522
Venustiano Carranza,Hotel      0.078261
Cuauhtémoc,Mercado             0.073913
Venustiano Carranza,Mercado    0.047826
Name: estratificado, dtype: float64

Nuestros datos dicen que la proporción es la siguiente:

1. Hoteles en Cuauhtémoc es de 0.5

2. Museos en Cuauhtémoc es de 0.2

3. Hoteles en Venuestiano Carranza es de 0.1

4. Mercados en Cuauhtémoc es de 0.1

5. Mercados en Venuestiano Carranza es de 0.1

In [11]:
def data_estratificada(econdata, nombres_columnas_estrat, valores_estrat, prop_estrat, random_state=None):
    
    df_estrat = pd.DataFrame(columns = econdata.columns) # Creamos un data frame vacío con los nombres de las columnas de econdata

    pos = -1
    for i in range(len(valores_estrat)): # iteración sobre los valores estratificados
        pos += 1
        if pos == len(valores_estrat) - 1: 
            ratio_len = len(econdata) - len(df_estrat) # si es la iteración final calcula el número de valores de salida tenga el mismo número de filas que de entrada
        else:
            ratio_len = int(len(econdata) * prop_estrat[i]) # calcula el número de filas según la proporción deseada

        df_filtrado = econdata[econdata[nombres_columnas_estrat] ==valores_estrat[i]] # filtra los datos de origen según los valores seleccionados en la estratificación de datos
        df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state) # haz un sample de los datos filtrados usando la ratio que hemos calculado
        
        df_estrat = pd.concat([df_estrat, df_temp]) # junta las tablas de sample con la estratificada para producir el resultado final
        
    return df_estrat # Return the stratified, re-sampled data

In [12]:
valores_estrat = ['Cuautémoc,Hotel', 'Cuautémoc,Museo', 'Venustiano Carranza,Hotel', 'Cuauhtémoc,Mercado','Venustiano Carranza,Mercado']
prop_estrat = [0.5, 0.2, 0.1, 0.1,0.1]
df_estrat = data_estratificada(econdata, 'estratificado', valores_estrat, prop_estrat, random_state=42)
df_estrat

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id,estratificado
164,164,"19.4388741511,-99.1413308257","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_113_03,Cuautémoc,B,Hotel,Dos Naciones,"Cuautémoc,Hotel"
142,142,"19.4263681354,-99.1327278126","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_127_14,Cuautémoc,A,Hotel,Ambar,"Cuautémoc,Hotel"
27,27,"19.4348360773,-99.1463945583","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_016_01,Cuautémoc,B,Hotel,Hilton Centro Histórico,"Cuautémoc,Hotel"
168,168,"19.4349726565,-99.147766133","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_014_23,Cuautémoc,B,Hotel,One Alameda,"Cuautémoc,Hotel"
113,113,"19.43374405,-99.13550135","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",001_012_13,Cuautémoc,A,Hotel,San Antonio,"Cuautémoc,Hotel"
...,...,...,...,...,...,...,...,...,...
128,128,"19.4270781084,-99.1210175514","{""type"": ""Polygon"", ""coordinates"": [[[-99.1214...",323_061_04(123),Venustiano Carranza,B,Mercado,San Ciprian,"Venustiano Carranza,Mercado"
37,37,"19.4271233834,-99.125111772","{""type"": ""Polygon"", ""coordinates"": [[[-99.1251...",323_065_01,Venustiano Carranza,B,Mercado,Dulceria,"Venustiano Carranza,Mercado"
163,163,"19.4265454033,-99.1224859032","{""type"": ""Polygon"", ""coordinates"": [[[-99.1231...",323_063_05,Venustiano Carranza,B,Mercado,,"Venustiano Carranza,Mercado"
156,156,"19.4255480371,-99.1249308096","{""type"": ""Polygon"", ""coordinates"": [[[-99.1253...",323_138_04 (3),Venustiano Carranza,B,Mercado,Mariscos,"Venustiano Carranza,Mercado"


# Referencias

> https://platzi.com/clases/3140-estadistica-inferencial-python/49505-funciones-de-muestreo-en-python/

> https://es.wikipedia.org/wiki/Estrategias_de_muestreo

> https://es.wikipedia.org/wiki/Muestreo_(estad%C3%ADstica) 

> https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=c93d7b3f-cc10-487e-b064-de7ca6d5619f' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>