# **Funciones de muestreo en Python**

In [None]:
# Instalaré wget, para descargar nuestro conjunto de datos.
!pip install wget

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting wget
  Downloading wget-3.2.zip (10 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wget
  Building wheel for wget (setup.py) ... [?25l[?25hdone
  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9676 sha256=f7773af73f395f7a7986bfe332b880dfbf9b9195e145bf89812b37c22ec8e71f
  Stored in directory: /root/.cache/pip/wheels/8b/f1/7f/5c94f0a7a505ca1c81cd1d9208ae2064675d97582078e6c769
Successfully built wget
Installing collected packages: wget
Successfully installed wget-3.2


In [None]:
# Imporamos las librerías que utilizaremos:
import pandas as pd
import numpy as np
import random
import io
import wget

In [None]:
# Utilizamos el comando para poder descargar nuestro DataFrame, además de guardarlo como "datos.csv"
!wget -O datos.csv https://datos.cdmx.gob.mx/dataset/d19d49ea-8a73-4bf5-910e-81060068bd3f/resource/db7830a7-ee22-408d-bdb3-8054292ed6f8/download/economia-y-turismo-en-el-centro-historico.csv

--2023-05-05 03:02:42--  https://datos.cdmx.gob.mx/dataset/d19d49ea-8a73-4bf5-910e-81060068bd3f/resource/db7830a7-ee22-408d-bdb3-8054292ed6f8/download/economia-y-turismo-en-el-centro-historico.csv
Resolving datos.cdmx.gob.mx (datos.cdmx.gob.mx)... 45.60.240.232
Connecting to datos.cdmx.gob.mx (datos.cdmx.gob.mx)|45.60.240.232|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 57045 (56K) [application/octet-stream]
Saving to: ‘datos.csv’


2023-05-05 03:02:42 (593 KB/s) - ‘datos.csv’ saved [57045/57045]



In [None]:
# Guardamos nuestros archivo csv en nuestra variable "data"
data = pd.read_csv("/content/datos.csv")

In [None]:
# Mostramos las primeras líneas:
data.head()

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
0,0,"19.424781053,-99.1327537959","{""type"": ""Polygon"", ""coordinates"": [[[-99.1332...",307_130_11,Cuauhtémoc,B,Mercado,Pino Suárez
1,1,"19.4346139576,-99.1413808393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_008_01,Cuautémoc,A,Museo,Museo Nacional de Arquitectura Palacio de Bell...
2,2,"19.4340695945,-99.1306348409","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_002_12,Cuautémoc,A,Museo,Santa Teresa
3,3,"19.42489472,-99.12073393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_102_06,Venustiano Carranza,B,Hotel,Balbuena
4,4,"19.42358238,-99.12451093","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_115_12,Venustiano Carranza,B,Hotel,real


In [None]:
print(f'Este conjunto de datos contiene: {data.shape[0]} filas y {data.shape[1]} columnas.')

Este conjunto de datos contiene: 230 filas y 8 columnas.


## Explicación de los parámetros del Dataset:

| Nombre | Descripción |
| -- | -- |
| id |
| geo_point_2d |
| geo_shape |
| clave_cat |
| delegación |
| perimetro |
| tipo |
| nom_id |

## Creando las funciones de muestreo:

### 1) Muestro aleatorio simple:

In [None]:
# Eligiendo un muestro aleatorio de 8 valores
aleat_8 = data.sample(n=8)
aleat_8

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
39,39,"19.4369818158,-99.1426877718","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_095_04,Cuautémoc,A,Museo,Museo Nacional de La Estampa
44,44,"19.4350304786,-99.1262913343","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",005_133_04,Cuautémoc,B,Hotel,Niza
116,116,"19.43339234,-99.14617457","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_017_02,Cuautémoc,B,Hotel,"Monte RealL, S.A."
59,59,"19.4275850427,-99.1397624613","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",001_061_03,Cuautémoc,A,Hotel,Señorial
81,81,"19.42262452,-99.15107339","{""type"": ""MultiPoint"", ""coordinates"": [[-99.15...",002_096_02,Cuautémoc,B,Hotel,Imperio
25,25,"19.42477346,-99.12881894","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",307_123_30,Cuautémoc,B,Hotel,Madrid
158,158,"19.4362349051,-99.1302332694","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",005_129_16,Cuautémoc,A,Museo,De La Luz
176,176,"19.4349517474,-99.1321782303","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_094_04,Cuautémoc,A,Museo,Fotografía


In [None]:
# Eligiendo una proporción de 25%
prop_25 = data.sample(frac = .25)
prop_25

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
80,80,"19.4313297575,-99.1416730617","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_028_04,Cuautémoc,B,Hotel,Suite Victoria
127,127,"19.42590571,-99.13203396","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_091_20,Cuautémoc,A,Hotel,Parque
88,88,"19.4324763822,-99.1373385944","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",001_022_08,Cuautémoc,A,Hotel,Lafayett
197,197,"19.4399151122,-99.149385962","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",012_153_01,Cuautémoc,B,Hotel,Mina
120,120,"19.438089976,-99.1374885065","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_086_24,Cuautémoc,A,Hotel,"Atlanta, S. DE R.L."
10,10,"19.4441424478,-99.14600807","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_048_10,Cuautémoc,B,Hotel,Moctezuma
16,16,"19.436811768,-99.1342853473","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_092_29,Cuautémoc,A,Hotel,República
151,151,"19.4288176211,-99.1314097235","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_075_25,Cuautémoc,A,Hotel,Patria
178,178,"19.4457531395,-99.1485982115","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",012_069_11,Cuautémoc,B,Hotel,Norte
135,135,"19.4300009578,-99.1430773295","{""type"": ""Polygon"", ""coordinates"": [[[-99.1431...",002_045_01,Cuauhtémoc,B,Mercado,"Centro Artesanal ""San Juan"""


### 2) Muestreo de sistemático:
Sirve para hacer extracciones de la población, pero indicando una norma, un intervalo de como hará la extracción

In [None]:
def systematic_sampling(data, step):
    '''
    Esta función toma desde el parámetro 0
    y toma intervalos "step" de 3 en 3 observaciones.
    '''
    indexes = np.arange(0, len(data), step=step) # Podemos modificar el valor 0, que es el primer valor que tomará
    systematic_sample = data.iloc[indexes]
    return systematic_sample

sys_sample = systematic_sampling(data,3)
sys_sample

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
0,0,"19.424781053,-99.1327537959","{""type"": ""Polygon"", ""coordinates"": [[[-99.1332...",307_130_11,Cuauhtémoc,B,Mercado,Pino Suárez
3,3,"19.42489472,-99.12073393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_102_06,Venustiano Carranza,B,Hotel,Balbuena
6,6,"19.43553422,-99.12324801","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",318_116_11,Venustiano Carranza,B,Hotel,San Antonio Tomatlan
9,9,"19.4407152937,-99.1498060057","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",012_146_22,Cuautémoc,B,Hotel,Detroit
12,12,"19.43990186,-99.14813347","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_079_16,Cuautémoc,B,Hotel,La Paz
...,...,...,...,...,...,...,...,...
216,216,"19.4247697438,-99.1249707246","{""type"": ""Polygon"", ""coordinates"": [[[-99.1250...",323_118_37,Venustiano Carranza,B,Mercado,Lamininas de La Merced
219,219,"19.4234096295,-99.1438351156","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_118_03,Cuautémoc,B,Hotel,Prado Floresta
222,222,"19.4397905042,-99.134628735","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",004_063_10,Cuautémoc,A,Hotel,Ladero
225,225,"19.43094655,-99.12455418","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_027_04,Venustiano Carranza,B,Hotel,Gran Veracruz


### 3) Muestro estratificado:
Consiste en crear unidades homogeneas y de ahí, crear nuestra muestra.

In [None]:
data['estratificado'] = data['delegacion'] + ',' + data['tipo']
(data['estratificado'].value_counts()/len(data)).sort_values(ascending=False)

Cuautémoc,Hotel                0.643478
Cuautémoc,Museo                0.156522
Venustiano Carranza,Hotel      0.078261
Cuauhtémoc,Mercado             0.073913
Venustiano Carranza,Mercado    0.047826
Name: estratificado, dtype: float64

Nuestros datos dicen que la proporción es la siguiente:

1. Hoteles en Cuauhtémoc 0.5
2. Museos en Cuauhtémoc 0.2
3. Hoteles en Venustiano Carranza 0.1
4. Mercados en Cuauhtémoc 0.1
5. Mercados en Venustiano Carranza 0.1


In [None]:
# Crearemos una función para adaptar las proporciones:
def data_estratificada(data,names_col_estrat, values_estrat, prop_estrat, random_state=None):
  df_estrat = pd.DataFrame(columns = data.columns)
  pos = -1

  for i in range(len(values_estrat)):
    pos += 1
    if pos == len(values_estrat) -1:
      ratio_len = len(data) - len(df_estrat)
    else:
      ratio_len = int(len(data) * prop_estrat[i])
    
    df_filter = data[data[names_col_estrat] == values_estrat[i]]
    df_temp = df_filter.sample(replace=True, n=ratio_len, random_state = random_state)

    df_estrat = pd.concat([df_estrat, df_temp])
  
  return df_estrat

In [None]:
values_estrat = ['Cuautémoc,Hotel','Cuautémoc,Museo', 'Venustiano Carranza,Hotel', 'Cuauhtémoc,Mercado', 'Venustiano Carranza,Mercado']
prop_estrat = [0.5,0.2,0.1,0.1,0.1]
df_estrat = data_estratificada(data,'estratificado', values_estrat, prop_estrat, random_state = 42)
df_estrat

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id,estratificado
164,164,"19.4388741511,-99.1413308257","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_113_03,Cuautémoc,B,Hotel,Dos Naciones,"Cuautémoc,Hotel"
142,142,"19.4263681354,-99.1327278126","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_127_14,Cuautémoc,A,Hotel,Ambar,"Cuautémoc,Hotel"
27,27,"19.4348360773,-99.1463945583","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_016_01,Cuautémoc,B,Hotel,Hilton Centro Histórico,"Cuautémoc,Hotel"
168,168,"19.4349726565,-99.147766133","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_014_23,Cuautémoc,B,Hotel,One Alameda,"Cuautémoc,Hotel"
113,113,"19.43374405,-99.13550135","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",001_012_13,Cuautémoc,A,Hotel,San Antonio,"Cuautémoc,Hotel"
...,...,...,...,...,...,...,...,...,...
128,128,"19.4270781084,-99.1210175514","{""type"": ""Polygon"", ""coordinates"": [[[-99.1214...",323_061_04(123),Venustiano Carranza,B,Mercado,San Ciprian,"Venustiano Carranza,Mercado"
37,37,"19.4271233834,-99.125111772","{""type"": ""Polygon"", ""coordinates"": [[[-99.1251...",323_065_01,Venustiano Carranza,B,Mercado,Dulceria,"Venustiano Carranza,Mercado"
163,163,"19.4265454033,-99.1224859032","{""type"": ""Polygon"", ""coordinates"": [[[-99.1231...",323_063_05,Venustiano Carranza,B,Mercado,,"Venustiano Carranza,Mercado"
156,156,"19.4255480371,-99.1249308096","{""type"": ""Polygon"", ""coordinates"": [[[-99.1253...",323_138_04 (3),Venustiano Carranza,B,Mercado,Mariscos,"Venustiano Carranza,Mercado"


# **Estadísticos y Cálculos**

## **La media muestral**:

- **Media**: Es el valor de la suma de los datos dividida entre la cantidad de datos.

- **Moda**: Es el valor, o el dato que más se repite.

- **Mediana** Es el dato que está en el centro de todos.

¿ Qué es la media muestral?

- Media aritmética = promedio = media
- Valor que se obtiene de sumar un conjunto de valors cuantitativos y dividirlo por el número total de sumados.
- Media muestral **X** != media poblacional **µ**

**Ejemplo:** Estimación puntual de la edad promedio de una población.

Para hacer el cálculo de la varianza y desviación estándar.

Desviación estándar de una clase donde los estudiantes tienen las siguientes edades: 28, 24, 25, 23, 38, 52.
  - (28+24+25+23+38+52)/6

Entonces si sumamos, y dividimos entre el número de datos totales.

Obtenemos: que la edad promedio es de **31.7 años.**

## **La Varianza y la desviación estándar**

Veremos las diferencias de muestral y poblacional:

- Indica que tan dispersos están los datos respecto a la media.

- **La desviación estándar es la raíz cuadrada de la varianza**

### **Cálculo de la varianza y desviación estándar:**

Continuando con el ejemplo de la desviación estándar de una clase dond los estudiantes tienen las siguientes edades: 28, 24, 25, 23, 38, 52
Sabemos que: **La edad promedio es de 31.7 años.**

Ahora calculemos la varianza muestral:

[(28-31.7)^2+(24-31.7)^2+(25-31.7)^2+(23-31.7)^2+(38-31.7)^2+(52-31.7)^2]/5

In [None]:
# Cálculo de la varianza muestral:
estudiantes = pd.Series([28,24,25,23,38,52])
media = sum(estudiantes)/estudiantes.count()
desv_estandar = np.sqrt(sum([(x - media)**2 for x in estudiantes])/estudiantes.count())
varianza = desv_estandar**2

print(f'Media: {media:.3f}\nDesviación estándar: {desv_estandar:3f}\nVarianza: {varianza:.3f}')

Media: 31.667
Desviación estándar: 10.370899
Varianza: 107.556
