### Curso de Estadistica Inferencial para Data Science e Inteligencia Artificial

In [3]:
import pandas as pd # Importa la librería pandas para manipulación y análisis de datos.
import numpy as np # Importa la librería numpy para operaciones numéricas, especialmente para trabajar con arrays.
import random # Importa la librería random para generar números aleatorios.
import io # Importa la librería io para trabajar con flujos de entrada/salida de datos.

### Leemos la base de datos a trabajar en nuestra ruta de acceso

In [4]:
econdata =pd.read_csv("econdata.csv") # Lee el archivo CSV 'econdata.csv' y lo carga en un DataFrame llamado 'econdata'.
econdata.head() # Muestra las primeras 5 filas del DataFrame 'econdata' para verificar la carga y estructura de los datos.

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
0,0,"19.424781053,-99.1327537959","{""type"": ""Polygon"", ""coordinates"": [[[-99.1332...",307_130_11,Cuauhtémoc,B,Mercado,Pino Suárez
1,1,"19.4346139576,-99.1413808393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_008_01,Cuautémoc,A,Museo,Museo Nacional de Arquitectura Palacio de Bell...
2,2,"19.4340695945,-99.1306348409","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_002_12,Cuautémoc,A,Museo,Santa Teresa
3,3,"19.42489472,-99.12073393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_102_06,Venustiano Carranza,B,Hotel,Balbuena
4,4,"19.42358238,-99.12451093","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_115_12,Venustiano Carranza,B,Hotel,real


### Funciones de muestreo: 

#### 1) Muestreo aleatorio simple

In [5]:
# Toma una muestra aleatoria de 8 filas del DataFrame 'econdata'.
aleat_8 = econdata.sample(n=8)
# Imprime el DataFrame resultante 'aleat_8' que contiene la muestra aleatoria.
aleat_8

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
86,86,"19.4244645173,-99.1433325213","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_085_04,Cuautémoc,B,Hotel,San Juan
136,136,"19.4263840955,-99.1429192037","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_084_14,Cuautémoc,B,Hotel,Miguel Ángel
124,124,"19.4297560476,-99.1253498219","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",006_052_01,Cuautémoc,A,Hotel,Universo
91,91,"19.42981826,-99.14607091","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_059_01,Cuautémoc,B,Hotel,Pugibet
56,56,"19.4452114301,-99.1425281852","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_043_01,Cuautémoc,B,Hotel,Morelia
64,64,"19.44281242,-99.13974599","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",003_053_01,Cuautémoc,B,Hotel,San Martin
94,94,"19.4338001466,-99.1463273233","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_016_02,Cuautémoc,B,Museo,Arte Popular
67,67,"19.4434657626,-99.1247401574","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",005_057_01,Cuautémoc,B,Hotel,Sevilla


In [6]:
aleat_8_2 = econdata.sample(n=8)
aleat_8_2
# `econdata.sample(n=8)`: Esta línea utiliza el método `sample` del DataFrame de pandas `econdata` para seleccionar una muestra aleatoria de 8 filas del DataFrame.
# `n=8`: Especifica que la muestra debe contener 8 filas.
# `aleat_8 = ...`: Asigna el DataFrame resultante que contiene las 8 filas muestreadas aleatoriamente a la variable `aleat_8`.
# `aleat_8`: Esta línea simplemente muestra el DataFrame `aleat_8`, que contiene las 8 filas seleccionadas aleatoriamente del DataFrame original `econdata`.

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
99,99,"19.4438918423,-99.1402516182","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_052_18,Cuautémoc,B,Hotel,Drigales
78,78,"19.4430578017,-99.13614342","{""type"": ""Polygon"", ""coordinates"": [[[-99.1368...",004_107_01,Cuauhtémoc,B,Mercado,La Lagunilla
156,156,"19.4255480371,-99.1249308096","{""type"": ""Polygon"", ""coordinates"": [[[-99.1253...",323_138_04 (3),Venustiano Carranza,B,Mercado,Mariscos
75,75,"19.4344695016,-99.1318346523","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",005_145_14,Cuautémoc,A,Museo,Templo Mayor
85,85,"19.4301182936,-99.1228328972","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_034_03,Venustiano Carranza,B,Hotel,Roma
119,119,"19.42240955,-99.15052984","{""type"": ""MultiPoint"", ""coordinates"": [[-99.15...",002_097_02,Cuautémoc,B,Hotel,Alcazar
128,128,"19.4270781084,-99.1210175514","{""type"": ""Polygon"", ""coordinates"": [[[-99.1214...",323_061_04(123),Venustiano Carranza,B,Mercado,San Ciprian
155,155,"19.4416371812,-99.1477800117","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_078_18,Cuautémoc,B,Hotel,Trébol


In [7]:
prop_25 = econdata.sample(frac=0.25)
prop_25.head()
# `econdata.sample(frac=0.25)`: Esta línea utiliza el método `sample` del DataFrame de pandas `econdata` para seleccionar una muestra aleatoria que representa el 25% del DataFrame original.
# `frac=0.25`: Especifica que la muestra debe contener el 25% de las filas del DataFrame original.
# `prop_25 = ...`: Asigna el DataFrame resultante que contiene el 25% de las filas muestreadas aleatoriamente a la variable `prop_25`.
# `prop_25.head()`: Muestra las primeras 5 filas del DataFrame `prop_25` para verificar la carga y estructura de los datos.
# `prop_25`: Esta línea simplemente muestra el DataFrame `prop_25`, que contiene el 25% de las filas seleccionadas aleatoriamente del DataFrame original `econdata`.

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
126,126,"19.42774805,-99.12796532","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",006_078_04,Cuautémoc,A,Hotel,San Marcos
168,168,"19.4349726565,-99.147766133","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_014_23,Cuautémoc,B,Hotel,One Alameda
151,151,"19.4288176211,-99.1314097235","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_075_25,Cuautémoc,A,Hotel,Patria
58,58,"19.4244380424,-99.1306732022","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",307_124_19,Cuautémoc,B,Hotel,Unico
166,166,"19.4394422606,-99.1501035229","{""type"": ""MultiPoint"", ""coordinates"": [[-99.15...",012_153_08,Cuautémoc,B,Hotel,Polly


### 2) Muestreo sistemático:

In [None]:

def systematic_sampling(econdata,step):
    indexes = np.arange(0, len(econdata), step)
    systematic_sample = econdata.iloc[indexes]
    return systematic_sample

systematic_sample = systematic_sampling(econdata, 3)
systematic_sample.head()
# `systematic_sampling(econdata, step)`: Esta función toma un DataFrame `econdata` y un paso `step` como argumentos.
# `indexes = np.arange(0, len(econdata), step)`: Crea un array de índices que comienza en 0 y va hasta el final del 
# DataFrame, con un paso de `step`.
# `systematic_sample = econdata.iloc[indexes]`: Utiliza los índices generados para seleccionar filas del 
# DataFrame `econdata` de manera sistemática.
# `return systematic_sample`: Devuelve el DataFrame resultante que contiene la muestra sistemática.
# `systematic_sample = systematic_sampling(econdata, 3)`: Llama a la función `systematic_sampling` 
# con el DataFrame `econdata` y un paso de 3,
# y asigna el resultado a la variable `systematic_sample`.
# `systematic_sample.head()`: Muestra las primeras 5 filas del DataFrame `systematic_sample` para verificar 
# la carga y estructura de los datos.     

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id
0,0,"19.424781053,-99.1327537959","{""type"": ""Polygon"", ""coordinates"": [[[-99.1332...",307_130_11,Cuauhtémoc,B,Mercado,Pino Suárez
3,3,"19.42489472,-99.12073393","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",323_102_06,Venustiano Carranza,B,Hotel,Balbuena
6,6,"19.43553422,-99.12324801","{""type"": ""MultiPoint"", ""coordinates"": [[-99.12...",318_116_11,Venustiano Carranza,B,Hotel,San Antonio Tomatlan
9,9,"19.4407152937,-99.1498060057","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",012_146_22,Cuautémoc,B,Hotel,Detroit
12,12,"19.43990186,-99.14813347","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_079_16,Cuautémoc,B,Hotel,La Paz


### 3) Muestreo estratificado:

In [9]:
econdata['estratificado'] = econdata ['delegacion'] + "," + econdata['tipo']
(econdata['estratificado'].value_counts() / len(econdata)).sort_values(ascending=False)
# `econdata['estratificado'] = ...`: Crea una nueva columna llamada 'estratificado' en el DataFrame `econdata`.
# `econdata['delegacion'] + "," + econdata['tipo']`: Combina los valores de las columnas 'delegacion' y 'tipo' 
# separándolos por una coma.
# `(econdata['estratificado'].value_counts() / len(econdata))`: Calcula la proporción de cada valor único 
#  en la columna 'estratificado'
# `.sort_values(ascending=False)`: Ordena los resultados en orden descendente.  

estratificado
Cuautémoc,Hotel                0.643478
Cuautémoc,Museo                0.156522
Venustiano Carranza,Hotel      0.078261
Cuauhtémoc,Mercado             0.073913
Venustiano Carranza,Mercado    0.047826
Name: count, dtype: float64

Nuestros datos dicen que la proporcion es la siguiente:
1) Hoteles en Cuauhtémoc 0.5
2) Museos en Cuauhtémoc 0.2
3) Hoteles en Venustiano Carranza 0.1
4) Mercados en Cuauhtémoc 0.1
5) Mercados en Venustiano Carranza 0.1

In [None]:
def data_estratificada(econdata, nombres_columnas_estrat, valores_estrat, prop_estrat, random_state=None):
    
    df_estrat = pd.DataFrame(columns = econdata.columns) # Creamos un data frame vacío con los nombres de las columnas de econdata

    pos = -1
    for i in range(len(valores_estrat)): # iteración sobre los valores estratificados
        pos += 1
        if pos == len(valores_estrat) - 1: 
            ratio_len = len(econdata) - len(df_estrat) # si es la iteración final calcula el número de valores de salida tenga el mismo número de filas que de entrada
        else:
            ratio_len = int(len(econdata) * prop_estrat[i]) # calcula el número de filas según la proporción deseada

        df_filtrado = econdata[econdata[nombres_columnas_estrat] ==valores_estrat[i]] # filtra los datos de origen según los valores seleccionados en la estratificación de datos
        df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state) # haz un sample de los datos filtrados usando la ratio que hemos calculado
        
        df_estrat = pd.concat([df_estrat, df_temp]) # junta las tablas de sample con la estratificada para producir el resultado final
        
    return df_estrat # Return the stratified, re-sampled data

# `data_estratificada(econdata, nombres_columnas_estrat, valores_estrat, prop_estrat, random_state=None)`:
# Esta función toma un DataFrame `econdata`, una lista de nombres de columnas para la estratificación 
# `nombres_columnas_estrat`, una lista de valores para la estratificación `valores_estrat`, una lista 
# de proporciones para cada estrato `prop_estrat`, y un parámetro opcional `random_state` para asegurar 
# la reproducibilidad de la muestra aleatoria.
# `df_estrat = pd.DataFrame(columns = econdata.columns)`: Crea un DataFrame vacío con las mismas columnas que `econdata`.
# `pos = -1`: Inicializa una variable `pos` para rastrear la posición en la lista de valores estratificados.
# `for i in range(len(valores_estrat)):`: Itera sobre los índices de la lista `valores_estrat`.
# `pos += 1`: Incrementa la posición en cada iteración.
# `if pos == len(valores_estrat) - 1:`: Comprueba si es la última iteración.
# `ratio_len = len(econdata) - len(df_estrat)`: Si es la última iteración, calcula el número de filas restantes 
# para que el DataFrame resultante tenga el mismo número de filas que el DataFrame original.
# `else: ratio_len = int(len(econdata) * prop_estrat[i])`: En otras iteraciones, calcula el número de filas a 
# muestrear según la proporción especificada en `prop_estrat`.
# `df_filtrado = econdata[econdata[nombres_columnas_estrat] == valores_estrat[i]]`: Filtra el DataFrame `econdata` 
# para obtener solo las filas que coinciden con el valor actual de `valores_estrat` en la columna especificada por 
# `nombres_columnas_estrat`.
# `df_temp = df_filtrado.sample(replace=True, n=ratio_len, random_state=random_state)`: Toma una muestra aleatoria 
# de `ratio_len` filas del DataFrame filtrado, permitiendo reemplazo y utilizando `random_state` para asegurar 
# la reproducibilidad.
# `df_estrat = pd.concat([df_estrat, df_temp])`: Concatena el DataFrame temporal `df_temp` al DataFrame `df_estrat`, 
# acumulando las muestras estratificadas.
# `return df_estrat`: Devuelve el DataFrame estratificado resultante que contiene las muestras re-muestreadas
# de cada estrato.
# 


In [None]:
valores_estrat = ['Cuautémoc,Hotel', 'Cuautémoc,Museo', 'Venustiano Carranza,Hotel', 'Cuauhtémoc,Mercado','Venustiano Carranza,Mercado']
prop_estrat = [0.5, 0.2, 0.1, 0.1,0.1]
df_estrat = data_estratificada(econdata, 'estratificado', valores_estrat, prop_estrat, random_state=42)
df_estrat
# `valores_estrat = [...]`: Define una lista de valores únicos que se utilizarán para la estratificación de los datos.
# `prop_estrat = [...]`: Define una lista de proporciones que especifican la cantidad de cada estrato que se 
# desea en la muestra final.
# `df_estrat = data_estratificada(econdata, 'estratificado', valores_estrat, prop_estrat, random_state=42)`: 
# Llama a la función `data_estratificada` con el DataFrame `econdata`, la columna 'estratificado' para
# la estratificación, los valores y proporciones definidas, y un `random_state` para asegurar la reproducibilidad
# de la muestra.
# `df_estrat`: Esta línea simplemente muestra el DataFrame `df_estrat`, que contiene las muestras estratificadas 
# re-muestreadas de cada estrato según las proporciones especificadas.

Unnamed: 0,id,geo_point_2d,geo_shape,clave_cat,delegacion,perimetro,tipo,nom_id,estratificado
164,164,"19.4388741511,-99.1413308257","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",003_113_03,Cuautémoc,B,Hotel,Dos Naciones,"Cuautémoc,Hotel"
142,142,"19.4263681354,-99.1327278126","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",006_127_14,Cuautémoc,A,Hotel,Ambar,"Cuautémoc,Hotel"
27,27,"19.4348360773,-99.1463945583","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_016_01,Cuautémoc,B,Hotel,Hilton Centro Histórico,"Cuautémoc,Hotel"
168,168,"19.4349726565,-99.147766133","{""type"": ""MultiPoint"", ""coordinates"": [[-99.14...",002_014_23,Cuautémoc,B,Hotel,One Alameda,"Cuautémoc,Hotel"
113,113,"19.43374405,-99.13550135","{""type"": ""MultiPoint"", ""coordinates"": [[-99.13...",001_012_13,Cuautémoc,A,Hotel,San Antonio,"Cuautémoc,Hotel"
...,...,...,...,...,...,...,...,...,...
128,128,"19.4270781084,-99.1210175514","{""type"": ""Polygon"", ""coordinates"": [[[-99.1214...",323_061_04(123),Venustiano Carranza,B,Mercado,San Ciprian,"Venustiano Carranza,Mercado"
37,37,"19.4271233834,-99.125111772","{""type"": ""Polygon"", ""coordinates"": [[[-99.1251...",323_065_01,Venustiano Carranza,B,Mercado,Dulceria,"Venustiano Carranza,Mercado"
163,163,"19.4265454033,-99.1224859032","{""type"": ""Polygon"", ""coordinates"": [[[-99.1231...",323_063_05,Venustiano Carranza,B,Mercado,,"Venustiano Carranza,Mercado"
156,156,"19.4255480371,-99.1249308096","{""type"": ""Polygon"", ""coordinates"": [[[-99.1253...",323_138_04 (3),Venustiano Carranza,B,Mercado,Mariscos,"Venustiano Carranza,Mercado"
