---
title: "Introducción al Muestreo"
---

Aprende qué es el muestreo y por qué es tan poderoso. También aprenderás sobre los problemas causados por el muestreo de conveniencia y las diferencias entre la verdadera aleatoriedad y la pseudoaleatoriedad.

## Muestreo y estimaciones puntuales

La técnica de trabajar con un subconjunto de toda la población se le llama muestreo.

-   Población vs Muestreo La población es el conjunto completo de datos que nos interesan.
    -   No se refiere a personas.
    -   Típicamente, no sabremos cómo es toda la población.

La muestra es el subconjunto de datos con el que estamos trabajando.

-   Coffee rating dataset

    ![](images/paste-1.png)

    -   Cada fila representa 1 café.
    -   Hay 1338 filas
    -   Al café se le asigna una puntuación de cero a cien, que se almacena en la columna `total_cup_points`.
    -   Otras columnas contienen información contextual como la variedad y el país de origen.
    -   Puntuaciones entre 0 y 10 para atributos del café como el aroma y el cuerpo.
    -   No contiene todos los cafés del mundo, por lo que no sabemos exactamente cuál es la población de cafés.
    -   Hay suficientes para considerarla como la población de interés.

-   Points vs. Flavor: Población

In [None]:
#| echo: true
#| eval: false
pts_vs_flavor_pop = coffee_ratings[["total_points", "flavor"]]

![](images/paste-2.png)

-   Points vs. Flavor: 10 filas de muestra

In [None]:
#| echo: true
#| eval: false
pts_vs_flavor_samp = pts_vs_flavor_pop.sample(n=10)

![](images/paste-3.png)

El método `.sample()` de pandas devuelve un subconjunto aleatorio de filas. Establecer n en 10 significa que devuelve 10 filas aleatorias. En la muestra aparecen 10 muestras únicas.

-   Muestreo en Python para Series

    -   Use `.sample()` en `pandas` para DataFrames y Series.

In [None]:
#| echo: true
#| eval: false
cup_points_samp = coffe_ratings['total_cup_points'].sample(n=10)

![](images/paste-4.png)

-   Parámetros de Población & Puntos Estimados

    Un parámetro de población es un cálculo realizado sobre el conjunto de datos de población.

In [None]:
#| echo: true
#| eval: false
import numpy as np
np.mean(pts_vs_flavor_pop['total_cup_points'])

![](images/paste-5.png)

Una estimación puntual o estadística de muestra, es un cálculo basado en el conjunto de datos de muestra.

In [None]:
#| echo: true
#| eval: false
np.mean(cup_points_samp)

![](images/paste-6.png)

-   Puntos estimados con pandas

    Trabajar con pandas puede ser más fácil que trabajar con Numpy. Estos cálculos de media se pueden realizar utilizando el método de pandas `.mean()`

In [None]:
#| echo: true
#| eval: false
pts_vs_flavor_pop['flavor'].mean()

![](images/paste-7.png)

In [None]:
#| echo: true
#| eval: false
pts_vs_flavor_samp['flavor'].mean()

![](images/paste-8.png)

### Motivos del muestreo

El muestreo es una técnica importante en tu arsenal estadísico. Sin embargo, no siempre es adecuado: hay que saber cuándo utilizarlo y cuándo trabajar con todo el conjunto de datos.

¿Cuál de los siguientes no es un buen escenario para utilizar el muestreo?

**Respuestas posibles**

-   [ ] Te han agregado un terabyte de datos sobre registros de errores del dispositivo de tu empresa.
-   [ ] Deseas conocer los hábitos de viaje de todos los ciudadanos adultos paquistaníes.
-   [x] Has terminado de recoger los datos de un pequeño estudio sobre las medidas de las alas de 10 mariposas.
-   [ ] Has estado trabajando para predecir la rotación de clientes en un proyecto de big data para tu empresa de marketing.

Diez mariposas es un conjunto de datos pequeño, por lo que el muestreo no es útil aquí.

### Muestreo simple con pandas

A lo largo de este capítulo , explorarás los datos de canciones de Spotify. Cada fila de este conjunto de datos de población representa una canción, y hay más de 40000 filas. Las columnas incluyen el nombre de la canción, los artistas que la interpretaron, al año de lanzamiento y atributos de la canción como su duración, tempo y bailabilidad. Empezarás por fijarte en las duraciones.

Tu primera tarea es tomar una muestra del conjunto de datos de Spotify y comparar la duración media de la población con la de la muestra.

In [None]:
import pandas as pd
ruta = './data/spotify_2000_2020.feather'
spotify_population = pd.read_feather(ruta)
spotify_population.head()

#### Instrucciones

1.  Muestra 1000 filas de `spotify_population`, asignándolas a `spotify_sample`.

In [None]:
# Sample 1000 rows from spotify_population
spotify_sample = spotify_population.sample(n=1000)

# print sample
print(spotify_sample)

2.  

-   Calcula la duración media en minutos de `spotify_population` utilizando `pandas`.
-   Calcula la duración media en minutos de `spotify_sample` utilizando `pandas`.

In [None]:
# Calculate the mean duration in mins from spotify_population
mean_dur_pop = spotify_population['duration_minutes'].mean()

# Calculate the mean duration in mins from spotify_sample
mean_dur_sample = spotify_sample['duration_minutes'].mean()

# print the means
print(mean_dur_pop)
print(mean_dur_sample)

Se observa que la duración media de las canciones en la muestra es similar, pero no idéntica a la duración media de las canciones en toda la poblacición.

### Muestreos y cálculos sencillos con Numpy

También puedes utilizar `numpy` para calcular parámetros o estadísticas partir de una lista o de la serie `pandas`.

### Instrucciones

1.  

-   Crea una serie `pandas`, `loudness_pop`, subdividiendo la columna `loudness` de `spotify_population`.
-   Muestra `loudness_pop` para obtener 100 valores aleatorios, asignándolos a `loudness_samp`.

In [None]:
# Create a pandas Series from de loudness column of spotify_population
loudness_pop = spotify_population['loudness']

# Sample 100 values of loudness_pop
loudness_samp = loudness_pop.sample(n=100)

print(loudness_samp)

2.  

-   Calcula la media de `loudness_pop` utilizando `numpy`.
-   Calcula la media de `loudness_samp` utilizando `numpy`.

In [None]:
import numpy as np

# Calculate the mean of loudness_pop
mean_loudness_pop = np.mean(loudness_pop)

# Calculate the mean of loudness_samp
mean_loudness_samp = np.mean(loudness_samp)

print(mean_loudness_pop)
print(mean_loudness_samp)

Nuevamente, observe que el valor calculado (la media) es cercano pero no idéntico en cada caso.

## Muestreo de conveniencia

Antes del realizar el muestreo, debemos pensar en nuestro proceso de recopilación de datos para evitar resultados sesgados.

-   Muestra por conveniencia en coffee ratings

Observemos el parámetro de población de puntos de taza promedio

In [None]:
#| echo: true
#| eval: false
coffee_ratings['total_cup_points'].mean()

![](images/paste-9.png)

Una forma de muestreo por conveniencia sería tomar las primeras 10 filas en lugar de muestras aleatorias. Las primeras 10 filas se pueden traer con el método `.head()`

In [None]:
#| echo: true
#| eval: false
coffee_ratings_first10 = coffee_ratings.head(10)

In [None]:
#| echo: true
#| eval: false
coffee_ratings['total_cup_points'].mean()

![](images/paste-10.png)

La media de puntos de taza de muestra, es superior.

En este caso, la muestra por conveniencia no es representativa de toda la población.

-   Visualización del sesgo de selección

Los histogramas son una excelente manera de visualizar el sesgo de selección.

In [None]:
#| echo: true
#| eval: false
import matplotlib.pyplot as plt
import numpy as np
coffee_ratings['total_cup_points'].hist(bins=np.arange(59, 93, 2))
plt.show()

A continuación se muestra el código para generar un histograma de la muestra de conveniencia:

In [None]:
#| echo: true
#| eval: false
coffee_ratings_first10['total_cup_points'].hist(bins=np.arange(59, 93, 2))
plt.show()

-   Distribución de una población y de una muestra por conveniencia

![](images/paste-11.png)

Queda claro que la distribuicón de la muestra no es similar a la de la población. Todos los valores de la muestra están al lado derecho del gráfico.

-   Visualizando el sesgo de selección para una muestra aleatoria

In [None]:
#| echo: true
#| eval: false
coffee_sample = coffee_ratings.sample(n=10)
coffee_sample['total_cup_points'].hist(bins=np.arange(59, 93, 2))
plt.show()

-   Distribución de una población y de una simple muestra aleatoria

![](images/paste-12.png)

Se observa que la forma de las distribuciones está más alineada cuando se utiliza un muestreo aleatorio.

### ¿Son generalizables las conclusiones de la muestra?

Acabas de ver cómo el muestreo por conveniencia (recoger muestras utilizando el método más fácil) puede dar lugar a muestras que no son representativas de la población. Equivalentemente, esto significa que las conclusiones de la muestra no son generalizables a la población. Visualizar las distribuciones de la población y la muestra puede ayudar a determinar si la muestra es o no representativa de la población.

El conjunto de datos de Spotify tiene una columna `acousticness`, que es una medida de confianza de cero a uno de si la canción se hizo con instrumentos que no están enchufados. Compararás la distribución `acousticness` de la población total de canciones con una muestra de esas canciones.


#### Intrucciones

1. Traza un histograma de `acousticness` de `spotify_population` con contenedores con anchura `0.01` de `0` a `1` utilizando pandas `.hist()`.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Visualize the distribution of acoustiness with a histogram
spotify_population['acousticness'].hist(bins=np.arange(0, 1.01, 0.01))
plt.show()

2. Actualliza el código del histograma para utilizar el conjunto de datos `spotify_mysterious_sample`.

::: {.callout-note collapse="true"}
Para poder obtener el conjunto de datos `spotify_mysterious_sample` copie los datos desde Datacmap usando el comando:

In [None]:
#| echo: true
#| eval: false
print(spotify_population.to_csv(index=False))

:::

In [None]:
ruta = './data/spotify_mysterious_sample.csv'
spotify_mysterious_sample = pd.read_csv(ruta)

# Update the histogram to use spotify_mysterious_sample
spotify_mysterious_sample['acousticness'].hist(bins=np.arange(0, 1.01, 0.01))
plt.show()

3. **Preguntas**

Compara los dos histogramas que has dibujado ¿Los valores de `acousticness` de la muestra son generalizables a la población en general?

**Respuestas Posibles**

- [ ] Sí. Cualquier muestra debe conducir a un resultado generalizable sobre la población.
- [ ] Sí. Es probable que la muestra seleccionada sea una muestra aleatoria de todas las canciones de la pblación.
- [ ] No. Las muestras nunca pueden conducir a resultados generalizables sobre la población.
- [X] No. Las muestras de `acousticness` son sistemáticamenre superiores a las de la población general.
- [ ] No. Las muestras de `acousticness` son sistemáticamente inferiores a las de la pobleción general.

### ¿Son generalizables estos resultados?

## Generación de números pseudoaleatorios

### Generar números aleatorios

### Comprender los valores de iniciaclización aleatorios