

<div class="alert alert-block alert-info">
<h1> Muestras </h1>
</div>

Rafael Caballero


### Conceptos de universo, población y muestra
---

<img src="https://github.com/RafaelCaballero/tdm/blob/master/images/universo_pob_muestra.png?raw=true" width=600></img>


<div class="alert alert-success">  
Universo: incluye todos los elementos que existen dentro de un contexto determinado. En términos estadísticos, es el conjunto más grande posible que abarca todos los objetos, personas, eventos o cosas que podrían ser de interés en un estudio.
</div>

- A menudo es _no_ posible estudiarlo en su totalidad.
- Puede ser finito o infinito, y en el caso de ser finito, puede ser muy grande y no poderse estudiar en su totalidad. También puede ser que, en modelos predictivos, el universo incluya sucesos que todavía no han pasado.
- Ejemplo. En una empresa queremos predecir el tiempo que seguirá manteniendo un contrato de mantenimiento un cliente. Tenemos datos tales como: precio del producto adquirido, si ha adquirido otros productos, si contrató servicio de mantenimiento y por cuánto tiempo etc....sin embargo nada de esto nos permite asegurar cómo se comportarán clientes en el futuro, porque ese universo (todos los posibles clientes por llegar) no lo podemos conocer de antemano.

<div class="alert alert-success"> 
Población: Grupo a analizar. Subconjunto del universo que incluye todos los elementos de interés específico para un estudio determinado. Representa a todas las personas o elementos que comparten ciertas características.
</div>
- Es la unidad de análisis, “¿Quiénes van a ser medidos?”. Para esto se debe precisar el problema a investigar y los objetivos de la investigación

- Ejemplo. En nuestro caso podemos estar interesados en clientes que han comprado un producto concreto.
<br>

<div class="alert alert-success"> 
Muestra: en lugar de examinar la población entera, se examina una parte de ésta
</div>
- Dado que normalmente la población ya es una muestra, al no tener acceso al universo, hay que tener en cuenta que realmente estamos tomando una muestra de una muestra.

- El muestreo es particularmente útil:

a) En caso de conjuntos de datos muy grandes (por ejemplo si estamos trabajando con una base de datos de miles de millones de datos)

b) Si se quiere reservar una parte de los datos para evaluar el modelo generado, simulando así la llegada de nuevos datos (por ejemplo la división en entrenamiento y test típica de _machine learning_).

c) Para determinar ciertas características (por ejemplo la media) de una muestra con un cierto margen de confianza (técnicas de _bootstrapping_)

<!--
- La muestra puede ser aleatoria, pero esto tiene un problema: los elementos con características minoritarias pueden quedar sin representación
- Esto se puede evitar con las llamas _muestras estratificadas_
- En el caso de ir a utilizar _aprendizaje automático_ puede que nos interese que todos los valores de una variable (columna) determinada tengan la misma cantidad de datos (por ejemplo igual de cantidad de hombres que de mujeres).  Esto se puede solucionar con técnicas como:

+ Undersampling: los valores que más aparecen se restringen para que quede la misma cantidad que de los valores menos comunes.
+ Oversampling: los valores que menos aparecen aumentan su frecuencia por el procedimiento de repetir la fila en la que aparecen.
+ SMOTE: una técnica que genera nuevos valores artificiales
-->


### 1 Muestreo probabilístico

En el muestreo probabilístico buscamos respetar la distribución de los datos. 

#### 1.1 Muestreo aleatorio simple

La forma más sencilla es utilizar el método ```sample``` de Pandas, que toma una muestra al azar. Sin embargo a veces esto no es suficiente. 

En el siguiente ejemplo tenemos un fichero de clientes que tienen que abonar unas tasas por tramitar ciertos documentos. 
Columnas:
* ```cliente```:  id. del cliente, se puede repetir porque cada cliente puede tener varios documentos que entregar.
* ```documento```: documento a tramitar. 
* ```pagado```: 0 si el documento no ha sido pagado, 1 si sí lo ha sido.
* ```tasas```: cantidad que hay que pagar por la tramitación.

In [3]:
import pandas as pd
url = "https://github.com/RafaelCaballero/tdm/raw/refs/heads/master/datos/clientesl.csv"
df = pd.read_csv(url)
df

Unnamed: 0,cliente,documento,pagado,importe
0,83055,Y88951721,1,884.75
1,83055,Q35108482,0,1846.89
2,83055,X30875875,1,754.40
3,83055,G14413233,0,782.72
4,83055,T57710748,1,2082.73
...,...,...,...,...
4872,24549,T48330524,1,573.16
4873,24549,S54193918,0,878.37
4874,24549,E91726475,0,1619.32
4875,24549,H80472235,1,919.22


In [4]:
len(df.cliente.unique()) # número de clientes

50

Imaginemos que queremos obtener una muestra de este conjunto (supongamos que tuviera muchas más filas)

In [6]:
f = 0.1
df2 = df.sample(frac=f, random_state=1247)  # random_state para que a todos nos salga lo mismo
df2

Unnamed: 0,cliente,documento,pagado,importe
1639,30200,Y53329004,1,28.48
4217,41369,B08083871,0,1717.30
552,81457,S52526097,0,726.85
4572,24270,A78647651,0,1138.55
1985,58785,Y78095594,0,1058.78
...,...,...,...,...
2420,27156,D47603937,0,226.99
3268,78839,T07741430,0,1350.78
3586,35452,F49511354,1,1117.16
2434,27156,Y68578169,0,131.27


Vemos que algunos valoes estadísticos típicos quedan bien representados

In [8]:
df2.importe.mean(), df2.importe.std(), df.importe.mean(), df.importe.std()

(1175.0885655737704, 681.987310810368, 1159.4538732827557, 668.6799027370517)

Además de la fracción, el método [sample](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) también permite decir la cantidad concreta de valores a seleccionar (parámetro ```n```) o incluso obtener muestras con reemplazamiendo (```replace=True```).

En ocasiones, veremos cómo se utiliza este método para "barajar" las filas de un dataframe por el sencillo procedimiento de pedir que se devuelva una muestra con todas las filas.

In [10]:
df_barajado = df.sample(frac=1)
df_barajado

Unnamed: 0,cliente,documento,pagado,importe
2474,47940,R33259730,0,722.84
3992,68974,V55137693,1,1360.78
3266,78839,U51092894,0,29.68
521,52236,M74710239,0,1372.50
2672,32313,Q79038226,0,2329.89
...,...,...,...,...
788,58378,S62738630,1,1713.17
1245,10434,E76108221,1,1193.42
2555,32313,F85657029,0,1525.86
2251,87875,V09454555,1,796.62


Si no se quiere tener el índice desordenado

In [12]:
df_barajado = df.sample(frac=1,ignore_index=True)
df_barajado

Unnamed: 0,cliente,documento,pagado,importe
0,71298,R98140867,0,1566.02
1,49190,C50812213,0,951.51
2,30200,J44262797,0,1170.51
3,34346,R68109851,1,1596.00
4,87875,X53575334,1,397.33
...,...,...,...,...
4872,52510,X32068189,0,1093.68
4873,78839,S73800979,1,38.87
4874,41369,B08083871,0,1717.30
4875,34346,V26018031,0,660.53



#### 1.2 Muestreo estratificado

El muestreo aleatorio simple es el más habitual y es suficiente en la mayor parte de los casos. Sin embargo, en ocasiones tenemos requerimientos adicionales. Supongamos por ejemplo que queremos que la muestra esté *estratificada* por clientes, es decir que aparezca una representación proporcional de cada cliente en la muestra con respecto al original, algo que ahora no sucede, porque ni siquiera están representados todos los clientes:

In [14]:
len(df2.cliente.unique()) # número de clientes

47

Incluso si tenemos suerte y están todos representados podemos obtener frecuencias de aparición muy diferentes del caso original:

In [25]:
df2 = df.sample(frac=f, random_state=60583)
len(df2.cliente.unique()) # número de clientes

50

In [27]:
# comparar las proporciones de cada cliente en cada dataframe
def compara_cliente(df,df2): 
    prop_df = df.cliente.value_counts().sort_index()*100/len(df)
    prop_df2 = df2.cliente.value_counts().sort_index()*100/len(df2)
    return (prop_df-prop_df2).abs().sort_values(ascending=False)

compara_cliente(df,df2)

cliente
87875    4.178235
30200    1.681992
32313    1.621109
10434    1.063330
43700    1.005472
42647    0.943455
52510    0.943329
68974    0.920303
70765    0.840933
55172    0.818160
83055    0.798664
65662    0.779294
35452    0.759672
78839    0.735386
58785    0.615510
72764    0.612233
89710    0.574628
41369    0.553997
48283    0.469837
71298    0.469459
51588    0.451727
81883    0.431727
44240    0.429458
27156    0.411223
78106    0.408323
50313    0.391096
67263    0.348197
39927    0.306936
17082    0.284667
24549    0.245549
81457    0.245423
36351    0.225296
32629    0.223658
65079    0.205548
58378    0.186683
55330    0.184666
27291    0.165044
47940    0.163153
89290    0.161640
33117    0.142901
24270    0.125295
51883    0.124413
56652    0.104287
28048    0.102018
49190    0.083530
52236    0.063656
34346    0.042269
60159    0.041513
86025    0.020630
40493    0.000126
Name: count, dtype: float64

Para corregirlo estratificamos por cliente:

Esto  se puede hacer con la función ```train_test_split``` de scikit-learn

In [30]:
from sklearn.model_selection import train_test_split

df_train, df_test = train_test_split(df, test_size=f, stratify=df['cliente'])
compara_cliente(df,df_test)
df_test

Unnamed: 0,cliente,documento,pagado,importe
3308,78839,L37662076,1,1765.21
3733,71298,U82035310,0,1326.40
1928,17082,U69514134,1,267.04
1557,51883,P89415147,0,1134.88
4188,49190,P84176529,1,1239.96
...,...,...,...,...
4546,24270,O94803503,1,139.60
4533,24270,X02049201,1,1811.43
3130,89290,I71861133,0,1638.74
3307,78839,W36250863,0,1342.73


La estratificación se puede referir a más de un atributo

In [75]:
import pandas as pd

def max_cliente_entregado(df,df2):
    m = 0 # máxima diferencia, empezamos por el valor más pequeño
    for c in df.cliente.unique():
        for e in df.pagado.unique():
            filtro1 = (df.cliente == c) & (df.pagado==e)
            filtro2 = (df2.cliente == c) & (df2.pagado==e)
            f1 = filtro1.mean()*100 # proporción
            f2 = filtro2.mean()*100
            v = abs(f1-f2)
            if v>m:
                m=v
    return m

max_cliente_entregado(df,df_test)

0.8395462811389693

In [77]:
_, df_test2 = train_test_split(df, test_size=f, stratify=df[['cliente','pagado']], random_state=0)
max_cliente_entregado(df,df_test2)

0.10264809393035895

In [83]:
import numpy as np
num_tiradas = 100000000
dado1 = np.random.randint(1,7,num_tiradas)
dado2 =  np.random.randint(1,7,num_tiradas)
filtro = (dado1+dado2)==4
print((filtro).sum() / num_tiradas)

0.08333794


## 6. Referencias
---

[Excelente y detallada introducción a sampling en Python](https://www.scribbr.com/methodology/sampling-methods/)<br>
[Otra buena página sobre stratified sampling en Python](https://www.geeksforgeeks.org/stratified-sampling-in-pandas/)<br>
[Systematic sampling](https://www.geeksforgeeks.org/systematic-sampling-in-pandas/?ref=oin_asr2)<br>
[imbalanced-learn: paquete para lograr muestras equilibradas](https://imbalanced-learn.org/stable/)<br>

