# Tasca 8: Mètodes de Mostreig

In [3]:
# Càrrega de llibreries
import pandas as pd
import numpy as np
import random
from sklearn.model_selection import train_test_split

## Exercici 1
__Agafa un conjunt de dades de tema esportiu que t'agradi. Realitza un mostreig de les dades generant una mostra aleatòria simple i una mostra sistemàtica.__

In [18]:
# Càrrega de la base de dades de Baseball
data_MLB = pd.read_csv('MLB.txt', encoding='utf-8', sep='\t')
data_MLB.head()

Unnamed: 0,player,team,position,salary
0,Brandon Webb,Arizona Diamondbacks,Pitcher,8500.0
1,Danny Haren,Arizona Diamondbacks,Pitcher,8250.0
2,Chris Snyder,Arizona Diamondbacks,Catcher,5250.0
3,Edwin Jackson,Arizona Diamondbacks,Pitcher,4600.0
4,Adam LaRoche,Arizona Diamondbacks,First Baseman,4500.0


In [19]:
# Dimensions del dataset
data_MLB.shape

(828, 4)

In [20]:
# Informació del dataset
data_MLB.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 828 entries, 0 to 827
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   player    828 non-null    object 
 1   team      828 non-null    object 
 2   position  828 non-null    object 
 3   salary    828 non-null    float64
dtypes: float64(1), object(3)
memory usage: 26.0+ KB


In [21]:
# Descriptiu de les dades numèriques
data_MLB.describe()

Unnamed: 0,salary
count,828.0
mean,3281.828339
std,4465.44898
min,400.0
25%,418.315
50%,1093.75
75%,4250.0
max,33000.0


In [22]:
# Descriptiu de les dades categòriques
data_MLB.describe(include='object')

Unnamed: 0,player,team,position
count,828,828,828
unique,828,30,9
top,Mark Grudzielanek,Oakland Athletics,Pitcher
freq,1,31,410


<span style='color:blue; font-size:20px'> <b>Mostra aleatòria simple</b> </span>

In [24]:
# Mostra aleatòria simple
k = 200
data_mas = data_MLB.sample(k,random_state=1234)
data_mas.head()

Unnamed: 0,player,team,position,salary
544,Jacob Fox,Oakland Athletics,Catcher,405.0
378,Ryan Budde,Los Angeles Angeles,Catcher,402.2
287,Clay Hensley,Florida Marlins,Pitcher,425.0
230,Ryan Spilborghs,Colorado Rockies,Outfielder,1300.0
387,Russell Martin,Los Angeles Dodgers,Catcher,5050.0


In [25]:
# Descriptiu de les dades numèriques
data_mas.describe()

Unnamed: 0,salary
count,200.0
mean,3025.764385
std,4003.96209
min,400.0
25%,427.2875
50%,1225.0
75%,3854.594
max,22600.0


<span style='color:blue'> La mitjana i la desviació estàndard son semblants a les de la base de dades original </span>

In [26]:
# Descriptiu de les dades categòriques
data_mas.describe(include='object')

Unnamed: 0,player,team,position
count,200,200,200
unique,200,30,9
top,Jon Rauch,Minnesota Twins,Pitcher
freq,1,11,99


<span style='color:blue'> Es conserva la quantitat d'elements unics en 'team' i 'position'. </span>

<span style='color:blue; font-size:20px'> <b>Mostra sistemàtica</b> </span>

In [27]:
# Es crea una funció que genera una mostra sistemàtica donat un dataset i la grandària de la mostra
def mostra_sistematica(bbdd, n):
    l = len(bbdd) # nombre de files de la base de dades
    interval = (l // n) # nombre de files // grandària mostral. Divisió entera que indica el nombre de posicions de salt
    residu = l%n # cálcul del residu 
    random_number = random.randint(0, residu-1) # s'escull un nombre inical a l'atzar entre 0 i el residu-1
    index = np.arange(random_number, l-1, step=interval) # llista de totes les posicions seleccionades
    mostra_sis = bbdd.iloc[index] # mostra final
    return mostra_sis

In [28]:
# Es genera la mostra sistemàtica
random.seed(1234)
data_msis = mostra_sistematica(data_MLB, 200)   
data_msis.head()

Unnamed: 0,player,team,position,salary
24,Rusty Ryal,Arizona Diamondbacks,Third Baseman,401.0
28,Tim Hudson,Atlanta Braves,Pitcher,9000.0
32,Nate McLouth,Atlanta Braves,Outfielder,5000.0
36,Omar Infante,Atlanta Braves,Shortstop,2225.0
40,Eric Hinske,Atlanta Braves,First Baseman,1000.0


In [29]:
# Nombre d'observacions de la mostra
data_msis.shape[0]

201

<span style='color:blue'> Tal com s'ha construït la funció, la grandària mostral no sempre serà la indicada, ja que depèn del punt d'inici; quan més a prop de 0, més observacions hi haurà. Es podría limitar el nombre d'observacions a 200, però llavors els últims registres no tindrien la posibilitat d'apareixer en la mostra.  </span>

In [30]:
# Descriptiu de les dades numèriques
data_msis.describe()

Unnamed: 0,salary
count,201.0
mean,3283.599144
std,4429.972038
min,400.0
25%,418.8
50%,1100.0
75%,4050.0
max,22600.0


<span style='color:blue'> La mitjana i la desviació estàndard son semblants a les de la base de dades original </span>

In [31]:
# Descriptiu de les dades categòriques
data_msis.describe(include='object')

Unnamed: 0,player,team,position
count,201,201,201
unique,201,30,7
top,Darren O'Day,Toronto Blue Jays,Pitcher
freq,1,8,103


<span style='color:blue'> S'ha perdut informació de dues posicions (ara són 7 en comptes de les 9 originals). Es comproba quines posicions falten. </span>

In [32]:
data_MLB['position'].unique()

array(['Pitcher', 'Catcher', 'First Baseman', 'Outfielder', 'Shortstop',
       'Second Baseman', 'Third Baseman', 'Designated Hitter',
       'Infielder'], dtype=object)

In [33]:
data_msis['position'].unique()

array(['Third Baseman', 'Pitcher', 'Outfielder', 'Shortstop',
       'First Baseman', 'Catcher', 'Second Baseman'], dtype=object)

<span style='color:blue'> No hi ha observacions amb les posicions de 'Designated Hitter' i 'Infielder' </span>

## Exercici 2
__Continua amb el conjunt de dades de tema esportiu i genera una mostra estratificada i una mostra utilitzant SMOTE (Synthetic Minority Oversampling Technique).__

<span style='color:blue; font-size:20px'> <b>Mostra estratificada</b> </span>

<span style='color:blue; font-size:18px'> <b>Métode A</b> </span>

In [34]:
# Groupby y DataFrame.sample
frac = 200/len(data_MLB)
data_estrat_A = data_MLB.groupby('position', group_keys = True).apply(pd.DataFrame.sample, frac=frac, random_state=1234)
data_estrat = data_estrat_A.drop(columns=['position'])
data_estrat.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,player,team,salary
position,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Catcher,290,John D. Baker,Florida Marlins,415.0
Catcher,422,Gregg Zaun,Milwaukee Brewers,1900.0
Catcher,534,Kurt Suzuki,Oakland Athletics,420.0
Catcher,128,Koyie Hill,Chicago Cubs,700.0
Catcher,90,Victor Martinez,Boston Red Sox,7700.0


In [35]:
# Dimensions de la mostra
data_estrat.shape

(201, 3)

<span style='color:blue'> Es comproba que les proporcions de files per grup es conserva entre la base de dades original i la mostra. </span>

In [38]:
# Proporcions de la base de dades original
data_MLB.groupby(['position']).apply(len)/len(data_MLB) 

position
Catcher              0.080918
Designated Hitter    0.008454
First Baseman        0.050725
Infielder            0.004831
Outfielder           0.178744
Pitcher              0.495169
Second Baseman       0.057971
Shortstop            0.067633
Third Baseman        0.055556
dtype: float64

In [39]:
# Proporcions de la mostra
data_estrat.groupby(['position']).apply(len)/len(data_estrat)

position
Catcher              0.079602
Designated Hitter    0.009950
First Baseman        0.049751
Infielder            0.004975
Outfielder           0.179104
Pitcher              0.492537
Second Baseman       0.059701
Shortstop            0.069652
Third Baseman        0.054726
dtype: float64

<span style='color:blue'> Les proporcions són semblants i, per tant, es confirma que la mostra estratificada s'ha construit bé. </span>

In [40]:
# Nombre d'observacions per posició en la mostra
data_estrat.groupby(['position']).apply(len)

position
Catcher              16
Designated Hitter     2
First Baseman        10
Infielder             1
Outfielder           36
Pitcher              99
Second Baseman       12
Shortstop            14
Third Baseman        11
dtype: int64

<span style='color:blue'> Només hi ha una observació de 'Infielder' i dues de 'Designated Hitter'. Això provocarà estimacions amb biaix. </span>

In [41]:
# Descriptiu de les dades numèriques
data_estrat.describe()

Unnamed: 0,salary
count,201.0
mean,3098.495791
std,4261.98171
min,400.0
25%,416.5
50%,1000.0
75%,4000.0
max,22600.0


<span style='color:blue'> La mitjana i la desviació estàndard son semblants a les de la base de dades original </span>

In [42]:
# Descriptiu de les dades categòriques
data_estrat.describe(include='object')

Unnamed: 0,player,team
count,201,201
unique,201,30
top,Carlos Beltran,Cleveland Indians
freq,1,11


<span style='color:blue'> Es conserva la quantitat d'elements unics en 'teams'. </span>

<span style='color:blue; font-size:18px'> <b>Métode B</b> </span>

In [43]:
# train_test_split per estratificació, mostra de prova
df_train, data_estrat_2 = train_test_split(data_MLB, test_size=200, stratify = data_MLB['position'], random_state=1234)
data_estrat_2.head()

Unnamed: 0,player,team,position,salary
515,Alfredo Aceves,New York Yankees,Pitcher,435.65
117,Marlon Byrd,Chicago Cubs,Outfielder,3000.0
313,Chris Sampson,Houston Astros,Pitcher,815.0
36,Omar Infante,Atlanta Braves,Shortstop,2225.0
75,Jason Berken,Baltimore Orioles,Pitcher,400.0


In [44]:
# Dimensions de la mostra
data_estrat_2.shape

(200, 4)

In [45]:
# Es comproba que les proporcions de files per grup es conserva entre la base de dades original i la mostra
# Proporcions de la base de dades original
data_MLB.groupby(['position']).apply(len)/len(data_MLB)

position
Catcher              0.080918
Designated Hitter    0.008454
First Baseman        0.050725
Infielder            0.004831
Outfielder           0.178744
Pitcher              0.495169
Second Baseman       0.057971
Shortstop            0.067633
Third Baseman        0.055556
dtype: float64

In [46]:
# Proporcions de la mostra
data_estrat_2.groupby(['position']).apply(len)/len(data_estrat_2)

position
Catcher              0.080
Designated Hitter    0.010
First Baseman        0.050
Infielder            0.005
Outfielder           0.180
Pitcher              0.495
Second Baseman       0.060
Shortstop            0.065
Third Baseman        0.055
dtype: float64

<span style='color:blue'> Les proporcions són semblants i, per tant, es confirma que la mostra estratificada s'ha construit bé. </span>

In [47]:
# Nombre d'observacions per posició en la mostra
data_estrat_2.groupby(['position']).apply(len)

position
Catcher              16
Designated Hitter     2
First Baseman        10
Infielder             1
Outfielder           36
Pitcher              99
Second Baseman       12
Shortstop            13
Third Baseman        11
dtype: int64

<span style='color:blue'> Només hi ha una observació de 'Infielder' i dues de 'Designated Hitter'. Això provocarà estimacions amb biaix. </span>

In [48]:
# Descriptiu de les dades numèriques
data_estrat_2.describe()

Unnamed: 0,salary
count,200.0
mean,3195.46268
std,4300.247084
min,400.0
25%,415.375
50%,1000.0
75%,4000.0
max,18875.0


<span style='color:blue'> La mitjana i la desviació estàndard son semblants a les de la base de dades original </span>

In [49]:
data_estrat_2.describe(include='object')

Unnamed: 0,player,team,position
count,200,200,200
unique,200,30,9
top,Henry Blanco,Boston Red Sox,Pitcher
freq,1,11,99


<span style='color:blue'> Es conserva la quantitat d'elements unics en 'teams'. </span>

<span style='color:blue; font-size:20px'> <b>SMOTE (Tècnica de sobremostreig sintètic minoritari)</b> </span>

<span style='color:blue'> SMOTE no és un métode de mostreig, si no de balanceig de la mostra per algoritmes de classificació. A més, la base de dades actual no conté suficients variables dicotòmiques com per aplicar SMOTE. Es decideix no realitzar aquest métode. </span>

## Exercici 3
__Continua amb el conjunt de dades de tema esportiu i genera una mostra utilitzant el mètode Reservoir sampling.__

<span style='color:blue; font-size:20px'> <b>Reservoir Sampling</b> </span>

In [50]:
# Es defineix una funció que aplica un algoritme de Reservoir Sampling
def reservoir_sampling(df, n):
    index = []
    K = 0
    for i in range(len(df)):
        K += 1
        if len(index) < n:
            index.append(i) # Agafa els primers n elements de la llista 'iterator'
        else:
            s = int(random.random()*K) # A partir del n+1 element de la llista, genera un nombre aleatori enter entre 0 i N
            if s < n:
                index[s] = i # Si s és més petit que n, es reemplaça el valor de la posició s per l'element de la llista evaluat 

    return df.iloc[index]

In [51]:
# Es crea la mostra mitjançant reservoir sampling
random.seed(1234)
data_RS = reservoir_sampling(data_MLB, 200)
data_RS.head()

Unnamed: 0,player,team,position,salary
335,Brian Bannister,Kansas City Royals,Pitcher,2300.0
238,Dexter Fowler,Colorado Rockies,Outfielder,406.0
2,Chris Snyder,Arizona Diamondbacks,Catcher,5250.0
218,Brad Hawpe,Colorado Rockies,Outfielder,7500.0
507,Damaso Marte,New York Yankees,Pitcher,4000.0


In [52]:
# Nombre d'observacions de la mostra
data_RS.shape[0]

200

In [53]:
# Descriptiu de les dades numèriques
data_RS.describe()

Unnamed: 0,salary
count,200.0
mean,3145.046375
std,4214.056296
min,400.0
25%,426.9125
50%,1200.0
75%,4000.0
max,22600.0


<span style='color:blue'> La mitjana i la desviació estàndard son semblants a les de la base de dades original </span>

In [54]:
# Descriptiu de les dades categòriques
data_RS.describe(include='object')

Unnamed: 0,player,team,position
count,200,200,200
unique,200,30,9
top,Carlos Beltran,Cleveland Indians,Pitcher
freq,1,13,102


<span style='color:blue'> Es conserva la quantitat d'elements unics en 'team' i 'position'. </span>