Sprint 5. Mètodes de Mostreig

Durada : 7 dies 

Objectiu general:  

    Aplicar les tècniques del mètode de Mostreig

Objectius específics: 

    Conèixer les diferents tipologies  
    Revisar un conjunt de dades  

__1- Mètodes de mostreig__

En aquest capítol veuràs diferents mètodes de mostreig. Et recomano que miris sobretot els mètodes de mostra aleatòria simple, mostra sistemàtica, SMOTE i reservoir sampling, ja que aquest mètodes els treballarem a la tasca d'aquest sprint.

Fer un mostreig adequat és molt important en l'aprenentatge automàtic per evitar biaixos. Recorda que en el catàleg de biaixos (https://catalogofbias.org) pots veure un reguitzell de biaixos que podem trobar a les dades i en els algorismes.

__CONTINGUT__

En aquest apartat coneixereu les diferents tipologies i els seus aspectes teòrics per tal d'aplicar correctament les tècniques que ens facilita el mètode de Mostreig.

* Una introducció als mètodes de mostreig: [Sampling Methods | Types and Techniques Explained](https://www.scribbr.com/methodology/sampling-methods/)
* Mostreig a estadístiques: diferents mètodes, tipus i errors de mostreig: [Sampling in Statistics: Different Sampling Methods, Types & Error](https://www.statisticshowto.com/probability-and-statistics/sampling-in-statistics/)
* Els cinc algorismes de mostreig: [The 5 Sampling Algorithms every Data Scientist need to know](https://towardsdatascience.com/the-5-sampling-algorithms-every-data-scientist-need-to-know-43c7bc11d17c)
* Revisió dels mètodes de mostreig: [Sampling methods review](https://www.khanacademy.org/math/statistics-probability/designing-studies/sampling-methods-stats/a/sampling-methods-review)
* Disseny d’estudi: [Statistics and probability - Unit: Study design](https://www.khanacademy.org/math/statistics-probability/designing-studies)
* Tipus de tècniques de mostreig: [A Data Scientist’s Guide to 8 Types of Sampling Techniques](https://www.analyticsvidhya.com/blog/2019/09/data-scientists-guide-8-types-of-sampling-techniques/)

# S05 T01: Tasca mètodes de mostreig

##### Aprèn a realitzar mostreig de les dades amb Python.

## Nivell 1
* ### Exercici 1

__Agafa un conjunt de dades de tema esportiu que t'agradi. Realitza un mostreig de les dades generant una mostra aleatòria simple i una mostra sistemàtica.__

In [2]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import random

In [3]:
winter_df = pd.read_csv('winter.csv')
winter_df

Unnamed: 0,Year,City,Sport,Discipline,Athlete,Country,Gender,Event,Medal
0,1924,Chamonix,Biathlon,Biathlon,"BERTHET, G.",FRA,Men,Military Patrol,Bronze
1,1924,Chamonix,Biathlon,Biathlon,"MANDRILLON, C.",FRA,Men,Military Patrol,Bronze
2,1924,Chamonix,Biathlon,Biathlon,"MANDRILLON, Maurice",FRA,Men,Military Patrol,Bronze
3,1924,Chamonix,Biathlon,Biathlon,"VANDELLE, André",FRA,Men,Military Patrol,Bronze
4,1924,Chamonix,Biathlon,Biathlon,"AUFDENBLATTEN, Adolf",SUI,Men,Military Patrol,Gold
...,...,...,...,...,...,...,...,...,...
5765,2014,Sochi,Skiing,Snowboard,"JONES, Jenny",GBR,Women,Slopestyle,Bronze
5766,2014,Sochi,Skiing,Snowboard,"ANDERSON, Jamie",USA,Women,Slopestyle,Gold
5767,2014,Sochi,Skiing,Snowboard,"MALTAIS, Dominique",CAN,Women,Snowboard Cross,Silver
5768,2014,Sochi,Skiing,Snowboard,"SAMKOVA, Eva",CZE,Women,Snowboard Cross,Gold


## Mostra aleatòria:
+ Genero una mostra aleatòria simple amb n observacions

In [22]:
#Fem que 'n' sigui un 10% del total
simple_sample_winter = winter_df.sample(n = 577)
simple_sample_winter

Unnamed: 0,Year,City,Sport,Discipline,Athlete,Country,Gender,Event,Medal
3134,1994,Lillehammer,Skiing,Freestyle Skiing,"GROSPIRON, Edgar",FRA,Men,Moguls,Bronze
888,1960,Squaw Valley,Ice Hockey,Ice Hockey,"OLSON, Weldon Howard",USA,Men,Ice Hockey,Gold
5374,2014,Sochi,Ice Hockey,Ice Hockey,"ALDER, Janine",SUI,Women,Ice Hockey,Bronze
2847,1994,Lillehammer,Biathlon,Biathlon,"TCHEPIKOV, Sergei",RUS,Men,4X7.5KM Relay,Silver
2052,1984,Sarajevo,Ice Hockey,Ice Hockey,"AAHLEN, Thomas",SWE,Men,Ice Hockey,Bronze
...,...,...,...,...,...,...,...,...,...
1415,1972,Sapporo,Bobsleigh,Bobsleigh,"HUBACHER, Edy",SUI,Men,Two-Man,Bronze
2338,1988,Calgary,Ice Hockey,Ice Hockey,"TUOMISTO, Pekka",FIN,Men,Ice Hockey,Silver
3774,2002,Salt Lake City,Ice Hockey,Ice Hockey,"LECLAIR, John",USA,Men,Ice Hockey,Silver
1495,1972,Sapporo,Skating,Figure skating,"GROSS, Manuela",GDR,Women,Pairs,Bronze


## Mostra aletòria sistemàtica:
+ Ara genero una mostra aleatòria sistemàtica.  

In [49]:
#Fem que 'step' sigui un 10% del total
step = 577
systematic_sample_winter = winter_df[:: step]
systematic_sample_winter

Unnamed: 0,Year,City,Sport,Discipline,Athlete,Country,Gender,Event,Medal
0,1924,Chamonix,Biathlon,Biathlon,"BERTHET, G.",FRA,Men,Military Patrol,Bronze
577,1952,Oslo,Bobsleigh,Bobsleigh,"NIEBERL, Lorenz",FRG,Men,Four-Man,Gold
1154,1964,Innsbruck,Skiing,Cross Country Skiing,"PÖYSTI, Toini K.",FIN,Women,3X5KM Relay,Bronze
1731,1976,Innsbruck,Skating,Speed skating,"PRIESTNER, Cathy",CAN,Women,500M,Silver
2308,1988,Calgary,Ice Hockey,Ice Hockey,"LOMAKIN, Andrei",URS,Men,Ice Hockey,Gold
2885,1994,Lillehammer,Ice Hockey,Ice Hockey,"KAPANEN, Sami",FIN,Men,Ice Hockey,Bronze
3462,1998,Nagano,Skating,Speed skating,"SONDRAL, Adne",NOR,Men,1500M,Gold
4039,2002,Salt Lake City,Skiing,Freestyle Skiing,"VALENTA, Ales",CZE,Men,Aerials,Gold
4616,2006,Turin,Skiing,Snowboard,"KOBER, Amelie",GER,Women,Giant Parallel Slalom,Silver
5193,2014,Sochi,Biathlon,Biathlon,"ECKHOFF, Tiril",NOR,Women,12.5KM Mass Start,Bronze


## Nivell 2

* ### Exercici 2

__Continua amb el conjunt de dades de tema esportiu i genera una mostra estratificada i una mostra utilitzant SMOTE (Synthetic Minority Oversampling Technique).__

## Nivell 3

* ### Exercici 3

__Continua amb el conjunt de dades de tema esportiu i genera una mostra utilitzant el mètode Reservoir sampling.__