# Demonstracja metody bootstrap
Aleksander Stepaniuk 272644

In [1]:
from sklearn.linear_model import LinearRegression
import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt

data = pd.read_excel('pomiary2017.xlsx')
data = data.to_numpy()

wzrosty = data[:, 5]

In [None]:
# naprawienie danych, podmieniam na mój osobisty wzrost (zamiast nan)
wzrosty[3] = 176.0

In [5]:
print(wzrosty)

[184.0 78.0 178.0 176.0 175.0 197.0 182.0 172.0 180.0 181.0 185.0 180.0
 185.0 177.0 174.0 190.0 162.0 186.0 178.0 167.0 186.0 174.0 165.0 178.0
 174.0 170.0 175.0 160.0 186.0 173.0 180.0 180.0 195.0 177.0 170.0 164.0
 169.0 169.0 188.0 161.0 189.0 180.0 176.0]


## Definicje:
+ `TRIES` - ilość prób (arbitralnie ustawione na 10)
+ `output` - tabela wynikowa, zwracająca kolejne średnie, po zastosowaniu na zbiorze data metody bootstrap `iter_num` razy
+ `variance`, `min_val`, `max_val`, `mean` oraz `std` to kolejno: wariancja, minimalna wartość, maksymalna wartość, średnia danych wynikowych oraz odchylenie standarodwe; dla lepszego zobrazowania danych wynikowych

## Opis działania:
Metoda bootstrap otrzymuje na wejściu:
+ `data` - zbiór danych wejściowych
+ `iter_num` - ilość iteracji (arbitralna)
+ `sample_size` - rozmiar podzbioru, czyli ile razy wyciągamy wartość (w tym przypadku będzie to równe rozmiarowi zbioru)

Później w pętli bierzemy sample (czyli pozdbiór losowanych elementów zbioru `data`, z powtórzeniami, ponieważ flaga `replace=True`). Następnie kiedy mamy taki podzbiór, liczymy jego średnią, a końcowo appendujemy na koniec tablicy wynikowej. Proces powtarzamy `iter_num` razy.

In [26]:
def bootstrap(data, iter_num, sample_size):
    output = []
    for i in range(iter_num):
        sample = np.random.choice(data, size=sample_size, replace=True)
        stat = np.mean(sample)
        output.append(stat)
    return output

TRIES = 10

output = bootstrap(wzrosty, TRIES, len(wzrosty))
variance = np.var(output)
min_val = np.min(output)
max_val = np.max(output)
mean = np.mean(output)
std = np.std(output)

print(f"Output: {output}")
print(f"Variance: {variance}")
print(f"MinVal: {min_val}")
print(f"MaxVal: {max_val}")
print(f"Mean: {mean}")
print(f"Standard Deviation: {std}")

Output: [np.float64(173.72093023255815), np.float64(174.8372093023256), np.float64(176.02325581395348), np.float64(171.8372093023256), np.float64(175.7906976744186), np.float64(176.88372093023256), np.float64(176.6046511627907), np.float64(179.58139534883722), np.float64(173.53488372093022), np.float64(171.58139534883722)]
Variance: 5.426830719307729
MinVal: 171.58139534883722
MaxVal: 179.58139534883722
Mean: 175.03953488372093
Standard Deviation: 2.3295559060275264


## Przykładowe wyniki:
+ Output: [np.float64(173.72093023255815), np.float64(174.8372093023256), np.float64(176.02325581395348), np.float64(171.8372093023256), np.float64(175.7906976744186), np.float64(176.88372093023256), np.float64(176.6046511627907), np.float64(179.58139534883722), np.float64(173.53488372093022), np.float64(171.58139534883722)]
+ Variance: 5.426830719307729
+ MinVal: 171.58139534883722
+ MaxVal: 179.58139534883722
+ Mean: 175.03953488372093
+ Standard Deviation: 2.3295559060275264