# Powtórka
* Jaką hipotezę wybraliśmy dla regresji logistycznej?

* Co to jest funkcja wiarygodności?

*  Na czym polega "Zasada największej wiarygodności"?

* Jak pokazać, że dany rozkład należy do rodziny rozkładów wykładniczych?


$\qquad$$ p(y;\eta) = b(y) \exp(\eta^T T(y) - a(\eta))$ 

* Jak znaleźć hipotezę dla danych modelowanych przez pewien znany rozkład w oparciu o GLM?

* Jak wygląda funkcją softmax i gdzie jej używamy?

$\qquad$$\phi_i = \frac{\exp(\eta_i)}{\sum_{j=1}^k \exp(\eta_j)}$

# Ocena klasyfikatorów binarnych

* Klasyfikatory binarne to te, których zadaniem jest przypisanie danemu przykładowi jednej z dwóch możliwych klas. 
* Przykładem takiego klasyfikatora jest znana już nam regresja logistyczna.

## Przykład klasyfikowania osób na zdrowe i chore na podstawie objawów. 

* Klasyfikator jako cechy przyjmuje na wejściu objawy (przedstawione w postaci numerycznej) i zwraca wynik klasyfikacji (testu).

* Zakładamy, że mamy dane zawierające zarówno objawy $O$ jak i faktyczny stan osoby $W$ dla pewnej grupy osób 
 * $W$ może mieć dwie wartości: 
   * zdrowy, 
   * chory. 
   

* Mamy też pewien klasyfikator, który realizuje odwzorowanie:

$\qquad$ $H(O)  \rightarrow K $

* I tu podobnie, wynik klasyfikatora $K$ może przyjąć jedną z dwóch wartości: zdrowy lub chory. 
* W praktyce medycznej najczęściej mówimy, że pozytywny wynik testu wskazuje na chorobę.

## Typy błędów
Porównując wyniki $W$ i $K$ możemy mieć cztery sytuacje, 
![](ROC_table.png)

Anglojęzyczna nomenklatura często stosowana do opisu tych możliwości to:
* TP: true positive,  hit
* TN: true negative,  correct rejection
* FP: false positive, false alarm, Type I error
* FN: false negative, with miss, Type II error

## Miary
* Jeśli mamy zbiór uczący o pewnej liczebności to dla każdego z elementów zbioru uczącego zachodzi jedna z powyżej opisanych możliwości. 
* Dla całego zbioru uczącego mamy konkretne liczby przypadków każdego typu. 
* Zliczenia tych przypadków są podstawą do stworzenia pewnych miar pozwalających na ocenę klasyfikatora. 


### Czułość i specyficzność 
* czułość: Prawdopodobieństwo, że klasyfikacja będzie poprawna pod warunkiem, że przypadek jest pozytywny (ang. True Positive Rate). 

$\qquad$ $TPR = \frac{TP}{ P} = \frac{TP} { TP+FN}$
 > Prawdopodobieństwo, że test wykonany dla osoby chorej wykaże, że jest ona chora.

* specyficzność: Prawdopodobieństwo, że klasyfikacja będzie poprawna, pod warunkiem, że przypadek jest negatywny (ang. False Positive Rate). 
$\qquad$ $SPC = \frac{TN}{  N} = \frac{TN} { FP + TN} = 1 - FPR $
 > Prawdopodobieństwo, że dla osoby zdrowej test nie wykryje choroby.

### Fałszywe alarmy### 
* częstość fałszywych alarmów:  (False Positive Rate)
 > Jak dużej frakcji osób zdrowych test wyjdzie pozytywnie?
$\qquad$ $FPR = \frac{FP}{ N} = \frac{FP}{ FP + TN} = 1-SPC$
* częstość fałszywych odkryć: (False Discovery Rate (FDR)): 
 > Jak duża frakcja spośród pozytywnych wyników testu jest fałszywa?
$\qquad$ $FDR = \frac{FP}{P'}=\frac{FP}{ FP + TP}$

### Własności predykcyjne: Precyzja
* precyzja pozytywna: (positive predictive value (PPV), precision). Odpowiada na pytanie: 
 > Jeśli wynik testu jest pozytywny, jakie jest prawdopodobieństwo, że osoba badana jest chora? 
$\qquad$ $PPV = \frac{TP}{P'}=\frac{TP}{ TP + FP}$

* precyzja negatywna: (negative predictive value (NPV).) Odpowiada na pytanie: 
 > Jeśli wynik testu jest negatywny, jakie jest prawdopodobieństwo, że osoba badana jest zdrowa?
$\qquad$ $NPV =\frac{TN }{N'} =\frac{TN }{ TN + FN}$

####  Efekt częstości występowania 
Częstość występowania ma znaczący wpływ na opisane powyżej wartości predykcyjne. 
* Przypuśćmy, że mamy test na pewną chorobę i charakteryzuje się on 99% czułością i 99% specyficznością. 
* Załóżmy, że testowanych jest 2000 osób  i częstość występowania choroby (w próbie) wynosi 50%, 
  * to znaczy 1.000 z nich są chore a 1000 z nich są zdrowe. 
* W takiej sytuacji spodziewamy się  około 990 wyników TP i  990 TN oraz około 10 wyników FP i 10 FN. 
* Dodatnie (PPV = 99%) i ujemne (NPV = 99%) wartości predykcyjne są duże, więc możemy mieć wysokie zaufanie do wyniku. 

* Jednakże, w przypadku gdy częstość występowania choroby będzie wynosiła  tylko 5%, 
  * czyli z 2000 osób tylko 100 jest chorych, 
* Prawdopodobnym rezultatem jest TP = 99, FN = 1, TN = 1881 i FP = 19. 
* Spośród 19 + 99 osób pozytywnych, tylko 99 naprawdę są chorzy
  * to znaczy, że biorąc pod uwagę, że wynik badania pacjenta jest dodatni, jest tylko PPV =0.84 szans, że jest on naprawdę chory. 
  * Z drugiej strony biorąc pod uwagę ujemny wynik testu pacjenta, jest tylko 1 szansa na 1882 (NPV= 0,999 ), że pacjent cierpi na chorobę, mimo ujemnego wynik testu.

In [5]:
N_pop = 2000
TPR = 0.99 # czułość
SPC = 0.99 # specyficzność
f_wyst = 0.99 # częstość występowania
P = N_pop * f_wyst # oczekiwana liczba osób chorych
N = N_pop * (1-f_wyst) # oczekiwana liczba osób zdrowych
TP = TPR * P # spodziewana liczba przypadków TP
TN = SPC * N # spodziewana liczba przypadków TN
FP = N - TN
FN = P - TP
PPV = TP/(TP + FP)
NPV = TN/(TN + FN)
print("_________________________________________________________________")
print("Liczebność populacji: %d"%(N_pop))
print("częstość występowania choroby: %.2f"%(f_wyst))
print("czułość: %.2f \t specyficzność: %.2f"%(TPR,SPC))
print("_________________________________________________________________")
print("oczekiwana liczba osób \t\t| chorych: %4.0f\t| zdrowych %4.0f"%(P,N) )
print("prawidłowo zdiagnozowanych \t| chorych: %4.0f\t| zdrowych %4.0f"%(TP,TN) )
print("błędnie zakwalifikowanych jako\t| chorych: %4.0f\t| zdrowych %4.0f"%(FP,FN))
print("_________________________________________________________________")
print("precyzja pozytywna: %3.3f \t| precyzja negatywna %.3f"%(PPV,NPV))

_________________________________________________________________
Liczebność populacji: 2000
częstość występowania choroby: 0.99
czułość: 0.99 	 specyficzność: 0.99
_________________________________________________________________
oczekiwana liczba osób 		| chorych: 1980	| zdrowych   20
prawidłowo zdiagnozowanych 	| chorych: 1960	| zdrowych   20
błędnie zakwalifikowanych jako	| chorych:    0	| zdrowych   20
_________________________________________________________________
precyzja pozytywna: 1.000 	| precyzja negatywna 0.500


### Miary zbalansowane
Powyżej rozważane miary były sparowane, tzn. trzeba obie jednocześnie brać pod uwagę przy ocenie testu/klasyfikatora.  Poniżej są definicje popularnych miar sprowadzonych do jednej liczby, która w pewnym stopniu opisuje całościowo wyniki.

* dokładność ( accuracy (ACC)): Prawdopodobieństwo prawidłowej klasyfikacji.

$\qquad$ $ACC = \frac{TP + TN}{P + N}$

* F1-score: średnia harmoniczna z precyzji i czułości:

$\qquad$ $F_1= 2 \frac{PPV  \cdot TPR}{PPV+TPR}= \frac{2TP}{ 2TP+FP+FN}$
Miara ta daje ocenę balansu między czułością a precyzją. Miara ta nie uwzględnia wyników prawdziwie negatywnych.

* $F_\beta$ jest uogólnieniem powyższej miary, które pozwala regulować za pomocą parametru $\beta$ wagę jaką przykładamy do PPV:

$\qquad$ $F_\beta = (1+ \beta^2) \frac{PPV \cdot TPR}{PPV \beta^2 +TPR} $

* współczynnik korelacji Matthews ( Matthews correlation coefficient):

$\qquad$ $
\text{MCC} = \frac{ TP \cdot TN - FP \cdot FN } {\sqrt{ (TP + FP) ( TP + FN ) ( TN + FP ) ( TN + FN ) } }
$

  * Ten współczynnik uwzględnia wyniki zarówno prawdziwie jaki i fałszywie pozytywne i negatywne i jest na ogół uważany jako zrównoważona miara, która może być stosowana nawet wtedy, gdy klasy są bardzo różnej liczebności. 
  * MCC jest w istocie współczynnikiem korelacji pomiędzy obserwowanymi i przewidywanymi klasyfikacjami binarnymi; zwraca wartość od -1 do +1. 
    * Współczynnik +1 odpowiada idealnej klasyfikacji, 
    * 0 nie lepiej niż losowe przypisanie wyniku i 
    * -1 oznacza całkowitą niezgodę między klasyfikacją  i stanem faktycznym.

##  Klasyfikator z progiem  
Powyżej rozważaliśmy test/klasyfikator dający wynik binarny. Łatwo jest sobie wyobrazić, że klasyfikator ma ciągłe wyjście, które po porównaniu z pewną wartością progową daje dopiero ostateczny wynik. W takiej sytuacji warto mieć metodę pozwalającą na świadomy wybór optymalnego progu i na ocenę klasyfikatora, abstrahując od konkretnej wartości progu. Takich możliwości dostarcza analiza ROC.

![](ROC_rozklady.png)

Prawdopodobieństwa podejmowania każdego rodzaju decyzji będą się zmieniały wraz z przesuwaniem progu podejmowania decyzji, czyli wartości hipotezy przy której zaliczamy przypadek do klasy 1.

## Krzywe charakterystyki roboczej odbiorcy (ROC)
**Krzywa ROC**: każdy punkt na tej krzywej otrzymywany jest dla ustalonej wartości progu i ma współrzędne (1−specyficzność, czułość).

Demo ilustrujące powstawanie krzywej ROC: HowReceiverOperatingCharacteristicCurvesWork.nb

http://arogozhnikov.github.io/2015/10/05/roc-curve.html

Krzywa ROC przydaje się do porównywania różnych klasyfikatorów oraz do wyboru punktu pracy (progu)

AUC: Pole powierzchni pod krzywą ROC ma interpretację probabilistyczną: 
 > jest to prawdopodobieństwo tego, że klasyfikator przydzieli wyższą rangę dla losowo wybranego przypadku pozytywnego niż negatywnego (zakładając, że wynik pozytywny ma wyższą rangę niż negatywny) 
 
W tym sensie jest ono blisko związane ze statystyką Wilcoxona [http://pubs.rsna.org/doi/abs/10.1148/radiology.143.1.7063747]

# Walidacja krzyżowa (Cross-validation)
## Generalizacja: O co tu chodzi?  
<img src="Generalizacja.png" alt="Drawing" style="width: 400px;"/>


Na rysunku powyżej przedstawiona jest schematycznie koncepcja generalizacji. 
* Wyobraźmy sobie, że jest pewna przestrzeń P, która zawiera pary, np. liczb {((a,b), c)}. 
* W tym przykładzie jest to przestrzeń wszystkich odwzorowań $\mathcal{R}^2 \rightarrow \mathcal{R}$. 
* Niektóre z tych par reprezentują pewną konkretną relację R: np. są to pary spełniające warunek $c=\sqrt{a^2 +b^2}$. 
* Wyobraźmy sobie dalej, że mamy dane dwa skończone zestawy par, które tą relację spełniają, ale oczywiście nie są w stanie obejmować wszystkich możliwych par. 
* Jeden z nich oznaczymy U, a drugi T. Załóżmy, że mamy dwie wersje klasyfikatora, które uczymy na zbiorze U (mogą się one różnić architekturą, albo punktem startu procedury uczącej, albo ilością iteracji algorytmu uczącego itp.).
* Po procesie uczenia klasyfikatory te mają mały i porównywalny błąd na zbiorze U, ale jedna z nich nauczyła się relacji wskazanej na rys. jako g1 a druga relacji g2. 
* Na podstawie rezultatów odtwarzania przykładów ze zbioru testowego mówimy, że klasyfikator drugi ma lepszą generalizację niż klasyfikator pierwszy.

## Porównywanie klasyfikatorów  na podstawie błędów generalizacji.
Najlepiej byłoby mieć możliwie mały błąd generalizacji — jak go oszacować?
Można zastosować następujące techniki:
* wiele zbiorów testowych:  trzeba mieć dużo danych, żeby wystarczyło na rozsądny zbiór treningowy i kilka testowych

* kros-walidacja: najprostsza wersja (leave-one-out):
  * wybierz przypadek do odrzucenia
  * trenuj klasyfikator na wszystkich przypadkach oprócz tego jednego — na tym jednym oblicz błąd generalizacji
  * powtarzaj to dla każdego przypadku <br>Zaleta — można efektywnie użyć całego zbioru danych do uczenia i testowania, <br>Cena — wielokrotne uczenie sieci
  

* Bootstrapowanie — wielokrotnie losuje się z powtórzeniami z pełnego zbioru dwie próby:
  * do nauki klasyfikatora
  * do testowania.