# Analiza Wielowymiarowa - zajecia 8 -  Analiza dyskryminacji 

In [None]:
from multidim.utils import resolve_stata, load_stata

STATA_PATH, STATA_TYPE = resolve_stata(version = 18, stype = "se")
# make sure they are proper ones
STATA_PATH, STATA_TYPE

In [None]:
load_stata(STATA_PATH, STATA_TYPE)

In [None]:
from pystata import stata
import pandas as pd
import numpy as np
import scipy
import sklearn

from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

Podczas dzisiejszych zajec wykorzystujemy dane udostepnione przez Uniwersytet Kalifornijski w Los Angles (UCLA)  
Dane i ich opis mozna znalezc na stronie https://stats.idre.ucla.edu/stata/dae/discriminant-function-analysis/


### Przykład 1.


Duży przewoźnik lotniczy zebrał informacje o osobach zatrudnionych na trzech stanowiskach
1. obsluga klienta (customer service personnel)
2. mechanik 
3. dyspozytorzy (dispatchers) 

Dyrektor Działu Personalnego chciałby wiedzieć, czy na każdym stanowisku pracują osoby o różnym typie osobowości.
Każdy pracownik został poddany serii testów psychologicznych obejmujących zainteresowanie aktywnoscią, 
mierzących towarzyskość pracownika oraz określających poziom jego konserwatyzmu


In [None]:
%stata use https://stats.idre.ucla.edu/stat/stata/dae/discrim, clear

In [None]:
%%stata
/// opis zbioru
des
/// Rozpoczynamy analize od podstawowych statystyk zmiennych psychologicznych
summarize outdoor social conservative
/// Podstawowe statystyki w podziale na typ wykonywanej pracy
/// opcja stat definiuje statystki do wyswietlenia
/// opcja col(stat) okresla ze maja one byc wyswietlone w kolumnach tabeli
tabstat outdoor social conservative, by(job) stat(n mean sd min max) col(stat)
/// Tablica korelacji. Opcja sig wyswietla wartosc p dla hipotezy o braku korelacji
pwcorr outdoor social conservative, sig
/// Analiza rozkladu zmiennej grupujacej
tabulate job

Kanoniczna analiza dyskryminacyjna  
Wykonanie polecenia powoduje wykonanie kanonicznej analizy dyskryminacyjnej  
Wyniki sa prezentowane w 6 tabelach  
Tabela 1 - wartosci wlasne i statystyczna istotnosc kierunkow dyskryminacji  
Tabela 2 - standaryzowane oszacowania kanonicznych wspolczynnikow dyskryminacji  
Tabela 3 - tabela ladunkow kanonicznych  
Tabela 4 - etykiety grup  
Tabela 5 - srednie wartosci zmiennych kanonicznych dla grup  
Tabela 6 - tabela klasyfikacji przy zalozonym jednostajnym rozkladzie a-priori.  
Przyjmowany rozklad a-priori mozna zmienic wykorzystujac opcje prior  

In [None]:
discrim = pd.read_stata("https://stats.idre.ucla.edu/stat/stata/dae/discrim.dta")

In [None]:
discrim.describe()

In [None]:
discrim[["outdoor", "social", "conservative"]].corr()

In [None]:
discrim.job.value_counts()

### LDA

In [None]:
# Polecenie candisc" jest odpowiednikiem "discrim lda"
# Polecenie "candisc" wykonuje kanomiczną wersję liniowej analizy dykryminacyjnej (LDA).  
# Oba polecenia w Stata obliczają to samo, różnią się pod względem wyboru wyników w prezentacji. 

In [None]:
%%stata
candisc outdoor social conservative, group(job)

In [None]:
%stata estat classfunctions

In [None]:
%%stata
/// Wyniki analizy mozna zaprezentowac na wykresie obrazujacym wartosci zmiennych kanonicznych
/// Dla przejrzystosci wykresu przed jego wykonaniem skracamy etykiety kategorii
label define job 1 "c" 2 "m" 3 "d", modify
scoreplot, msymbol(i)

/// Wykres rozrzutu standaryzowanych ladunkow czynnikowych funkcji dyskryminacyjnej
/// Pokazuje zaleznosc miedzy srednimi wartosciami oryginalnych zmiennych a wspolczynnikami korelacji kanonicznej
loadingplot

In [None]:
%%stata
/// Te same wyniki mozna uzyskac poleceniem discrim lda
/// W przypadku tego polecenia Stata wyswietla wylacznie tablice klasyfikacji
discrim lda outdoor social conservative, group(job)

In [None]:
# %stata help FUN postestimation
# %stata help discrim lda postestimation

In [None]:
%%stata
/// Wyswietlenie tablicy analizy wariancji
estat anova
/// Tabela wartosci wlasnych i statystyczna istotnosc kierunkow dyskryminacji
estat canontest
/// Tabela oszacowan parametrow funkcji klasyfikacyjnych
estat classfunctions 
/// Tabela klasyfikacji
estat classtable
/// Tabela korelacji miedzy zmiennymi
estat correlations
/// Tabela kowariancji miedzy zmiennymi
estat covariance
/// Tabela standaryzowanych oszacowan kanonicznych wspolczynnikow dyskryminacji
estat loadings
/// Macierz struktury kanonicznej
estat structure

In [None]:
y = discrim.job
X = discrim.loc[:, ["outdoor", "social", "conservative"]]

In [None]:
lda = LinearDiscriminantAnalysis(solver = 'eigen')
lda.fit(X, y)
print(lda.classes_)
lda.coef_.T, lda.intercept_

In [None]:
print(classification_report(y, lda.predict(X)))
confusion_matrix(y, lda.predict(X))

### Przykład 2.


Jest to przyklad analizy dyskryminacyjnej, ktory mozna znalezc w niemal kazdym 
podreczniku analizy wielowymiarowej. Zostal opracowany przez Fishera w 1936 roku
Analiza obejmuje trzy odmiany irysow i cztery zmienne opisujace ich cechy:
- Dlugosc platka [cm] (petal lenght)
- Szerokosc platka [cm] (petal width)
- Dlugosc listka kielicha [cm]
- Szerokosc listka kielicha [cm]

In [None]:
%%stata
di "Fisher example iris data"
use ../../dane/iris.dta, clear

In [None]:
iris = pd.read_stata("../../dane/iris.dta")
# iris_set = datasets.load_iris()
# iris_x = iris_set["data"]
# iris_y = iris_set["target"]
iris_x = iris.iloc[:,1:]
iris_y = iris.iloc[:,0].values
# SCALING
# W pewnych przypadkach istotna bedzie standaryzacja
iris_x_scaled = (iris_x - np.mean(iris_x, axis = 0)) / np.std(iris_x, axis = 0)

In [None]:
%%stata
/// Opis danych
des
/// Podstawowe statystyki opisowe
bysort iris: su seplen sepwid petlen petwid 

In [None]:
iris.\
groupby("iris").\
describe().T

In [None]:
%%stata
/// Analiza dyskryminacji
discrim lda seplen sepwid petlen petwid, group(iris)
/// Tabela nieprawidlowo klasyfikowanych obserwacji
estat list, misclassified
/// wagi
estat classfunctions
/// Tabela niestandaryzowanych i standaryzowanych oszacowan kanonicznych wspolczynnikow dyskrminacji
estat loadings, unstandardized standardized
loadingplot
scoreplot, msymbol(i)
/// Uzyskanie klasyfikacji
predict klasyfikacja
/// Tabela klasyfikacji
tab iris klasyfikacja

In [None]:
lda = LinearDiscriminantAnalysis(solver = 'eigen')
lda.fit(iris_x.values, iris_y)
print(lda.classes_)
lda.coef_.T, lda.intercept_

In [None]:
# misclassified
np.where(iris_y != lda.predict(iris_x.values))

In [None]:
# Tylko 2 pierwsze poziomy (odmiany skorczyka)
# 100 pierwszych obserwacji gdyz dane sa posortowane
# idx = list(range(100))
# lda = LinearDiscriminantAnalysis(n_components = 1, solver = 'eigen')
# lda.fit(iris_x_scaled[idx,:], iris_y[idx])
# Tutaj tylko jeden wektor wag
# print(lda.coef_.T, lda.intercept_)
# values = iris_x_scaled[idx,:] @ lda.coef_.T + lda.intercept_
# print(1/(1+np.exp(-values)))

### Dodatek Train/Test Prediciton

In [None]:
X_train, X_test, y_train, y_test = train_test_split(iris_x, iris_y, random_state=1234)

In [None]:
lda = LinearDiscriminantAnalysis(n_components = 2)
lda.fit(X_train, y_train)
print(lda.score(X_test, y_test))

In [None]:
# Predykcje
# lda.predict_proba(X_test)
# OR
# values = X_test @ lda.coef_.T + lda.intercept_
# values - values.max(axis=1)[:, np.newaxis]
# likelihood = np.exp(values - values.max(axis=1)[:, np.newaxis])
# predictions = np.round(likelihood / likelihood.sum(axis=1)[:, np.newaxis], 2)

In [None]:
# Tablica klasyfikacji
confusion_matrix(y_test, lda.predict(X_test))

In [None]:
print(classification_report(y_test, lda.predict(X_test)))

### Przykład 3.


Na podstawie danych z badania Diagnoza Spoleczna 2011 bedziemy analizowac stosunek obywateli do euro

In [None]:
%stata use ../../dane/euro.dta, clear

In [None]:
euro = pd.read_stata("../../dane/euro.dta")

In [None]:
%stata des

In [None]:
%%stata
/// Zbadajmy rozklad zmiennej zaleznej
tab euro

In [None]:
euro.dtypes

In [None]:
euro.euro.value_counts()

In [None]:
#%stata help discrim knn

In [None]:
%%stata
/// Jaki model nalezy wybrac?
bysort euro: su wiek klm kobieta wyksz zna_angielski partia_PO partia_PiS
corr wiek klm kobieta wyksz zna_angielski partia_PO partia_PiS
/// Przeprowadz odpowiednia analize dyskryminacyjna
/// Zastanow sie jaki model zastosowac oraz jaki dorbac rozklad a-priori
/// Zastanow sie czy wszystkie zmienne dobrze rozdzielaja zbior

In [None]:
euro[["wiek", "klm", "kobieta", "wyksz", "zna_angielski", "partia_PO", "partia_PiS", "euro"]].\
groupby("euro").\
describe().T

In [None]:
euro.apply(lambda x: x if not hasattr(x, 'cat') else x.cat.codes).corr()

In [None]:
%%stata
/// Zbadaj stosunek do euro metoda najblizszych sasiadow
// losujemy 10% probe prosta by przyspieszyc obliczenia
sample 10
// Zastanow sie jaki rozklad a-priori wybrac aby zbadac poprawnosc klasyfikacji
discrim knn wiek klm kobieta wyksz zna_angielski partia_PO partia_PiS, group(euro) k(5)

In [None]:
# Bardzo szybki Algorytm - wiec wszytskie obserwacje
neigh = KNeighborsClassifier(n_neighbors=5)
X = pd.get_dummies(euro.loc[:, euro.columns != "euro"]).values
# X.columns = X.columns.str.replace("[^a-zA-Z\_0-9]", "", regex = True)
y = euro["euro"]
neigh.fit(X, y)

In [None]:
preds = neigh.predict(X)

In [None]:
#Tablica klasyfikacji 
confusion_matrix(y, preds)

In [None]:
print(classification_report(y, preds))