# Raport z analizy i modelowania zbioru danych zawierającego informacje o właściwościach wody 

Celem analizy zbioru danych jest klasyfikacja próbek wody na zdatną lub niezdatną do picia. Modelowana będzie zmienna "potability" - oznaczająca czystą wodę, która nadaje się do spożycia.

Motywacja: "Dostęp do bezpiecznej wody pitnej jest niezbędny dla zdrowia. Jest podstawowym prawem człowieka i elementem skutecznej polityki ochrony zdrowia. Ważna jest również jako kwestia rozwoju na poziomie krajowym, regionalnym i lokalnym. W niektórych regionach wykazano, że inwestycje w zaopatrzenie w wodę i urządzenia sanitarne mogą przynieść korzyści ekonomiczne netto, ponieważ zmniejszenie negatywnych skutków zdrowotnych i kosztów opieki zdrowotnej przewyższają koszty podjęcia interwencji."

Opis modelowanej zmiennej:

Woda pitna - czysta woda, która nadaje się do spożycia (bez zagrożenia dla zdrowia). Powinna ona zawierać odpowiednią ilość soli mineralnych, a nie zawierać zanieczyszczeń organicznych i nieorganicznych. Wodę pitną można czerpać ze studni lub innych ujęć, a na terenach zurbanizowanych jej podstawowym rodzajem jest woda wodociągowa. W krajach rozwiniętych coraz powszechniej spożywa się wodę mineralną.Czasami wodę pitną można uzyskać przez przegotowanie wody powierzchniowej, lecz nie daje to gwarancji unieszkodliwienia wszystkich drobnoustrojów. Spożywanie wody skażonej bakteriologicznie może być przyczyną zatrucia, którego najczęstszymi objawami są nudności, wymioty i biegunka.

Opis danych:

(1) pH - jest ważnym miernikiem w określaniu równowagi kwasowo-zasadowej wody. Może być również używany do określenia, czy woda ma odczyn kwaśny lub zasadowy. Maksymalna dopuszczalna granica pH została ustalona przez WHO na 6,5 do 8,5. 

(2) Hardness - twardość wody to właściwość wynikająca z obecności w niej soli wapnia, magnezu i innych metali, a dokładnie – z ich stężenia. Czas kontaktu wody z materiałem powodującym twardość wpływa na stopień twardości wody surowej.

(3) Solids - substancje stałe, które składają się ze wszystkich zawieszonych, koloidalnych i rozpuszczonych substancji. Są to wszelkie rozpuszczone sole, takie jak chlorek sodu (NaCl) i cząstki stałe, takie jak muł i plankton.W zależności od kryteriów oceny, wysoki poziom całkowitej zawartości części stałych może spowodować, że próbka zostanie uznana za skażoną.

(4) Chloramines - chloramina jest popularnym środkiem odkażającym, stosowanym w roztworach wodnych, o lepszym działaniu od roztworów samego chloru, gdyż jest od niego trwalsza w roztworach, a ze związkami organicznymi nie tworzy szkodliwych dla zdrowia halometanów. 

(5) Sulfate - do wody dostają się ze ściekami przemysłowymi oraz opadami atmosferycznymi, w wodzie podziemnej występują w najwyższych stężeniach i pochodzą ze źródeł naturalnych. Są jednymi z najmniej toksycznych anionów, chociaż przy ich wysokich stężeniach następuje odwodnienie i podrażnienie przewodu pokarmowego. Obecność siarczanów w wodzie do spożycia może również powodować wyczuwalną zmianę jej smaku oraz może przyczyniać się do korozji systemów wodociągowych.

(6) Conductivity - przewodność jest wskaźnikiem całkowitej ilości rozpuszczonych minerałów zawartych w wodzie. Woda deszczowa ma niską przewodność, natomiast woda ściekowa czy ta w dolnych biegach rzek – wysoką. Wyższa przewodność sama w sobie nie powoduje problemów zdrowotnych. Wręcz przeciwnie – wody mineralne (tj. wody z wysoką zawartością minerałów) są często lecznicze. Jednak pod względem długotrwałej konsumpcji zbyt zmineralizowana woda nie jest idealna.

(7) Organic carbon - ogólny węgiel organiczny to miara ilości związków organicznych zawartych w próbce wody. Związki zawierające węgiel organiczny mogą być rozpuszczone w wodzie lub występować jako nierozpuszczona w wodzie zawiesina materiału lub płynu. Ta materia organiczna może dostawać się do wody w sposób naturalny, ale także ze źródeł i w wyniku procesów obsługiwanych przez człowieka. Przykładami substancji organicznych są substancje pochodzenia roślinnego lub zwierzęcego oraz syntetyczne, które zawierają węgiel i inne pierwiastki tworzące związki organiczne.

(8) Trihalomethanes - powstają w wodzie do picia głównie na skutek reakcji chloru z naturalnie występującymi składnikami organicznymi i znajdującymi się w wodzie bromkami. Spośród związków należących do omawianej grupy, w wodzie najczęściej stwierdza się obecność chloroformu, o stężeniu sporadycznie sięgającym nawet kilkuset mikrogramów na litr. W wyniku wprowadzenia chloroformu drogą doustną, w organizmie może powstać kilka czynnych przejściowych metabolitów. Długotrwałe narażenie na dużą dawkę może w konsekwencji powodować zmiany w wątrobie, nerkach i tarczycy.

(9) Turbidity - mętność wody powodują nierozpuszczone substancje zawieszone w wodzie. Może chodzić o substancje nieorganiczne ( piaski, iłły, wytrącone związki żelaza i manganu, a także związki chemiczne pochodzące ze ścieków) lub organiczne ( gliny, związki humusowe, obumarłe cząstki roślin, plankton, bakterie oraz nierozpuszczalne związki organiczne ze ścieków przemysłowych).

Opis jednostek w jakich podane są zmienne:

Pochodzenie danych: https://www.kaggle.com/adityakadiwal/water-potability

In [None]:
#import bibliotek
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
import statsmodels.api as sm
import statsmodels.formula.api as smf
import sklearn.linear_model as skl_lm
import sklearn.ensemble
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

from scipy import stats
from sklearn import neighbors
from sklearn.metrics import confusion_matrix, classification_report, precision_score, plot_confusion_matrix
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV, StratifiedKFold, cross_val_score, train_test_split
from itertools import product
from sklearn.utils import resample, shuffle
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

Eksploracyjna analiza danych:

In [None]:
#wczytanie danych
df = pd.read_csv('water_potability.csv')

In [None]:
df.head()

In [None]:
df.describe().T

In [None]:
df.dtypes

Wszystkie zmienne są numeryczne, a więc nie trzeba zmieniać ich typu.

In [None]:
df.info()

In [None]:
df.shape

Zbiór danych posiada 3276 wierszy oraz 10 kolumn

In [None]:
#sprawdzenie równowagi zmiennej celu
df.Potability.value_counts()

In [None]:
fig, ax = plt.subplots(figsize = (8, 8))

ax.pie(df.Potability.value_counts(), labels = ["0", "1"], explode = (0, 0.05), shadow=True, radius=0.75,
       autopct = '%1.2f%%', startangle = 180, colors = ["#ff9999", "#66b3ff"])

ax.legend(['Niezdatna', 'Zdatna'])
ax.set_title("Zdatność wody do picia")
plt.show()

W póżniejszych krokach na pewno zajmę się sprowadzeniem podziału zmiennej celu do równowagi

In [None]:
#sprawdzenie obecności brakujących danych:
df.isnull().any()

In [None]:
df.isna().sum()

In [None]:
sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='viridis')

Trzy zmienne posiadają brakujące dane: pH = 491 braków, Sulfate - 781 brakow, Trihalomethanes - 162 braki.

Udział procentowy brakujących danych w zbiorze danych:

In [None]:
df.isnull().sum() / len(df) * 100

Udział procentowy jest duży w szczególności dla kolumny zawierającej wyniki zawartości siarczanów, a więc decyduję się na uzupełnienie braków, a nie ich pominięcie.

Sprawdzanie dystrybucji poszczególnych zmiennych - by móc zdecydować w jaki sposób uzupełnić brakujące dane:

In [None]:
columns = df.columns

fig, axes = plt.subplots(3, 3, figsize=(10, 10))
product_indexes = product([0, 1, 2], [0, 1, 2])

for idx, col in zip(product_indexes, columns):
    sns.histplot(x=col, data=df, kde=True, bins=30, ax=axes[idx[0], idx[1]])

Jak widać każda ze zmiennych posiada rozkład normalny, a więc można zastosować uzupełnienie brakujących danych poprzez średnią pogrupowaną według 'Potability':

In [None]:
df['ph']=df['ph'].fillna(df.groupby(['Potability'])['ph'].transform('mean'))
df['Sulfate']=df['Sulfate'].fillna(df.groupby(['Potability'])['Sulfate'].transform('mean'))
df['Trihalomethanes']=df['Trihalomethanes'].fillna(df.groupby(['Potability'])['Trihalomethanes'].transform('mean'))

In [None]:
#sprawdzenie poprawności uzupełnienia brakujących danych
df.isna().sum()

Badanie korelacji między zmiennymi za pomocą współczynnika korelacji liniowej Pearsona:

In [None]:
corr_P = df.corr("pearson")

In [None]:
corr_P

In [None]:
corr_P_tri = corr_P.where(np.triu(np.ones(corr_P.shape, dtype=bool),k=1)).stack().sort_values()

Filtrowanie wartości współczynnika korelacji na poziomie 0.5 by sprawdzić czy istnieje współliniowość między zmiennymi

In [None]:
corr_P_tri[abs(corr_P_tri)> 0.50]

Brak korelacji między zmiennymi, co potwierdza również poniższy wykres:

In [None]:
cols = ['Solids', 'Turbidity', 'Chloramines', 'ph','Trihalomethanes','Hardness','Sulfate'
        ,'Conductivity','Organic_carbon']

In [None]:
sns.pairplot(df[cols])

Identyfikacja punktów oddalonych:

In [None]:
sns.boxplot(df['ph'])

In [None]:
sns.boxplot(df['Hardness'])

In [None]:
sns.boxplot(df['Solids'])

In [None]:
sns.boxplot(df['Sulfate'])

In [None]:
sns.boxplot(df['Conductivity'])

In [None]:
sns.boxplot(df['Organic_carbon'])

In [None]:
sns.boxplot(df['Trihalomethanes'])

In [None]:
sns.boxplot(df['Turbidity'])

Metoda Z-score

Wskaźnik z-score jest oceną standaryzacji, który mierzy siłę odstawania, czyli to, jak bardzo konkretny wynik różni się od wyniku typowego

In [None]:
z = np.abs(stats.zscore(df))
print(z)

In [None]:
#filtrowanie punktów, gdzie odchylenie standardowe jest powyżej 3
threshold = 3
print(np.where(z > 3))

Wszystkie zmienne posiadają punkty oddalone. Ze względu na specyfikę zbioru danych (ich min i max znajdują się w zakresie, który faktycznie mógł wystąpić w naturze) i analizę konkretnych punktów oddalonych (nie są to punkty wynikające z błędu pomiaru) - nie decyduję się na ich usunięcie.

Dane nie są zbalansowane, co może mieć duży wpływ na wyniki modelowania. Dlatego zastosuję upsampling by uchronić modele przed biasem.

In [None]:
df.Potability.value_counts()


In [None]:
#upsampling próbek zdatncych do picia, w celu zrównoważenia zbioru - za pomocą funkcji resample
niezdatna  = df[df['Potability']==0]
zdatna = df[df['Potability']==1]  

df_upsampled = resample(zdatna, replace = True, n_samples = 1998) 

df = pd.concat([niezdatna, df_upsampled])
df = shuffle(df) 

In [None]:
#sprawdzenie poprawności wykonania upsamplingu
df.Potability.value_counts()

Przygotowanie danych do modelowania: standaryzacja oraz podział zbioru na treningowy i testujący

In [None]:
X = df.drop(['Potability'], axis=1)
y = df['Potability']

In [None]:
#podział zbioru na treningowy i testujący
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=40)
print("X_train",X_train.shape)
print("X_test",X_test.shape)
print("y_train",y_train.shape)
print("y_test",y_test.shape)

Standaryzacja:

In [None]:
m = X.mean()
s = X.std()

In [None]:
X_train_std = (X_train- m)/s
X_test_std = (X_test - m)/s

Modelowanie:

Metoda walidująca model przez cztery wybrane metryki accuracy (ACC), precision (P), recall (R) i F1:

In [None]:
def metrics(y_train, y_pred_train, y_test, y_pred):
    return {
        "ACC_train":  sklearn.metrics.accuracy_score(y_pred_train, y_train),
        "ACC_test": sklearn.metrics.accuracy_score(y_pred, y_test),
        "P_train":    sklearn.metrics.precision_score(y_pred_train, y_train),
        "P_test":   sklearn.metrics.precision_score(y_pred, y_test),
        "R_train":    sklearn.metrics.recall_score(y_pred_train, y_train),
        "R_test":   sklearn.metrics.recall_score(y_pred, y_test),
        "F1_train":   sklearn.metrics.f1_score(y_pred_train, y_train),
        "F1_test":  sklearn.metrics.f1_score(y_pred, y_test)
    }

Metoda najbliższych sąsiadów

Klasyfikatory K-Najbliższych Sąsiadów (KNN - K-Nearest Neighbors) należą do grupy algorytmów leniwych (lazy), tj. takich, które nie tworzą wewnętrznej reprezentacji wiedzy, lecz poszukają rozwiązania po prezentacji każdego wzorca testowego przeszukując dane uczące. Metoda KNN wymaga przechowywania wszystkich wzorców uczących, dla których określana jest odległość do wzorca testowego.

In [None]:
knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_train_std,y_train)

In [None]:
y_pred_train_knn = knn.predict(X_train_std)

In [None]:
y_pred_knn = knn.predict(X_test_std)

Stworzenie ramki danych w celu zebrania wyników ze wszystkich wykonanych modeli:

In [None]:
params = ["knn"]
res = [metrics(y_train, y_pred_train_knn, y_test, y_pred_knn)]
df_wyniki = pd.DataFrame(res, index=params)

In [None]:
df_wyniki

In [None]:
#macierz pomyłek dla zbioru uczącego [[true negative, false positive], [false negative, true positive]]
plot_confusion_matrix(knn, X_train_std, y_train)
plt.show()

In [None]:
#macierz pomyłek dla zbioru testującego
plot_confusion_matrix(knn, X_test_std, y_test)
plt.show()

Random Forest Classifier

Lasy losowe są maszynową metodą uczenia się algorytmów klasyfikacyjnych. Obejmuje ona kilka indywidualnych drzew decyzyjnych, które opierają się na cechach losowych i szkoleniu w zakresie danych w celu osiągnięcia inteligentnego zgadywania, które ma większą wiarygodność niż pojedyncze drzewo decyzyjne. Wszystkie drzewa decyzyjne w lesie losowym są oddzielnymi modelami. Każde z nich wykorzystuje podzbiór cech losowych do przewidywania celu, a wszystkie te przewidywane cele kumulują się razem, aby przewidzieć bardziej dokładny cel.

In [None]:
rfc = RandomForestClassifier()
rfc.fit(X_train_std, y_train)

In [None]:
y_pred_train_rfc = rfc.predict(X_train_std)

In [None]:
y_pred_rfc = rfc.predict(X_test_std)

In [None]:
params.append("RFC")
res.append(metrics(y_train, y_pred_train_rfc, y_test, y_pred_rfc))
df_wyniki = pd.DataFrame(res, index=params)

In [None]:
df_wyniki

In [None]:
#las losowy umożliwia nam również sprawdzenie ważności zmiennych
featimp = pd.Series(rfc.feature_importances_, index=X.columns[0:11]).sort_values(ascending=False)
print(featimp)

Największy wpływ na model mają zmienne pH oraz siarczany

In [None]:
#macierz pomyłek dla zbioru uczącego
plot_confusion_matrix(rfc, X_train_std, y_train)
plt.show()

In [None]:
#macierz pomyłek dla zbioru testującego
plot_confusion_matrix(rfc, X_test_std, y_test)
plt.show()

SVC support vector clasisfier

Support Vector Machine zaliczany jest do estymatorów machine learning uczenia z nadzorem w oparciu o procesy klasyfikacji i analizy regresji.Klasyfikator SVM wykorzystuje algorytm optymalizacji w oparciu o maksymalizację marginesu hiperplanu. Algorytm SVM jest przeznaczony do prowadzenia możliwie najlepszej klasyfikacji wyników. Wektory oddzielające hiperprzestrzenie mogą mieć charakter liniowy lub (dzięki funkcji SVC) nieliniowy.

In [None]:
svc= SVC()
svc.fit(X_train_std, y_train)

In [None]:
y_pred_train_svc = svc.predict(X_train_std)

In [None]:
y_pred_svc = svc.predict(X_test_std)

In [None]:
params.append("SVC")
res.append(metrics(y_train, y_pred_train_svc, y_test, y_pred_svc))
df_wyniki = pd.DataFrame(res, index=params)

Wnioski: Porównanie metryk oraz wybranie najlepszego modelu

In [None]:
df_wyniki

In [None]:
df_train = df_wyniki.drop(['ACC_test', 'P_test', 'R_test', 'F1_test'], axis=1)

In [None]:
df_test = df_wyniki.drop(['ACC_train', 'P_train', 'R_train', 'F1_train'], axis=1)

In [None]:
ax = df_train.plot(kind='bar', figsize = (15,10), ylim = (0.2, 1.05), 
        color = ['gold', 'lightgreen', 'lightcoral', 'lightskyblue'],
        rot = 0, title ='Porównanie metryk dla zbioru uczącego',
        edgecolor = 'grey', alpha = 0.5)

plt.show()

In [None]:
ax = df_test.plot(kind='bar', figsize = (15,10), ylim = (0.2, 1.05), 
        color = ['gold', 'lightgreen', 'lightcoral', 'lightskyblue'],
        rot = 0, title ='Porównanie metryk dla zbioru testującego',
        edgecolor = 'grey', alpha = 0.5)

plt.show()

Kryteria wyboru najlepszego modelu:

Macierz pomyłek jest metodą reprezentacji wyników predykcji w problemach klasyfikacji, dlatego też została zastosowana do ewaluacji powyższych modeli. Jest to tabela z czterema różnymi kombinacjami wartości przewidywanych i rzeczywistych. Macierz pomyłek przedstawia nie tylko błędy popełniane przez klasyfikator, ale co ważniejsze pokazuje jakie to są rodzaje błędów.

Analizując powyższe tabelę oraz wykresy - zarówno dla zbioru uczącego jak i testującego - najlepszym modelem ze względu na wybrane metryki jest losowy las decyzyjny. Każda z metryk (dokładność, precyzyjność, czułość oraz F1-score) ma najwyższy wynik, zarówno analizując zbiór uczący jak i testujący. Poniżej zajmę się udoskonaleniem tego właśnie modelu by przeciwdziałać przeuczeniu, które widoczne jest w metrykach zbioru uczącego. Do tego celu zastosuję strojenie hiperparametrów tego modelu za pomocą metody losowania (Random Search).

Strojenie hiperparametrów to proces dostrajania parametrów występujących jako krotki podczas budowania modeli uczenia maszynowego. Parametry te są przez nas definiowane i można nimi manipulować. Strojenie hiperparametrów ma na celu znalezienie takich parametrów, w których wydajność modelu jest najwyższa lub gdzie wydajność modelu jest najlepsza, a wskaźnik błędów jest najmniejszy. 

Hiperparametry:

RandomizedSearchCV:

Wadą metody siatki może być słabe „przeczesanie przestrzeni” szczególnie w przypadku gdy poszukujemy więcej niż jednego parametru na raz. Jeżeli przestrzeń parametrów jest mocno nieliniowa, a taka jest w naszym przypadku oraz jeden z parametrów ma niewielki wpływ na wyniki to poszukiwanie parametrów na siatce nie jest optymalnym rozwiązaniem. Regularność siatki powoduje, że możemy nie natrafiać na istotne maksima. Tego problemu pozbawione jest przeszukiwanie losowe. Branie do  każdego eksperymentu losowych wartości metaparametrów zwiększa szanse na to aby trafić w charakter przestrzeni.

In [None]:
rf_grid = {"n_estimators": np.arange(10,1000,50),
           "max_depth": [None, 3, 5, 7, 10],
           "min_samples_split": np.arange(2,20,2),
           "min_samples_leaf": np.arange(1, 25, 1)}

In [None]:
rs_rf = RandomizedSearchCV(RandomForestClassifier(),
                           param_distributions = rf_grid,
                           cv=5,
                           n_iter = 20,
                           verbose=True
                           )
rs_rf.fit(X_train, y_train)

In [None]:
best_params = rs_rf.best_params_
print(best_params)

Testowanie modelu z hiperparametrami RS

In [None]:
rfc_rs = RandomForestClassifier(**best_params)
rfc_rs.fit(X_train_std, y_train)

In [None]:
y_pred_train_rfc_rs = rfc_rs.predict(X_train_std)

In [None]:
y_pred_rfc_rs = rfc_rs.predict(X_test_std)

Stworzenie ramki danych w celu porównania dwóch metod wyznaczenia hiperparametrów:

In [None]:
params_rf = ["RFC"]
res_rf = [metrics(y_train, y_pred_train_rfc, y_test, y_pred_rfc)]
df_wyniki_rf = pd.DataFrame(res_rf, index=params_rf)

In [None]:
params_rf.append("RFC RS")
res_rf.append(metrics(y_train, y_pred_train_rfc_rs, y_test, y_pred_rfc_rs))
df_wyniki_rf = pd.DataFrame(res_rf, index=params_rf)

In [None]:
df_wyniki_rf

Podsumowanie:

In [None]:
df_train_hiper = df_wyniki_rf.drop(['ACC_test', 'P_test', 'R_test', 'F1_test'], axis=1)

In [None]:
df_test_hiper = df_wyniki_rf.drop(['ACC_train', 'P_train', 'R_train', 'F1_train'], axis=1)

In [None]:
ax = df_train_hiper.plot(kind='bar', figsize = (15,10), ylim = (0.2, 1.05), 
        color = ['gold', 'lightgreen', 'lightcoral', 'lightskyblue'],
        rot = 0, title ='Porównanie metryk dla zbioru uczącego z ustalonymi hiperparametrami',
        edgecolor = 'grey', alpha = 0.5)

plt.show()

In [None]:
ax = df_test_hiper.plot(kind='bar', figsize = (15,10), ylim = (0.2, 1.05), 
        color = ['gold', 'lightgreen', 'lightcoral', 'lightskyblue'],
        rot = 0, title ='Porównanie metryk dla zbioru testującego z ustalonymi hiperparametrami',
        edgecolor = 'grey', alpha = 0.5)

plt.show()

Lepsze parametry wykazuje model z zastosowaną metodą losowania dla dostrojenia hiperparametrów. Bez zastosowania jakiejkolwiek metody ustalenia hiperparametrów następuje przeuczenie na zbiorze uczącym - mimo, iż proces strojenia parametrów obniżył nieznacznie pozostałe metryki. Random Search pozwala szybciej przeszukać większy zakres parametrów oraz ich wartości. Możemy w ten sposób szybko nabrać intuicji o zakresach i wpływie parametrów na model.

Zastosowane w powyższym modelowaniu algorytmy mają szerokie zastosowanie w metodach klasyfikacji. Dobrałam je ze względu na możliwość ich zastosowania dla zbiorów niewykazujących liniowości. Mimo to wyraźnie najlepsze wyniki metryk uzyskał właśnie klasyfikator lasu losowego. Jedyną wadą tego modelu stało się przeuczenie zbioru uczącego - inną metodą by móc temu przeciwdziałać i zwiększyć dzięki temu metryki dla zbioru testującego jest głębsza eksploracyjna analiza danych - a właściwie feature engineering. Duży wpływ mogło mieć tutaj zastosowanie średniej w celu uzupełnienia brakujących danych dla zmiennej 'Sulfates', gdyż brakujące dane stanowiły tam aż 25% i 17% przy zmiennej 'ph'. 