<h1>Suyun İçilebilirliği</h1>

<h3>Problemin İçeriği</h3>
<p>Suyun ölçülebilir bazı özellikleri yardımıyla 3.276 farklı su kütlesine ait veri kullanılarak suyun içilebilirliği tahmin edilmeye çalışılmıştır. </p>

<h3>Girdi ve Çıktı Değişkenleri</h3>

<table>
  <tr>
    <th>Kolon Adı</th>
    <th>Açıklama</th>
    <th>Birim</th>
    <th>Tavsiye Edilen Değer</th>
  </tr>
  <tr>
    <td>pH</td>
    <td>Asitlik bazlık değeri</td>
    <td>pH</td>
    <td>6.5 - 8.5</td>
  </tr>
  <tr>
    <td>Hardness</td>
    <td>Sertliği</td>
    <td>mg/L</td>
    <td>80 - 100</td>
  </tr>
  <tr>
    <td>Solids</td>
    <td>Suda çözünmüş organik ve inorganik mineraller veya tuz gibi maddeler</td>
    <td>parts per million</td>
    <td>500 - 1000</td>
  </tr>
  <tr>
    <td>Chloramines</td>
    <td>Suyun dezenfeksiyonu amacıyla kullanılan bir bileşik</td>
    <td>parts per million</td>
    <td>0 - 4</td>
  </tr>
  <tr>
    <td>Sulfate</td>
    <td>Yoğun Sulfat suyun tadının acı olmasına sebep olurken, yoğun Sulafata ek olarak suyun Kalsiyum ve Magnezyum barındırması  tüketimi halinde laksatif etki görülmesine yol açabilmekte</td>
    <td>mg/L</td>
    <td>0 - 500</td>
  </tr>
  <tr>
    <td>Conductivity</td>
    <td>İyon bakımından zenginliği</td>
    <td>μS/cm</td>
    <td>0 - 400</td>
  </tr>
  <tr>
    <td>Organic_carbon</td>
    <td>Suda bulunan organik maddelerin toplam Karbon miktarı</td>
    <td>mg/L</td>
    <td>0 - 4</td>
  </tr>
    <tr>
    <td>Trihalomethanes</td>
    <td>Klorin ile işlenmiş sularda bulunmakta</td>
    <td>parts per million</td>
    <td>0 - 80</td>
  </tr>
    <tr>
    <td>Turbidity</td>
    <td>Bekletilmiş suyun bulanıklığı</td>
    <td>Nephelometric Turbidity Units</td>
    <td>0 - 5</td>
  </tr>
    <tr>
    <td>Potability</td>
    <td>İçilebilir su kütleleri 1 değeri ile içilemeyen örnekler 0 ile ifade edilmiş</td>
    <td>Boolean</td>
    <td></td>
  </tr>
</table>


<h3>İndeks</h3>

1. [Betimleyici Analitik Adımlar](#Betimleyici-Analitik-Adımlar)
2. [Veri Temizleme ve İşleme](#Veri-Temizleme-ve-İşleme)
3. [Tahminleyici Algoritmalar](#Tahminleyici-Algoritmalar)
4. [Kullanılan Model, Sonuçlar ve Yorumlar](#Kullanılan-Model,-Sonuçlar-ve-Yorumlar)
5. <a href = "https://www.kaggle.com/adityakadiwal/water-potability">Kullanılan veri seti</a>

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.set()

In [None]:
raw_data = pd.read_csv('/kaggle/input/water-potability/water_potability.csv')
raw_data.head()

### Betimleyici Analitik Adımlar

In [None]:
raw_data.describe()

In [None]:
raw_data.info()

In [None]:
raw_data.shape

In [None]:
raw_data.hist(figsize=(20,20));

In [None]:
potable_data = raw_data[raw_data['Potability'] == 1]
non_potable_data = raw_data[raw_data['Potability'] == 0]

İçilebilir ve içilemez olarak ayrıldıktan sonra çizilen histogramlar, tavsiye edilen değerler göz önünde bulundurularak incelediğinde ayrırt edici bir gözlem yapılamadı. Örneğin hem içilebilir hem içilemez veri setlerinde pH 6 ve 8 aralığında daha çok örneğe sahip. 'Sulfate' için 500 mg/L üst sınırı her iki veri setinde de aşılmamış. Ancak 'Solids' 10.000 ppm üst sınırı her iki veri setinde çoğu örnekte aşılmış.

In [None]:
potable_data.hist(figsize=(20,20));

In [None]:
non_potable_data.hist(figsize=(20,20));

Korelasyon ilişkileri yok (0.00) ya da düşük düzeyde (0.01 ve 0.29) değerlere sahip. Orta ya da yüksek düzeyde diğer değişkenlerle ilişkiye sahip değişkenlere rastlanmadı.

In [None]:
sns.heatmap(raw_data.corr(),
            annot=True,
            linewidths=0.5,
            fmt=".2f",
            cmap="Blues");

In [None]:
raw_data['Potability'].value_counts().plot(kind = 'bar', color = ['red', 'green']);

In [None]:
pd.pivot_table(raw_data, index = 'Potability', values = raw_data.columns)

Isı grafiği ve pivot tabloda, içilmeye elverişli olan ve olmayan su kütleleri için belirgin biçimde ayırt edici özellik bulunamadı.

### Veri Temizleme ve İşleme

pH, Sulfate ve Trihalomethanes sütunlarındaki eksik veri sayıslarının toplam su kütlesi kayıt sayısına oranlarının yüzdesel sonuçları:

In [None]:
raw_data.isnull().sum()/raw_data.shape[0] * 100

In [None]:
X = raw_data.drop(columns = 'Potability')
y = raw_data['Potability']

Birbirlerinden tamamen bağımsız olmaları amacıyla veri setinin eğitim ve test verisi olarak ayrılması sonrasında eksik veriler kendi veri setlerindeki ortalamaları ile tamamlanmıştır.

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42, stratify = y)

In [None]:
mean_Train = X_train['ph'].mean()
mean_Test = X_test['ph'].mean()
X_train['ph'].fillna(value = mean_Train, inplace = True)
X_test['ph'].fillna(value = mean_Test, inplace = True)

In [None]:
mean_Train = X_train['Sulfate'].mean()
mean_Test = X_test['Sulfate'].mean()
X_train['Sulfate'].fillna(value = mean_Train, inplace = True)
X_test['Sulfate'].fillna(value = mean_Test, inplace = True)

In [None]:
mean_Train = X_train['Trihalomethanes'].mean()
mean_Test = X_test['Trihalomethanes'].mean()
X_train['Trihalomethanes'].fillna(value = mean_Train, inplace = True)
X_test['Trihalomethanes'].fillna(value = mean_Test, inplace = True)

### Tahminleyici Algoritmalar

In [None]:
from sklearn.svm import LinearSVC
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier


from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.metrics import plot_roc_curve
from sklearn.metrics import accuracy_score

In [None]:
models = {"SVC" : SVC(),
          "GaussianNB" : GaussianNB(),
          "Logistic Regression": LogisticRegression(),
          "KNN": KNeighborsClassifier(),
          "Random Forest": RandomForestClassifier(),
         "Decision Tree" : DecisionTreeClassifier()}

In [None]:
def fit_and_score(models, X_train, X_test, y_train, y_test):
    np.random.seed(42)
    model_scores = {}

    for name, model in models.items():
        model.fit(X_train, y_train)
        model_scores[name] = model.score(X_test, y_test)
    return model_scores

### Kullanılan Model, Sonuçlar ve Yorumlar

In [None]:
model_scores = fit_and_score(models=models,
                             X_train=X_train,
                             X_test=X_test,
                             y_train=y_train,
                             y_test=y_test)

model_scores

<p>Denenen 6 model, 0.57 ve 0.67 arasında doğru tahmine sahipler.</p>
<p>Random Forest Classifier modeli diğer modellerden daha yüksek doğru tahmine sahip.</p>

In [None]:
model_compare = pd.DataFrame(model_scores, index=["accuracy"])
model_compare.T.plot.bar();

Random Forest Modeline ait özellikler farklı kombinasyonları ile karşılaştırıldı.

In [None]:
param_grid = {'bootstrap': [True, False],
              'criterion':['entropy', 'gini'],
              'max_features': ['auto', 'sqrt', 'log2'], 
              'n_estimators': [100, 200, 300]
              }

grid = GridSearchCV(RandomForestClassifier(), param_grid, refit=True, verbose=1)
grid.fit(X_train, y_train)

In [None]:
print(grid.best_params_)
print(grid.best_estimator_)

y_pred = grid.predict(X_test)
accuracy_score(y_pred, y_test)

In [None]:
plot_roc_curve(grid, X_test, y_test);

In [None]:
confussion_matrix = confusion_matrix(y_test, y_pred)

In [None]:
confussion_matrix

In [None]:
sns.heatmap(confussion_matrix, annot=True, fmt="g", cbar=False)
plt.ylabel('Gerçek')
plt.xlabel('Tahmin')
plt.show()

Model test verisinde %68 doğru tahmin gerçekleştirdi. İçilebilir 169 su kütlesini hatalı şekilde içilemez, içilemez 38 su kütlesini ise hatalı şekilde içilebilir tahmin etti. İçilemez bir su kütlesinin hatalı şekilde içilebilir olarak tahmin edilmiş olması ihtimali, içilebilir bir su kütlesinin içilemez tahmin edilmesinden daha muhtemel gözükmektedir.

In [None]:
38/(38 + 362)

In [None]:
169/(169 + 87)