# Kütüphane ve Veri Seti Import Etme 
**Gerekli kütüphaneleri import ediyoruz.**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier

**Veri setimizi okuyup dataset adlı değişkene atıyoruz.**

In [None]:
dataset=pd.read_csv('../input/tabletpc-priceclassification/tablet.csv')

# Veriyi Tanıma ve Sindirme Süreci
**Veri setimizi dataFrame'e çeviriyoruz.**

In [None]:
df = pd.DataFrame(dataset)

Veri setimizin ilk 10 gözlemini listeliyoruz.

In [None]:
df.head(10)

**Veri çerçevemizdeki gözlem ve değişken sayılarını yazdırıyoruz.**

In [None]:
df.shape

**Değikenlerimizin tiplerini yazdırıyoruz.**

In [None]:
df.dtypes

**Veri setimizle alakalı genel inceleme yapıyoruz.**

In [None]:
df.info()

**Veri setimizdeki sayısal değişknlerin istatistiki bilgilere genel olarak bakıyoruz.**

In [None]:
df.describe().T

**RAM değişkenimizin standart sapmasının yüksek olması dikkatimizi çekiyor.

**Sayısal değikenler arasındaki korelasyon ilişkisini görmek için Korelasyon Matrisi çizdiriyoruz.**

In [None]:
corr = df.corr()
corr

Değişken sayımız fazla olduğu için korelasyon tablosunu okumak biraz zor. Bunun için ısı haritasi çizdirelim.

In [None]:
sns.heatmap(corr, xticklabels=corr.columns.values, yticklabels=corr.columns.values);

**ArkaKameraMp ile OnKameraMp değişkenlerimiz arasında bir ilişki olduğunu görüyoruz. Ayrıca CozunurlukGenislik ve CozunurlukGenislik arasında da çok zayıfta olsa bir ilişki olduğunu söyleyebiliriz.**

# Değişkenlerin Dağılımı

Hedef değişkenimizin dengeli dağılıp dağılmadığına bakalım.

In [None]:
sns.countplot(df["FiyatAraligi"]);

Countplot grafiğinden dağılımın dengeli olduğunu görüyoruz ama sayısal olarakta dağılıma bir bakalım.

In [None]:
df["FiyatAraligi"].value_counts()

Hedef değişkenimizin tamamen dengeli dağıldığını söyleyebiliriz.

Veri setimizideki değişkenlerimizi numeric ve categorical olanları seçip ayrı değişkenlere atadık.

In [None]:
num_df = df.select_dtypes(include = ['float64', 'int64'])
cat_df = df.select_dtypes(include = ['object'])

Numeric değişkenlerimizi histogram grafiği ile görselleştirelim.

In [None]:
num_df.hist(figsize=(16, 20), bins=50, xlabelsize=8, ylabelsize=8);

Kategorik değişkenlerimizi görselleştirelim.

In [None]:
sns.countplot(df["Bluetooth"]);

In [None]:
sns.countplot(df["CiftHat"]);

In [None]:
sns.countplot(df["4G"]);

In [None]:
sns.countplot(df["3G"]);

In [None]:
sns.countplot(df["Dokunmatik"]);

In [None]:
sns.countplot(df["WiFi"]);

In [None]:
sns.countplot(df["Renk"]);

Veri setimizdeki kategorik değişkenlerimizden 3G hariç diğerlerinin dağılımının dengeli olduğunu söyleyebiliriz.

# Veri Ön İşleme

**Veri çerçevemizde eksik veri var mı onu kontrol ediyoruz.**

In [None]:
df.isna().sum()

**Veri çerçevemizde OnKameraMP ve RAM deişkenlerinde eksik veriler olduğunu tespit ettik.

Eksik verilerimizin olduğu gözlemleri inceleyelim.

In [None]:
df[df["RAM"].isnull()]

Ram değişkenimizin eksik olduğu gözlemlere baktığımızda hepsinin fiyat aralığının 'Pahalı' olduğunu gözlemlemekteyiz. Burdaki eksik verileri fiyat aralığı pahalı olan gözlemlerin ortamalasını alarak doldurabiliriz.

In [None]:
df.groupby("FiyatAraligi")[["RAM"]].mean()

Fiyatı pahalı olan modellerin RAM'lerinin ortalamasının 3449 olduğu gözlemledik. Eksik verileri bu değer ile dolduralım.

In [None]:
df['RAM'] = df['RAM'].fillna(value=3449)

RAM değişkenimizde eksik veri kaldı mı kontrol edelim.

In [None]:
df.isna().sum()["RAM"]

OnKameraMp değişkenimizdeki boş değerleri listeleyelim.

In [None]:
df[df["OnKameraMP"].isnull()]

Burada da eksik özniteliğe sahip modellerin FiyatAraligi değişkenlerinin Çok Ucuz olduğunu gözlemledik. Eksik verilerimizi fiyatı çok ucuz olan modellerin ortalamalarına göre doldurlarım.

In [None]:
df.groupby("FiyatAraligi")[["OnKameraMP"]].mean()

Çok ucuz olan modellerin OnKameraMp değişkeninin ortalama değerinin yaklaşık olarak 4 olduğunu gözlemledik. Eksik verilerimizi bu değere göre dolduralım.

In [None]:
df['OnKameraMP'] = df['OnKameraMP'].fillna(value=4)

Doldurma işleminin başarılı bir şekilde yapılıp yapılmadığını kontrol edelim.

In [None]:
df.isna().sum()["OnKameraMP"]

Tüm veri setimizde eksik veri kaldımı tekrar bakalım.

In [None]:
df.isna().sum()

# Kategorik Değerleri Dönüştürme

Kategorik verileri dönüştürmeden önce benzersiz değerlerine bakalım.

In [None]:
df["Bluetooth"].unique()

In [None]:
df["CiftHat"].unique()

In [None]:
df["4G"].unique()

In [None]:
df["3G"].unique()

In [None]:
df["Dokunmatik"].unique()

In [None]:
df["WiFi"].unique()

In [None]:
df["Renk"].unique()

In [None]:
df.groupby("Renk")[["FiyatAraligi"]]

Renk hariç diğer kategorik değişkenlerimizin gözlemleri 'Var' ve 'Yok' olarak tanımlanmış. Bunları doğrudan '1' ve '0' olarak değiştirebiliriz. Ayrıca değişikliğin DataFrame'e uygulanabilmesi için metodumuzun default olarak gelen inplace özelliğini true olarak değiştiriyoruz.

In [None]:
df.replace("Var",1,inplace = True)
df.replace("Yok",0,inplace = True)

**Renk değişkenimizin FiyatAraligi'na etkisi olup olmadığını belirlemek için Pandas kütüphanesi içerisinde gelen crosstab metodunu kullanarak iki kategorik değişkenimizi karşılaştırıyoruz.**

In [None]:
renk_fiyat_crosstab = pd.crosstab(index=df["Renk"], columns=df["FiyatAraligi"])
renk_fiyat_crosstab

**Görüntülediğimiz tabloda Renk değişkenimizin FiyatAraligi'na pek etkisi olmadığını anlamaktayız. O sebeple Renk değişkenimizi DataFrame'den silebiliriz.**

In [None]:
df.drop(['Renk'], axis=1, inplace=True)

In [None]:
df.head()

# Eğitim ve Test Veri Setleri Oluşturma

**Bağımlı ve bağımsız değişkenlerimizi x ve y olarak ikiye bölelim.**

In [None]:
y = df["FiyatAraligi"]
x = df.drop(["FiyatAraligi"], axis=1)

**x ve y'yi kontrol edelim.**

In [None]:
y.head()

In [None]:
x.head()

Yeni veri setimizi %25, %75 olarak eğitim ve test verisi olarak ikiye bölelim.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.25, random_state=42)

In [None]:
x_train

In [None]:
y_test

# GaussianNB Modeli



GaussianNB modeli yaratıp, eğitimini gerçekleştiriyoruz.

In [None]:
nb=GaussianNB()
nb.fit(x_train, y_train)

x_test gözlemlerinin tahmin sonucunu y_pred değişkenimize atıyoruz. 

In [None]:
y_pred = nb.predict(x_test)

Doğruluk skorumuzu hesaplayalım.

In [None]:
accuracy_score(y_test, y_pred)

Oluşturduğumuz model ile %81 doğruluk skoru elde etmiş olduk.


Karmaşıklık matrisimizi oluşturalım

In [None]:
karmasiklik_matrisi = confusion_matrix(y_test, y_pred)
print(karmasiklik_matrisi)

In [None]:
sns.heatmap(karmasiklik_matrisi,cbar=False,annot=True,cmap="Greens",fmt="d")

# Desicion Tree Modeli

Karar ağacı modelimizi oluşturalım.

In [None]:
tree_model = DecisionTreeClassifier()

Modelimizi veri setimiz ile eğitelim.

In [None]:
tree_model.fit(x_train,y_train)

Modelimizin doğruluk skoru yazdıralım.

In [None]:
tree_model.score(x_test, y_test)

Oluşturduğumuz model %83 başarılı olduğunu görmüş olduk.

Varsayılan parametresini gini'den entropy'e çevirerek modelimizi yeniden eğitelim.

In [None]:
tree_model_entropy = DecisionTreeClassifier(criterion = 'entropy')

In [None]:
tree_model_entropy.fit(x_train, y_train)

Yeni oluşturduğumuz modelin doğruluk skorunu hesaplayalım.

In [None]:
tree_model_entropy.score(x_test, y_test)

Varsayılan parametremiz 'gini' olarak kullandığımızda %83 başarı elde etmiştik. Entropy ile başarı oranımızı %87 olarak güncellemiş olduk. Karar ağacı modelimizi entropy ile kullanmamız daha doğru olacaktır.

# KNN Modeli

KNN modelimizi oluşturalım.

In [None]:
knn = KNeighborsClassifier()

Modelimizi eğitelim.

In [None]:
knn.fit(x_train, y_train)

In [None]:
y_pred = knn.predict(x_test)

Doğruluk skorumuzu görüntüleyelim.

In [None]:
accuracy_score(y_test, y_pred)

Modelimizi parametre optimizasyonu yaparak tekrar eğitip sonuçlarına bakalım.

In [None]:
knn_params = {"n_neighbors": np.arange(2,15)}

In [None]:
knn_new = GridSearchCV(knn, knn_params, cv = 3)
knn_new.fit(x_train, y_train)

Modelimizin için en iyi parametre ve skoru belirleyelim.

In [None]:
print("En iyi skor: " + str(knn_new.best_score_))
print("En iyi parametreler: " + str(knn_new.best_params_))

En iyi parametrenin 9 olduğunu öğrenmiş olduk. Modelimizi buna göre revize edelim.

In [None]:
knn = KNeighborsClassifier(9)
knn_tuned = knn.fit(x_train, y_train)

In [None]:
y_pred = knn_tuned.predict(x_test)

Modelimizin doğruluk skorunu hesaplayalım.

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
Modelimizin doğruluk skorunu optimizasyon sonrası %93'e yükseltmiş olduk. 