In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.metrics import roc_auc_score, roc_curve, recall_score, f1_score, precision_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn import tree
from sklearn.neighbors import KNeighborsClassifier
from collections import Counter

In [None]:
tablet = pd.read_csv("../input/tabletpc-priceclassification/tablet.csv")
df=tablet.copy()

In [None]:
#Veriyi tanıma,sindirme
#Veri dengelimi inceleme
#Korelasyon Matrisi

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.shape

In [None]:
df.corr()

In [None]:
df.describe().T

In [None]:
#Veri Görselleştirmeleri

In [None]:
#ısı haritasında Arka Kamere ve Ön kamare arasında güçlü bir ilişki var
#CozunurlukYükseklik ve CozunurlukGenislik arasında güçlü bir ilişki var

In [None]:
plt.subplots(figsize=(10, 10))
sns.heatmap(df.corr(), annot=True,cmap="YlGnBu")
plt.show()

In [None]:
df.hist(figsize = (15,15),color="purple")

plt.show()
#Tabletlerin ağırlıklarının,batarya gücünün,Cozunurluk Genisliklerinin,DahiliBelleklerin ve Ramlerin genel olarak dengeli dağıldığını görüyoruz.

In [None]:
sns.pairplot(df);

In [None]:
def countplot(baslik): 
    sns.countplot(x=baslik, data=df)
    plt.xticks(rotation=50)
    plt.show()
    
    print(df[baslik].value_counts())

In [None]:
countplot("FiyatAraligi")

In [None]:
countplot("Renk")

In [None]:
countplot("Bluetooth")

In [None]:
countplot("CiftHat")

In [None]:
countplot("4G")

In [None]:
countplot("3G")

In [None]:
countplot("Dokunmatik")

In [None]:
countplot("WiFi")

In [None]:
#Yukarıdaki grafiklerde gördüğümüz gibi sayısal olmayan verilerde 3G teknolojisi hariç stabil bir dağılım söz konusu

In [None]:
#Ortalama,Medyan ve Standart sapma

In [None]:
df.mean()#Verilerin ortalamalı ile medyanlarının çok yakın olduğunu görüyoruz yani veriler gayet stabil demektir.

In [None]:
df.std()
#Verilerin değerlerinin yakınlığını inceliyoruz.Standar sapmaları küçük olanların verileri birbirlerine daha yakın değerler içermektedir.

In [None]:
df.median()

In [None]:
#Ön işleme kısmı
#Eksik verlerin doldurulması
#Sayısallaşrılıma işlemleri

In [None]:
df.isna().sum()
#5 tane 4G,12 tane Ram verilerinde eksik var. Bu eksikler hesaplarımızda yanılmamıza sebep olabilir.Bir sonraki işlemde eksik verileri dolduracağız.

In [None]:
df.RAM = df.RAM.fillna(df.RAM.mean())#Eksik verileri ortalamaları ile dolduruyoruz.Çünkü verilerde sapmaya sebep olmamasını istiyoruz.

In [None]:
df.OnKameraMP = df.OnKameraMP.fillna(df.OnKameraMP.mean())

In [None]:
df.Bluetooth = df.Bluetooth.eq('Var').mul(1)
df.CiftHat = df.CiftHat.eq('Var').mul(1)
df["4G"] = df["4G"].eq('Var').mul(1)
df["3G"] = df["3G"].eq('Var').mul(1)
df.Dokunmatik = df.Dokunmatik.eq('Var').mul(1)
df.WiFi = df.WiFi.eq('Var').mul(1)

In [None]:
df.FiyatAraligi=pd.Categorical(df["FiyatAraligi"],ordered=True,categories=["Çok Ucuz","Ucuz","Normal","Pahalı"])

In [None]:
onehot_encoder = OneHotEncoder()

In [None]:
df.Renk = onehot_encoder.fit_transform(df[["Renk"]]).toarray()

In [None]:
df.Renk

In [None]:
#Makine Öğrenmesi

In [None]:
X = df.drop("FiyatAraligi",axis=1)
y= df["FiyatAraligi"]

In [None]:
X

In [None]:
y

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1)

In [None]:
X_train

In [None]:
X_test

In [None]:
y_train

In [None]:
y_test

In [None]:
#LogisticRegression

In [None]:
logistic_regression=LogisticRegression()

In [None]:
logistic_model=logistic_regression.fit(X_train,y_train)

In [None]:
y_pred_LR=logistic_model.predict(X_test)

In [None]:
df_logistic = pd.DataFrame({"Gerçek Değerler" : y_test, "Tahmin Edilen" : y_pred_LR,"Tahmin Sonucu":(y_test==y_pred_LR)})

df_logistic

In [None]:
print("R Squared:", logistic_model.score(X_test, y_test))
print(classification_report(y_test, y_pred_LR))

In [None]:
LR_karmasiklik_matrisi = confusion_matrix(y_test, y_pred_LR)
print(LR_karmasiklik_matrisi)

In [None]:
#GaussianNB

In [None]:
Gaussian_NB= GaussianNB()

In [None]:
NB_model = Gaussian_NB.fit(X_train,y_train)

In [None]:
y_pred_NB=NB_model.predict(X_test)

In [None]:
df_NB = pd.DataFrame({"Gerçek Değerler" : y_test, "Tahmin Edilen" : y_pred_NB,"Tahmin Sonucu":(y_test==y_pred_NB)})

df_NB

In [None]:
print("R Squared:", NB_model.score(X_test, y_test))
print(classification_report(y_test, y_pred_NB))

In [None]:
DT_karmasiklik_matrisi = confusion_matrix(y_test, y_pred_NB)
print(DT_karmasiklik_matrisi)

In [None]:
#DecisionTree

In [None]:
DecisionTree = tree.DecisionTreeClassifier()

In [None]:
DecisionTree_model=DecisionTree.fit(X_train,y_train)

In [None]:
y_pred_DT=DecisionTree_model.predict(X_test)

In [None]:
df_DecisionTree = pd.DataFrame({"Gerçek Değerler" : y_test, "Tahmin Edilen" : y_pred_DT,"Tahmin Sonucu":(y_test==y_pred_DT)})

df_DecisionTree

In [None]:
print("R Squared:", DecisionTree_model.score(X_test, y_test))
print(classification_report(y_test, y_pred_DT))

In [None]:
DT_karmasiklik_matrisi = confusion_matrix(y_test, y_pred_DT)
print(DT_karmasiklik_matrisi)

In [None]:
#DecisionTree=>criterion='entropy'

In [None]:
DecisionTree_entropy = tree.DecisionTreeClassifier(criterion='entropy')

In [None]:
DecisionTree_entropy_model=DecisionTree_entropy.fit(X_train,y_train)

In [None]:
y_pred_DT_entropy=DecisionTree_entropy_model.predict(X_test)

In [None]:
df_DecisionTree_entropy = pd.DataFrame({"Gerçek Değerler" : y_test, "Tahmin Edilen" : y_pred_DT,"Tahmin Sonucu":(y_test==y_pred_DT_entropy)})

df_DecisionTree_entropy

In [None]:
print("R Squared:", DecisionTree_entropy_model.score(X_test, y_test))
print(classification_report(y_test, y_pred_DT_entropy))

In [None]:
DT_karmasiklik_matrisi_entropy = confusion_matrix(y_test, y_pred_DT_entropy)
print(DT_karmasiklik_matrisi_entropy)

In [None]:
#KNN

In [None]:
KNN = KNeighborsClassifier()

In [None]:
KNN_model=KNN.fit(X_train,y_train)

In [None]:
y_pred_KNN=KNN_model.predict(X_test)

In [None]:
df_KNN = pd.DataFrame({"Gerçek Değerler" : y_test, "Tahmin Edilen" : y_pred_KNN,"Tahmin Sonucu":(y_test==y_pred_KNN)})

df_KNN

In [None]:
print("R Squared:", KNN_model.score(X_test, y_test))
print(classification_report(y_test, y_pred_KNN))

In [None]:
KNN_karmasiklik_matrisi = confusion_matrix(y_test, y_pred_KNN)
print(KNN_karmasiklik_matrisi)

In [None]:
#KNN=>2,15

In [None]:
array = []
for i in range (2,15):
    KNN_n_neighbors = KNeighborsClassifier(n_neighbors=i)
    KNN_model_n_neighbors=KNN_n_neighbors.fit(X_train,y_train)
    y_pred_KNN_n_neighbors=KNN_model_n_neighbors.predict(X_test)
    print(i,".R Squared:", KNN_model_n_neighbors.score(X_test, y_test))
    KNN_score = KNN_model_n_neighbors.score(X_test, y_test)
    array.insert(i,KNN_score)

In [None]:
plt.plot(array)
plt.xlabel("k değerleri")
plt.ylabel("doğruluk skoru")

In [None]:
#KNN modeli 0.934 ile en yüksek başarı puanını veriyor.(n_neighbors=7 iken) daha sonra DT modeli 0.838 değeri geliyor ve en son GaussianNB modeli gelmekte