# Fitting a sci-kit learn model on numerical data

#### Bu Kısım section-1.1 ile aynı, kullanılan data seti 1.1'in sadece numerik kolonlarını içeren hali

In [33]:
import pandas as pd
adult_census = pd.read_csv("dataset/adult-census-numeric.csv")
target_name = "class"
target = adult_census[target_name]
target

0         <=50K
1         <=50K
2         <=50K
3         <=50K
4         <=50K
          ...  
39068     <=50K
39069     <=50K
39070      >50K
39071     <=50K
39072      >50K
Name: class, Length: 39073, dtype: object

#### Modeli uygulayıp ön görüde bulunacağımız kolon "class" ve bunu data setinden atıyoruz

In [34]:
data = adult_census.drop(columns=[target_name, ])
data.head()

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week
0,41,0,0,92
1,48,0,0,40
2,60,0,0,25
3,37,0,0,45
4,73,3273,0,40


#### Kolonlar

In [35]:
data.columns

Index(['age', 'capital-gain', 'capital-loss', 'hours-per-week'], dtype='object')

#### Tekrar feature ve sampleları check etme

In [36]:
print(f"The dataset contains {data.shape[0]} samples and "
      f"{data.shape[1]} features")

The dataset contains 39073 samples and 4 features


#### Modelimizi uygulama kısmı (Classifier'ler sadece kategorik datayı analiz ederken kullanılır)

In [37]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier()
_ = model.fit(data, target)

#### Predictionları alma kısmı

In [38]:
target_predicted = model.predict(data)

#### Predictionların ilk 5 tanesi

In [39]:
target_predicted[:5]

array([' >50K', ' <=50K', ' <=50K', ' <=50K', ' <=50K'], dtype=object)

#### Orjinal Data

In [40]:
target[:5]

0     <=50K
1     <=50K
2     <=50K
3     <=50K
4     <=50K
Name: class, dtype: object

#### Orjinal veri ile predictionları kıyaslama

In [41]:
target[:5] == target_predicted[:5]

0    False
1     True
2     True
3     True
4     True
Name: class, dtype: bool

#### Pretty Print

In [42]:
print(f"Number of correct prediction: "
      f"{(target[:5] == target_predicted[:5]).sum()} / 5")

Number of correct prediction: 4 / 5


#### Doğruluğun yüzdesi

In [43]:
(target == target_predicted).mean()

0.8242776341719346

#### Manual Test-Train splitted data ile çalışmak

Burada ayrıca hazırlanmış test csv'si üzerinde daha önce train edilen modelin test accuracy'si test ediliyor. Normalde böyle çalışılmaz, bunu bölmek için özel bir fonksiyonumuz var.

In [44]:
adult_census_test = pd.read_csv('dataset/adult-census-numeric-test.csv')
target_test = adult_census_test[target_name]
data_test = adult_census_test.drop(columns=[target_name, ])

print(f"The testing dataset contains {data_test.shape[0]} samples and "
      f"{data_test.shape[1]} features")

accuracy = model.score(data_test, target_test)
model_name = model.__class__.__name__

print(f"The test accuracy using a {model_name} is "
      f"{accuracy:.3f}")

The testing dataset contains 9769 samples and 4 features
The test accuracy using a KNeighborsClassifier is 0.804
