In [51]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer

In [61]:
train=pd.read_csv('./Data/home-data-for-ml-course/train.csv',index_col="Id")

#### Sadece numeric sütunları alma

In [62]:
X=train.select_dtypes(exclude=["object"])

In [63]:
X=X.dropna(axis=0,subset=["SalePrice"])
y=X.SalePrice
X.drop(columns="SalePrice",axis=1,inplace=True)

In [64]:
missing_val=(X.isnull().sum())
missing_val[missing_val>0]

LotFrontage    259
MasVnrArea       8
GarageYrBlt     81
dtype: int64

In [65]:
def train_test(X,y):
    X_train,X_test,y_train,y_test=train_test_split(X, y, train_size=0.8, test_size=0.2,
                                                      random_state=0)
    return X_train,X_test,y_train,y_test

In [66]:
def score_dataset(X_train, X_test, y_train, y_test):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_test)
    return mean_absolute_error(y_test, preds)

#### 1-  Boş değer içeren sütunları silme

In [67]:
bos_deger_iceren_sutunlar=(X.isnull().sum())
sutunlar=bos_deger_iceren_sutunlar[bos_deger_iceren_sutunlar>0].keys()

In [68]:
X_=X.drop(columns=sutunlar,axis=1)

#### Boş değer içeren sütunları silinerek modeli eğitmek

In [69]:
X_train,X_test,y_train,y_test=train_test(X_,y)

In [70]:
print("Boş değerli sütunlar silindi")
print(score_dataset(X_train,X_test,y_train,y_test))

Boş değerli sütunlar silindi
17837.82570776256


#### 2- Boş değerlerin ortalama ile doldurulması

In [71]:
imp=SimpleImputer(strategy='mean')

In [72]:
X_=pd.DataFrame(imp.fit_transform(X))
X_.columns=X.columns

In [73]:
X_train,X_test,y_train,y_test=train_test(X_,y)

In [74]:
print("Boş değerli sütunlar ortalama ile dolduruldu")
print(score_dataset(X_train,X_test,y_train,y_test))

Boş değerli sütunlar ortalama ile dolduruldu
18047.3153196347


#### 3- Boş değerlerin ortanca değer ile değiştirilmesi

In [75]:
imp=SimpleImputer(strategy='median')

In [76]:
X_=pd.DataFrame(imp.fit_transform(X))
X_.columns=X.columns

In [77]:
X_train,X_test,y_train,y_test=train_test(X_,y)

In [78]:
print("Boş değerli sütunlar ortalama ile dolduruldu")
print(score_dataset(X_train,X_test,y_train,y_test))

Boş değerli sütunlar ortalama ile dolduruldu
17964.522500000003


#### RandomForest değerlerini değiştirerek eğitim

In [84]:
model=RandomForestRegressor(n_estimators=200,random_state=0)

In [85]:
model.fit(X_train,y_train)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=200, n_jobs=None, oob_score=False,
                      random_state=0, verbose=0, warm_start=False)

In [90]:
pred=model.predict(X_test)
print("Hata Oranı %s" %(mean_absolute_error(y_test,pred)))

Hata Oranı 17571.534132420093
