In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from lightgbm import LGBMRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.exceptions import ConvergenceWarning
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from xgboost import XGBRegressor
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, cross_val_score,GridSearchCV


warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter("ignore", category=ConvergenceWarning)

In [None]:
df_train = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df_train.head()

In [None]:
df_test = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/test.csv')
df_test.head()

In [None]:
# veri setlerini birleştirelim

df = df_train.append(df_test,ignore_index=False).reset_index()
df = df.drop("index", axis=1)
df.head()

In [None]:
# sayısal değişkenlere genel bir bakış
df.describe().transpose().style.background_gradient(cmap = "magma")

In [None]:
# hedef değişken analizi
sns.distplot(df["SalePrice"])

In [None]:
# hedef değişkenin standartlaştırılması (logaritmik hali)
df["LogSalePrice"] = np.log10(df["SalePrice"])
sns.distplot(df["LogSalePrice"],color = 'r')

## Missing Values and Data Processing (Missing Values and Veri İşleme) 

In [None]:
# Tekrar eden veri var mı?
df.duplicated().sum()

In [None]:
# eksik değerler 
pd.reset_option('max_rows')
pd.options.display.max_rows=None ## shows all the rows
df.isnull().sum()

In [None]:
# değişkenin sınıfları
df.LotFrontage.value_counts()

In [None]:
# değişkenin grafiği
sns.distplot(df.LotFrontage)
plt.show()

In [None]:
# ortalama değeri
df['LotFrontage'].mean()

In [None]:
# Toplam sayıya göre oranı
print('The Percentage of data missing in LotFrontage is ',df.LotFrontage.isnull().sum()/len(df)*100)

In [None]:
df.loc[df['LotFrontage'].isnull()==True].head()

In [None]:
# değişkendeki boş değerleri ortalama ile doldurma
df.loc[df['LotFrontage'].isnull()==True,'LotFrontage']=69.30

In [None]:
# Yüzde 80'den fazla eksik veri olan değişkenler
d1=df[['Alley','PoolQC','Fence','MiscFeature']]
a=d1.isnull().sum()/len(d1)*100
a

In [None]:
df.drop(['Alley','PoolQC','Fence','MiscFeature'],axis=1,inplace=True)

In [None]:
# Eksik değerlerin yüzdesi

d2=df[['BsmtQual','BsmtCond','BsmtExposure','BsmtFinType1','BsmtFinType2']]
b=d2.isnull().sum()/len(d2)*100
b

In [None]:
# Eksik değerleri 'NA' ile değiştirme

df['BsmtQual']=df['BsmtQual'].fillna('NA')
df['BsmtCond']=df['BsmtCond'].fillna('NA')
df['BsmtExposure']=df['BsmtExposure'].fillna('NA')
df['BsmtFinType1']=df['BsmtFinType1'].fillna('NA')
df['BsmtFinType2']=df['BsmtFinType2'].fillna('NA')

In [None]:
df.MasVnrType.value_counts()

In [None]:
# Eksik değerleri 'None' ile değiştirme
df.loc[df['MasVnrType'].isnull()==True,'MasVnrType']='None'

In [None]:
 sns.distplot(df.MasVnrArea)

In [None]:
df['MasVnrArea'].median()

In [None]:
# Eksik değerleri median ile değiştirme
df.loc[df['MasVnrArea'].isnull()==True,'MasVnrArea']=0.0

In [None]:
d3=df[['GarageType','GarageYrBlt','GarageFinish','GarageQual','GarageCond' ]]
c=d3.isnull().sum()/len(d3)*100
c

In [None]:
# Eksik değerleri 'NA' ile değiştirme
df['GarageType']=df['GarageType'].fillna('NA')
df['GarageFinish']=df['GarageFinish'].fillna('NA')
df['GarageQual']=df['GarageQual'].fillna('NA')
df['GarageCond']=df['GarageCond'].fillna('NA')

In [None]:
sns.distplot(df.GarageYrBlt)

In [None]:
df.GarageYrBlt.median()

In [None]:
# Eksik değerleri median ile değiştirme
df.loc[df['GarageYrBlt'].isnull()==True,'GarageYrBlt']=1979.0

In [None]:
df.Electrical.value_counts()

In [None]:
# Eksik değerleri SBrkr ile değiştirme
df.loc[df['Electrical'].isnull()==True,'Electrical']='SBrkr'

In [None]:
df.FireplaceQu.value_counts()

In [None]:
# Eksik değerleri NA ile değiştirme
df.loc[df['FireplaceQu'].isnull()==True,'FireplaceQu']='NA'

In [None]:
df.isnull().sum()

In [None]:
# SalePrice dışındaki tüm değişkenlerde kalan boş değerleri 0 ile dolduralım

df1 = df.drop(["LogSalePrice", "SalePrice"], axis=1)
df2 = df[["Id", 'SalePrice',"LogSalePrice"]]
df1 = df1.fillna(0)
df = pd.merge(df1, df2, how="left")
df.isnull().sum()

In [None]:
# sayısal ve kategorik değişken ayrımmı

cate_feat = list(df.select_dtypes(include = [object]).columns)
num_feat = list(df.select_dtypes(include = [int,float]).columns)

print(cate_feat)
print('\n')
print(num_feat)

In [None]:
# Korelasyon analizi
corr_matrix = df[num_feat].corr()

# Önemsiz derece olanları sıfırlayıp hassasiyeti yükseltelim
corr_matrix[(corr_matrix < 0.3) & (corr_matrix > -0.3)] = 0

# korelasyon grafiğini inceleylim
sns.heatmap(corr_matrix, vmax=1.0, vmin=-1.0, linewidths=0.1,
            annot_kws={"size": 9, "color": "black"},annot=True)
plt.title("SalePrice Correlation")

In [None]:
# SalePrice değişkeni ile en bağlantılı değişkenleri bulalım.
# ilk 2'de SalePrice ve LogSalePrice değişkeni olduğundan [2:8]

corr =df.corr()["SalePrice"].sort_values(ascending = False)[2:8]
corr

In [None]:
f,ax = plt.subplots(nrows = 6,ncols = 1, figsize = (20,40))
for i,col in enumerate(corr.index):    
    sns.scatterplot(x = col, y = "SalePrice", data = df, ax = ax[i], color = 'darkorange')
    ax[i].set_title(f'{col} vs SalePrice')
    
# Fiyat değişkeni ile pozitif yönlü corelasyonu olan değişkenleri görebiliriz.
# Bunlar fiyata en çok etki eden değişkenler.

In [None]:
# Bina yaşı ve fiyat arasındaki ilişki

f, ax = plt.subplots(figsize=(16, 8))
fig = sns.boxplot(x="YearBuilt", y="SalePrice", data=df,)
fig.axis(ymin=0, ymax=900000);
plt.xticks(rotation=90);
plt.tight_layout()

In [None]:
yr_built = pd.DataFrame({"Count":df["YearBuilt"].value_counts()[:10]}).reset_index()
yr_built.rename(columns={'index':'Year'},inplace=True)
plt.figure(figsize = (20,10))
sns.barplot(x = 'Year', y = "Count", data = yr_built)
plt.title("Year Built")

## Exploratory Data Analysis

In [None]:
# "0" tipindeki değişkenlerin analizi
dtype_objects = list(columns for columns in df.select_dtypes([object]).columns)

In [None]:
plt.figure(figsize=(15,150))
plotnumber=1
for c in dtype_objects:
    ax=plt.subplot(20,2,plotnumber)
    b= sns.countplot(x=df[c],palette='Set2')
    plt.xticks(rotation=70)
    plotnumber+=1
    for bar in b.patches:
        b.annotate(format(bar.get_height()),
            (bar.get_x() + bar.get_width() / 2,
            bar.get_height()), ha='center', va='center',
            size=10, xytext=(0, 6),textcoords='offset points')
plt.show() 

In [None]:
# "float" tipindeki değişken analizi
dtype_float =list(columns for columns in df.select_dtypes([float]).columns)

In [None]:
plt.figure(figsize=(15,150))
plotnumber=1
for a in dtype_float:
    ax=plt.subplot(20,2,plotnumber)
    sns.distplot(x=df[a],color='purple')
    plt.xticks(rotation=70)
    plotnumber+=1
plt.show() 

In [None]:
# bazı kategorik değişkenler

plt.figure(figsize=(5,5))
labels=['Y','N']
size=df['CentralAir'].value_counts()
colors=['lightgreen','lightslategray']
explode=[0,0.3]
plt.pie(size,labels=labels,colors=colors,explode=explode,autopct='%.2f%%',shadow = True,startangle = -30,
wedgeprops= {'edgecolor':'white','linewidth':1})
plt.legend(labels,loc="upper right",title='Category') ## used to label at the side
plt.show()

%93,29 evde CentralAir var ve %6,71 evde CentralAir yok

In [None]:
plt.figure(figsize=(5,5))
labels=['Fin','RFn','Unf','NA']
size=df['GarageFinish'].value_counts()
colors=['purple','lightblue','pink','yellow']
explode=[0,0.1,0,0]
plt.pie(size,labels=labels,colors=colors,explode=explode,autopct='%.2f%%',shadow=True)
circle = plt.Circle( (0,0),0.8, color='white')
p=plt.gcf()
p.gca().add_artist(circle)
plt.show()

evlerin %42,14'ü için garajın iç kaplaması bitti.

## Multi Varient Analysis

In [None]:
# çok sınıflı değişken analizi

plt.figure(figsize=(15,9))
sns.countplot(x='CentralAir',hue='BedroomAbvGr',palette='terrain',data=df).set(title="BedroomAbvGr vs CentralAir")
plt.show()

In [None]:
sns.scatterplot(x='GarageArea',y='GarageYrBlt',data=df,color='lightcoral')
plt.show()

In [None]:
data=df

In [None]:
plt.figure(figsize=(20,150),facecolor='white')
plotnumber=1
for c in dtype_objects:
    ax=plt.subplot(20,2,plotnumber)
    sns.barplot(x=data[c],y=data.SalePrice,palette='Set3')
    plotnumber+=1
    plt.xticks(rotation=70)
plt.show() 

In [None]:
plt.figure(figsize=(15,9))
splot=sns.barplot(x='Electrical',y='MSSubClass',hue='CentralAir',palette='nipy_spectral',data=data)
plt.show()

In [None]:
box=df[['LotArea','YearBuilt','BsmtFinSF1','1stFlrSF','2ndFlrSF','LotFrontage', 'MasVnrArea', 'GarageYrBlt']]

In [None]:
plt.figure(figsize=(15,15),facecolor='white')

plotnum=1 #counter

for c in box:
    if(plotnum<9):
        a=plt.subplot(4,2,plotnum)#plotting 8 graph
        sns.distplot(box[c])#to know distribution
    plotnum+=1#increment counter
plt.tight_layout()

## ENCODE

In [None]:
# daha iyi sonuç için büyüklük içeren kat. değişkenleri encode edelim

data_object = df.select_dtypes(include = "object").columns
print (data_object)

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

for features in data_object:
    df[features] = le.fit_transform(df[features].astype(str))

print (df.info())

## Feature Scaling

In [None]:
x=df.drop(['Id','SalePrice'],axis=1) ## all the features
y=df['SalePrice']  ## target variable

In [None]:
from sklearn.preprocessing import MinMaxScaler
mc=MinMaxScaler()
scaled_x=mc.fit_transform(x)

In [None]:
train_df = df[df['SalePrice'].notnull()]
test_df = df[df['SalePrice'].isnull()]

## MODEL

In [None]:
y = train_df['SalePrice'] 
X = train_df.drop(["Id", "SalePrice", "LogSalePrice"], axis=1)

y_test = test_df['SalePrice'] 
X_test = test_df.drop(["Id", "SalePrice", "LogSalePrice"], axis=1)

In [None]:
from xgboost import XGBRegressor
XGB=XGBRegressor().fit(X,y)

xtest_XGB_pred=XGB.predict(X_test) ## predicted x test

In [None]:
xtest_XGB_pred[0:5]

In [None]:
xtrain_XGB_pred=XGB.predict(X)
xtrain_XGB_pred[0:5]

In [None]:
my_submission = pd.DataFrame({'Id': test_df.index, 'SalePrice': xtest_XGB_pred})



In [None]:
my_submission.head()

In [None]:
my_submission.to_csv('submission.csv', index=False)