# KAGGLE: House Prices Explarotary Data Analysis

# 1. Introduction and Problem Statement

Takim olarak, **Kaggle**'daki meshur projelerden birisi olan **'House Prices'** veri seti uzerinde calisacagiz.

Bu proje, detaylı bir Keşifsel Veri Analizi (EDA) gerçekleştirerek başlayacak, ardından veri ön işleme adımlarını tamamlayarak veri setimizi makine öğrenmesi modellemesi için hazırlayacak ve sonrasinda da farkli algoritmalari ve makine ogrenmesi modellerini tatbik edecegimiz **bir takım projesidir.**

Bu Kaggle projesi, **konut fiyatlarının tahmin edilmesi üzerine odaklanmaktadır.** Veri seti, farklı ev özelliklerini içeren geniş bir veri kümesini içermektedir. Özellikler arasında evin büyüklüğü, oda sayısı, konum gibi faktörler bulunmaktadır. Amacımız, bu özelliklerin bir evin fiyatını **nasıl etkilediğini belirlemek** ve bu bilgiyi kullanarak gelecekteki ev fiyatlarını tahmin etmektir.

Yarışmanın amacı, katılımcıların belirtilen veri kümesi üzerinde bir makine öğrenmesi modeli geliştirerek, verilen ev özelliklerine dayanarak bir evin fiyatını en doğru şekilde tahmin etmeleridir. Bu proje, veri bilimi becerilerinizi geliştirmek, yeteneklerinizi sergilemek ve literature butunsel bir katki saglamak **için mükemmel bir fırsat sunmaktadir**. Ayrıca, farklı makine öğrenmesi tekniklerini uygulama ve model performansını değerlendirme fırsatı sunmaktadır. Katılımcılar olarak özellik mühendisliği, model seçimi ve değerlendirmesi gibi kritik veri bilimi becerilerini uygulama şansına sahip olacagiz.

Projeyle ilgili daha detayli bilgi icin Kaggle sayfasina linkten ulasabilirsiniz. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques

#### __Proje kapsaminda yapilacak bir takim gorevler:__

* Veri on inceleme
* Eksik verilerle basa cikilmasi  -  nur - seda       
* Outlierlar ile basa cikilmasi  -  fatih              
* Feature Engineering (Ozellik muhendisligi) -     busra + zubeyde + fatih + cuneyt emre
* Istatistiksel analizler ve veri gorsellestirme  - seda nur 
* Encoding     -- burak
* Standardizasyon ve Normalizasyon -- burak
* High - Low Cardinality tespit edilmesi - tuba 
* Multicollinearity tespit edilmesi   - tuba
* Logarithmic Donusum (Log Transormation)  - fatih
* Github uzerinden takimca calisma becerileri

**ILAVE NOT**
projedeki en onemli kazanimlardan birisi de baskalarinin da anlayabilecegi ve YENIDEN kullanmasi kolay kod bloklari olusturmaktir.

**Is akisi**
- Herkes veriyi ve projeyi genel anlamda inceleyecek
- Missing value bolumu tamamlaninca buraya kodlari eklenecek
- sonrasinda herkes githubtan dosyayi yeni bir branch ile kaydedecek
- kendi bolumunuz uzerinde aciklama ve kod kisimlarini doldurabilirsiniz
- sonrasinda tum calismayi birlestirecegiz

- Lutfen oneri ve tavsiyelerimizi sunalim arkadaslar

# 2. Data Overview

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [5]:
pd.set_option('Display.max_columns', None)

In [2]:
df1 = pd.read_csv('house_prices_reduced.csv')

In [3]:
df1.head()

Unnamed: 0,Id,LotArea,Neighborhood,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,BsmtQual,BsmtCond,...,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MoSold,YrSold,SaleCondition,SalePrice,SaleType
0,1,8450,CollgCr,2Story,7,5,2003,2003,Gd,TA,...,0,0,0,,,2,2008,Normal,208500,WD
1,2,9600,Veenker,1Story,6,8,1976,1976,Gd,TA,...,0,0,0,,,5,2007,Normal,181500,WD
2,3,11250,CollgCr,2Story,7,5,2001,2002,Gd,TA,...,0,0,0,,,9,2008,Normal,223500,WD
3,4,9550,Crawfor,2Story,7,5,1915,1970,TA,Gd,...,0,0,0,,,2,2006,Abnorml,140000,WD
4,5,14260,NoRidge,2Story,8,5,2000,2000,Gd,TA,...,0,0,0,,,12,2008,Normal,250000,WD


# 3. Data Preprocessing

## 3.1. Handling Missing Values

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

In [4]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 47 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   LotArea        1460 non-null   int64  
 2   Neighborhood   1460 non-null   object 
 3   HouseStyle     1460 non-null   object 
 4   OverallQual    1460 non-null   int64  
 5   OverallCond    1460 non-null   int64  
 6   YearBuilt      1460 non-null   int64  
 7   YearRemodAdd   1460 non-null   int64  
 8   BsmtQual       1423 non-null   object 
 9   BsmtCond       1423 non-null   object 
 10  BsmtExposure   1422 non-null   object 
 11  BsmtFinType1   1423 non-null   object 
 12  BsmtFinSF1     1460 non-null   int64  
 13  BsmtFinType2   1422 non-null   object 
 14  BsmtFinSF2     1460 non-null   int64  
 15  BsmtUnfSF      1460 non-null   int64  
 16  TotalBsmtSF    1460 non-null   int64  
 17  1stFlrSF       1460 non-null   int64  
 18  2ndFlrSF

In [6]:
eksik_sutunlar = df1.columns[df1.isna().any()].tolist()
eksik_sutunlar

['BsmtQual',
 'BsmtCond',
 'BsmtExposure',
 'BsmtFinType1',
 'BsmtFinType2',
 'GarageType',
 'GarageYrBlt',
 'GarageFinish',
 'GarageQual',
 'GarageCond',
 'PoolQC',
 'Fence']

In [7]:
df1.replace({"BsmtQual": {None: "NB"}, "BsmtCond": {None: "NB"}, "BsmtExposure": {None: "NB"},"BsmtFinType1": {None: "NB"}, "BsmtFinType2": {None: "NB"},
            "GarageType": {None: "NG"}, "GarageFinish": {None: "NB"}, "GarageQual": {None: "NB"},"GarageCond": {None: "NB"},
            "PoolQC": {None: "NP"},
            "Fence": {None: "NF"} }, inplace=True)
# sözel değerler replace kullanarak NA değerleri verilerle uyumlu kısaltmalar ile yer değiştirildi

In [8]:
df1['GarageYrBlt'].fillna("0", inplace=True) # numeric değerlerin olduğu kolonda NA değere sahip olduğu için NA değeri fillna ile 0 ile değiştirdik

In [9]:
df1.isnull().any().any()

False

In [10]:
df2 = df1.copy()

## 3.2. Handling Outliers

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

In [6]:
df2 = df1.copy()

## 3.3. Feature Engineering

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

__3.3.1 Sub titles if needed__

# 4. Exploratory data Analysis

## Statistical Analysis And Visualisations

# 5. Feature Preprocessing

## 5.1. Encoding

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

## 5.2. Standardizing, Normalizing and other Transformations

### 5.2.1. Standardizing (if needed)

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

### 5.2.2. Normalizing (if needed)

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

### 5.2.3. Other Transformations (if needed)

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

## 5.3. Dealing with High/Low Cardinality, Multi-collinearity

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

----  
----

# 6. Modeling