# KAGGLE: House Prices Explarotary Data Analysis

# 1. Introduction and Problem Statement

Takim olarak, **Kaggle**'daki meshur projelerden birisi olan **'House Prices'** veri seti uzerinde calisacagiz.

Bu proje, detaylı bir Keşifsel Veri Analizi (EDA) gerçekleştirerek başlayacak, ardından veri ön işleme adımlarını tamamlayarak veri setimizi makine öğrenmesi modellemesi için hazırlayacak ve sonrasinda da farkli algoritmalari ve makine ogrenmesi modellerini tatbik edecegimiz **bir takım projesidir.**

Bu Kaggle projesi, **konut fiyatlarının tahmin edilmesi üzerine odaklanmaktadır.** Veri seti, farklı ev özelliklerini içeren geniş bir veri kümesini içermektedir. Özellikler arasında evin büyüklüğü, oda sayısı, konum gibi faktörler bulunmaktadır. Amacımız, bu özelliklerin bir evin fiyatını **nasıl etkilediğini belirlemek** ve bu bilgiyi kullanarak gelecekteki ev fiyatlarını tahmin etmektir.

Yarışmanın amacı, katılımcıların belirtilen veri kümesi üzerinde bir makine öğrenmesi modeli geliştirerek, verilen ev özelliklerine dayanarak bir evin fiyatını en doğru şekilde tahmin etmeleridir. Bu proje, veri bilimi becerilerinizi geliştirmek, yeteneklerinizi sergilemek ve literature butunsel bir katki saglamak **için mükemmel bir fırsat sunmaktadir**. Ayrıca, farklı makine öğrenmesi tekniklerini uygulama ve model performansını değerlendirme fırsatı sunmaktadır. Katılımcılar olarak özellik mühendisliği, model seçimi ve değerlendirmesi gibi kritik veri bilimi becerilerini uygulama şansına sahip olacagiz.

Projeyle ilgili daha detayli bilgi icin Kaggle sayfasina linkten ulasabilirsiniz. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques

#### __Proje kapsaminda yapilacak bir takim gorevler:__

* Veri on inceleme
* Eksik verilerle basa cikilmasi  -  nur - seda       
* Outlierlar ile basa cikilmasi  -  fatih              
* Feature Engineering (Ozellik muhendisligi) -     busra + zubeyde + fatih + cuneyt emre
* Istatistiksel analizler ve veri gorsellestirme  - seda nur 
* Encoding     -- burak
* Standardizasyon ve Normalizasyon -- burak
* High - Low Cardinality tespit edilmesi - tuba 
* Multicollinearity tespit edilmesi   - tuba
* Logarithmic Donusum (Log Transormation)  - fatih
* Github uzerinden takimca calisma becerileri

**Is akisi**
- Herkes veriyi ve projeyi genel anlamda inceleyecek
- Missing value bolumu tamamlaninca buraya kodlari eklenecek
- sonrasinda herkes githubtan dosyayi yeni bir branch ile kaydedecek
- kendi bolumunuz uzerinde aciklama ve kod kisimlarini doldurabilirsiniz
- sonrasinda tum calismayi birlestirecegiz

- Lutfen oneri ve tavsiyelerimizi sunalim arkadaslar

# 2. Data Overview

In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [7]:
pd.set_option('Display.max_columns', None)

In [8]:
df1 = pd.read_csv('house_prices_reduced.csv')

In [9]:
df1.head()

Unnamed: 0,Id,LotArea,Neighborhood,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,1stFlrSF,2ndFlrSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenQual,TotRmsAbvGrd,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MoSold,YrSold,SaleCondition,SalePrice,SaleType
0,1,8450,CollgCr,2Story,7,5,2003,2003,Gd,TA,No,GLQ,706,Unf,0,150,856,856,854,1710,1,0,2,1,3,Gd,8,Attchd,2003.0,RFn,2,548,TA,TA,0,61,0,0,0,0,,,2,2008,Normal,208500,WD
1,2,9600,Veenker,1Story,6,8,1976,1976,Gd,TA,Gd,ALQ,978,Unf,0,284,1262,1262,0,1262,0,1,2,0,3,TA,6,Attchd,1976.0,RFn,2,460,TA,TA,298,0,0,0,0,0,,,5,2007,Normal,181500,WD
2,3,11250,CollgCr,2Story,7,5,2001,2002,Gd,TA,Mn,GLQ,486,Unf,0,434,920,920,866,1786,1,0,2,1,3,Gd,6,Attchd,2001.0,RFn,2,608,TA,TA,0,42,0,0,0,0,,,9,2008,Normal,223500,WD
3,4,9550,Crawfor,2Story,7,5,1915,1970,TA,Gd,No,ALQ,216,Unf,0,540,756,961,756,1717,1,0,1,0,3,Gd,7,Detchd,1998.0,Unf,3,642,TA,TA,0,35,272,0,0,0,,,2,2006,Abnorml,140000,WD
4,5,14260,NoRidge,2Story,8,5,2000,2000,Gd,TA,Av,GLQ,655,Unf,0,490,1145,1145,1053,2198,1,0,2,1,4,Gd,9,Attchd,2000.0,RFn,3,836,TA,TA,192,84,0,0,0,0,,,12,2008,Normal,250000,WD


# 3. Data Preprocessing

## 3.1. Handling Outliers

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

## 3.2. Handling Missing Values

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

## 3.3. Feature Engineering

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

__3.3.1 Sub titles if needed__

# 4. Exploratory data Analysis

## Statistical Analysis And Visualisations

# 5. Feature Preprocessing

## 5.1. Encoding

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

## 5.2. Standardizing, Normalizing and other Transformations

### 5.2.1. Standardizing (if needed)

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

### 5.2.2. Normalizing (if needed)

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

### 5.2.3. Other Transformations (if needed)

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

## 5.3. Dealing with High/Low Cardinality, Multi-collinearity

**A Brief Explanation of the approach**

........  
........  
........

**Codes with very short explanations, if needed**

----  
----

# 6. Modeling