# Normalizayon
İstatistiksel normalleştirme, özellikle, veri madenciliği (data mining) gibi bilgisayar bilimlerinin istatistiksel veri işleme alanlarında kullanılan bir yöntemdir. Yöntemin amacı, veriler arasında farklılığın çok fazla olduğu durumlarda verileri tek bir düzen içerisinde ele almaktır.
Diğer bir kullanılışı ise farklı ölçekleme sisteminde bulunan verilerin birbiri ile karşılaştırılabilmesidir. Buradaki amaç, matematiksel fonksiyonlar kullanarak, farklı sistemlerde bulunan verileri, ortak bir sisteme taşımak ve karşılaştırılabilir hale getirmektir.
1. Asgari – Azami Normalleştirmesi (Min-Max Normalisation):
Bu yöntemde, bir grup verinin içerisindeki en büyük ve en küçük değerler ele alınır. Diğer bütün veriler, bu değerlere göre normalleştirilir. Buradaki amaç en küçük değeri 0 ve en büyük değeri 1 olacak şekilde normalleştirmek ve diğer bütün verileri bu 0-1 aralığına yaymaktır.
2. Standart Skor (Standard Score):
Diğer bir normalleştirme yöntemidir. Bir önceki yöntemde, sayılar en yüksek ve en düşük değerlere göre normalleştirilmişti. Bu yöntemde ise ortalama değer (mean value) ve standart sapma (standard deviation) değerleri göz önüne alınır.  Sistemde kullanılan standart sapmaya atfen, standart skor (standard score) olarak da isimlendirilir. Oldukça popüler normalleştirme yöntemlerinden birisidir.

**Normalizasyon yöntemleri**
1. Standart Skorlama (Standard Score) : Bir popülasyondaki parametrelerin bilinmesi durumunda hata değerlerini normalleştirmek için kullanılır. Normal dağılımı esas alır ve bu dağılıma uyan popülasyonlarda başarılı çalışır. Basitçe her değerin ortalamadan olan uzaklıklarının standart sapmaya oranı ile bulunur.
2. Student’s t test(Öğrencinin t testi): popülasyonun parametrelerinin bilinmediği durumlarda kullanılan ve dolayısıyla bir beklendik değerle hesaplanan ve bu beklendik değerle veriler arasındaki farkı / hatayı (tortu, residual) bularak bu değere göre normalleştiren yöntemdir. Her değerin beklendik değere olan uzaklığı ve beklendik değerlerin farklarının ortalamasına oranı ile bulunur.
3. Standartlaştırılmış an (Standardized moment): Genelde standart moment olarak Türkçede geçen yöntem, aslında momentlerin standartlaştırılması için k. momentin standart sapmaya oranı ile bulunur.
4. Varyans çarpanı (coefficient of variance): Bir popülasyondaki farklılıkları göstermek için kullanılan çarpandır. Basitçe bir popülasyonun ortalama değerinin standart sapmasına oranı olarak hesaplanır.
5. Özellik ölçeklemesi (Feature Scaling) veya Min-Max Normalleştirmesi : Bir popülasyondaki en yüksek ve en düşük değere görece olarak her değerin konumunu hesaplamak için kullanılır.

# Proje Açıklaması - Özet Bilgiler
Bu proje [LendingClub.com](https://www.kaggle.com/braindeadcoder/lending-club-data) alınan veri seti kullanılmıştır. Lending club, paraya ihtiyacı olan insanlar (borç alanlar, borrowers) ile borç veren insanları (yatırımcılar, investors) bir araya getirir. Bu projede yatırımcıların para verdiği insanların borcunu ödeme olasılığı ele alınmıştır. Bu proje ile yatırımcılar borç verecekleri insanları makine öğrenmesi yardımıyla daha güvenilir insanlardan seçebilir.
Bu projede 2007-2010 yılları arasında veriler yardımıyla borç alacak olan insanların borçlarını tamamen ödeyip ödemeyecekleri sınıflandırma yöntemi ile tahminlenecektir.

In [None]:
# Gerekli kütüphaneler
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
loans = pd.read_csv("../input/lending-club-data/loan_data.csv")

# Veri seti sütünlarının (niteliklerinin) açıklaması:
* **credit.policy:** Müşteri eğer Lending Club kredi politikasını kabul etmiş ise 1, etmemiş ise 0 değerindedir.
* **purpose:** Borç alınacak paranın ne için kullanılacağıdır. ("credit_card", "debt_consolidation", "educational", "major_purchase", "small_business", and "all_other")
* **int.rate:** Borcun faiz oranıdır. (Örneğin %11, 0.11 olarak değerlendirilir.) (Ayrıca borç ödemesi riskli kişilere daha fazla faiz atanır.)
* **installment:** Borçlunun ödediği aylık taksit miktarıdır.
* **log.annual.inc:** Borçlunun yıllık geliridir.
* **dti:** Borçlunun borç/gelir oranıdır. (Borç tutarının yıllık gelire bölünmesi ile bulunur).
* **fico:** Borçlunun FICO kredi skorudur.
* **days.with.cr.line:** Borçlunun kredi limitinde olduğu gün sayısıdır.
* **revol.bal:** Borçlunun kredi kartı faturasında ödememiş olduğu tutardır.
* **revol.util:** Borçlunun toplam kredisinde kullandığı tutardır.
* **inq.last.6mths:** Borçlunun son 6 ay içinde alacaklıları tarafından yapılan soruşturma sayısı.
* **delinq.2yrs:** Borçlunun 2 yıl içerisindeki kaç borcunun ödeme tarihi gelse bile 30 gün içerisinde ödemediğinin göstergesidir.
* **pub.rec:** Borçlunun kamusal kayıtlarının sayısı. (İflas davaları, hacizleri, ...)

In [None]:
loans.info()

In [None]:
loans.describe()

In [None]:
loans.head()

In [None]:
# Özet
print("Toplam sütun sayısı (veri öznitelik sayısı):", len(loans.columns))
print("Toplam satır sayısı (veri sayısı):", len(loans.index))
print("Toplam sınıf sayısı: 2 (Borç alanlarının içinden borcunun ödeyenler ve ödemeyenler (1, 0))")

# Veri Analizi

In [None]:
# Kredi politikasının kabul edenler ile etmeyenlerin oldukça faydalı bir veri alan FICO skoruna göre grafiği:
sns.set_style("whitegrid")
fig = plt.figure(figsize=(15,4))
sns.distplot(loans[loans["credit.policy"] == 1]["fico"], kde=False, label="Credit Policy = 1")
sns.distplot(loans[loans["credit.policy"] == 0]["fico"], kde=False, label="Credit Policy = 0")
plt.legend(loc=0)
# Görüldüğü üzere kredi politikasını kabul edenlerin FICO skoru daha yüksek.

In [None]:
# Aynı şekilde çok yararlı FICO bilgisine kullanarak borcunun tamamen ödemeyenlerin FICO değerlerin grafiği:
fig = plt.figure(figsize=(15,4))
sns.distplot(loans[loans["not.fully.paid"] == 0]["fico"], kde=False, label="Not Fully Paid = 0")
sns.distplot(loans[loans["not.fully.paid"] == 1]["fico"], kde=False, label="Not Fully Paid = 1")
plt.legend(loc=0)
# Görüldüğü üzere borcunun tamamen ödemeyenleri FICO değeri daha düşük.

In [None]:
# Borç amaçlarına göre krediyi tamamen ödeme grafiği:
# Hangi amaçla borç alanlar borcunu ödüyor?
fig = plt.figure(figsize=(10,6))
sns.countplot(x="purpose", data=loans, hue="not.fully.paid")

In [None]:
# Bu bir doğal dil işleme problemi olmadığı için metin değerilerini kategori edilebilecek sayısal değerlere dönüştürme:
final_data = pd.get_dummies(loans, columns=["purpose"], drop_first=True)
final_data.head()
# Tamamen sayılardan oluşan bir veri seti elde ettik.

* Verimizi daha önce de denildiği üzere borçunu ödeyecek ve ödemeyecek kişiler olarak sınıflandıracağız.
* Bunun için ilk önce Decision Tree sonra Rain Forest yönteminden yararlanacağız.
* Bunun için ise öncelikle hangi özelliği tahminleyeceğimiz 'y' değişkenine atayacağız.
* 'y' özelliğini tahminlemek için kullanılacak veri setindeki diğer sütunları ise 'X' değişkenine atayacağız.
* Daha sonra ise bu değişkenleri eğitim ve test (train/test) verisi haline getirmek için böleceğiz.
* Ondan sonra Decision Tree ve Rain Forest yöntemiyle tahminleme yapacağız.

# Decision Tree

In [None]:
X = final_data.drop("not.fully.paid", axis=1)
y = final_data["not.fully.paid"]

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
from sklearn.tree import DecisionTreeClassifier
dtree = DecisionTreeClassifier()
# Veri setini eğitme işlemi:
dtree.fit(X_train, y_train)

In [None]:
# Tahminleme işlemi:
predictions = dtree.predict(X_test)

In [None]:
# Tahminleri kontrol etme işlemi:
from sklearn.metrics import confusion_matrix, classification_report
print(confusion_matrix(y_test, predictions))
print(classification_report(y_test, predictions))

In [None]:
# Diğer bir test etme işlemi (10 fold cross validation):
from sklearn.model_selection import cross_val_score
print(cross_val_score(dtree, X, y, cv=10))

In [None]:
# 100. sıradaki kişinin özellikleri
final_data.drop("not.fully.paid", axis=1).iloc[100]

In [None]:
# 100. sıradaki kişinin borcunu ödeyip ödemeyeceğini Decision Tree ile tahminleme işlemi:
dtree.predict([final_data.drop("not.fully.paid", axis=1).iloc[100]])
# Tahminlemeye göre kişi borcunu ödemeyecek.

In [None]:
# Gerçek sonuca göre 100. kişi borcunu ödemiyor.
final_data["not.fully.paid"].iloc[100]

In [None]:
# Decision Tree ile yapılan sonuçlar başarılı, şimdi Random Forest ile tahminleme yapalım.

# Rain Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(n_estimators=200)
# Veri setini eğitme işlemi:
rfc.fit(X_train, y_train)

In [None]:
# Tahminleme işlemi:
rfc_predictions = rfc.predict(X_test)

In [None]:
# Tahminleri kontrol etme işlemi:
print(confusion_matrix(y_test, predictions))
print(classification_report(y_test, predictions))

In [None]:
# Diğer bir test etme işlemi (10 fold cross validation):
print(cross_val_score(rfc, X, y, cv=10))

In [None]:
# 100. sıradaki kişinin özellikleri
final_data.drop("not.fully.paid", axis=1).iloc[100]

In [None]:
# 100. sıradaki kişinin borcunu ödeyip ödemeyeceğini Random Forest ile tahminleme işlemi:
rfc.predict([final_data.drop("not.fully.paid", axis=1).iloc[100]])
# Tahminlemeye göre kişi borcunu ödemeyecek.

In [None]:
# Gerçek sonuca göre 100. kişi borcunu ödemiyor.
final_data["not.fully.paid"].iloc[100]

In [None]:
# Rain Forest ile yapılan sonuçlar da başarılı.