In [None]:
# Makine öğrenmesi ve veri bilimi uygulamalarında öncelikle verilerin elde edilmesi ve kullanıma hazır hale getirilmesi 
# gerekmektedir.Bu bölümünde biz "verilerin kullanıma hazır hale getirilmesi (Data preparation yada Preprocesses)" süreci üzerinde duracağız.

"""
Veriler toplandıktan sonra hemen işleme sokulamayabilir. Veriler üzerinde çeşitli önişlemler yapmak gerekebilir. Bu önişlemlere
"verilerin hazır hale getirilmesi (data preparation)" denilmektedir.Bu bölümde verilerin hazır hale getirilmesi için bazı 
temel işlemler üzerinde duracağız. Diğer bazı işlemler başka bölümlerde ele alınacaktır. Ancak verilerin kullanıma hazır hale 
getirilmesi tipik olarak aşağıdaki gibi süreçleri içermektedir:

1) Verilerin Temizlenmesi (Data Cleaning): Veriler eksiklikler içerebilir ya da geçersiz değerler içerebilir. Bazen de aşırı uç 
değerlerden (outliers) kurtulmak gerekebilir. Bu faaliyetlere verilerin temizlenmesi denilmektedir. Kusurlu veriler yapılan 
analizleri olumsuz yönde etkilemektedir.

2) Özellik seçimi (Feature Selection): Veri kümelerindeki tüm sütunlar bizim için anlamlı ve gerekli olmayabilir. Gereksiz sütunların 
atılıp gereklilerin alınması faaliyetine "özellik seçimi" denilmektedir. Örneğin bir veri tablosundaki kişinin "adı soyadı" sütunu 
veri analizi açısından genellikle (ama her zaman değil) bir fayda sağlamamaktadır. Bu durumda bu sütunların atılması gerekir. 
Bazen veriler tamamen geçersiz bir durum halinde de karşımıza gelebilmektedir. Örneğin oransal bir ölçeğe sahip sütunda yanlışlıkla
kategorik bir veri bulunabilir. 

3) Verilerin Dönüştürülmesi (Data Transformation): Kategorik veriler, tarih ve zaman verileri gibi veriler, resimler gibi veriler
doğrudan işleme sokulamazlar. Bunların sayısal biçime dönüştürülmesi gerekir. Bazen veri kümesindeki sütunlarda önemli skala 
farklılıkları olabilmektedir. Bu skala farklılıkları algoritmaları olumsuz etkileyebilmektedir. İşte sütunların skalalarını birbirine 
benzer hale getirme sürecine "özellik ölçeklemesi (feature scaling)" denilmektedir. 

4) Özellik Mühendisliği (Feature Engineering): Özellik mühendisliği veri tablosundaki sütunlardan olmayan başka sütunların 
oluşturulması sürecine denilmektedir. Yani özellik mühendisliği var olan bilgilerden hareketle önemli başka bilgilerin elde 
edilmesidir. Örneğinin kişinin boy ve kilosu biliniyorsa biz vücut kitle endeksini tabloya ekleyebiliriz. 

5) Boyutsal Özellik İndirgemesi (Dimentionality Feature Reduction): Veri kümesinde çok fazla sütun olmasının pek çeşitli 
dezavantajı olabilmektedir. Örneğin bu tür durumlarda işlem yükü artabilir. Gereksiz sütunlar kestirimi sürecini olumsuz 
biçimde etkileyebilir. Fazla sayıda sütun kursumuzun ilerleyen zamanalarında sıkça karşılaşacağımız "overfitting" denilen 
yanlış öğrenmelere yol açabilir. O zaman sütunların sayısının azaltılması gerekebilir. İşte n tane sütunun k < n olmak üzere 
k tane sütun haline getirilmesi sürecine boyutsal özellik indirgemesi denilmektedir. Bu konu kursumuzda ileride ayrı bir bölümde 
ele alınacaktır.

6) Verilerin Çoğaltılması (Data Augmentation): Elimizdeki veriler (veri kümesindeki satırlar) ilgili makine öğrenmesi yöntemini
uygulayabilmek için sayı bakımından ya da nitelik bakımından yetersiz olabilir.  Eldeki verilerle (satırları kastediyoruz) 
yeni verilerin oluşturulması (yeni satırların oluşturulması) sürecine "verilerin çoğaltılması (data augmentation)" denilmektedir. 
Örneğin bir resimden döndürülerek pek çok resim elde edilebilir. Benzer biçimde örneğin bir resmin çeşitli kısımlarından 
yeni resimler oluşturulabilir. Özellik mühendisliğinin "sütun eklemeye yönelik", verilerin çoğaltılmasının ise "satır eklemeye 
yönelik" bir süreç olduğuna dikkat ediniz. 

"""

#Eksik verilerle ilgili notlar : 
"""
Eksik verilerin ortaya çıkma nedenleri çeşitli olabilir. Ancak veri bilimcisini bu noktada ilgilendiren en önemli durum 
eksik verilerin bir kalıp izleyip izlemediğidir. Genellikle teorik kaynaklar eksik verilerin ortaya çıkma biçimlerini üç 
grupta ele almaktadır. 

1) Tamamen Rastgele Oluşan Eksik Veriler (Missing Completely At Random - MCAR): Burada eksik veriler rastgele satırların
rastgele sütunlarındadır. Bu nedenle eksik veri içeren satır ya da sütunların atılması geri kalan veri kümesini yanlı (biased) 
hale getirmez. 

2) Rastgele Oluşan Ekisik Veriler (Missing At Random -  (MAR): Burada eksik veriler bir kalıp oluşturmaktadır. Bu kalıp tablonun 
başka sütunları ile ilgilidir. Örneğin tablonun "Yaş" sütunundaki eksik verilerin çoğunun Cinsiyet sütunundaki Kadın'lara ilişkin 
olması bu türden bir eksik veridir. Böylesi eksik verilerde eksik verinin bulunduğu satırın tamamen atılması geri kalan veriyi 
yanlı hale getirebilmektedir. 

3) Rastgele Oluşmayan Eksik Veriler (Missing Not At Random - MNAR): Burada eksik verilerde bir kalıp vardır ancak bu kalıp tabloda 
sütunlarla açıklanamamaktadır. Dolayısıyla burada da eksik veriler atılırsa bir yanlılık oluşabilir. 

"""

In [None]:
"""
CSV dosyalarında iki virgül arasında hiçbir değer yoksa bu eksik veri anlamına geliyor olabilir. Böyle CSV dosyalarını Pandas'ın
read_csv fonksiyonuyla okursak NaN (Not a Number) denilen özel numpy.float64 değerini elde ederiz. Örneğin "person.csv" 
isimli dosya şu içeriği sahip olsun:

Adı Soyadı,Kilo,Boy,Yaş,Cinsiyet
Sacit Bulut,78,172,34,Erkek
Ayşe Er,67,168,45,Kadın
Ahmet San,,182,32,Erkek
Macit Şen,98,156,65,Erkek
Talat Demir,85,,49,Erkek

Bu  dosyayı şöyle okuyalım:

import pandas as pd

df = pd.read_csv('person.csv')

Şöyle bir çıktı elde ederiz:

    Adı Soyadı  Kilo    Boy  Yaş Cinsiyet
0  Sacit Bulut  78.0  172.0   34    Erkek
1      Ayşe Er  67.0  168.0   45    Kadın
2    Ahmet San   NaN  182.0   32    Erkek
3    Macit Şen  98.0  156.0   65    Erkek
4  Talat Demir  85.0    NaN   49    Erkek

Bir CSV dosyasında özel bazı sözcükler de eksik veri anlamına gelebilmektedir. Ancak hangi özel sözcüklerin eksik veri
anlamına geldiği CSV okuyucları arasında farklılıklar gösterebilmektedir. Örneğin Pandas'ın read_csv fonksiyonu şu 
özel sözcükleri "eksik veri" gibi ele almaktadır: NaN, '', '#N/A', '#N/A' 'N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', 
'-nan', '1.#IND', '1.#QNAN', '<NA>', 'N/A', 'NA', 'NULL', 'NaN', 'None', 'n/a', 'nan', ‘null’. CSV dosyalarında en çok
karşımıza çıkan eksik veri gösterimlri şunlardır: '', NaN, nan, NA, null. read_csv fonksiyonu ayrıca na_values isimli 
parametresi yoluyla programcınn istediği yazıları da eksik veri olarak ele alabilmektedir. Bu parametreye yazılardan 
oluşan dolaşılabilir bir nesne girilmeldir. Örneğin:

df = pd.read_csv('person.csv', na_values=['NE'])

Burada read_csv yukarıdakilere ek olarak 'NE' yazısını da eksik olarak ele alacaktır. read_csv fonksiyonunun keep_default_na
parametresi False olarak girilirse (bu parametrenin default değeri True biçimdedir) bu durumda yukarıda belirttiğimiz eksik 
veri kabul edilen yazılar artık eksik veri olarak kabul edilmeyecek onlara normal yazı muamalesi yapılacaktır. read_csv
fonksiyonu bir süredir yazısal olan sütunların dtype özelliğini "object" olarak tutmaktadır. Yani bu tür sütunların her elemanı 
farklı türlerden olabilir. Bu tür sütnunlarda NaN gibi eksik veriler söz konusu olduğunda read_csv fonksiyonu yine onu 
np.float64 NaN değeri olarak ele almaktadır.

Eksik veri işlemleri NumPy kütüphanesi ile loadtxt fonksiyonu kullanılarak da yapılabilir. Ancak loadtxt fonksiyonunun 
eksik verileri ele almak için kullanılması çok zahmetlidir. Bu nedenle biz CSV dosyalarını genellikle 
Pandas'ın read_csv fonksiyonu ile okuyacağız.

"""


In [None]:
"""
Eksik verilerle çalışırken ilk yapılması gereken şey "eksikliğin analiz edilmesidir". Yani kaç tane eksik veri vardır? Kaç 
satırda ve hangi sütunlarda eksik veriler bulunmaktadır? Eksik veriler toplam verilerin yüzde kaçını oluşturmaktadır? Gibi 
sorulara yanırlar aranmalıdır.

Eksik verilerin ele alınmasında iki temel strateji vardır:

1) Eksik verilerin bulunduğu satırı (nadiren de sütunu) tamamen atmek
2) Eksik verilerin yerine başka değerler yerleştirmek (imputation). 

Eksik verilerin bulunduğu satırın atılması yönteminde şunlara dikkat edilmelidir:

a) Eksik verili satırlar atıldığında elde kalan veri kümesi çok küçülecek midir?
b) Eksik verili satırlar atıldığında elde kalan veri kümesi yanlı (biased) hale gelecek midir?

Eğer bu soruların yanıtı "hayır" ise eksik verilerin bulunduğu satırlar tamamen atılabilir. 

Eksik veriler yerine bir verinin doldurulması işlemine İngilizce "imputation" denilmektedir. Eğer eksik verilerin bulunduğu 
satır (nadiren de sütun) atılamıyorsa "imputation" uygulanmalıdır. 

"""

In [None]:
"""
DataFrame nesnesi df olmak üzere, eksik veri analizinde şu kalıpları kullanabilirsiniz:

1) Sütunlardaki eksik verilerin miktarları şöyle bulunabilir:

df.isna().sum() ya da pd.isna(df).sum()

Pandas'taki isna fonksiyonu aynı zamanda DataFrame ve Series sınıflarında bir metot biçiminde de bulunmaktadır. isna bize 
bool türden bir DataFrame ya da Series nesnesi vermektedir. bool üzerinde sum işlemi yapıldığında False değerler 0 olarak, True
değerler 1 olarak işleme girer. Dolayısıyla yularıdaki işlemlerde biz sütunlardaki eksik veri sayılarını elde etmiş oluruz.
isna fonksiyonunun diğer bir ismi isnull biçimindedir.

2) Eksik verilerin toplam sayısı şöyle bulunabilir:

df.isna().sum().sum() ya da pd.isna(df).sum().sum() 

isna fonksiyonu (ya da metodu) sütunsan temelde eksik verilerin sayılarını verdiğine göre onların toplamı da toplam eksik verileri 
verecektir.


3) Eksik verilerin bulunduğu satır sayısı şöyle elde edilebilir:

pd.isna(df).any(axis=1).sum()

4) Eksik verilerin bulunduğu satır indeksleri şöyle elde edilebilir:

df.index[pd.isna(df).any(axis=1)] ya da df.loc[df.isna().any(axis=1)].index

5) Eksik verilerin bulunduğu sütun isimleri şöyle elde edilebilir:

missing_columns = [name for name in df.columns if df[name].isna().any()]

"""

In [1]:
import pandas as pd

df = pd.read_csv('melb_data.csv')

missing_columns = [colname for colname in df.columns if df[colname].isna().any()]
print(f'Eksik verilen bulunduğu sütunlar: {missing_columns}', end='\n\n')

missing_column_dist = df.isna().sum()
print('Eksik verilerin sütunlara göre dağılımı:')
print(missing_column_dist, end='\n\n')

missing_total = df.isna().sum().sum()
print(f'Eksik verilen toplam sayısı: {missing_total}')

missing_ratio = missing_total / df.size
print(f'Eksik verilen oranı: {missing_ratio}')

missing_rows = df.isna().any(axis=1).sum()
print(f'Eksik veri bulunan satırların sayısı: {missing_rows}')

missing_rows_ratio = missing_rows / len(df)
print(f'Eksik veri bulunan satırların oranı: {missing_rows_ratio}')

Eksik verilen bulunduğu sütunlar: ['Car', 'BuildingArea', 'YearBuilt', 'CouncilArea']

Eksik verilerin sütunlara göre dağılımı:
Suburb              0
Address             0
Rooms               0
Type                0
Price               0
Method              0
SellerG             0
Date                0
Distance            0
Postcode            0
Bedroom2            0
Bathroom            0
Car                62
Landsize            0
BuildingArea     6450
YearBuilt        5375
CouncilArea      1369
Lattitude           0
Longtitude          0
Regionname          0
Propertycount       0
dtype: int64

Eksik verilen toplam sayısı: 13256
Eksik verilen oranı: 0.04648292306613367
Eksik veri bulunan satırların sayısı: 7384
Eksik veri bulunan satırların oranı: 0.543740795287187


In [2]:
"""
    Eksik verileri DataFrame nesnesinden silmek için DataFrame sınıfının dropna metodu kullanılabilir. Bu metotta default 
    axis = 0'dır. Yani default durumda satırlar atılmaktadır. Ancak axis=1 parametresiyle sütunları da atabiliriz. Metot default 
    durumda bize eksik verilerin atıldığı yeni bir DataFrame nesnesi vermektedir. Ancak metodun inplace parametresi True yapılırsa 
    nesne üzerinde atım yapılmaktadır. 
"""
import pandas as pd

df = pd.read_csv('melb_data.csv')
print(f'Veri kümesinin boyutu: {df.shape}')

df_deleted_rows = df.dropna(axis=0)
print(f'Satır atma sonucundaki yeni boyut: {df_deleted_rows.shape}')

df_deleted_cols = df.dropna(axis=1)
print(f'Sütun atma sonucundaki yeni boyut: {df_deleted_cols.shape}')

Veri kümesinin boyutu: (13580, 21)
Satır atma sonucundaki yeni boyut: (6196, 21)
Sütun atma sonucundaki yeni boyut: (13580, 17)


In [None]:
"""
Eksik verilerin yerine başka değerlerin yerleştirilmesi işlemine "imputation" denilmektedir. Kullanılan tipik imputation 
stratejiler şunlardır:

- Sütun sayısal ise Eksik verileri sütun ortalaması ile doldurma
- Sütun kaegorik ya da sırasal ise eksik verileri mode değeri ile doldurma
- Eksik verilerin  sütunlarda uç değeler varsa medyan değeri ile doldurulması 
- Eksik verilerin yerine belli aralıkta ya da dağılımda rastgele değer yerleştirme yöntemi
- Eksik verilerin zaman serileri tarzında sütunlarda önceki ya da sonraki sütun değerleriyle doldurulması
- Eksik değerlerin regresyonla tahmin edilmesi yoluyla doldurulması
- Eksik değerlerin KNN (K-Nearest Neighbours) Yöntemi ile doldurulması

En çok uygulanan yöntem basitliği nedeniyle sütun ortalaması, sütun modu ya da sütun medyanı ile doldurma yöntemidir. 

Yukarıda da belirttiğimiz gibi eksik verilerin söz konusu olduğu satır ya da sütunların atılması büyük ölçüde bizim veri 
kümesi ile ne yapmak istediğimize bağlıdır. Yukarıdaki "Melbourne Housing Snapshot (MHS)" veri kümesinde eğer uygunsa eksik veri 
içeren sütunlar atılabilir. Çünkü eksik veriler büyük ölçüde 4 sütunda toplanmıştır. Yine eksik veriler atıldığında kalan 
veri kümesi yanlı değilse ve zaten veri kümesinde çok satır varsa eksik verilerin bulunduğu satırlar da atılabilir. Yine
"Melbourne Housing Snapshot" veri kümesimde satırların atılması veri kümesini %50 civarında azaltacaktır. Bu nedenle 
burada "imputation" düşünülebilir. 

"""

"""
Şimdi imputation işlemine MHS veri kümesi üzerinde örnek verelim. Bu veri kümesinde eksik veriler şu sütunlarda bulunmaktaydı:
"Car", "BuildingArea", "YearBuilt", "CouncilArea". Inputation işlemi için bu vsütunların incelenmesi gerekir. "Car" sütunu ev 
için ayrılan otopark alanının kaç arabayı içerdiğini belirtmektedir. Bu sütunda ayrık küçük tamsayı değerler vardır. Burada 
imputation için sütun oralaması alınabilir. Ancak bunların yuvarlanması daha uygun olabilir. Bu işlem şöyle yapılabilir:

impute_val = df['Car'].mean().round()
df['Car'] = df['Car'].fillna(impute_val)    # eşdeğeri df['Car'].fillna(impute_val, inplace=True)

DataFrame ve Series sınıflarının fillna metotları eksik verileri belli bir değerle doldurmak için kullanılmaktadır. 
Bu metotta inplace parametresi True yapılırsa zaten doldurma doğrudan DataFrame ya da Series nesnesi güncellenecek biçimde 
yapılmaktadır.

Eksik veri içeren diğer bir sütun da "BuildingArea" sütunudur. Bu sütun evin metrekare cinsindende büyüklüğünü belirtmektedir. 
Her ne kadar bu sütun tamsayı değerlerinden oluşuyorsa da bir yuvarlamadan ortlaama değerle doldurma işlemi yapabiliriz. Tabii 
yine yuvarlama da uygulayabiliriz. Örneğin:

impute_val = df['BuildingArea'].mean().round()
df['BuildingArea'] = df['BuildingArea'].fillna(impute_val)    # eşdeğeri df['Car'].fillna(impute_val, inplace=True)

Veri kümesinin YearBuilt sütunu binanın yapım yılını belirtmektedir. Bu tür tarih bilgileri ya da yıl bilgileri hangi ölçeğe 
sahiptir? Aslında bu tür bilgilerin ölçeklerini belirleme amaca da bağlıdır. Yıl bilgisi "kategorik", "sıralı" ya da aralıklı 
ölçek olarak değerlendirilebilir. Ancak genellikle bu tür yıl bilgilerinin "sıralı (ordinal)" değerlendirilmesi daha uygun 
olabilmektedir. O halde biz bu sütunun ortalama değeri olarak medyan işlemi uygulayabiliriz:

impute_val = df['YearBuilt'].median()
df['YearBuilt'] = df['YearBuilt'].fillna(impute_val)    # eşdeğeri df['YearBuilt'].fillna(impute_val, inplace=True)

Eksik veri içeren diğer bir sütun da "CouncilArea" sütunudur. Bu sütun binanın içinde bulunduğu bölgeyi belirtmektedir. 
Dolayısıyla kategorik bir sütundur. O halde mod işlemi ile "imputation" uygulayabiliriz:

impute_val = df['CouncilArea'].mode()
df['CouncilArea'] = df['CouncilArea'].fillna(impute_val[0])    # eşdeğeri df['CouncilArea'].fillna(impute_val, inplace=True)

Pandas'taki DataFrame ve Series sınıflarının mode metotları sonucu Series nesnesi biçiminde vermektedir. (Aynı miktarda yinelenen
birden fazla değer olabilecğei için bu değerlerin hepsinin verilmesi tercih edilmiştir.) Dolayısıyla biz bu Series ensnesinin 
ilk elemanını alarak değeri elde ettik.

"""

In [5]:
#Aşağıda MHS veri kümesinde uygulanan imputation işlemini bir bütün olarak veriyoruz.
import pandas as pd

df = pd.read_csv('melb_data.csv')

impute_val = df['Car'].mean()
df['Car'] = df['Car'].fillna(impute_val)    # eşdeğeri df['Car'].fillna(impute_val, inplace=True)
print(df)
print("***")

impute_val = df['BuildingArea'].mean()
df['BuildingArea'] = df['BuildingArea'].fillna(impute_val)    # eşdeğeri df['Car'].fillna(impute_val, inplace=True)
print(df)
print("***")

impute_val = df['YearBuilt'].median()
df['YearBuilt'] = df['YearBuilt'].fillna(impute_val)    # eşdeğeri df['YearBuilt'].fillna(impute_val, inplace=True)
print(df)
print("***")

impute_val = df['CouncilArea'].mode()
df['CouncilArea'] = df['CouncilArea'].fillna(impute_val[0])    # eşdeğeri df['CouncilArea'].fillna(impute_val, inplace=True)
print(df)
print("***")

              Suburb           Address  Rooms Type      Price Method  \
0         Abbotsford      85 Turner St      2    h  1480000.0      S   
1         Abbotsford   25 Bloomburg St      2    h  1035000.0      S   
2         Abbotsford      5 Charles St      3    h  1465000.0     SP   
3         Abbotsford  40 Federation La      3    h   850000.0     PI   
4         Abbotsford       55a Park St      4    h  1600000.0     VB   
...              ...               ...    ...  ...        ...    ...   
13575  Wheelers Hill      12 Strada Cr      4    h  1245000.0      S   
13576   Williamstown     77 Merrett Dr      3    h  1031000.0     SP   
13577   Williamstown       83 Power St      3    h  1170000.0      S   
13578   Williamstown      96 Verdon St      4    h  2500000.0     PI   
13579     Yarraville        6 Agnes St      4    h  1285000.0     SP   

        SellerG        Date  Distance  Postcode  ...  Bathroom  Car  Landsize  \
0        Biggin   3/12/2016       2.5    3067.0  ...  

In [None]:
"""
Biz yukarıda ortalama, medyan ve mod değerleriyle imputation uyguladık. Gerçekten de en çok uygulanan imputation yöntemleri
bunlardır. Ancak bu yöntemler bazen yetersiz kalabilmektedir. Bu durumda daha karmaşık yöntemlerin uygulanması gerebilmektedir. 
Örneğin MHS veri kümesinde eksik veri olan evin metrekaresini ortalama yoluyla doldurmak uygun olmayabilir. Çünkü bazı bölgeler
pahalı olduğu için oradaki evler büyük ya da küçük olabilmektedir. Bazı bölgelerin imarları farklı olabilmektedir. Yani 
evin metrekaresi başka özelliklere göre (sütun bilgilerine göre) değişebilmektedir. Pekiyi bu tür durumlarda ne yapmak gerekir?
İşte sütun değerleri satırdaki diğer değerlerden hareketle regresyon modelleriyle tahmin edilebilir. Ancak uygulamada 
genellikle bu tür durumlar göz ardı edilip temel imputation yöntemleri uygulanmaktadır. 

"""