## Kategorik Değişkenleri Sayısal Hale Dönüştürmek

Bu bölümde **string** olarak tutulan kategorik değişkenler nümerik hale dönüştürülür.

In [2]:
from pandas.api.types import is_string_dtype
from pandas.api.types import is_numeric_dtype

In [3]:
from sklearn.ensemble import RandomForestRegressor
from IPython.display import display

from sklearn import metrics


In [4]:
import pandas as pd
import numpy as np

import math

In [5]:
path = "data/buldozers/"

In [6]:
df = pd.read_csv(f'{path}Train.csv', low_memory=False,
                parse_dates=["saledate"]) 

In [7]:
df

Unnamed: 0,SalesID,SalePrice,MachineID,ModelID,datasource,auctioneerID,YearMade,MachineHoursCurrentMeter,UsageBand,saledate,...,Undercarriage_Pad_Width,Stick_Length,Thumb,Pattern_Changer,Grouser_Type,Backhoe_Mounting,Blade_Type,Travel_Controls,Differential_Type,Steering_Controls
0,1139246,66000.0,999089,3157,121,3.0,2004,68.0,Low,2006-11-16,...,,,,,,,,,Standard,Conventional
1,1139248,57000.0,117657,77,121,3.0,1996,4640.0,Low,2004-03-26,...,,,,,,,,,Standard,Conventional
2,1139249,10000.0,434808,7009,121,3.0,2001,2838.0,High,2004-02-26,...,,,,,,,,,,
3,1139251,38500.0,1026470,332,121,3.0,2001,3486.0,High,2011-05-19,...,,,,,,,,,,
4,1139253,11000.0,1057373,17311,121,3.0,2007,722.0,Medium,2009-07-23,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
412693,6333344,10000.0,1919201,21435,149,2.0,2005,,,2012-03-07,...,None or Unspecified,None or Unspecified,None or Unspecified,None or Unspecified,Double,,,,,
412694,6333345,10500.0,1882122,21436,149,2.0,2005,,,2012-01-28,...,None or Unspecified,None or Unspecified,None or Unspecified,None or Unspecified,Double,,,,,
412695,6333347,12500.0,1944213,21435,149,2.0,2005,,,2012-01-28,...,None or Unspecified,None or Unspecified,None or Unspecified,None or Unspecified,Double,,,,,
412696,6333348,10000.0,1794518,21435,149,2.0,2006,,,2012-03-07,...,None or Unspecified,None or Unspecified,None or Unspecified,None or Unspecified,Double,,,,,


In [8]:
df["UsageBand"]

0            Low
1            Low
2           High
3           High
4         Medium
           ...  
412693       NaN
412694       NaN
412695       NaN
412696       NaN
412697       NaN
Name: UsageBand, Length: 412698, dtype: object

* low:0 medium:1 high:2 şeklinde sıralı bir mapping yapılacak.

In [9]:
# Kolonun isimleri ve değerleri içerisinde iterasyın yapar.
# n:column isimleri  c:column değerleri

for n, c in df.items():
    print(n)
    print("------------")
    print(c)
    break

SalesID
------------
0         1139246
1         1139248
2         1139249
3         1139251
4         1139253
           ...   
412693    6333344
412694    6333345
412695    6333347
412696    6333348
412697    6333349
Name: SalesID, Length: 412698, dtype: int64


In [10]:
# string dtype'ı olan columnları pandas category tipine çevirir
def train_cats(df):
    for n,c in df.items():
        if is_string_dtype(c):
            
            #column değeri = pandas'ın kategorik değişken veri tipinde olsun
            df[n] = c.astype("category").cat.as_ordered()

**NOT** 
* Train veri setine uygulanan transfrom işlemleri, aynı şekilde validasyon ve test veri setlerine de uygulanmalıdır.

* Örn. train'de high'a 2 dediysek validasyon'da da 2 demeliyiz.

In [11]:
# train set'e train_cats uygulandıktan sonra
# aynı category değişimlerim olsun diye validation'a, train'e bu uygulanır.

def apply_cats(df, train):
    for n, c in df.items():
        if train[n].dtype == "category":
            df[n] = pd.Categorical(c, categories=train[n].cat.categories, ordered=True)

In [12]:
train_cats(df)

In [13]:
df["UsageBand"].cat.categories

Index(['High', 'Low', 'Medium'], dtype='object')

In [14]:
# DataFrame'in görünürdeki verilerini değiştirmez, arka planda ilgili kolonu sayısal hale getirir.

df["UsageBand"]

0            Low
1            Low
2           High
3           High
4         Medium
           ...  
412693       NaN
412694       NaN
412695       NaN
412696       NaN
412697       NaN
Name: UsageBand, Length: 412698, dtype: category
Categories (3, object): ['High' < 'Low' < 'Medium']

In [15]:
# Arka planda bu cat serisinin code'larına erişerek kategorilerin sayısal halini görebiliriz.
df["UsageBand"].cat.codes

0         1
1         1
2         0
3         0
4         2
         ..
412693   -1
412694   -1
412695   -1
412696   -1
412697   -1
Length: 412698, dtype: int8

Fakat burda bir sorun var: 
* low:0 medium:1 high:2 şeklinde sıralı bir mapping yapacaktık, bu şekilde sıralanmamış.
* Çünkü bilgisayar high, low, medium mantığını bilmiyor bizim özellikle söylememiz gerekir.

In [16]:
df["UsageBand"].cat.categories

Index(['High', 'Low', 'Medium'], dtype='object')

In [17]:
# UsageBand'in cat attribute'una eriş set_categories olarak parantez içindeki sırayla ver.
df["UsageBand"].cat.set_categories(["High", "Medium", "Low"], ordered=True, inplace=True)

In [18]:
# Sırayı kontrol edelim
df["UsageBand"].cat.categories


Index(['High', 'Medium', 'Low'], dtype='object')

In [19]:
# Categorilerin kodlarını kontrol edelim
df["UsageBand"].cat.codes

0         2
1         2
2         0
3         0
4         1
         ..
412693   -1
412694   -1
412695   -1
412696   -1
412697   -1
Length: 412698, dtype: int8

* Burda yer alan mising value ları pandas categorik değişken veri tipi -1 olarak dönüştürür.

*  Modelin görmesi için kolonu değiştirmemiz gerekir. Çünkü model arka planı göremez. Yani kategorik verilerin sayısal halini göremez.

In [20]:
# Eğer verilen değer nümerik tipte değilse colon isimlerini "kolon değerlerinde kodlarının + 1" yle değiştir.
# Burdaki + 1 missing value'ları 0 yapmak için kullanıldı zorunlu değil.

def numericalize(df, col, name):
    if not is_numeric_dtype(col):
        df[name] = col.cat.codes + 1

In [21]:
# dataframe'in UsageBand kolonunu UsageBand ile değiştir.
numericalize(df, df["UsageBand"], "UsageBand")

In [22]:
# kolon değişmiş mi kontrol edelim
df["UsageBand"]

0         3
1         3
2         1
3         1
4         2
         ..
412693    0
412694    0
412695    0
412696    0
412697    0
Name: UsageBand, Length: 412698, dtype: int8

* UsageBand column u artık **tamemen nümerik** değerlerden oluştuğu **cat metodu çalışmaz**, hata verir.

In [23]:
# df["UsageBand"].cat.codes

# Datetime Column

* Datetime veri tipinde yıl/ay/gün olarak gösterilir.
* Arka planda ise yılın hangi haftası, artık yıl olup/olmadığı vs. tutulur.


* Bu bölümde **Datetime** olarak tutulan kategorik değişken nümerik hale getirilmiştir.

In [24]:
df["saledate"]

0        2006-11-16
1        2004-03-26
2        2004-02-26
3        2011-05-19
4        2009-07-23
            ...    
412693   2012-03-07
412694   2012-01-28
412695   2012-01-28
412696   2012-03-07
412697   2012-01-28
Name: saledate, Length: 412698, dtype: datetime64[ns]

In [25]:
# yılına erişmek için datetime özelliği(attribute) kullanılmalı yoksa hata verir.
df["saledate"].year

AttributeError: 'Series' object has no attribute 'year'

In [26]:
df["saledate"].dt.year

0         2006
1         2004
2         2004
3         2011
4         2009
          ... 
412693    2012
412694    2012
412695    2012
412696    2012
412697    2012
Name: saledate, Length: 412698, dtype: int64

* Datetime kolonuna yılın hangi haftası, hangi günü old vs. aşağıdaki gibi  eklenir.

In [27]:
def add_datepart(df, dt_name, drop=True):
    
    dt_column = df[dt_name]
    column_dtype = dt_column.dtype
    
    attr = ['year', 'month', 'week', 'day', 'dayofweek', 'dayofyear',
           'is_month_end', 'is_month_start', 'is_quarter_end', 'is_quarter_start', 'is_year_end', 'is_year_start']
    
    for a in attr:
        
        # capitalize metodu attr içindeki a'yı ilk harfini büyük harfeçevirir
        # örn. year'ı Year yapar
        # tüm bu attr dizisinde yer alanları farklı farklı kolonlar olarak df ye ekliyorum.
        df["Date" + a.capitalize()] = getattr(dt_column.dt, a)
        
    df["Date" + "Elapsed"] = dt_column.astype(np.int64) // 10**9
    
    # add_datepart() fonk. içerisine girilen kolonu dataframe'den sier
    #if drop:
        #df.drop(dt_name, axis=1, inplace=True)
    

In [28]:
# dataframe e date ayrıntılarını ekleme
add_datepart(df, "saledate")
df

  df["Date" + a.capitalize()] = getattr(dt_column.dt, a)


Unnamed: 0,SalesID,SalePrice,MachineID,ModelID,datasource,auctioneerID,YearMade,MachineHoursCurrentMeter,UsageBand,saledate,...,DateDay,DateDayofweek,DateDayofyear,DateIs_month_end,DateIs_month_start,DateIs_quarter_end,DateIs_quarter_start,DateIs_year_end,DateIs_year_start,DateElapsed
0,1139246,66000.0,999089,3157,121,3.0,2004,68.0,3,2006-11-16,...,16,3,320,False,False,False,False,False,False,1163635200
1,1139248,57000.0,117657,77,121,3.0,1996,4640.0,3,2004-03-26,...,26,4,86,False,False,False,False,False,False,1080259200
2,1139249,10000.0,434808,7009,121,3.0,2001,2838.0,1,2004-02-26,...,26,3,57,False,False,False,False,False,False,1077753600
3,1139251,38500.0,1026470,332,121,3.0,2001,3486.0,1,2011-05-19,...,19,3,139,False,False,False,False,False,False,1305763200
4,1139253,11000.0,1057373,17311,121,3.0,2007,722.0,2,2009-07-23,...,23,3,204,False,False,False,False,False,False,1248307200
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
412693,6333344,10000.0,1919201,21435,149,2.0,2005,,0,2012-03-07,...,7,2,67,False,False,False,False,False,False,1331078400
412694,6333345,10500.0,1882122,21436,149,2.0,2005,,0,2012-01-28,...,28,5,28,False,False,False,False,False,False,1327708800
412695,6333347,12500.0,1944213,21435,149,2.0,2005,,0,2012-01-28,...,28,5,28,False,False,False,False,False,False,1327708800
412696,6333348,10000.0,1794518,21435,149,2.0,2006,,0,2012-03-07,...,7,2,67,False,False,False,False,False,False,1331078400


##  getattr() Nedir?

In [31]:
class a :
    x = 2

In [32]:
b = a()

In [33]:
# b nin x attribute unu getirir

print(type(b.x))
print(b.x)

<class 'int'>
2


In [34]:
# string olarak vermez
b."x"

SyntaxError: invalid syntax (<ipython-input-34-6d2d755e7e27>, line 2)

In [35]:
# string verdiğim değeri int olarak verir
# b.x ile getattr(b, "x") aynı işi yapar

print(getattr(b, "x"))
print("tipi", type(getattr(b, "x")))

2
tipi <class 'int'>


# Feather Format

* Burda yaptığımız işlemleri ve dataframe'in son halini kaydetmek için kullanırız.

* Pandas ile de feather format üzerinden veri okuyabiliriz.

In [36]:
import os

In [37]:
#### pip install pyarrow ####

In [38]:
# exist_ok tmp diye bir değişken varsa hata vermemesini sağlar
os.makedirs('tmp', exist_ok=True) 

# # tmp diye bir directory oluştur, bunun içerisine buldozers_1 diye kaydet
df.to_feather('tmp/buldozers_1')