Veri kümelerimizde genellikle kategorik değişkenler ile karşılaşırız. Kategorik bir değişkenin değerleri sınırlı sayıda kategoriye sahiptir. Örneğin, Cinsiyet değişkeni “Kadın” ve “Erkek” değerlerini alabilen kategorik bir değişkendir.

> **Kategorik değişkenler temel de iki türe ayrılırlar:**
> * **Sıralı kategorik değişkenler:** Değerleri doğal bir sıra izleyen kategorik değişkenlerdir. Örneğin, Eğitim seviyesi değişkeninde , “İlkokul”, “Ortaokul” ve “Lise” değerleri, “Lise” en yüksek eğitim seviyesi ve “İlkokul” en düşük olduğu bir sıralamayı takip eder.
> * **Nominal kategorik değişkenler:** Değerleri doğal bir sırayı takip etmeyen kategorik değişkenlerdir. Örneğin, Cinsiyet değişkeninin "Kadın" ve "Erkek" değerleri bir sırayı takip etmememektedir. Bundan dolayı nominal bir kategorik değişkendir.

**Kategorik değişken kodlaması nedir ve buna neden ihtiyacımız var?**

Herhangi bir veri kümesi, sayısal ve kategorik değişkenlerin bir kombinasyonu olan birden çok sütun içerir. Ancak makineler kategorik özellikleri/değişkenleri anlamadığından, kategorik sütunları sayısal sütunlara dönüştürmemiz gerekir. Bu işleme kategorik değişken kodlaması denir.

> **Kodlama Türleri**
> * One-hot encoding
> * Dummy encoding

## One-Hot Encoding

One-Hot Encoding, kukla değişkenler oluşturma işlemidir. Bu teknik, sıralamanın önemli olmadığı kategorik değişkenler için kullanılır. Özellikler nominal olduğunda (herhangi bir sırası olmadığında) One-Hot kodlama tekniği kullanılır . Bir sıcak kodlamada, her kategorik özellik için yeni bir değişken yaratılır. Kategorik özellikler, 0 veya 1 içeren bir ikili değişkenle eşlenir. Burada 0, yokluğu ve 1, o kategorinin varlığını temsil eder.

Bu yeni oluşturulan ikili özellikler, Kukla değişkenler olarak bilinir. Kukla değişkenlerin sayısı, mevcut kategorilerin sayısına bağlıdır.

![image.png](attachment:image.png)

Kırmızı, yeşil ve mavi olmak üzere 3 kategorimiz olduğundan kukla değişken sayımız da 3 olur. Artık **Color** sütunumuzda bulunan her sınıf için yeni bir sütunumuz var. Her kategori ikili değerlerle (0-1) temsil edilir, onlara verilere herhangi bir özel düzen veya ölçek atamadık. Modelin tahmine dayalı herhangi bir ilişkinin var olup olmadığını kolayca ve adil bir şekilde değerlendirebileceği yeni sütunlar (sahte değişkenler) oluşturduk.

One-Hot kodlamada,
* “Kırmızı” renk, 3 boyutlu [1 0 0] vektör olarak kodlanmıştır.
* “Yeşil” renk, 3 boyutlu [0 1 0] vektör olarak kodlanmıştır.
* “Mavi” renk, 3 boyutlu [0 0 1] vektör olarak kodlanmıştır.

## Dummy Variables
> **Kukla Değişken Tuzağı**, farklı girdi değişkenleri birbirini mükemmel bir şekilde tahmin ettiğinde ortaya çıkar ve çoklu bağlantıya yol açar.”

Çoklu bağlantı , iki veya daha fazla girdi değişkeninin birbiriyle yüksek oranda ilişkili olduğu bir senaryodur . Modelin genel tahmin doğruluğunu etkilemeyeceği için bu senaryodan kaçınmaya çalışıyoruz. Yani son kolonun çıktısı diğer kolonların çıktılarından dolayı ne olduğu belli bu yüzden son kolonu oluşturmaya gerek yok.

One-hot kodlama ile üretilen yeni oluşturulan sütunlardan birini bırakıyoruz. Bu, kukla değişkenlerin gereksiz bilgiler içerdiği varsayıldığından yapılabilir, 'n' sayıda kategorimiz var, yeni oluşturulan bir sütunu (kukla değişken) bırakacağız ve 'n−1' kukla değişkenleri kullanabiliriz. Bu, kukla değişken tuzağını önleyecektir.

![image.png](attachment:image.png)

d3 değerinin Kırmızı ve Yeşil için değerleri 0 olacaktır şeklinde düşünebiliyoruz.

Dummy Variables kodlamada,

* “Kırmızı” renk, 2 boyutlu [1 0] vektör olarak kodlanmıştır.
* “Yeşil” renk, 2 boyutunun [0 1] vektörü olarak kodlanmıştır.
* “Mavi” renk, 2 boyutunun [0 0] vektörü olarak kodlanmıştır.


**Kaynakça:**
* https://www.naukri.com/learning/articles/handling-categorical-variables-with-one-hot-encoding/
* https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db

## KODLAMA: 

In [1]:
import pandas as pd
import os
os.chdir(r"C:\Users\sahik\Documents\GitHub\MachineLearning101\data")
os.getcwd()

'C:\\Users\\sahik\\Documents\\GitHub\\MachineLearning101\\data'

In [2]:
df = pd.read_excel("home_prices.xlsx")
df

Unnamed: 0,town,area,price
0,monroe township,2600,550000
1,monroe township,3000,565000
2,monroe township,3200,610000
3,monroe township,3600,680000
4,monroe township,4000,725000
5,west windsor,2600,585000
6,west windsor,2800,615000
7,west windsor,3300,650000
8,west windsor,3600,710000
9,robinsville,2600,575000


In [3]:
dummies = pd.get_dummies(df.town)
dummies

Unnamed: 0,monroe township,robinsville,west windsor
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0
5,0,0,1
6,0,0,1
7,0,0,1
8,0,0,1
9,0,1,0


In [4]:
merged = pd.concat([df,dummies], axis=1)  # axis='columns'
merged

Unnamed: 0,town,area,price,monroe township,robinsville,west windsor
0,monroe township,2600,550000,1,0,0
1,monroe township,3000,565000,1,0,0
2,monroe township,3200,610000,1,0,0
3,monroe township,3600,680000,1,0,0
4,monroe township,4000,725000,1,0,0
5,west windsor,2600,585000,0,0,1
6,west windsor,2800,615000,0,0,1
7,west windsor,3300,650000,0,0,1
8,west windsor,3600,710000,0,0,1
9,robinsville,2600,575000,0,1,0


In [5]:
final = merged.drop(['town','west windsor'], axis=1)
final

Unnamed: 0,area,price,monroe township,robinsville
0,2600,550000,1,0
1,3000,565000,1,0
2,3200,610000,1,0
3,3600,680000,1,0
4,4000,725000,1,0
5,2600,585000,0,0
6,2800,615000,0,0
7,3300,650000,0,0
8,3600,710000,0,0
9,2600,575000,0,1


In [6]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()

In [7]:
X = final.drop('price', axis=1)
X

Unnamed: 0,area,monroe township,robinsville
0,2600,1,0
1,3000,1,0
2,3200,1,0
3,3600,1,0
4,4000,1,0
5,2600,0,0
6,2800,0,0
7,3300,0,0
8,3600,0,0
9,2600,0,1


In [8]:
y = final.price
y

0     550000
1     565000
2     610000
3     680000
4     725000
5     585000
6     615000
7     650000
8     710000
9     575000
10    600000
11    620000
12    695000
Name: price, dtype: int64

In [9]:
model.fit(X,y)

LinearRegression()

In [10]:
model.predict([[2800,0,1]])



array([590775.63964739])

In [11]:
model.predict([[3400,0,0]])



array([681241.66845839])

In [12]:
model.score(X,y)

0.9573929037221873

### One-Hot Encoder

#### Label Encoder Nedir?

Veriyi birebir sayısallaştırmaya yarar. Yani kategorik her veriye sayısal bir değer atar.

In [13]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

In [14]:
dfle = df
dfle

Unnamed: 0,town,area,price
0,monroe township,2600,550000
1,monroe township,3000,565000
2,monroe township,3200,610000
3,monroe township,3600,680000
4,monroe township,4000,725000
5,west windsor,2600,585000
6,west windsor,2800,615000
7,west windsor,3300,650000
8,west windsor,3600,710000
9,robinsville,2600,575000


In [15]:
le.fit_transform(dfle.town)

array([0, 0, 0, 0, 0, 2, 2, 2, 2, 1, 1, 1, 1])

In [16]:
dfle.town = le.fit_transform(dfle.town)
dfle

Unnamed: 0,town,area,price
0,0,2600,550000
1,0,3000,565000
2,0,3200,610000
3,0,3600,680000
4,0,4000,725000
5,2,2600,585000
6,2,2800,615000
7,2,3300,650000
8,2,3600,710000
9,1,2600,575000


In [17]:
X = dfle[['town','area']].values
X

array([[   0, 2600],
       [   0, 3000],
       [   0, 3200],
       [   0, 3600],
       [   0, 4000],
       [   2, 2600],
       [   2, 2800],
       [   2, 3300],
       [   2, 3600],
       [   1, 2600],
       [   1, 2900],
       [   1, 3100],
       [   1, 3600]], dtype=int64)

In [18]:
y = dfle.price.values
y

array([550000, 565000, 610000, 680000, 725000, 585000, 615000, 650000,
       710000, 575000, 600000, 620000, 695000], dtype=int64)

Şimdi her 'town' değerinde yapay değişkenler oluşturmak için bir one-hot encoding kullanalım.

In [19]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(categories=[0])

In [20]:
from sklearn.compose import ColumnTransformer
ct = ColumnTransformer([('town', OneHotEncoder(), [0])], remainder='passthrough')

In [21]:
X = ct.fit_transform(X)
X

array([[1.0e+00, 0.0e+00, 0.0e+00, 2.6e+03],
       [1.0e+00, 0.0e+00, 0.0e+00, 3.0e+03],
       [1.0e+00, 0.0e+00, 0.0e+00, 3.2e+03],
       [1.0e+00, 0.0e+00, 0.0e+00, 3.6e+03],
       [1.0e+00, 0.0e+00, 0.0e+00, 4.0e+03],
       [0.0e+00, 0.0e+00, 1.0e+00, 2.6e+03],
       [0.0e+00, 0.0e+00, 1.0e+00, 2.8e+03],
       [0.0e+00, 0.0e+00, 1.0e+00, 3.3e+03],
       [0.0e+00, 0.0e+00, 1.0e+00, 3.6e+03],
       [0.0e+00, 1.0e+00, 0.0e+00, 2.6e+03],
       [0.0e+00, 1.0e+00, 0.0e+00, 2.9e+03],
       [0.0e+00, 1.0e+00, 0.0e+00, 3.1e+03],
       [0.0e+00, 1.0e+00, 0.0e+00, 3.6e+03]])

In [22]:
X = X[:,1:]
X

array([[0.0e+00, 0.0e+00, 2.6e+03],
       [0.0e+00, 0.0e+00, 3.0e+03],
       [0.0e+00, 0.0e+00, 3.2e+03],
       [0.0e+00, 0.0e+00, 3.6e+03],
       [0.0e+00, 0.0e+00, 4.0e+03],
       [0.0e+00, 1.0e+00, 2.6e+03],
       [0.0e+00, 1.0e+00, 2.8e+03],
       [0.0e+00, 1.0e+00, 3.3e+03],
       [0.0e+00, 1.0e+00, 3.6e+03],
       [1.0e+00, 0.0e+00, 2.6e+03],
       [1.0e+00, 0.0e+00, 2.9e+03],
       [1.0e+00, 0.0e+00, 3.1e+03],
       [1.0e+00, 0.0e+00, 3.6e+03]])

In [23]:
model.fit(X,y)

LinearRegression()

In [24]:
model.predict([[1,0,2800]])

array([590775.63964739])

In [25]:
model.predict([[0,1,3400]])

array([681241.6684584])

### EGZERSİZ

In [28]:
df = pd.read_excel("carprices.xlsx")
df

Unnamed: 0,Car Model,Mileage,Sell Price($),Age(yrs)
0,BMW X5,69000,18000,6
1,BMW X5,35000,34000,3
2,BMW X5,57000,26100,5
3,BMW X5,22500,40000,2
4,BMW X5,46000,31500,4
5,Audi A5,59000,29400,5
6,Audi A5,52000,32000,5
7,Audi A5,72000,19300,6
8,Audi A5,91000,12000,8
9,Mercedez Benz C class,67000,22000,6


In [29]:
dummies = pd.get_dummies(df["Car Model"])
dummies

Unnamed: 0,Audi A5,BMW X5,Mercedez Benz C class
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0
5,1,0,0
6,1,0,0
7,1,0,0
8,1,0,0
9,0,0,1


In [30]:
merged = pd.concat([df, dummies], axis=1)
merged

Unnamed: 0,Car Model,Mileage,Sell Price($),Age(yrs),Audi A5,BMW X5,Mercedez Benz C class
0,BMW X5,69000,18000,6,0,1,0
1,BMW X5,35000,34000,3,0,1,0
2,BMW X5,57000,26100,5,0,1,0
3,BMW X5,22500,40000,2,0,1,0
4,BMW X5,46000,31500,4,0,1,0
5,Audi A5,59000,29400,5,1,0,0
6,Audi A5,52000,32000,5,1,0,0
7,Audi A5,72000,19300,6,1,0,0
8,Audi A5,91000,12000,8,1,0,0
9,Mercedez Benz C class,67000,22000,6,0,0,1


In [32]:
final = merged.drop(["Car Model","Mercedez Benz C class"], axis=1)
final

Unnamed: 0,Mileage,Sell Price($),Age(yrs),Audi A5,BMW X5
0,69000,18000,6,0,1
1,35000,34000,3,0,1
2,57000,26100,5,0,1
3,22500,40000,2,0,1
4,46000,31500,4,0,1
5,59000,29400,5,1,0
6,52000,32000,5,1,0
7,72000,19300,6,1,0
8,91000,12000,8,1,0
9,67000,22000,6,0,0


In [33]:
X = final.drop("Sell Price($)",axis=1)
X

Unnamed: 0,Mileage,Age(yrs),Audi A5,BMW X5
0,69000,6,0,1
1,35000,3,0,1
2,57000,5,0,1
3,22500,2,0,1
4,46000,4,0,1
5,59000,5,1,0
6,52000,5,1,0
7,72000,6,1,0
8,91000,8,1,0
9,67000,6,0,0


In [34]:
y = final["Sell Price($)"]
y

0     18000
1     34000
2     26100
3     40000
4     31500
5     29400
6     32000
7     19300
8     12000
9     22000
10    20000
11    21000
12    33000
Name: Sell Price($), dtype: int64

In [35]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()

In [36]:
model.fit(X,y)

LinearRegression()

In [37]:
model.score(X,y)

0.9417050937281083

In [38]:
# 45000 kilometre ile 4 yaşındaki mercedez benz fiyatı
model.predict([[45000,4,0,0]])



array([36991.31721061])

In [39]:
# 86000 kilometre ile 7 yaşındaki BMW X5 fiyatı
model.predict([[86000,7,0,1]])



array([11080.74313219])