Jika pada variabel independen terdapat variabel yang bersifat kategori dan bukan angka contohnya jika kita membuat program untuk memprediksi harga rumah dengan variabel independen area, usia, banyak kamar, dan di daerah mana, maka variabel di daerah mana tidak berbentuk angka karena bersifat kategori.....<br>
Untuk mengatasi permasalahan di atas kita menggunakan teknik dummy variabel yang akan mengganti atau mewakilkan suatu nilai dalam variabel kategori dengan angka. <br>

Ada 2 jenis variabel kategori : <br>
1. Nominal, misalnya nama daerah, jenis kelamin, warna.
2. Ordinal, pangkat, kepuasan, atau sesuatu yang memiliki level atau derajat.

Pada variabel kategori nominal kita tidak bisa mewakilkan suatu nilai di dalamnya dengan menggunakan integer, karena integer memiliki sifat berurutan dan berlevel, maka kita memerlukan teknik khusus yang bernama One Hot Encoding dengan cara kita membuat kolom tambahan labelnya(nama kolom) adalah semua ragam yang ada pada variabel kategori, lalu isi dari kolom tambahan tersebut hanya bisa diisi angka 0 dan 1 (binary) 1 berarti Ya dan 0 berarti tidak. Angka atau data yang ada pada kolom tambahan tersebut biasa disebut dengan dummy variabel.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/codebasics/py/master/ML/5_one_hot_encoding/homeprices.csv')
df

Unnamed: 0,town,area,price
0,monroe township,2600,550000
1,monroe township,3000,565000
2,monroe township,3200,610000
3,monroe township,3600,680000
4,monroe township,4000,725000
5,west windsor,2600,585000
6,west windsor,2800,615000
7,west windsor,3300,650000
8,west windsor,3600,710000
9,robinsville,2600,575000


In [3]:
# Membuat kolom yang berisi dummy variable
dummies = pd.get_dummies(df.town)
dummies

Unnamed: 0,monroe township,robinsville,west windsor
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0
5,0,0,1
6,0,0,1
7,0,0,1
8,0,0,1
9,0,1,0


In [4]:
# Menggabungakan dataframe df dengan dummies
merged = pd.concat([df, dummies], axis='columns')
merged

Unnamed: 0,town,area,price,monroe township,robinsville,west windsor
0,monroe township,2600,550000,1,0,0
1,monroe township,3000,565000,1,0,0
2,monroe township,3200,610000,1,0,0
3,monroe township,3600,680000,1,0,0
4,monroe township,4000,725000,1,0,0
5,west windsor,2600,585000,0,0,1
6,west windsor,2800,615000,0,0,1
7,west windsor,3300,650000,0,0,1
8,west windsor,3600,710000,0,0,1
9,robinsville,2600,575000,0,1,0


Membuang kolom town karena kita sudah tidak membutuhkannya (sudah ada dummy variable). <br>
Selanjutnya kita harus membuang salah satu kolom dummy variable, karena kita akan melukukan dummy variable trap Untuk lebih jelasnya browsing saja

In [5]:
final = merged.drop(['town', 'west windsor'], axis='columns')
final

Unnamed: 0,area,price,monroe township,robinsville
0,2600,550000,1,0
1,3000,565000,1,0
2,3200,610000,1,0
3,3600,680000,1,0
4,4000,725000,1,0
5,2600,585000,0,0
6,2800,615000,0,0
7,3300,650000,0,0
8,3600,710000,0,0
9,2600,575000,0,1


In [6]:
# membuat linear regression model 
from sklearn.linear_model import LinearRegression
model = LinearRegression()

In [7]:
# Menentukan variabel independen mana yang akan digunakan
x = final.drop('price', axis='columns') # x adalah semua kolom pada dataframe final kecuali kolom price
y = final.price

In [8]:
model.fit(x,y)

LinearRegression()

In [9]:
# memprediksi harga rumah dengan luas 2800 yang berada di daerah robinsville
model.predict([[2800,0,1]])



array([590775.63964739])

In [10]:
# memprediksi harga rumah dengan luas 3400 yang berada di daerah west windsor
model.predict([[3400,0,0]])



array([681241.66845839])

In [11]:
# memprediksi harga rumah dengan luas 3400 yang berada di daerah monroe township
model.predict([[2600,1,0]])



array([539709.7398409])

In [12]:
model.score(x,y)

0.9573929037221873

#### Melakukan One Hot Encoding tetapi menggunakan scikit learn

In [13]:
df

Unnamed: 0,town,area,price
0,monroe township,2600,550000
1,monroe township,3000,565000
2,monroe township,3200,610000
3,monroe township,3600,680000
4,monroe township,4000,725000
5,west windsor,2600,585000
6,west windsor,2800,615000
7,west windsor,3300,650000
8,west windsor,3600,710000
9,robinsville,2600,575000


Melakukan label encoding terlebih dahulu

In [14]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

In [15]:
dfle = df
le.fit_transform(dfle.town) # town adalah variabel kategori

array([0, 0, 0, 0, 0, 2, 2, 2, 2, 1, 1, 1, 1])

0 adalah monroe, 2 adalah west windsor, dan 1 adalah robinsville

In [16]:
dfle.town = le.fit_transform(dfle.town)
dfle

Unnamed: 0,town,area,price
0,0,2600,550000
1,0,3000,565000
2,0,3200,610000
3,0,3600,680000
4,0,4000,725000
5,2,2600,585000
6,2,2800,615000
7,2,3300,650000
8,2,3600,710000
9,1,2600,575000


In [17]:
x = dfle[['town', 'area']].values
x

array([[   0, 2600],
       [   0, 3000],
       [   0, 3200],
       [   0, 3600],
       [   0, 4000],
       [   2, 2600],
       [   2, 2800],
       [   2, 3300],
       [   2, 3600],
       [   1, 2600],
       [   1, 2900],
       [   1, 3100],
       [   1, 3600]])

In [18]:
y = dfle.price
y

0     550000
1     565000
2     610000
3     680000
4     725000
5     585000
6     615000
7     650000
8     710000
9     575000
10    600000
11    620000
12    695000
Name: price, dtype: int64

In [19]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder() # harus menentukan variabel kategorinya dengan menggunakan indeks, 
x = ohe.fit_transform(x).toarray()
x

array([[1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.]])

In [20]:
# membuang kolom pertama
x=x[:,1:]
x

array([[0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.]])

In [21]:
# training modelnya
model.fit(x,y)

LinearRegression()

In [22]:
# memprediksi harga rumah dengan luas 2800 yang berada di daerah robinsville
model.predict([[2800,0,1]])

ValueError: X has 3 features, but LinearRegression is expecting 11 features as input.

In [23]:
# di atas ini error dan saya tidak bisa memperbaikinya

#### Latihan Dummy Variable

In [24]:
dF = pd.read_csv('https://raw.githubusercontent.com/codebasics/py/master/ML/5_one_hot_encoding/Exercise/carprices.csv')
dF

Unnamed: 0,Car Model,Mileage,Sell Price($),Age(yrs)
0,BMW X5,69000,18000,6
1,BMW X5,35000,34000,3
2,BMW X5,57000,26100,5
3,BMW X5,22500,40000,2
4,BMW X5,46000,31500,4
5,Audi A5,59000,29400,5
6,Audi A5,52000,32000,5
7,Audi A5,72000,19300,6
8,Audi A5,91000,12000,8
9,Mercedez Benz C class,67000,22000,6


In [25]:
dummy = pd.get_dummies(dF['Car Model'])
dummy

Unnamed: 0,Audi A5,BMW X5,Mercedez Benz C class
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0
5,1,0,0
6,1,0,0
7,1,0,0
8,1,0,0
9,0,0,1


In [26]:
merge = pd.concat([dF, dummy], axis=1)
merge

Unnamed: 0,Car Model,Mileage,Sell Price($),Age(yrs),Audi A5,BMW X5,Mercedez Benz C class
0,BMW X5,69000,18000,6,0,1,0
1,BMW X5,35000,34000,3,0,1,0
2,BMW X5,57000,26100,5,0,1,0
3,BMW X5,22500,40000,2,0,1,0
4,BMW X5,46000,31500,4,0,1,0
5,Audi A5,59000,29400,5,1,0,0
6,Audi A5,52000,32000,5,1,0,0
7,Audi A5,72000,19300,6,1,0,0
8,Audi A5,91000,12000,8,1,0,0
9,Mercedez Benz C class,67000,22000,6,0,0,1


In [27]:
# membuang kolom Car Model dan salah satu kolom dummy variable
Final = merge.drop(['Car Model','Mercedez Benz C class'], axis='columns')
Final

Unnamed: 0,Mileage,Sell Price($),Age(yrs),Audi A5,BMW X5
0,69000,18000,6,0,1
1,35000,34000,3,0,1
2,57000,26100,5,0,1
3,22500,40000,2,0,1
4,46000,31500,4,0,1
5,59000,29400,5,1,0
6,52000,32000,5,1,0
7,72000,19300,6,1,0
8,91000,12000,8,1,0
9,67000,22000,6,0,0


In [28]:
# membuat linear regression model 
from sklearn.linear_model import LinearRegression
Model = LinearRegression()

In [29]:
# Menentukan variabel independen mana yang akan digunakan
x_ = Final.drop('Sell Price($)', axis='columns') # x adalah semua kolom pada dataframe final kecuali kolom price
y_ = Final['Sell Price($)']

In [30]:
Model.fit(x_,y_)

LinearRegression()

In [31]:
# mercedes benz 4 tahun 45000 mil
Model.predict([[45000,4,0,0]])



array([36991.31721061])

In [32]:
# bmx x5 7 tahun 86000 mil
Model.predict([[86000,7,0,1]])



array([11080.74313219])

In [33]:
# score akurasi
Model.score(x_,y_)

0.9417050937281083