# **Regresi Linear Sederhana**
*Menggunakan Python*

Contoh kasus: Prediksi Gaji berdasarkan Tahun Bekerja
Dataset dapat diakses di: https://drive.google.com/file/d/1aSX6KOE2ziTOiapQgbWuGiqzGK3Ow594/view?usp=sharing

Tahapan dalam penggunaan **Simple Linear Regression** di artikel kali ini adalah sebagai berikut:
1. Import Library 
2. Load Dataset
3. Check the General Information
4. Handling Missing Values
5. Exploratory Data Analysis (EDA)
6. Splitting Data
7. Modelling
8. Evaluation
9. Prediction

# 1.  Import Library

In [None]:
# Impor library yang dibutuhkan
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd


# 2. Load Dataset

In [None]:
# Impor dataset
url = 'https://drive.google.com/file/d/1aSX6KOE2ziTOiapQgbWuGiqzGK3Ow594/view?usp=sharing'
file_id=url.split('/')[-2]
dwn_url='https://drive.google.com/uc?id=' + file_id

dataset = pd.read_csv(dwn_url)
print(dataset.tail())

# 3. Check the General Information

Melihat informasi Umum Ini digunakan untuk mengenali data kita.

In [None]:
#untuk melihat ukuran data
dataset.shape

In [None]:
#Melihat informasi data kita mulai dari jumlah data, tipe data, memory yang digunakan dll.
dataset.info()

In [None]:
#Melihat statistical description dari data mulai dari mean, kuartil, standard deviation dll.
dataset.describe()

# 4. Handling Missing Values

In [None]:
#Mencari dan menangani missing values.
#Ternyata data kita tidak ada missing values.
dataset.isnull().sum()

# 5. Exploratory Data Analysis (EDA)

digunakan untuk lebih mengenal data kita dan menemukan insights dari data.

In [None]:
#Melakukan Exploratory Data Analysis (EDA) 
#Univariate analysis Tahun_bekerja.
#Melihat distribusi dari Tahun_bekerja.
f = plt.figure(figsize=(12,4))
f.add_subplot(1,2,1)
dataset['Tahun_bekerja'].plot(kind='kde')
f.add_subplot(1,2,2)
plt.boxplot(dataset['Tahun_bekerja'])
plt.show()




*  Dapat dilihat bahwa mean dan median dari Tahun_bekerja terpusat di sekitar nilai 2.5-5.
*  tidak terdapat outlier/pencilan data yang bisa dilihat di boxplot.



In [None]:
#Melakukan Exploratory Data Analysis (EDA) untuk lebih mengenal data kita dan menemukan insights dari data.
#Univariate analysis Gaji.
#Melihat distribusi dari Gaji.
f = plt.figure(figsize=(12,4))
f.add_subplot(1,2,1)
dataset['Gaji'].plot(kind='kde')
f.add_subplot(1,2,2)
plt.boxplot(dataset['Gaji'])
plt.show()



*   Dapat dilihat bahwa mean dan median dari Tahun_bekerja terpusat di sekitar nilai 50000.

*   tidak terdapat outlier/pencilan data yang bisa dilihat di boxplot.



In [None]:
#Bivariate analysis Tahun_bekerja dan Gaji.
#Menggunakan scatter plot.
plt.scatter(dataset['Tahun_bekerja'], dataset['Gaji'])
plt.xlabel('Tahun_bekerja')
plt.ylabel('Gaji')
plt.title('Scatter Plot Tahun_bekerja vs Gaji')
plt.show()

In [None]:
#Mengetahui nilai korelasi dari Tahun_bekerja dan Gaji.
dataset.corr()

# 6. Splitting Data

In [None]:
#ambil konten data saja, buang header nya
#X sebagai variabel indepedent/variable bebas/variabel independent/ predictor, yakni Tahun bekerja
X = dataset.iloc[:, :-1].values
print(X)

In [None]:
#ambil konten data saja, buang header nya
#Y sebagai variabel dependent/variable terikat/variabel tak bebas/ response, yakni Gaji
Y = dataset.iloc[:, 1].values
print(Y)

In [None]:
# Membagi data menjadi Training Set dan Test Set
# import sckit learn  untuk Machine Learning
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 0)
print(X_train.shape)
print(X_train)

# 7. Modelling

In [None]:
# panggil modul LinearRegression untuk menjalankan regresi liear
from sklearn.linear_model import LinearRegression
# membuat objek regresi linear
lin_reg = LinearRegression()
# membangun model (training model dari data set yang sudah kita split)
lin_reg.fit(X_train, Y_train)

In [None]:
# cari tau nilai slope/koefisien (θi ) dan intercept (θ0).
# ŷ=θ0+θiΧi+Ɛi

print(lin_reg.coef_)
print(lin_reg.intercept_)

8. Evaluation

In [None]:
# memprediksi model dengan test set(melakukan proses testing)
Y_prediksi = lin_reg.predict(X_test)

In [None]:
#Lakukan evaluasi performa
#tampilkan hasil dari data aktual dan data prediksi
df = pd.DataFrame({'aktual': Y_test, 'Prediksi': Y_prediksi})
print(df)

In [None]:
#visualisasi galat/ selisih data aktual dengan data prediksi
df.plot(kind='bar',figsize=(12,4))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()

In [None]:
#melakukan evaluasi/ pengukuran performa algoritma
#menghitung nilai MAE, MSE dan RMSE
from sklearn import metrics
print('Mean Absolute Error:', metrics.mean_absolute_error(Y_test, Y_prediksi))
print('Mean Squared Error:', metrics.mean_squared_error(Y_test, Y_prediksi))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(Y_test, Y_prediksi)))

In [None]:
#visualisasi data training

plt.scatter(X_train, Y_train)
plt.plot(X_train, lin_reg.predict(X_train), c='red')
plt.xlabel('Tahun Bekerja')
plt.ylabel('Gaji')
plt.title('Prediksi Gaji Berdasarkan tahun bekerja (training set)')

In [None]:
#visualisasi data dari data testing
plt.scatter(X_test, Y_test)
plt.plot(X_test, Y_prediksi, c='r')
plt.xlabel('Tahun Bekerja')
plt.ylabel('Gaji')
plt.title('Prediksi Gaji Berdasarkan tahun bekerja(testing set)')

# 9. Prediction

In [None]:
# mencoba studi kasus, misal kita prediksi gaji seseorang yang telah bekerja selama 2.7, 5.5, 7.5 tahun
print('Gaji Seseorang setelah bekerja selama 2.7 tahun adalah',lin_reg.predict([[2.7]]))
print('Gaji Seseorang setelah bekerja selama 5.5 tahun adalah',lin_reg.predict([[5.5]]))
print('Gaji Seseorang setelah bekerja selama 7.5 tahun adalah',lin_reg.predict([[7.5]]))

# References

1. https://megabagus.id 
2. https://medium.com/@adiptamartulandi
3. https://stackabuse.com/linear-regression-in-python-with-scikit-learn/