# Dataset gaji-karyawan

## Import numpy, pandas, matplotlib, dan scikit-learn

In [1]:
import numpy as np # numpy
import pandas as pd # pandas
import matplotlib.pyplot as plt # matplotlib
import sklearn # scikit-learn

## Pendefinisian Masalah Gaji

Bagaimana menentukan **berapa gaji terbaik yang harus diberikan kepada kandidat karyawan baru yang memiliki pengalaman bekerja selama 10 tahun?**

## Persiapan Data Gaji

In [8]:
df_gaji = pd.read_csv('../csv/gaji-karyawan/salary_data.csv')
df_gaji

Unnamed: 0,YearsExperience,Salary
0,1.1,39343
1,1.3,46205
2,1.5,37731
3,2.0,43525
4,2.2,39891
5,2.9,56642
6,3.0,60150
7,3.2,54445
8,3.2,64445
9,3.7,57189


### Melihat *shape* dataset

In [9]:
df_gaji.shape

(30, 2)

### Melihat Lima Baris Teratas

In [10]:
df_gaji.head()

Unnamed: 0,YearsExperience,Salary
0,1.1,39343
1,1.3,46205
2,1.5,37731
3,2.0,43525
4,2.2,39891


### Memperoleh Deskripsi Singkat dari Dataset

In [11]:
df_gaji.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 2 columns):
YearsExperience    30 non-null float64
Salary             30 non-null int64
dtypes: float64(1), int64(1)
memory usage: 608.0 bytes


In [12]:
df_gaji.describe()

Unnamed: 0,YearsExperience,Salary
count,30.0,30.0
mean,5.313333,76003.0
std,2.837888,27414.429785
min,1.1,37731.0
25%,3.2,56720.75
50%,4.7,65237.0
75%,7.7,100544.75
max,10.5,122391.0


## Melatih Model Gaji

### Training

In [64]:
x = df_gaji.iloc[:, :-1] # x berisisi kolom YearExperience
y = df_gaji.iloc[:, 1:] # y berisi kolom Salary

In [70]:
# import train_test_split dari sklearn.model_selection
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=1/3, random_state=0)

In [73]:
# Import LinearRegression dari sklearn.linear_model
from sklearn.linear_model import LinearRegression

# masukkan fungsi LinearRegression ke dalam variabel regressor
regressor = LinearRegression()

# gunakan training data untuk membuat model
regressor.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

### Predict

In [109]:
# Prediksi gaji kandidat karyawan baru yg memiliki 10 tahun pengalaman kerja
y_pred = regressor.predict([[10]])

print('Gaji tertinggi yang bisa diberikan adalah $', int(y_pred))

Gaji tertinggi yang bisa diberikan adalah $ 120275


In [135]:
# Prediksi gaji berdasarkan x_test
y_pred = regressor.predict(x_test)

# membuat dataframe untuk y_test dan y_pred
df1 = pd.DataFrame(y_test).reset_index(drop=True)
df2 = pd.DataFrame(y_pred, columns=['Predicted Salary']).reset_index(drop=True)

df1.join(df2)

Unnamed: 0,Salary,Predicted Salary
0,37731,"$40,835.11"
1,122391,"$123,079.40"
2,57081,"$65,134.56"
3,63218,"$63,265.37"
4,116969,"$115,602.65"
5,109431,"$108,125.89"
6,112635,"$116,537.24"
7,55794,"$64,199.96"
8,83088,"$76,349.69"
9,101302,"$100,649.14"


## Menguji Akurasi Model Gaji

In [143]:
# masukan model yang menggunakan training data ke dalam variabel
model = regressor.fit(x_train, y_train)

# tampilkan nilai score dari model yang menggunakan test data
print('Score dari model adalah', model.score(x_test,y_test))

Score dari model adalah 0.9749154407708353
