# 1 - Perkenalan

> Bab pengenalan harus diisi dengan identitas, gambaran besar dataset yang digunakan, dan objective yang ingin dicapai.

Nama : Khalisul Akbar

Batch : FTDS-010 

Dataset : FIFA 2022

# 2 - Import Libraries

> Cell pertama pada notebook harus berisi dan hanya berisi semua library yang digunakan dalam project.

In [None]:
# Import Libraries

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 3 - Data Loading

> Bagian ini berisi proses penyiapan data sebelum dilakukan eksplorasi data lebih lanjut. Proses Data Loading dapat berupa memberi nama baru untuk setiap kolom, mengecek ukuran dataset, dll.

In [None]:
# Load Dataset 

df = pd.read_csv('')
df

In [None]:
# Duplicate Dataset

data_copy = data.copy()

In [None]:
# Rename Columns



In [None]:
# Check Dataset

data.info()

In [None]:
# Check Dataset

data.describe()

# 4 - Exploratory Data Analysis (EDA)

> Bagian ini berisi eksplorasi data pada dataset diatas dengan menggunakan query, grouping, visualisasi sederhana, dan lain sebagainya.

In [None]:
# Create Histogram Plot and Scatter Plot



# 5 - Data Preprocessing

> Bagian ini berisi proses penyiapan data untuk proses pelatihan model, seperti pembagian data menjadi train-dev-test, transformasi data (normalisasi, encoding, dll.), dan proses-proses lain yang dibutuhkan.

In [None]:
# Get Data for Model Inference

data_inf = data.sample(10, random_state=17)
data_inf

In [None]:
# Remove Inference-Set from Dataset

data_train_test = data.drop(data_inf.index)
data_train_test

In [None]:
# Reset Index

data_train_test.reset_index(drop=True, inplace=True)
data_inf.reset_index(drop=True, inplace=True)
data_inf

## Splitting Dataset

In [None]:
# Split between X (features) and y (target)

X = data_train_test.drop('Rating', axis=1)
y = data_train_test['Rating']
X

In [None]:
# Split between Train-Set and Test-Set

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=17)

print('Train Size : ', X_train.shape)
print('Test Size  : ', X_test.shape)

---
## Handling Outlier

Ini akan dijelaskan di pertemuan besok Selasa.

---
## Handling Missing Values

Ini akan dijelaskan di pertemuan besok Selasa.

In [None]:
# Check missing values on X_train

X_train.isnull().sum()

In [None]:
# Check missing values on X_test

X_test.isnull().sum()

In [None]:
# Check missing values on y_train

y_train.isnull().sum()

In [None]:
# Check missing values on y_test

y_test.isnull().sum()

---
## Feature Selection

In [None]:
# Display X_train

X_train

Karena `Name` tidak ada hubungannya dengan `Rating`, maka column `Name` ini dapat dihapus. Hal ini dibuktikan dengan jika ada nama `Danu Ronaldo`, tidak akan ada kaitannya dengan `Cristiano Ronaldo` sehingga sudah pasti nilai `Rating` kedua pemain ini pasti akan berbeda.

In [None]:
# Drop Column `Name`

X_train.drop('Name', axis=1, inplace=True)
X_test.drop('Name', axis=1, inplace=True)

X_train

---
## Split between numerical and categorical columns


In [None]:
# Get Numerical Columns and Categorical Columns

num_columns = X_train.select_dtypes(include=np.number).columns.tolist()
cat_columns = X_train.select_dtypes(include=['object']).columns.tolist()

print('Numerical Columns : ', num_columns)
print('Categorical Columns : ', cat_columns)

In [None]:
# Split Train-Set and Test-Set based on Column Type (Numerical/Categorical)

X_train_num = X_train[num_columns]
X_train_cat = X_train[cat_columns]

X_test_num = X_test[num_columns]
X_test_cat = X_test[cat_columns]

---
## Feature Scaling

In [None]:
# Display X_train_num

X_train_num

In [None]:
# Feature Scaling using MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(X_train_num)

X_train_num_scaled = scaler.transform(X_train_num)
X_test_num_scaled = scaler.transform(X_test_num)

X_train_num_scaled

---
## Feature Encoding

In [None]:
# Display X_train_cat

X_train_cat

In [None]:
# Feature Encoding using Ordinal Encoder

from sklearn.preprocessing import OrdinalEncoder 
encoder = OrdinalEncoder()
encoder.fit(X_train_cat)

X_train_cat_enc = encoder.transform(X_train_cat)
X_test_cat_enc = encoder.transform(X_test_cat)
X_train_cat_enc

---
## Concat between Numerical Columns and Categorical Columns

In [None]:
# Concate Columns

X_train_final = np.concatenate([X_train_num_scaled, X_train_cat_enc], axis=1)
X_test_final = np.concatenate([X_test_num_scaled, X_test_cat_enc], axis=1)
X_train_final

In [None]:
# Display Concate's Result as a DataFrame

X_train_final_df = pd.DataFrame(X_train_final, columns=[num_columns + cat_columns])
X_train_final_df

# 6 - Model Definition

> Bagian ini berisi cell untuk mendefinisikan model. Jelaskan alasan menggunakan suatu algoritma/model, hyperparameter yang dipakai, jenis penggunaan metrics yang dipakai, dan hal lain yang terkait dengan model.

In [None]:
# Training using Linear Regression

from sklearn.linear_model import LinearRegression

model_lin_reg = LinearRegression()

Metrics yang dipakai dalam kasus ini adalah `MAE` (Mean Absolute Error)

# 7 - Model Training

> Cell pada bagian ini hanya berisi code untuk melatih model dan output yang dihasilkan. Lakukan beberapa kali proses training dengan hyperparameter yang berbeda untuk melihat hasil yang didapatkan. Analisis dan narasikan hasil ini pada bagian Model Evaluation.

In [None]:
# Train the Model

model_lin_reg.fit(X_train_final, y_train)

# 8 - Model Evaluation

> Pada bagian ini, dilakukan evaluasi model yang harus menunjukkan bagaimana performa model berdasarkan metrics yang dipilih. Hal ini harus dibuktikan dengan visualisasi tren performa dan/atau tingkat kesalahan model. Lakukan analisis terkait dengan hasil pada model dan tuliskan hasil analisisnya.

In [None]:
# Get Prediction of Train-Set and Test-Set

y_pred_train = model_lin_reg.predict(X_train_final)
y_pred_test = model_lin_reg.predict(X_test_final)

In [None]:
# Evaluate Model using Mean Absolute Error

from sklearn.metrics import mean_absolute_error

print('Error - Train : ', mean_absolute_error(y_train, y_pred_train))
print('Error - Test  : ', mean_absolute_error(y_test, y_pred_test))

# 9 - Model Inference

In [None]:
# Display Inference-Set

data_inf

In [None]:
# Split between Numerical Columns and Categorical Columns

data_inf_num = data_inf[num_columns]
data_inf_cat = data_inf[cat_columns]

In [None]:
# Feature Scaling and Feature Encoding

data_inf_num_scaled = scaler.transform(data_inf_num)
data_inf_cat_enc = encoder.transform(data_inf_cat)

In [None]:
# Merge Numerical Data and Categorical Data

data_inf_final = np.concatenate([data_inf_num_scaled, data_inf_cat_enc], axis=1)
data_inf_final_df = pd.DataFrame(data_inf_final, columns=[num_columns + cat_columns])
data_inf_final_df 

In [None]:
# Predict Inference-Set

y_pred_inf = model_lin_reg.predict(data_inf_final)
y_pred_inf_df = pd.DataFrame(y_pred_inf, columns=['Ratings - Prediction'])
y_pred_inf_df

In [None]:
# Concat Inference-Set with Prediction

pd.concat([data_inf, y_pred_inf_df], axis=1)

# 10 - Pengambilan Kesimpulan

In [None]:
# Find Intercept and Slope

intercept = model_lin_reg.intercept_
slope = model_lin_reg.coef_ 

print('Intercept : ', intercept)
print('Slope     : ', slope)

In [None]:
# Display Column's Name

X_train.columns.tolist()