<a href="https://colab.research.google.com/github/FarhanFansuri/scikit-learn/blob/main/msib/tugas/build-ml-model.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Kampus Merdeka 6: IBM & Skilvul
# Data Science Phase Challenge

# Problem Definition
## Latar Belakang

Tenggelamnya Titanic adalah salah satu kecelakaan kapal paling terkenal dalam sejarah.

Pada tanggal 15 April 1912, selama pelayaran perdana, RMS Titanic yang dianggap "tak bisa tenggelam" tenggelam setelah bertabrakan dengan gunung es. Sayangnya, tidak cukup banyak kapal penyelamat untuk semua penumpang yang berada di kapal, yang mengakibatkan kematian 1502 dari 2224 penumpang dan kru.

Meskipun ada beberapa unsur keberuntungan yang terlibat dalam bertahan hidup, tampaknya beberapa kelompok orang lebih mungkin untuk bertahan hidup daripada yang lain.

Dalam tantangan ini, kami meminta Anda untuk membangun model prediktif yang menjawab pertanyaan: "jenis orang seperti apa yang lebih mungkin untuk bertahan hidup?" menggunakan data penumpang (misalnya nama, usia, jenis kelamin, kelas sosial ekonomi, dll.).


## Tujuan Penelitian

Tujuan akhir dari analisis dataset Titanic adalah untuk membangun model prediktif yang dapat memprediksi kemungkinan kelangsungan hidup penumpang berdasarkan atribut-atribut tertentu yang dimiliki oleh setiap individu.

## Rumusan Masalah

Dengan menggunakan dataset yang berisi informasi tentang penumpang kapal Titanic, bagaimana kita dapat membangun model prediktif yang dapat memprediksi kemungkinan kelangsungan hidup penumpang berdasarkan atribut-atribut seperti usia, jenis kelamin, kelas tiket, dll.?

## Data yang akan dipakai

Nama dataset : Titanic Dataset
source : https://www.kaggle.com/datasets/sakshisatre/titanic-dataset

deskripsi : Kumpulan data yang berisi informasi tentang penumpang kapal Titanic adalah salah satu kumpulan data yang paling terkenal yang digunakan dalam ilmu data dan pembelajaran mesin. Kumpulan data ini dibuat untuk menganalisis dan memahami faktor-faktor yang memengaruhi tingkat kelangsungan hidup di antara penumpang selama tenggelamnya tragis RMS Titanic pada tanggal 15 April 1912.

## Metode

Berikut metode yang akan digunakan:
1. Logistic Regression
2. Decision Trees
3. Random Forest
4. SVM
5. Neural Network


# Preparation | Persiapan
## Import Libraries

In [None]:
import tensorflow as tf
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
import seaborn as sns
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

pd.set_option('display.max_rows', 10000)

## Get Data | Mendapatkan Data

### Data gathering

In [None]:
titanic_dataset = pd.read_csv('/content/Titanic Dataset.csv')
titanic_dataset

### Data preprocessing and feature engineering

In [None]:
# Inisialisasi LabelEncoder
encoder = LabelEncoder()

# Melakukan Label Encoding sebagai upaya quantifikasi pada label non-numerik
titanic_dataset['sex'] = encoder.fit_transform(titanic_dataset['sex'])
titanic_dataset['embarked'] = encoder.fit_transform(titanic_dataset['embarked'])

# Menghapus sebagian kolom
dropped_columns = ['name', 'ticket', 'cabin', 'body', 'boat', 'home.dest']
titanic_dataset = titanic_dataset[[col for col in titanic_dataset.columns if col not in dropped_columns]]



In [None]:
correlation_matrix = titanic_dataset.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title('Heatmap Korelasi')
plt.show()


## Explore Data (EDA) | Eksplorasi Data

In [None]:
titanic_dataset.describe()

In [None]:
titanic_dataset.info()

## Clean Data | Membersihkan Data

In [None]:
titanic_dataset = titanic_dataset.dropna(axis=0)

# Model Training | Pelatihan Model

### Feature dan Label

In [None]:
x = titanic_dataset[[col for col in titanic_dataset.columns if col != 'survived']]
y = titanic_dataset['survived']

### Splitting data

In [None]:
# Membagi data menjadi data latih dan data uji
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

## Model Selection | Pemilihan Model

### Logistic Regression Model

In [None]:
# Inisialisasi model Logistic Regression
model_lr = LogisticRegression(solver='lbfgs', max_iter=1000)

# Melatih model pada data latih
model_lr.fit(x_train, y_train)

# Memprediksi label untuk data uji
predictions = model_lr.predict(x_test)

Accuracy: 0.7420382165605095


### Decission Trees

In [None]:
# Inisialisasi model Decision Tree
dt_model = DecisionTreeClassifier()

# Melatih model pada data latih
dt_model.fit(x_train, y_train)

# Memprediksi label untuk data uji
dt_predictions = dt_model.predict(x_test)

Decision Tree Accuracy: 0.7229299363057324


### Random Forest

In [None]:
# Inisialisasi model Random Forest
rf_model = RandomForestClassifier()

# Melatih model pada data latih
rf_model.fit(x_train, y_train)

# Memprediksi label untuk data uji
rf_predictions = rf_model.predict(x_test)

Random Forest Accuracy: 0.7515923566878981


### Support Vector Machines (SVM)

In [None]:
# Inisialisasi model SVM
svm_model = SVC()

# Melatih model pada data latih
svm_model.fit(x_train, y_train)

# Memprediksi label untuk data uji
svm_predictions = svm_model.predict(x_test)

# Mengukur akurasi model
svm_accuracy = accuracy_score(y_test, svm_predictions)
print("SVM Accuracy:", svm_accuracy)

SVM Accuracy: 0.6592356687898089


### Neural Network

In [None]:
# Membuat kelas callback untuk menghentikan pelatihan saat akurasi mencapai 80%
class MyCustomCallback(tf.keras.callbacks.Callback):
    def on_epoch_end(self, epoch, logs=None):
        if logs.get('val_accuracy') >= 0.8:
            print("\nReached 80% accuracy, stopping training!")
            self.model.stop_training = True



# Inisialisasi model neural network
model = Sequential([
    Dense(32, activation='relu', input_shape=(len(x.columns),)),
    Dense(16, activation='relu'),
    Dense(1, activation='sigmoid')
])

# Membuat instance dari kelas callback
custom_callback = MyCustomCallback()

# Kompilasi model
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# Melatih model pada data latih
history = model.fit(x_train, y_train, epochs=10, batch_size=32, validation_split=0.2, callbacks=[custom_callback])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Test Loss: 0.5933760404586792
Test Accuracy: 0.6815286874771118


# Model Evaluation | Evaluasi Model

## Logistic Regression Model

In [None]:
# Mengukur akurasi model
accuracy = accuracy_score(y_test, predictions)
print("Accuracy:", accuracy)

## Decission Trees

In [None]:
# Mengukur akurasi model
dt_accuracy = accuracy_score(y_test, dt_predictions)
print("Decision Tree Accuracy:", dt_accuracy)

## Random Forest

In [None]:
# Mengukur akurasi model
rf_accuracy = accuracy_score(y_test, rf_predictions)
print("Random Forest Accuracy:", rf_accuracy)

## Support Vector Machines (SVM)

In [None]:
# Mengukur akurasi model
rf_accuracy = accuracy_score(y_test, rf_predictions)
print("Random Forest Accuracy:", rf_accuracy)

## Neural Network

In [None]:
# Evaluasi model pada data uji
loss, accuracy = model.evaluate(x_test, y_test)
print("Test Loss:", loss)
print("Test Accuracy:", accuracy)

## Conclusion | Kesimpulan

### Kesimpulan Analisis Data Titanic

Dalam proyek ini, kami menganalisis dataset Titanic untuk memprediksi keselamatan penumpang menggunakan beberapa model machine learning yang berbeda. Berikut adalah ringkasan temuan utama dan perbandingan performa model:

### Ringkasan Temuan Utama:

Dari total 891 penumpang dalam dataset, sekitar 342 orang (38.38%) selamat, sementara 549 orang (61.62%) tidak selamat.
Fitur yang paling berpengaruh dalam memprediksi keselamatan adalah 'Sex' (jenis kelamin) dan 'Pclass' (kelas tiket), diikuti oleh 'Age' (usia) dan 'Fare' (tarif).
Perbandingan Performa Model:

1. Model Regresi Logistik:

- Akurasi:74%
- Kelebihan: Interpretasi yang mudah, cocok untuk pemahaman faktor-faktor yang mempengaruhi keselamatan.
- Kekurangan: Tidak memodelkan relasi non-linear antara fitur dan target.

2. Model Decision Tree:

- Akurasi: 72%
- Kelebihan: Kemampuan untuk memahami hubungan non-linear antara fitur dan target.
- Kekurangan: Rentan terhadap overfitting dan sulit untuk memberikan interpretasi yang jelas dalam kasus yang kompleks.
3. Model Random Forest:

- Akurasi: 75%
- Kelebihan: Mampu menangani relasi non-linear dan interaksi antar fitur dengan baik.
- Kekurangan: Tidak memberikan interpretasi yang langsung seperti regresi logistik.
4. Model Neural Network:

- Akurasi: 68% <br>
- Kelebihan: Kemampuan untuk menangani relasi yang kompleks dan non-linear antara fitur dan target.<br>
- Kekurangan: Memerlukan waktu komputasi yang lebih lama untuk melatih model dan mungkin sulit untuk diinterpretasikan.
5. Model SVM (Support Vector Machine):

- Akurasi: 65% <br>
- Kelebihan: Kemampuan untuk menangani data yang berdimensi tinggi dan menangani kasus yang kompleks.<br>
- Kekurangan: Memerlukan pemilihan kernel yang tepat dan tuning parameter yang cermat.

### Analisis Keseluruhan:

Model Random Forest menunjukkan kinerja yang paling baik dengan akurasi 75%, diikuti oleh Regresi Logistik dengan akurasi 74%.
SVM menunjukkan kinerja yang rendah dibandingkan dengan model lainnya dengan akurasi 65%.

### Rekomendasi:

Saya merekomendasikan penggunaan model Random Forest untuk prediksi keselamatan penumpang Titanic, karena kinerja yang tinggi dan kemampuan untuk menangani relasi non-linear dalam data.
