# Business Understanding (Memahami Bisnis) 
Tahap ini melibatkan pemahaman terhadap tujuan bisnis, kebutuhan, dan tujuan yang ingin dicapai melalui proyek data mining.

Business Understanding dari situs Kaggle, yaitu https://www.kaggle.com/datasets/andrewmvd/fetal-health-classification?select=fetal_health.csv, akan bergantung pada konteks penggunaan data set tersebut. Namun, secara umum, berikut adalah beberapa pertimbangan yang dapat menjadi Business Understanding yang mungkin terkait dengan data set "fetal_health.csv":

1. Analisis Kesehatan Janin: Data set ini mungkin digunakan untuk melakukan analisis kesehatan janin berdasarkan berbagai atribut dan variabel yang tersedia dalam data set. Tujuan bisnisnya mungkin untuk mengembangkan model klasifikasi atau prediktif yang dapat mengidentifikasi status kesehatan janin berdasarkan atribut yang diberikan.

2. Prediksi Risiko Kehamilan: Data set ini mungkin digunakan untuk membangun model yang dapat memprediksi risiko kehamilan, seperti risiko rendah atau tinggi terhadap kesehatan janin. Tujuan bisnisnya mungkin untuk memberikan informasi dan rekomendasi kepada dokter atau tenaga medis untuk pengambilan keputusan yang lebih baik dalam merawat ibu hamil.

3. Penelitian Medis: Data set ini mungkin digunakan sebagai sumber data untuk penelitian medis terkait kesehatan janin. Tujuan bisnisnya mungkin untuk memahami faktor-faktor yang mempengaruhi kesehatan janin, mengidentifikasi pola atau tren, dan memberikan wawasan baru yang dapat digunakan dalam praktik medis atau pengembangan kebijakan kesehatan.

4. Perbaikan Kualitas Asuhan Kesehatan: Data set ini mungkin digunakan untuk mengevaluasi dan meningkatkan kualitas asuhan kesehatan pada masa kehamilan. Dengan menganalisis data kesehatan janin yang terdapat dalam data set, tujuan bisnisnya mungkin untuk mengidentifikasi area di mana perubahan atau perbaikan perlu dilakukan untuk meningkatkan hasil kesehatan janin.

# library

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Data Understanding (Memahami Data)
Pada tahap ini, data yang tersedia dianalisis lebih lanjut untuk memahami karakteristik, kualitas, dan hubungan di antara variabel-variabel yang ada. Tujuannya adalah memperoleh pemahaman yang lebih dalam tentang data yang akan digunakan dalam analisis.

Data Understanding dari situs https://www.kaggle.com/datasets/andrewmvd/fetal-health-classification?select=fetal_health.csv dapat dijelaskan sebagai berikut:

1. Sumber Data: Data set ini berasal dari Andrew Mvd dan diunggah ke platform Kaggle. Data set ini dikumpulkan dari rekaman elektrokardiogram (ECG) janin yang diambil dari ibu hamil untuk mengevaluasi kesehatan janin.

2. Jenis Data: Data set ini merupakan data numerik yang terdiri dari atribut-atribut yang menggambarkan sinyal ECG dan parameter kesehatan janin yang terkait.

3. Jumlah Data: Data set ini terdiri dari 2.120 baris atau sampel data. Setiap baris mewakili rekaman ECG dan atribut-atribut terkait dari seorang janin.

4. Atribut Data: Data set ini terdiri dari 22 atribut, termasuk atribut-atribut yang menggambarkan karakteristik sinyal ECG, gerakan janin, kontraksi uterus, variabilitas jantung, serta atribut-atribut histogram yang terkait dengan sinyal ECG. Atribut-atribut ini digunakan sebagai fitur-fitur untuk analisis kesehatan janin dan pemodelan prediktif.

5. Target Variable: Data set ini juga mencakup variabel target bernama 'fetal_health', yang menunjukkan kategori kesehatan janin. Variabel target ini memiliki tiga kelas: Normal, Suspect (Mencurigakan), dan Pathological (Patologis). Variabel target ini digunakan untuk melakukan klasifikasi kesehatan janin.

6. Kualitas Data: Penting untuk melakukan evaluasi kualitas data sebelum melakukan analisis lebih lanjut. Hal ini mencakup pemeriksaan terhadap missing values, outlier, atau kesalahan lainnya yang mungkin ada dalam data.

Data set ini menyediakan informasi yang berharga tentang atribut-atribut yang relevan dengan kesehatan janin. Dengan memahami karakteristik data ini, analis atau peneliti dapat menjalankan langkah-langkah selanjutnya seperti Data Preparation, Modeling, dan Evaluation untuk memahami lebih dalam tentang kesehatan janin dan membangun model prediktif yang dapat memberikan wawasan berharga dalam diagnosis dan perawatan kesehatan ibu hamil.

# load dataset

In [2]:
fetal_health = pd.read_csv('fetal_health.csv')

In [3]:
fetal_health.head()

Unnamed: 0,baseline_value,accelerations,fetal_movement,uterine_contractions,light_decelerations,severe_decelerations,prolongued_decelerations,abnormal_short_term_variability,mean_value_of_short_term_variability,percentage_of_time_with_abnormal_long_term_variability,...,histogram_min,histogram_max,histogram_number_of_peaks,histogram_number_of_zeroes,histogram_mode,histogram_mean,histogram_median,histogram_variance,histogram_tendency,fetal_health
0,120.0,0.0,0.0,0.0,0.0,0.0,0.0,73.0,0.5,43.0,...,62.0,126.0,2.0,0.0,120.0,137.0,121.0,73.0,1.0,2.0
1,132.0,0.006,0.0,0.006,0.003,0.0,0.0,17.0,2.1,0.0,...,68.0,198.0,6.0,1.0,141.0,136.0,140.0,12.0,0.0,1.0
2,133.0,0.003,0.0,0.008,0.003,0.0,0.0,16.0,2.1,0.0,...,68.0,198.0,5.0,1.0,141.0,135.0,138.0,13.0,0.0,1.0
3,134.0,0.003,0.0,0.008,0.003,0.0,0.0,16.0,2.4,0.0,...,53.0,170.0,11.0,0.0,137.0,134.0,137.0,13.0,1.0,1.0
4,132.0,0.007,0.0,0.008,0.0,0.0,0.0,16.0,2.4,0.0,...,53.0,170.0,9.0,0.0,137.0,136.0,138.0,11.0,1.0,1.0


# Data Preparation (Persiapan Data)
Tahap ini melibatkan pembersihan, transformasi, dan penggabungan data agar siap untuk analisis lebih lanjut. Pada tahap ini, pre-processing data seperti penghapusan data yang hilang atau outlier, penyesuaian format, dan normalisasi data dapat dilakukan.

Data Preparation (persiapan data) dari dataset fetal_health.csv dapat melibatkan serangkaian langkah-langkah untuk mempersiapkan data sebelum dilakukan analisis atau pemodelan. Berikut adalah beberapa langkah umum dalam Data Preparation:

1. Memuat Data: Langkah pertama adalah memuat data dari file CSV yang tersedia. Anda dapat menggunakan library atau alat analisis data seperti Pandas untuk membaca file CSV ke dalam struktur data yang sesuai, seperti DataFrame.

2. Menjelajahi Data: Setelah data dimuat, penting untuk menjelajahi dan memahami struktur data, termasuk jumlah baris dan kolom, tipe data setiap kolom, serta melihat beberapa contoh data untuk memahami format dan isi atribut-atribut.

3. Mengatasi Missing Values: Jika terdapat missing values (nilai yang hilang) dalam data, Anda perlu menentukan cara mengatasi nilai-nilai yang hilang tersebut. Beberapa pendekatan yang umum adalah menghapus baris yang memiliki missing values, mengisi missing values dengan nilai rata-rata atau median, atau menggunakan teknik imputasi yang lebih canggih.

4. Mengatasi Outlier: Outlier (data yang jauh dari nilai yang diharapkan) dapat mempengaruhi analisis dan pemodelan. Anda perlu mengidentifikasi dan memutuskan bagaimana mengatasi outlier dalam data. Hal ini dapat dilakukan dengan teknik deteksi outlier dan penghapusan atau transformasi data yang tidak bias.

5. Normalisasi dan Standarisasi: Dalam beberapa kasus, normalisasi atau standarisasi atribut dapat diterapkan untuk memastikan bahwa semua atribut memiliki skala yang serupa. Ini membantu memperbaiki performa model yang sensitif terhadap skala data.

6. Pemilihan Fitur: Jika diperlukan, Anda dapat melakukan pemilihan fitur (feature selection) untuk mengidentifikasi subset atribut yang paling relevan atau berpengaruh dalam prediksi kesehatan janin. Pemilihan fitur dapat dilakukan berdasarkan analisis statistik atau teknik pemilihan fitur seperti Lasso, Recursive Feature Elimination, atau feature importance dari model.

7. Encoding dan Transformasi Data: Beberapa atribut dalam data mungkin perlu diubah menjadi format yang sesuai untuk pemodelan. Ini dapat melibatkan encoding atribut kategori menjadi variabel numerik atau menggunakan teknik seperti one-hot encoding atau label encoding.

8. Pembagian Data: Terakhir, data dapat dibagi menjadi subset training dan testing untuk evaluasi model. Pembagian ini membantu memvalidasi performa model pada data yang tidak dilihat sebelumnya.

Setelah langkah-langkah ini selesai, data akan siap untuk digunakan dalam pemodelan dan analisis lebih lanjut untuk memahami dan mengklasifikasikan kesehatan janin.

# pisahkan atribut dengan labe

In [4]:
x = fetal_health.drop(columns='fetal_health', axis=1)
y = fetal_health['fetal_health']

In [5]:
print(x)

      baseline_value  accelerations  fetal_movement  uterine_contractions  \
0              120.0          0.000           0.000                 0.000   
1              132.0          0.006           0.000                 0.006   
2              133.0          0.003           0.000                 0.008   
3              134.0          0.003           0.000                 0.008   
4              132.0          0.007           0.000                 0.008   
...              ...            ...             ...                   ...   
2121           140.0          0.000           0.000                 0.007   
2122           140.0          0.001           0.000                 0.007   
2123           140.0          0.001           0.000                 0.007   
2124           140.0          0.001           0.000                 0.006   
2125           142.0          0.002           0.002                 0.008   

      light_decelerations  severe_decelerations  prolongued_decelerations  

In [6]:
print(y)

0       2.0
1       1.0
2       1.0
3       1.0
4       1.0
       ... 
2121    2.0
2122    2.0
2123    2.0
2124    2.0
2125    1.0
Name: fetal_health, Length: 2126, dtype: float64


# split data

In [7]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, stratify=y, random_state=2)

In [8]:
print(x.shape, x_train.shape, x_test.shape)

(2126, 21) (1700, 21) (426, 21)


# membuat model training

In [9]:
model = LogisticRegression()

In [10]:
model.fit(x_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

# Evaluation (Evaluasi)
Pada tahap ini, model yang telah dibangun dievaluasi secara kritis untuk memahami sejauh mana model tersebut memenuhi tujuan bisnis awal dan apakah hasilnya dapat digeneralisasi dengan baik. Jika perlu, langkah-langkah perbaikan dapat diambil.
Evaluasi (Evaluation) dari situs https://www.kaggle.com/datasets/andrewmvd/fetal-health-classification?select=fetal_health.csv melibatkan langkah-langkah untuk mengevaluasi kinerja model prediktif yang telah dibangun menggunakan data tersebut. Berikut adalah beberapa metode evaluasi yang umum digunakan:

1. Pembagian Data: Data yang tersedia perlu dibagi menjadi subset training dan testing. Subset training digunakan untuk melatih model, sedangkan subset testing digunakan untuk menguji kinerja model pada data yang tidak dilihat sebelumnya. Pembagian data yaitu adalah 80% untuk training dan 80% untuk testing.


# evaluasi model

In [11]:
x_train_prediction = model.predict(x_train)
training_data_accuracy = accuracy_score(x_train_prediction, y_train)

In [12]:
print('akurasi data training : ', training_data_accuracy)

akurasi data training :  0.8735294117647059


In [13]:
x_test_prediction = model.predict(x_test)
test_data_accuracy = accuracy_score(x_test_prediction, y_test)

In [14]:
print('akurasi data testing : ', test_data_accuracy)

akurasi data testing :  0.8356807511737089


# Modeling (Pemodelan)
Tahap ini melibatkan pemilihan teknik pemodelan yang sesuai dan penggunaan algoritma untuk membangun model prediktif atau deskriptif. Tahap ini juga melibatkan pengujian dan evaluasi model untuk memastikan kualitas dan kecocokan dengan tujuan bisnis.

Tahap Modeling melibatkan penggunaan algoritma dan teknik pemodelan untuk membangun model prediktif atau deskriptif berdasarkan data yang tersedia dalam file "fetal_health.csv".

1. Memilih Algoritma Pemodelan: memilih algoritma pemodelan yang sesuai dengan tujuan analisis dan tipe data yang ada dalam data set. Algoritma pemodelan yang digunakan yaitu Regresi Logistik.

2. Pemilihan Fitur (Feature Selection): Jika diperlukan, Anda dapat melakukan pemilihan fitur untuk mengidentifikasi subset fitur yang paling relevan atau berpengaruh dalam membangun model. Pemilihan fitur dapat dilakukan berdasarkan analisis korelasi, pemilihan berbasis model, atau metode lainnya. Berikut adalah daftar fitur yang tersedia dalam data set tersebut:

- baseline value: Nilai baseline sinyal elektrokardiogram (ECG) yang diukur pada awal rekaman.
- accelerations: Jumlah percepatan gerakan janin per detik.
- fetal_movement: Jumlah gerakan janin per detik.
- uterine_contractions: Jumlah kontraksi uterus per detik.
- light_decelerations: Jumlah penurunan ringan dalam detak jantung janin per detik.
- severe_decelerations: Jumlah penurunan parah dalam detak jantung janin per detik.
- prolongued_decelerations: Jumlah penurunan detak jantung janin yang berkepanjangan per detik.
- abnormal_short_term_variability: Variabilitas detak jantung janin dalam jangka pendek yang dianggap tidak normal.
- mean_value_of_short_term_variability: Nilai rata-rata dari variabilitas detak jantung janin dalam jangka pendek.
- percentage_of_time_with_abnormal_long_term_variability: Persentase waktu dengan variabilitas detak jantung janin yang abnormal dalam jangka panjang.
- mean_value_of_long_term_variability: Nilai rata-rata dari variabilitas detak jantung janin dalam jangka panjang.
- histogram_width: Lebar histogram dari sinyal elektrokardiogram (ECG) janin.
- histogram_min: Nilai minimum dari histogram sinyal elektrokardiogram (ECG) janin.
- histogram_max: Nilai maksimum dari histogram sinyal elektrokardiogram (ECG) janin.
- histogram_number_of_peaks: Jumlah puncak dalam histogram sinyal elektrokardiogram (ECG) janin.
- histogram_number_of_zeroes: Jumlah nilai nol dalam histogram sinyal elektrokardiogram (ECG) janin.
- histogram_mode: Modus (nilai paling sering muncul) dalam histogram sinyal elektrokardiogram (ECG) janin.
- histogram_mean: Nilai rata-rata dalam histogram sinyal elektrokardiogram (ECG) janin.
- histogram_median: Median (nilai tengah) dalam histogram sinyal elektrokardiogram (ECG) janin.
- histogram_variance: Variansi dalam histogram sinyal elektrokardiogram (ECG) janin.
- histogram_tendency: Kecenderungan histogram sinyal elektrokardiogram (ECG) janin (peningkatan, stagnan, atau penurunan).
- fetal_health: Variabel target yang mengindikasikan kategori kesehatan janin (Normal, Suspect/Mencurigakan, atau Pathological/Patologis).

Fitur-fitur ini memberikan informasi yang penting untuk menganalisis dan memahami kondisi kesehatan janin. Dengan menggunakan fitur-fitur ini, dapat dilakukan pemodelan dan prediksi terkait kesehatan janin

3. Membangun Model: Setelah persiapan data dan pemilihan fitur dilakukan, langkah selanjutnya adalah membangun model menggunakan algoritma yang telah dipilih. Model akan dilatih dengan menggunakan data pelatihan dan tujuan bisnis yang ingin dicapai.





# membuat model prediksi

In [15]:
input_data = (120,0,0,0,0,0,0,73,0.5,43,2.4,64,62,126,2,0,120,137,121,73,1)

input_data_as_numpy_array = np.array(input_data)

input_data_reshape = input_data_as_numpy_array.reshape(1, -1)

prediction = model.predict(input_data_reshape)
print(prediction)

if (prediction[0]==1):
    print ('kesehatan janin Normal')
elif (prediction[0]==2):
    print ('kesehatan janin Suspect (Mencurigakan)')
else:
    print ('kesehatan janin Pathological (Patologis)')

[2.]
kesehatan janin Suspect (Mencurigakan)




# Deployment (Implementasi)
Tahap terakhir melibatkan penerapan hasil analisis dalam lingkungan operasional, yang dapat melibatkan integrasi dengan sistem yang ada atau penggunaan hasil analisis untuk pengambilan keputusan.

Model yang telah dibuat di deploy kedalam library pickle yang kemudian akan diterapkan aplikasi berbasis web streamlit.

# simpan model

In [16]:
import pickle 

In [17]:
filename = 'fetal_healthNew.sav'
pickle.dump(model, open(filename, 'wb'))