# **1. Perkenalan Dataset**


Dataset yang saya gunakan adalah dataset tentang penyakit [diabetes](https://archive.ics.uci.edu/dataset/891/cdc+diabetes+health+indicators). Dataset ini saya dapatkan dari situs UCI ML. Dataset ini memiliki 253680 baris dan 21 ditur. Dataset ini cocok untuk tugas klasifikasi.

# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [19]:
from ucimlrepo import fetch_ucirepo 
import pandas as pd
from imblearn.over_sampling import SMOTE


# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [9]:
cdc_diabetes_health_indicators = fetch_ucirepo(id=891) 
X = cdc_diabetes_health_indicators.data.features 
y = cdc_diabetes_health_indicators.data.targets 
  
# metadata 
print(cdc_diabetes_health_indicators.metadata) 
  
# variable information 
print(cdc_diabetes_health_indicators.variables) 
df = pd.concat([X, y], axis=1)

{'uci_id': 891, 'name': 'CDC Diabetes Health Indicators', 'repository_url': 'https://archive.ics.uci.edu/dataset/891/cdc+diabetes+health+indicators', 'data_url': 'https://archive.ics.uci.edu/static/public/891/data.csv', 'abstract': 'The Diabetes Health Indicators Dataset contains healthcare statistics and lifestyle survey information about people in general along with their diagnosis of diabetes. The 35 features consist of some demographics, lab test results, and answers to survey questions for each patient. The target variable for classification is whether a patient has diabetes, is pre-diabetic, or healthy. ', 'area': 'Health and Medicine', 'tasks': ['Classification'], 'characteristics': ['Tabular', 'Multivariate'], 'num_instances': 253680, 'num_features': 21, 'feature_types': ['Categorical', 'Integer'], 'demographics': ['Sex', 'Age', 'Education Level', 'Income'], 'target_col': ['Diabetes_binary'], 'index_col': ['ID'], 'has_missing_values': 'no', 'missing_values_symbol': None, 'year_

# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, saya akan memeriksa beberapa hal, yaitu terkait nilai null dan balance data

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 253680 entries, 0 to 253679
Data columns (total 22 columns):
 #   Column                Non-Null Count   Dtype
---  ------                --------------   -----
 0   HighBP                253680 non-null  int64
 1   HighChol              253680 non-null  int64
 2   CholCheck             253680 non-null  int64
 3   BMI                   253680 non-null  int64
 4   Smoker                253680 non-null  int64
 5   Stroke                253680 non-null  int64
 6   HeartDiseaseorAttack  253680 non-null  int64
 7   PhysActivity          253680 non-null  int64
 8   Fruits                253680 non-null  int64
 9   Veggies               253680 non-null  int64
 10  HvyAlcoholConsump     253680 non-null  int64
 11  AnyHealthcare         253680 non-null  int64
 12  NoDocbcCost           253680 non-null  int64
 13  GenHlth               253680 non-null  int64
 14  MentHlth              253680 non-null  int64
 15  PhysHlth              253680 non-n

In [13]:
df.isnull().sum()

HighBP                  0
HighChol                0
CholCheck               0
BMI                     0
Smoker                  0
Stroke                  0
HeartDiseaseorAttack    0
PhysActivity            0
Fruits                  0
Veggies                 0
HvyAlcoholConsump       0
AnyHealthcare           0
NoDocbcCost             0
GenHlth                 0
MentHlth                0
PhysHlth                0
DiffWalk                0
Sex                     0
Age                     0
Education               0
Income                  0
Diabetes_binary         0
dtype: int64

In [14]:
df['Diabetes_binary'].value_counts()

Diabetes_binary
0    218334
1     35346
Name: count, dtype: int64

# **5. Data Preprocessing**

Pada data ini, problem yang akan saya tangani adalah unbalance data. Saya akan menyelesaikan pada tahap preprocessing. Namun, sebelumnya, saya akan menggunakan beberapa kolom saja untuk saya lanjutkan, yaitu 'Age', 'Sex', 'GenHlth', 'MentHlth', 'PhysHlth', 'BMI', 'HvyAlcoholConsump', 'HighChol', 'PhysActivity','Diabetes_binary'.

In [17]:
selected_columns = ['Age', 'Sex', 'GenHlth', 'MentHlth', 'PhysHlth', 'BMI', 'HvyAlcoholConsump', 'HighChol', 'PhysActivity','Diabetes_binary']
filtered_df = df[selected_columns]

In [20]:
X = filtered_df.drop('Diabetes_binary', axis=1)
y = filtered_df['Diabetes_binary']

smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# Gabungkan kembali
final_df = pd.DataFrame(X_resampled, columns=X.columns)
final_df['Diabetes_binary'] = y_resampled

In [21]:
final_df['Diabetes_binary'].value_counts()

Diabetes_binary
0    218334
1    218334
Name: count, dtype: int64

In [23]:
final_df.to_csv('diabet_preprocessing.csv')