#Preprocessing Lung Disease

##Memuat Dataset
- Membaca file dataset ke dalam Python menggunakan pustaka seperti pandas.

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler

# 1. Memuat Dataset
file_path = '/content/predic_tabel.csv'
df = pd.read_csv(file_path)

##Eksplorasi Data
- Menampilkan informasi dataset (kolom, tipe data, dll.).
- Menampilkan beberapa baris pertama untuk memahami struktur data.

In [3]:
# 2. Eksplorasi Data
print("Informasi Dataset:")
print(df.info())
print("\nLima Baris Pertama:")
print(df.head())

Informasi Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   No                  30000 non-null  int64 
 1   Usia                30000 non-null  object
 2   Jenis_Kelamin       30000 non-null  object
 3   Merokok             30000 non-null  object
 4   Bekerja             30000 non-null  object
 5   Rumah_Tangga        30000 non-null  object
 6   Aktivitas_Begadang  30000 non-null  object
 7   Aktivitas_Olahraga  30000 non-null  object
 8   Asuransi            30000 non-null  object
 9   Penyakit_Bawaan     30000 non-null  object
 10  Hasil               30000 non-null  object
dtypes: int64(1), object(10)
memory usage: 2.5+ MB
None

Lima Baris Pertama:
   No  Usia Jenis_Kelamin Merokok Bekerja Rumah_Tangga Aktivitas_Begadang  \
0   1   Tua          Pria   Pasif   Tidak           Ya                 Ya   
1   2   Tua      

##Menangani Missing Values:
- Mengidentifikasi nilai yang hilang (NA/null).
- Mengisi nilai hilang atau menghapus baris/kolom yang relevan.

In [4]:
# 3. Menangani Missing Values
print("\nJumlah Missing Values per Kolom:")
print(df.isnull().sum())


Jumlah Missing Values per Kolom:
No                    0
Usia                  0
Jenis_Kelamin         0
Merokok               0
Bekerja               0
Rumah_Tangga          0
Aktivitas_Begadang    0
Aktivitas_Olahraga    0
Asuransi              0
Penyakit_Bawaan       0
Hasil                 0
dtype: int64


In [5]:
# Mengisi nilai hilang dengan rata-rata (numerik) atau modus (kategorikal)
for col in df.columns:
    if df[col].dtype in ['int64', 'float64']:
        df[col].fillna(df[col].mean(), inplace=True)
    else:
        df[col].fillna(df[col].mode()[0], inplace=True)

print("\nMissing Values setelah penanganan:")
print(df.isnull().sum())


Missing Values setelah penanganan:
No                    0
Usia                  0
Jenis_Kelamin         0
Merokok               0
Bekerja               0
Rumah_Tangga          0
Aktivitas_Begadang    0
Aktivitas_Olahraga    0
Asuransi              0
Penyakit_Bawaan       0
Hasil                 0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].mode()[0], inplace=True)


##Normalisasi/Standarisasi Data
Menskalakan data numerik untuk menyamakan skala.

In [6]:
# 4. Normalisasi/Standarisasi Data
scaler = StandardScaler()
numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns
df[numerical_cols] = scaler.fit_transform(df[numerical_cols])

##One-Hot Encoding atau Label Encoding
Mengonversi data kategoris menjadi format numerik.

In [7]:
# 5. One-Hot Encoding atau Label Encoding
# Menggunakan LabelEncoder untuk kolom kategorikal
label_encoders = {}
categorical_columns = df.select_dtypes(include='object').columns

for col in categorical_columns:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le

##Fitur Engineering
Membuat kolom baru atau menghapus kolom yang tidak relevan.

In [8]:
# 6. Fitur Engineering (contoh: membuat kolom baru atau menghapus kolom yang tidak relevan)
# Contoh menghapus kolom 'No' karena tidak relevan
if 'No' in df.columns:
    df.drop(columns=['No'], inplace=True)

##Memisahkan Data Latih dan Uji
Membagi dataset menjadi data pelatihan dan pengujian.

In [9]:
# 7. Memisahkan Data Latih dan Uji
X = df.drop(columns=['Hasil'])  # Ganti 'Hasil' dengan kolom target Anda
y = df['Hasil']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("\nData Latih dan Uji berhasil dipisahkan:")
print(f"Jumlah Data Latih: {len(X_train)}")
print(f"Jumlah Data Uji: {len(X_test)}")


Data Latih dan Uji berhasil dipisahkan:
Jumlah Data Latih: 24000
Jumlah Data Uji: 6000
