In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import mean_squared_error
import sys

# Fungsi untuk preprocessing data
def preprocess_data(file_path):
    try:
        # Memuat data
        data = pd.read_csv(file_path)

        # Menampilkan beberapa baris pertama dataset
        print("Data yang dimuat:")
        print(data.head())

        # Menangani nilai yang hilang
        data = data.dropna()
        print("\nData setelah menghapus nilai yang hilang:")
        print(data.head())

        return data
    except Exception as e:
        print(f"Terjadi kesalahan saat memuat atau memproses data: {e}")
        return None

# Fungsi untuk memvalidasi kolom input pengguna
def validate_columns(data, features, target):
    missing_features = [col for col in features if col not in data.columns]
    if target not in data.columns:
        print(f"Kolom target '{target}' tidak ditemukan dalam dataset.")
        return False
    if missing_features:
        print(f"Kolom fitur berikut tidak ditemukan dalam dataset: {', '.join(missing_features)}")
        return False
    return True

# Fungsi untuk menganalisis data
def analyze_data(data, features, target, algorithm):
    try:
        # Validasi kolom
        if not validate_columns(data, features, target):
            return

        # Membagi data menjadi fitur dan target
        X = data[features]
        y = data[target]

        # Membagi data menjadi set pelatihan dan pengujian
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

        # Memilih algoritma
        if algorithm == 'linear_regression':
            model = LinearRegression()
        elif algorithm == 'decision_tree':
            model = DecisionTreeRegressor()
        elif algorithm == 'random_forest':
            model = RandomForestRegressor()
        elif algorithm == 'naive_bayes':
            model = GaussianNB()
        else:
            print("Algoritma tidak didukung. Gunakan 'linear_regression', 'decision_tree', 'random_forest', atau 'naive_bayes'.")
            return

        # Melatih model
        model.fit(X_train, y_train)

        # Membuat prediksi
        predictions = model.predict(X_test)

        # Mengevaluasi model
        mse = mean_squared_error(y_test, predictions)
        print(f"\nModel: {algorithm}")
        print(f"Mean Squared Error: {mse}")
    except Exception as e:
        print(f"Terjadi kesalahan saat analisis: {e}")

if __name__ == "__main__":
    # Instruksi upload file di Google Colab
    print("Jika berjalan di Google Colab, unggah file 'air_quality.csv' Anda sekarang.")
    from google.colab import files
    uploaded = files.upload()

    # Asumsikan file yang diunggah bernama 'air_quality.csv'
    file_path = list(uploaded.keys())[0]

    # Preprocessing data
    data = preprocess_data(file_path)

    while True:
        print("\nAnalisis Data Kualitas Udara")
        print("Pilihan:")
        print("1. Analisis Data")
        print("2. Keluar")

        choice = input("Masukkan pilihan Anda (1/2): ")

        if choice == '1':
            if data is None:
                print("Harap lakukan preprocessing data terlebih dahulu.")
                continue

            features = input("Masukkan kolom fitur (pisahkan dengan koma): ").split(',')
            target = input("Masukkan kolom target: ")
            algorithm = input("Masukkan algoritma ('linear_regression', 'decision_tree', 'random_forest', 'naive_bayes'): ")

            analyze_data(data, features, target, algorithm)
        elif choice == '2':
            print("Keluar dari program.")
            sys.exit()
        else:
            print("Pilihan tidak valid. Silakan pilih 1 atau 2.")


Jika berjalan di Google Colab, unggah file 'air_quality.csv' Anda sekarang.


Saving air_quality.csv to air_quality (1).csv
Data yang dimuat:
   Temperature  Humidity  PM2.5  PM10   NO2   SO2    CO  \
0         29.8       NaN    5.2  17.9   NaN   9.2  1.72   
1         28.3      75.6    2.3  12.2  30.8   NaN  1.64   
2          NaN      74.7   26.7   NaN  24.4  12.6  1.63   
3         27.1      39.1    6.1   6.3   NaN   5.3  1.15   
4         26.5      70.7    NaN  16.0  21.9   5.6   NaN   

   Proximity_to_Industrial_Areas  Population_Density Air Quality  
0                            6.3               319.0    Moderate  
1                            6.0                 NaN    Moderate  
2                            NaN               619.0         NaN  
3                           11.1                 NaN        Good  
4                           12.7               303.0         NaN  

Data setelah menghapus nilai yang hilang:
    Temperature  Humidity  PM2.5  PM10   NO2   SO2    CO  \
5          39.4      96.6   14.6  35.5  42.9  17.9  1.82   
13         28.6 