# Notebook untuk Pengecekan dan Perbaikan Data

Notebook ini digunakan untuk melakukan pengecekan dan perbaikan data menggunakan Python. Setiap langkah akan dijelaskan secara bertahap sesuai outline berikut:

1. Impor Library yang Dibutuhkan
2. Membaca dan Mengecek Data
3. Pengecekan Nilai Hilang
4. Pengecekan dan Perbaikan Tipe Data
5. Pengecekan dan Penanganan Outlier
6. Perbaikan Data Tidak Konsisten
7. Menyimpan Data yang Telah Diperbaiki

## 1. Impor Library yang Dibutuhkan
Impor library seperti pandas dan numpy yang akan digunakan untuk analisis dan perbaikan data.

In [None]:
import pandas as pd
import numpy as np

## 2. Membaca dan Mengecek Data
Baca dataset menggunakan pandas dan tampilkan beberapa baris pertama untuk memastikan data terbaca dengan benar.

In [None]:
# Ganti 'data.csv' dengan nama file dataset Anda
# df = pd.read_csv('data.csv')
# df.head()

# Contoh dummy jika belum ada file
sample_data = {
    'nama': ['A', 'B', 'C', 'D'],
    'nilai': [90, 85, np.nan, 100],
    'kategori': ['baik', 'baik', 'buruk', 'baik']
}
df = pd.DataFrame(sample_data)
df.head()

## 3. Pengecekan Nilai Hilang
Cek apakah terdapat nilai hilang pada dataset dan tampilkan jumlahnya per kolom.

In [None]:
df.isnull().sum()

## 4. Pengecekan dan Perbaikan Tipe Data
Periksa tipe data setiap kolom dan lakukan konversi tipe data jika diperlukan.

In [None]:
df.dtypes
# Contoh konversi tipe data jika diperlukan
# df['nilai'] = df['nilai'].astype(float)

## 5. Pengecekan dan Penanganan Outlier
Identifikasi outlier pada data numerik dan lakukan penanganan seperti menghapus atau mengganti nilai outlier.

In [None]:
# Contoh deteksi outlier dengan IQR
def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    return data[(data[column] < lower) | (data[column] > upper)]

outliers = detect_outliers_iqr(df, 'nilai')
outliers

## 6. Perbaikan Data Tidak Konsisten
Cari dan perbaiki data yang tidak konsisten, misalnya penulisan kategori yang berbeda untuk makna yang sama.

In [None]:
# Contoh normalisasi kategori
df['kategori'] = df['kategori'].replace({'buruk': 'tidak baik', 'baik': 'baik'})
df['kategori'].unique()

## 7. Menyimpan Data yang Telah Diperbaiki
Simpan dataset yang sudah diperbaiki ke file baru untuk digunakan pada proses selanjutnya.

In [None]:
# Simpan ke file baru
df.to_csv('data_bersih.csv', index=False)
print('Data telah disimpan ke data_bersih.csv')