In [2]:
import pandas as pd

# Membaca data dari folder data/01_raw
df = pd.read_csv('../data/01_raw/criminal_data.csv')
df.head()


Unnamed: 0,Id,Dates,DayOfWeek,PdDistrict,Address,X,Y
0,0,5/10/2015 23:59,Sunday,BAYVIEW,2000 Block of THOMAS AV,-122.399588,37.735051
1,1,5/10/2015 23:51,Sunday,BAYVIEW,3RD ST / REVERE AV,-122.391523,37.732432
2,2,5/10/2015 23:50,Sunday,NORTHERN,2000 Block of GOUGH ST,-122.426002,37.792212
3,3,5/10/2015 23:45,Sunday,INGLESIDE,4700 Block of MISSION ST,-122.437394,37.721412
4,4,5/10/2015 23:45,Sunday,INGLESIDE,4700 Block of MISSION ST,-122.437394,37.721412


## 🧹 Langkah 1: Menghapus Data Duplikat Berdasarkan Kolom Tertentu
Pada tahap awal pembersihan data, kita ingin menghapus baris-baris yang memiliki data kejadian kriminal yang identik berdasarkan beberapa kolom penting, yaitu:
- Dates → waktu kejadian
- PdDistrict → distrik kepolisian
- Address → lokasi kejadian
- X dan Y → koordinat geografis
Dengan menggunakan subset pada fungsi duplicated(), kita dapat menghitung jumlah baris duplikat berdasarkan kolom-kolom tersebut saja:

In [3]:
subset_cols = ['Dates', 'PdDistrict', 'Address', 'X', 'Y']
df.duplicated(subset=subset_cols).sum()

np.int64(188352)

In [4]:
df = df.drop_duplicates(subset=subset_cols)

In [5]:
print(f"Jumlah data setelah di hapus duplikatnya: {len(df)}")

Jumlah data setelah di hapus duplikatnya: 695910


## 🕒 Langkah 2: Parsing Kolom Waktu (Dates)
Setelah data dibersihkan dari duplikat, langkah selanjutnya adalah mengonversi kolom Dates dari format string menjadi objek datetime. Hal ini penting untuk memudahkan analisis waktu, seperti:
- Menentukan rentang waktu data
- Mengekstrak jam, hari, atau bulan
- Visualisasi tren kejadian berdasarkan waktu

Proses parsing dilakukan dengan menggunakan pd.to_datetime() dari library pandas:

In [6]:
df['Dates'] = pd.to_datetime(df['Dates'])

In [7]:
print(f"Rentang waktu data kejadian tercatat dimulai dari tahun {df['Dates'].min()}" f" sampai dengan tahun {df['Dates'].max()}")

Rentang waktu data kejadian tercatat dimulai dari tahun 2003-01-01 00:01:00 sampai dengan tahun 2015-05-10 23:59:00


## 🗓️ Langkah 3: Menambahkan Fitur Waktu dari Kolom Dates
Setelah kolom Dates berhasil diubah menjadi format datetime, kita dapat mengekstrak beberapa informasi penting untuk analisis waktu lebih lanjut. Fitur waktu ini sangat berguna untuk memahami pola kriminal berdasarkan waktu.

Beberapa fitur yang akan ditambahkan:
- hour → jam kejadian
- day → tanggal kejadian
- month → bulan kejadian
- year → tahun kejadian
- weekday → nama hari (Senin, Selasa, dst.)

In [8]:
df['Hour'] = df['Dates'].dt.hour
df['Day'] = df['Dates'].dt.day
df['Month'] = df['Dates'].dt.month
df['Year'] = df['Dates'].dt.year
df['Weekday'] = df['Dates'].dt.day_name()

In [9]:
print(df[['Hour', 'Day', 'Month', 'Year', 'Weekday']].head())

   Hour  Day  Month  Year Weekday
0    23   10      5  2015  Sunday
1    23   10      5  2015  Sunday
2    23   10      5  2015  Sunday
3    23   10      5  2015  Sunday
5    23   10      5  2015  Sunday


In [10]:
# Simpan data
df.to_csv('../data/02_interim/criminal_data_clean.csv', index=False)

In [11]:
df_train = pd.read_csv('../data/01_raw/criminal_data_train.csv')

## 🧹 Langkah 1: Menghapus Data Duplikat Berdasarkan Kolom Tertentu Pada Data train
Pada tahap awal pembersihan data, kita ingin menghapus baris-baris yang memiliki data kejadian kriminal yang identik berdasarkan beberapa kolom penting, yaitu:
Dengan menggunakan subset pada fungsi duplicated(), kita dapat menghitung jumlah baris duplikat berdasarkan kolom-kolom tersebut saja:

## 🧩 Duplicate Records Analysis

Duplikasi data adalah kondisi ketika **dua atau lebih baris** memiliki nilai **yang sama persis** pada kolom tertentu. Pada tahap ini, kita melakukan deteksi duplikasi berdasarkan kombinasi lengkap informasi kejadian kejahatan.

### ✅ Subset Kolom untuk Deteksi Duplikat

Duplikasi dicek berdasarkan kolom berikut:

- `Dates`
- `Category`
- `Descript`
- `DayOfWeek`
- `PdDistrict`
- `Resolution`
- `Address`
- `X`, `Y` (Koordinat lokasi)

```python
subset_cols_train = ['Dates','Category','Descript','DayOfWeek','PdDistrict','Resolution','Address','X','Y']
duplicate_count = df_train.duplicated(subset=subset_cols_train).sum()
print(f"Jumlah data duplikat: {duplicate_count}")


In [12]:
subset_cols_train = ['Dates','Category','Descript','DayOfWeek','PdDistrict','Resolution','Address','X','Y']
duplicate_count = df_train.duplicated(subset=subset_cols_train).sum()
print(f"Jumlah data duplikat: {duplicate_count}")

Jumlah data duplikat: 2323


In [13]:
df_train = df_train.drop_duplicates(subset=subset_cols_train)

## 🕒 Langkah 2: Parsing Kolom Waktu (Dates) Pada Data Train
Setelah data dibersihkan dari duplikat, langkah selanjutnya adalah mengonversi kolom Dates dari format string menjadi objek datetime. Hal ini penting untuk memudahkan analisis waktu, seperti:
- Menentukan rentang waktu data
- Mengekstrak jam, hari, atau bulan
- Visualisasi tren kejadian berdasarkan waktu

Proses parsing dilakukan dengan menggunakan pd.to_datetime() dari library pandas:

In [14]:
df_train['Dates'] = pd.to_datetime(df_train['Dates'])

## 🗓️ Langkah 3: Menambahkan Fitur Waktu dari Kolom Dates
Setelah kolom Dates berhasil diubah menjadi format datetime, kita dapat mengekstrak beberapa informasi penting untuk analisis waktu lebih lanjut. Fitur waktu ini sangat berguna untuk memahami pola kriminal berdasarkan waktu.

In [15]:
df_train['Hour'] = df_train['Dates'].dt.hour
df_train['Day'] = df_train['Dates'].dt.day
df_train['Month'] = df_train['Dates'].dt.month
df_train['Year'] = df_train['Dates'].dt.year
df_train['Weekday'] = df_train['Dates'].dt.day_name()

In [16]:
print(df_train[['Hour', 'Day', 'Month', 'Year', 'Weekday']].head())

   Hour  Day  Month  Year    Weekday
0    23   13      5  2015  Wednesday
1    23   13      5  2015  Wednesday
2    23   13      5  2015  Wednesday
3    23   13      5  2015  Wednesday
4    23   13      5  2015  Wednesday


In [17]:
# Simpan data train
df_train.to_csv('../data/02_interim/criminal_data_train_clean.csv', index=False)