In [1]:
import pandas as pd
import numpy as np

In [2]:
# Load data
data = pd.read_csv('bank sampah.csv')

# Menampilkan beberapa baris pertama untuk melihat struktur data
print("Data awal:")
print(data.head())

Data awal:
   periode_data         nama_bank_sampah  \
0          2022                   SDN 17   
1          2022                   SDN 03   
2          2022           KENANGGA RW 05   
3          2022  PPSU Kel. Keby.Lama Sel   
4          2022                SMPN. 164   

                                     alamat          kelurahan  \
0                Jl. Praja Dalam G RT.04 05  Keb. Lama Selatan   
1           Jl. Ciputat Raya No. 125 RW 008  Keb. Lama Selatan   
2                  Jl. Ciputat Raya RW. 005  Keb. Lama Selatan   
3  Jl. Bungur No. 1 RT 02 12 Keby. Lama Sel  Keb. Lama Selatan   
4   Jl. Dharma Putra Raya No. 51 RT 007 007  Keb. Lama Selatan   

        kecamatan          wilayah                   kegiatan status_kegiatan  \
0  Kebayoran Lama  Jakarta Selatan  pemilahan dan pengumpulan     Tidak Aktif   
1  Kebayoran Lama  Jakarta Selatan  pemilahan dan pengumpulan     Tidak Aktif   
2  Kebayoran Lama  Jakarta Selatan  pemilahan dan pengumpulan     Tidak Aktif   
3  

In [3]:
# Cek jumlah missing value di setiap kolom
missing_values = data.isnull().sum()
print("Missing values per column:")
print(missing_values)

Missing values per column:
periode_data        0
nama_bank_sampah    0
alamat              0
kelurahan           0
kecamatan           0
wilayah             0
kegiatan            0
status_kegiatan     0
keterangan          0
dtype: int64


In [4]:
# Ganti tanda '-' menjadi NaN di seluruh dataset
data.replace('-', np.nan, inplace=True)

# Cek missing valuer setelah mengganti '-'
missing_values_after = data.isnull().sum()
print("Missing values per column setelah mengganti '-':")
print(missing_values_after)

# Jumlah data sebelum missing values dihapus
total_rows_before = data.shape[0]
print("Jumlah data sebelum menghapus missing values:", total_rows_before)

Missing values per column setelah mengganti '-':
periode_data          0
nama_bank_sampah      0
alamat                0
kelurahan             0
kecamatan             0
wilayah               0
kegiatan            575
status_kegiatan     161
keterangan            0
dtype: int64
Jumlah data sebelum menghapus missing values: 2771


In [5]:
# Hapus baris dengan missing value (karena hanya membutuhkan 10 data bank sampah per wilayah)
data_cleaned = data.dropna(subset=['kegiatan','status_kegiatan'])

# Filter data dengan status "Aktif" saja
data_cleaned = data_cleaned[data_cleaned['status_kegiatan'] == 'Aktif']

# Cek data setelah cleaned
print("Missing values setelah cleaned:")
print(data_cleaned.isnull().sum())

# Tampilkan jumlah data setelah missing values dihapus
print("Jumlah data setelah missing values dihapus:", data_cleaned.shape[0])

Missing values setelah cleaned:
periode_data        0
nama_bank_sampah    0
alamat              0
kelurahan           0
kecamatan           0
wilayah             0
kegiatan            0
status_kegiatan     0
keterangan          0
dtype: int64
Jumlah data setelah missing values dihapus: 1523


In [6]:
# Hapus kolom yang tidak diperlukan dan perbarui data_cleaned
data_cleaned = data_cleaned.drop(columns=['periode_data', 'keterangan', 'kegiatan', 'status_kegiatan'])

# Menampilkan hasil untuk memastikan kolom sudah terhapus
print(data_cleaned.head())

           nama_bank_sampah                                    alamat  \
3   PPSU Kel. Keby.Lama Sel  Jl. Bungur No. 1 RT 02 12 Keby. Lama Sel   
5                      SOKA                 RW. 12 Keby. Lama selatan   
7   Restan Kantor Kecamatan     Jl. Dharma Putra Jaya No. 51 RT 07 07   
8         Gemilang I Satpel         Jl. Delman Asri III, Ciputat Raya   
10      Kebal Maut PPSU KLU       Jl. Ciputat Raya No. 20A RT 003 003   

            kelurahan       kecamatan          wilayah  
3   Keb. Lama Selatan  Kebayoran Lama  Jakarta Selatan  
5   Keb. Lama Selatan  Kebayoran Lama  Jakarta Selatan  
7   Keb. Lama Selatan  Kebayoran Lama  Jakarta Selatan  
8      Keb.Lama Utara  Kebayoran Lama  Jakarta Selatan  
10     Keb.Lama Utara  Kebayoran Lama  Jakarta Selatan  


In [7]:
# Melihat jumlah wilayah yang unik
jumlah_wilayah = data_cleaned['wilayah'].nunique()
print("Jumlah wilayah yang unik:", jumlah_wilayah)

# Melihat daftar wilayah yang unik
unique_wilayah = data_cleaned['wilayah'].unique()
print("Daftar wilayah yang unik:", unique_wilayah)

Jumlah wilayah yang unik: 5
Daftar wilayah yang unik: ['Jakarta Selatan' 'Jakarta Timur' 'Jakarta barat' 'Jakarta Barat'
 'Jakarta Pusat']


In [8]:
# Normalisasi karena ada format penulisan yg tidak konsisten
# Mengubah nama wilayah menjadi konsisten (misalnya, semua huruf besar)
data_cleaned['wilayah'] = data_cleaned['wilayah'].str.title()  # Mengubah menjadi title case (huruf pertama tiap kata kapital)

# Menghapus spasi yang tidak perlu (leading/trailing spaces)
data_cleaned['wilayah'] = data_cleaned['wilayah'].str.strip()

# Cek apakah sudah tidak ada lagi duplikat pada kolom 'wilayah'
print(data_cleaned['wilayah'].unique())  # Menampilkan nilai unik pada kolom wilayah

# Tampilkan data yang sudah diperbaiki
print(data_cleaned.head())

['Jakarta Selatan' 'Jakarta Timur' 'Jakarta Barat' 'Jakarta Pusat']
           nama_bank_sampah                                    alamat  \
3   PPSU Kel. Keby.Lama Sel  Jl. Bungur No. 1 RT 02 12 Keby. Lama Sel   
5                      SOKA                 RW. 12 Keby. Lama selatan   
7   Restan Kantor Kecamatan     Jl. Dharma Putra Jaya No. 51 RT 07 07   
8         Gemilang I Satpel         Jl. Delman Asri III, Ciputat Raya   
10      Kebal Maut PPSU KLU       Jl. Ciputat Raya No. 20A RT 003 003   

            kelurahan       kecamatan          wilayah  
3   Keb. Lama Selatan  Kebayoran Lama  Jakarta Selatan  
5   Keb. Lama Selatan  Kebayoran Lama  Jakarta Selatan  
7   Keb. Lama Selatan  Kebayoran Lama  Jakarta Selatan  
8      Keb.Lama Utara  Kebayoran Lama  Jakarta Selatan  
10     Keb.Lama Utara  Kebayoran Lama  Jakarta Selatan  


In [15]:
# Melihat jumlah wilayah yang unik setelah normalisasi
jumlah_wilayah = data_cleaned['wilayah'].nunique()
print("Jumlah wilayah yang unik setelah normalisasi:", jumlah_wilayah)

# Melihat daftar wilayah yang unik setelah normalisasi
unique_wilayah = data_cleaned['wilayah'].unique()
print("Daftar wilayah yang unik setelah normalisasi:", unique_wilayah)

Jumlah wilayah yang unik setelah normalisasi: 4
Daftar wilayah yang unik setelah normalisasi: ['Jakarta Selatan' 'Jakarta Timur' 'Jakarta Barat' 'Jakarta Pusat']


In [17]:
# Simpan data cleaned
data_cleaned.to_csv('data_cleaned.csv', index=False)

In [11]:
# Ambil maksimal 10 data per wilayah yang tersebar di berbagai kecamatan dan kelurahan
filtered_data = data_cleaned.groupby('wilayah').apply(lambda x: x.head(10)).reset_index(drop=True)

# Urutkan data berdasarkan wilayah, kecamatan, dan kelurahan
filtered_data = filtered_data.sort_values(by=['wilayah', 'kecamatan', 'kelurahan'])

# Tampilkan hasil
print(filtered_data)

                    nama_bank_sampah  \
0    BS Cemulangpah SDN 07 Kalideres   
1          BS Sahabat SMA 84 Jakarta   
2                    BS Merah Delima   
3     BS Mitra Sukses Mandiri Rw. 11   
4                       BS LPS Rw 08   
5                BS Katarina Citra 1   
6                    BS Kabela RW 04   
7               BS KWT SOKA MERAH 11   
8                      BS AL BAROKAH   
9                      bisa citra 16   
10                  Istana Watimpres   
11                  Asri Kemenko PMK   
12  Peduli Gambir Kantor Kel. Gambir   
13                            SMK 02   
14                 Kel. Kebon kelapa   
15               CMPK SD Santa maria   
16                kantor Kec. Gambir   
17                           SMPN 94   
18                    Cempaka Rw. 02   
19                     Mandiri Rw.07   
20           PPSU Kel. Keby.Lama Sel   
21                              SOKA   
22           Restan Kantor Kecamatan   
23                 Gemilang I Satpel   


  filtered_data = data_cleaned.groupby('wilayah').apply(lambda x: x.head(10)).reset_index(drop=True)


In [19]:
# Tampilkan jumlah baris dan kolom setelah difilter
print("Jumlah data setelah difilter:", filtered_data.shape[0])

Jumlah data setelah difilter: 40


In [13]:
# Simpan data yang telah difilter ke file CSV
filtered_data.to_csv('bank_sampah_fix.csv', index=False)

In [18]:
import pandas as pd

# Load data
data = pd.read_csv('data_cleaned.csv')

# Pastikan data yang ada di kolom wilayah, kecamatan, kelurahan, dan bank sampah sudah bersih
# Ambil maksimal 10 data per wilayah dengan pengacakan dari berbagai kecamatan dan kelurahan
filtered_data = data.groupby('wilayah').apply(lambda x: x.sample(min(10, len(x)))).reset_index(drop=True)

# Urutkan data berdasarkan wilayah, kecamatan, dan kelurahan
filtered_data = filtered_data.sort_values(by=['wilayah', 'kecamatan', 'kelurahan']).reset_index(drop=True)

# Tampilkan hasil
print(filtered_data)



                     nama_bank_sampah  \
0                      CAMELIA RW. 14   
1                SDN Jelambar Baru 05   
2              Bs. Tawakal Jaya RW 09   
3   Wijaya Mandiri Kel. Wijaya Kusuma   
4                   BS RSUD Kalideres   
5                        Mawar Garden   
6                      Benyamin RW 02   
7                 Bank Sampah SMPN 88   
8      USMAN Usaha Mandiri Kel.Jembes   
9                     RW 09 Kalianyar   
10              Melati Pasar Gembrong   
11                        Bougenville   
12                Cempaka Abadi Sapel   
13                        Pucuk Merah   
14             Lagura 18 RT 018 RW 03   
15                        Baper Seven   
16                Cempaka RT 09 RW 03   
17                             SMK 02   
18                              Rw.08   
19              Green Pandawa SMKN 19   
20                    SMKN 41 Jakarta   
21                         Nusa Indah   
22                 Pinang Indah RW 04   
23              

  filtered_data = data.groupby('wilayah').apply(lambda x: x.sample(min(10, len(x)))).reset_index(drop=True)


In [20]:
# Tampilkan jumlah baris dan kolom setelah difilter
print("Jumlah data setelah difilter:", filtered_data.shape[0])

Jumlah data setelah difilter: 40


In [21]:
# Simpan data yang telah difilter ke file CSV
filtered_data.to_csv('bank_sampah_fix2.csv', index=False)