In [10]:
import pandas as pd

In [11]:
csv1 = pd.read_csv('cleaned_1.csv')
csv2 = pd.read_csv('cleaned_2.csv')

In [12]:
def gabungkan_csv(csv1, csv2, output_csv):
    # Membaca file CSV
    df1 = pd.read_csv(csv1)
    df2 = pd.read_csv(csv2)

    # Menggabungkan kedua DataFrame
    df_gabungan = pd.concat([df1, df2], ignore_index=True)

    # Menyimpan hasil gabungan ke file CSV baru
    df_gabungan.to_csv(output_csv, index=False)
    print(f"File gabungan disimpan sebagai {output_csv}")

In [13]:
gabungkan_csv('cleaned_1.csv', 'cleaned_2.csv', 'dataset.csv')

File gabungan disimpan sebagai dataset.csv


In [14]:
# melihat distribusi label
def lihat_distribusi_label(csv_file):
    df = pd.read_csv(csv_file)
    distribusi = df['label'].value_counts()
    print("Distribusi label:")
    print(distribusi)
    
lihat_distribusi_label('dataset.csv')

Distribusi label:
label
hate       9234
neutral    8954
Name: count, dtype: int64


In [19]:
import pandas as pd
import numpy as np

def check_data_quality(csv_file):
    df = pd.read_csv(csv_file)
    
    print(f"Dataset shape: {df.shape}")
    print(f"\nInfo dataset:")
    print(df.info())
    
    print(f"\nTipe data kolom 'text':")
    print(df['text'].dtype)
    
    # Cek nilai NaN
    print(f"\nJumlah NaN di kolom 'text': {df['text'].isna().sum()}")
    print(f"Jumlah NaN di kolom 'label': {df['label'].isna().sum()}")
    
    # Cek tipe data setiap nilai di kolom text
    non_string_mask = ~df['text'].apply(lambda x: isinstance(x, str))
    problematic_rows = df[non_string_mask]
    
    if not problematic_rows.empty:
        print(f"\nDitemukan {len(problematic_rows)} baris dengan 'text' bukan string:")
        print(problematic_rows[['text', 'label']])
        
        print(f"\nTipe data nilai bermasalah:")
        for idx, row in problematic_rows.iterrows():
            print(f"Index {idx}: {type(row['text'])} -> {row['text']}")
    else:
        print("\nSemua nilai di kolom 'text' adalah string.")
    
    # Cek string kosong
    empty_text = df[df['text'] == '']
    if not empty_text.empty:
        print(f"\nDitemukan {len(empty_text)} baris dengan text kosong:")
        print(empty_text.head())
    
    return df

# Jalankan pengecekan
df = check_data_quality('dataset.csv')

Dataset shape: (18148, 2)

Info dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18148 entries, 0 to 18147
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    18148 non-null  object
 1   label   18148 non-null  object
dtypes: object(2)
memory usage: 283.7+ KB
None

Tipe data kolom 'text':
object

Jumlah NaN di kolom 'text': 0
Jumlah NaN di kolom 'label': 0

Semua nilai di kolom 'text' adalah string.


In [20]:
def clean_dataset(csv_file, output_file):
    df = pd.read_csv(csv_file)
    
    print(f"Data awal: {len(df)} baris")
    
    # Hapus baris dengan NaN
    df = df.dropna(subset=['text', 'label'])
    print(f"Setelah hapus NaN: {len(df)} baris")
    
    # Konversi semua nilai text ke string
    df['text'] = df['text'].astype(str)
    
    # Hapus baris dengan text kosong atau hanya whitespace
    df = df[df['text'].str.strip() != '']
    print(f"Setelah hapus text kosong: {len(df)} baris")
    
    # Hapus baris dengan text 'nan' atau 'None'
    df = df[~df['text'].str.lower().isin(['nan', 'none', 'null'])]
    print(f"Setelah hapus text 'nan'/'none': {len(df)} baris")
    
    # Reset index
    df = df.reset_index(drop=True)
    
    # Simpan dataset bersih
    df.to_csv(output_file, index=False)
    print(f"Dataset bersih disimpan sebagai: {output_file}")
    
    return df

# Bersihkan dataset
clean_df = clean_dataset('dataset.csv', 'dataset.csv')

# Cek ulang
print("\n" + "="*50)
print("PENGECEKAN DATASET BERSIH:")
check_data_quality('dataset.csv')

Data awal: 18148 baris
Setelah hapus NaN: 18148 baris
Setelah hapus text kosong: 18148 baris
Setelah hapus text 'nan'/'none': 18148 baris
Dataset bersih disimpan sebagai: dataset.csv

PENGECEKAN DATASET BERSIH:
Dataset shape: (18148, 2)

Info dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18148 entries, 0 to 18147
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    18148 non-null  object
 1   label   18148 non-null  object
dtypes: object(2)
memory usage: 283.7+ KB
None

Tipe data kolom 'text':
object

Jumlah NaN di kolom 'text': 0
Jumlah NaN di kolom 'label': 0

Semua nilai di kolom 'text' adalah string.


Unnamed: 0,text,label
0,Kerajaan Pajajaran Majapahit Mataram Kuno amp ...,neutral
1,Nih klub ngawur banget Masa kampanye kaum pela...,hate
2,Perbandingan Malaysia dan Indonesia dalam hal ...,neutral
3,Di tunggu y KLARIFIKASINYA Bpk Agus Subianto u...,hate
4,teruslah produktif dan terlihat menghambur2kan...,neutral
...,...,...
18143,jangan asal ngomong ndasmu. congor lu yg sekat...,hate
18144,Kasur mana enak kunyuk',neutral
18145,Hati hati bisu .g lagi bosan huft ',neutral
18146,Bom yang real mudah terdeteksi bom yang terkub...,neutral
