In [6]:
import pandas as pd
import re

# Fungsi untuk memproses pesan
def parse_message(row):
    # Pastikan input berupa string
    if not isinstance(row, str):
        return None, None, None, row  # Jika bukan string, kembalikan nilai default

    # Ekspresi reguler yang sesuai dengan format data (MM/DD/YY)
    pattern = r'^(?P<tanggal>\d{1,2}/\d{1,2}/\d{2}),? (?P<waktu>\d{1,2}[:.]\d{2}) - (?P<pengirim>[^:]+): (?P<pesan>.+)$'
    match = re.match(pattern, row)
    if match:
        return match.group('tanggal'), match.group('waktu'), match.group('pengirim'), match.group('pesan')
    return None, None, None, row  # Untuk pesan sistem atau tidak cocok

# Fungsi untuk membersihkan teks
def clean_text(text):
    if isinstance(text, str):
        # Hanya mempertahankan angka, huruf, dan tanda baca-tulis umum
        return re.sub(r'[^a-zA-Z0-9.,:;!?()\-"\'"\" ]', '', text)
    return text

# Baca file CSV
file_path = 'data_group.csv'  # Sesuaikan nama file dengan lokasi file Anda
data = pd.read_csv(file_path, sep=';', header=None, encoding='utf-8')

# Terapkan parsing pada kolom pertama
data[0] = data[0].astype(str).fillna("")  # Pastikan kolom adalah string dan tangani NaN
parsed_data = data[0].apply(parse_message)

# Buat DataFrame baru dengan header yang diinginkan
df_cleaned = pd.DataFrame(parsed_data.tolist(), columns=['Tanggal', 'Waktu', 'Pengirim', 'Pesan'])

# Pisahkan pesan sistem
df_cleaned['Is_System_Message'] = df_cleaned['Tanggal'].isna()

# Bersihkan DataFrame dengan hanya menyimpan baris valid
df_valid = df_cleaned[~df_cleaned['Is_System_Message']].drop(columns=['Is_System_Message'])

# Bersihkan setiap elemen dalam kolom 'Pesan'
df_valid['Pesan'] = df_valid['Pesan'].apply(clean_text)

# Simpan hasil ke file baru
output_path = 'cleaned_data_group.csv'  # Simpan di direktori kerja saat ini
df_valid.to_csv(output_path, index=False)

print(f"Data cleaned and saved to {output_path}")


Data cleaned and saved to cleaned_data_group.csv


In [4]:
print(data.dtypes)

0    object
dtype: object
