In [22]:
import pandas as pd
import re

# Fungsi untuk memproses pesan
def parse_message(row):
    # Pastikan input berupa string
    if not isinstance(row, str):
        return None, None, None, row  # Jika bukan string, kembalikan nilai default

    # Ekspresi reguler yang lebih fleksibel
    pattern = r'^(?P<tanggal>\d{2}/\d{2}/\d{2}) (?P<waktu>\d{1,2}[:.]\d{2}) - (?P<pengirim>[^:]+): (?P<pesan>.+)$'
    match = re.match(pattern, row)
    if match:
        return match.group('tanggal'), match.group('waktu'), match.group('pengirim'), match.group('pesan')
    return None, None, None, row  # Untuk pesan sistem atau tidak cocok


# Terapkan parsing pada kolom pertama
data[0] = data[0].astype(str).fillna("")  # Pastikan kolom adalah string # Konversi kolom pertama ke string dan tangani NaN
parsed_data = data[0].apply(parse_message)

# Fungsi untuk membersihkan teks
def clean_text(text):
    if isinstance(text, str):
        # Hanya mempertahankan angka, huruf, dan tanda baca-tulis umum
        return re.sub(r'[^a-zA-Z0-9.,:;!?()\-"\'"\" ]', '', text)
    return text

# Baca file CSV
file_path = 'data_group.csv'
data = pd.read_csv(file_path, sep=';', header=None, encoding='utf-8')
print(data.columns)

# Terapkan parsing pada kolom pertama
parsed_data = data[0].apply(parse_message)

# Buat DataFrame baru dengan header yang diinginkan
df_cleaned = pd.DataFrame(parsed_data.tolist(), columns=['Tanggal', 'Waktu', 'Pengirim', 'Pesan'])

# Pisahkan pesan sistem
df_cleaned['Is_System_Message'] = df_cleaned['Tanggal'].isna()

# Bersihkan DataFrame dengan hanya menyimpan baris valid
df_valid = df_cleaned[~df_cleaned['Is_System_Message']].drop(columns=['Is_System_Message'])

# Bersihkan setiap elemen dalam DataFrame
data_cleaned = data.applymap(clean_text)

# Simpan hasil ke file baru
output_path = 'data_group_cleaned.csv'  # Simpan di direktori kerja saat ini
df_cleaned.to_csv(output_path, index=False)
print(f"Data cleaned and saved to {output_path}")

Index([0, 1, 2, 3, 4, 5, 6], dtype='int64')
Data cleaned and saved to data_group_cleaned.csv


In [5]:
print(data.dtypes)

0    object
1    object
2    object
3    object
4    object
5    object
6    object
dtype: object
