In [None]:
import re
import pandas as pd

# Fungsi untuk menghapus tanda baca dan karakter non-alfabet
def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', text)

# Fungsi untuk mengubah huruf menjadi lowercase
def to_lowercase(text):
    return text.lower()

# Fungsi untuk menghapus spasi berlebih
def remove_extra_spaces(text):
    return re.sub(r'\s+', ' ', text).strip()

# Fungsi untuk mengganti bahasa gaul dengan kata baku menggunakan kamus
def replace_slang(text, slang_dict):
    words = text.split()
    normalized_words = [slang_dict.get(word, word) for word in words]
    return ' '.join(normalized_words)

# Fungsi untuk memuat kamus dari file CSV
def load_slang_dictionary(csv_file):
    # Specify the encoding explicitly, for example 'latin1' or 'ISO-8859-1'
    slang_df = pd.read_csv(csv_file, encoding='latin1')
    return dict(zip(slang_df['anakjakartaasikasik'], slang_df['anak jakarta asyik asyik']))

# Memuat kamus slang dari file CSV
slang_dict = load_slang_dictionary('slangdict.csv')

# Fungsi utama untuk melakukan normalisasi teks
def normalize_text(text, slang_dict):
    text = to_lowercase(text)              # Ubah semua teks jadi lowercase
    text = remove_punctuation(text)        # Hapus tanda baca
    text = remove_extra_spaces(text)       # Hapus spasi berlebih
    text = replace_slang(text, slang_dict) # Ganti bahasa gaul dengan kata baku
    return text

# Membaca dataset teks yang akan dinormalisasi
df = pd.read_csv('slangz-a.csv')

# Asumsi kolom teks berada di kolom 'text', normalisasi kolom tersebut
df['translate_text'] = df['input_text'].apply(lambda x: normalize_text(x, slang_dict))

# Menyimpan dataset yang sudah dinormalisasi ke file baru
df.to_csv('genZ-Aindo1_translate.csv', index=False)

print("Normalisasi teks selesai!")

Normalisasi teks selesai!


In [3]:
# Ganti 'path_to_file.csv' dengan lokasi file Anda
data = pd.read_csv('data300.csv')

# Menghapus duplikasi
data_cleaned = data.drop_duplicates()


In [4]:
jumlah_duplikasi = len(data) - len(data_cleaned)
print(f"Jumlah duplikasi yang terhapus: {jumlah_duplikasi}")


Jumlah duplikasi yang terhapus: 0


In [5]:
data_cleaned.to_csv('data300.csv', index=False)


In [7]:
data=pd.read_csv('data300.csv')
data

Unnamed: 0,input,output
0,bestie lu bad vibes banget,temen kamu terlihat kacau sekali
1,gua lagi otw nih,saya lagi di jalan nih
2,"halah, dasar freak","halah, dasar gak jelas"
3,hobby lu flexing terus,hobi kamu pamer terus
4,kok lu bisa si baper ama cowo redflag itu,kok kamu bisa si ada perasaan sama laki-laki b...
...,...,...
295,"restoran barunya gucci banget, makanannya enak...","restoran barunya sangat bagus, makanannya enak..."
296,"aku tidak bisa datang ke acaranya, aku fomo ba...","aku tidak bisa datang ke acaranya, aku takut k..."
297,lagu barunya ate banget!,lagu barunya sangat enak!
298,Kami akhirnya mengalahkan tahap itu dalam perm...,Kami akhirnya mengalahkan tahap itu dalam perm...


In [11]:
import random

# Function to create user questions and bot responses
def create_conversation(row):
    # Variations for user questions
    user_questions = [
        f"Terjemahin ini dong, \"{row['input']}\"",
        f"Apa artinya \"{row['input']}\"?",
        f"Coba translate kalimat ini: \"{row['input']}\"",
        f"Bisa kasih tau maksud dari \"{row['input']}\"?",
        f"Gimana ya artinya \"{row['input']}\"?"
    ]

    # Variations for bot responses
    bot_responses = [
        f"Artinya adalah: \"{row['output']}\"",
        f"Maksud dari kalimat tersebut adalah \"{row['output']}\".",
        f"Terjemahannya: \"{row['output']}\"",
        f"Kalimat itu artinya \"{row['output']}\".",
        f"Itu artinya: \"{row['output']}\""
    ]

    return {
        "Input": random.choice(user_questions),
        "Output": random.choice(bot_responses)
    }

# Load dataset
file_path = 'data300.csv'  # Path ke file yang diunggah
data = pd.read_csv(file_path, sep=',') # Change the delimiter as needed

# Rename columns to lowercase
data.columns = data.columns.str.lower()  # Convert column names to lowercase

# Apply function to create new conversation DataFrame
conversations = data.apply(create_conversation, axis=1)  # Apply the function
conversation_df = pd.DataFrame(conversations.tolist()) # Create a DataFrame

# Save to a new CSV file
output_file_path = 'data300slang.csv'
conversation_df.to_csv(output_file_path, index=False)

output_file_path

'data300slang.csv'

In [13]:
import pandas as pd

# Load the dataset
file_path = 'data300slang.csv'  # ganti dengan path file kamu
dataset = pd.read_csv(file_path)

# Function to reformat the dataset into the desired format
def reformat_dataset(row):
    return f"<s>[INST] {row['Input']} [/INST] {row['Output']} </s>"

# Apply the function to each row of the dataset
dataset['formatted'] = dataset.apply(reformat_dataset, axis=1)

# Save the reformatted dataset to a new CSV file
output_csv_path = 'data_slang_final.csv'
dataset[['formatted']].to_csv(output_csv_path, index=False)
