In [2]:
import pandas as pd
import re
import nltk
import time
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Pastikan stopwords dan tokenizer yang diperlukan sudah diunduh
nltk.download('punkt')
nltk.download('stopwords')

# Membuat stemmer untuk bahasa Indonesia menggunakan Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi untuk normalisasi teks
def normalize_text(text):
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    return text.lower()

# Fungsi untuk tokenisasi, stop word removal, dan stemming
def preprocess_text(text):
    text = normalize_text(text)
    tokens = word_tokenize(text)
    stop_words = set(stopwords.words('indonesian'))  # Pastikan 'indonesian' telah didownload
    filtered_tokens = [word for word in tokens if word not in stop_words]
    stemmed_tokens = [stemmer.stem(word) for word in filtered_tokens]
    return ' '.join(stemmed_tokens)

# Fungsi untuk melacak waktu dan menampilkan progress
def track_progress(current, total, start_time):
    elapsed_time = time.time() - start_time
    average_time = elapsed_time / current if current > 0 else 0
    remaining_time = average_time * (total - current)
    print(f"Proses: {current}/{total} - Estimasi waktu tersisa: {remaining_time:.2f} detik")

# Membaca file CSV dan mulai menghitung waktu
start_time = time.time()
file_path = r'H:\My Drive\analisa sentimen git\percobaan 9\validation_filtered.csv'
data = pd.read_csv(file_path)
print(f"File CSV dimuat - {len(data)} baris. Waktu yang dibutuhkan: {time.time() - start_time:.2f} detik")

# Menghapus duplikat
data = data.drop_duplicates()
print(f"Duplikat dihapus - {len(data)} baris tersisa. Waktu yang dibutuhkan: {time.time() - start_time:.2f} detik")

# Menerapkan preprocessing ke kolom 'content' dengan progress
start_preprocessing_time = time.time()
total_rows = len(data)
data['processed_content'] = ''

for index, row in data.iterrows():
    data.at[index, 'processed_content'] = preprocess_text(str(row['content']))
    if (index + 1) % 100 == 0 or (index + 1) == total_rows:  # Update progress every 100 rows or at the end
        track_progress(index + 1, total_rows, start_preprocessing_time)

print(f"Preprocessing selesai. Total waktu yang dibutuhkan: {time.time() - start_preprocessing_time:.2f} detik")

# Menghitung jumlah positif dan negatif
jumlah_positif = len(data[data['score'] > 0])
jumlah_negatif = len(data[data['score'] < 0])
print(f"Jumlah positif: {jumlah_positif}")
print(f"Jumlah negatif: {jumlah_negatif}")

# Tokenisasi pada kolom 'content' dan 'processed_content' dengan progress
start_tokenization_time = time.time()
data['content_tokenized'] = ''
data['processed_content_tokenized'] = ''

for index, row in data.iterrows():
    data.at[index, 'content_tokenized'] = word_tokenize(str(row['content']))
    data.at[index, 'processed_content_tokenized'] = word_tokenize(str(row['processed_content']))
    if (index + 1) % 100 == 0 or (index + 1) == total_rows:  # Update progress every 100 rows or at the end
        track_progress(index + 1, total_rows, start_tokenization_time)

print(f"Tokenisasi selesai. Total waktu yang dibutuhkan: {time.time() - start_tokenization_time:.2f} detik")

# Menyimpan DataFrame yang sudah diproses ke file CSV baru
output_file_path = r'H:\My Drive\analisa sentimen git\percobaan 9\validation_results_tokenized2.csv'
data.to_csv(output_file_path, index=False)
print(f"Data yang sudah diproses disimpan di: {output_file_path}")

# Menampilkan waktu total untuk seluruh proses
print(f"Proses selesai dalam {time.time() - start_time:.2f} detik")

# Menampilkan beberapa contoh hasil preprocessing dan tokenisasi
print(data[['content', 'processed_content', 'content_tokenized', 'processed_content_tokenized']].head())


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\hisya\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\hisya\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


File CSV dimuat - 98862 baris. Waktu yang dibutuhkan: 0.33 detik
Duplikat dihapus - 98862 baris tersisa. Waktu yang dibutuhkan: 0.41 detik
Proses: 100/98862 - Estimasi waktu tersisa: 21887.84 detik
Proses: 200/98862 - Estimasi waktu tersisa: 22493.13 detik
Proses: 300/98862 - Estimasi waktu tersisa: 19473.08 detik
Proses: 400/98862 - Estimasi waktu tersisa: 18097.87 detik
Proses: 500/98862 - Estimasi waktu tersisa: 17332.65 detik
Proses: 600/98862 - Estimasi waktu tersisa: 17118.70 detik
Proses: 700/98862 - Estimasi waktu tersisa: 15864.00 detik
Proses: 800/98862 - Estimasi waktu tersisa: 15162.77 detik
Proses: 900/98862 - Estimasi waktu tersisa: 14579.96 detik
Proses: 1000/98862 - Estimasi waktu tersisa: 14151.88 detik
Proses: 1100/98862 - Estimasi waktu tersisa: 13863.77 detik
Proses: 1200/98862 - Estimasi waktu tersisa: 13876.18 detik
Proses: 1300/98862 - Estimasi waktu tersisa: 13450.30 detik
Proses: 1400/98862 - Estimasi waktu tersisa: 13485.83 detik
Proses: 1500/98862 - Estimasi 

In [3]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

# Pastikan Anda sudah mengunduh tokenizer yang diperlukan
nltk.download('punkt')

# Baca file CSV
input_path = r"H:\My Drive\analisa sentimen git\percobaan 9\validation_results_tokenized2.csv"
data = pd.read_csv(input_path)

# Tokenisasi pada kolom 'content' dan 'processed_content'
data['content_tokenized'] = data['content'].apply(lambda x: word_tokenize(str(x)))
data['processed_content_tokenized'] = data['processed_content'].apply(lambda x: word_tokenize(str(x)))

# Simpan hasilnya ke file CSV baru
output_path = r"H:\My Drive\analisa sentimen git\percobaan 9\validation_results_tokenized4.csv"
data.to_csv(output_path, index=False)

print(f"File berhasil disimpan di {output_path}")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\hisya\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\hisya\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\hisya\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


File berhasil disimpan di H:\My Drive\analisa sentimen git\percobaan 9\validation_results_tokenized4.csv
