In [1]:
# Instalasi library tambahan untuk membaca file Excel (.xlsx)
!pip install openpyxl



In [17]:
# Import library
import pandas as pd
import re
import string
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [18]:
def text_cleaning(text):
    # Pastikan input adalah string, tangani nilai NaN/missing data
    if pd.isna(text):
        return ""

    # 1. Lowercase
    text = str(text).lower()

    # 2. Hapus URL (http, https, www, dan domain .com umum)
    text = re.sub(r'http\S+|www\S+|\S+\.com\S+', '', text, flags=re.MULTILINE)

    # 3. Hapus tanda baca standar
    text = text.translate(str.maketrans('', '', string.punctuation))

    # 4. Hapus angka
    text = re.sub(r'\d+', '', text)

    # 5. Hapus emoji dan simbol khusus
    emoji_pattern = re.compile(
        "["
        "\U0001F600-\U0001F64F"  # Emoticons
        "\U0001F300-\U0001F5FF"  # Symbols & pictographs
        "\U0001F680-\U0001F6FF"  # Transport & map symbols
        "\U0001F700-\U0001F77F"  # Alchemical symbols
        "\U0001F780-\U0001F7FF"  # Geometric shapes extended
        "\U0001F800-\U0001F8FF"  # Supplemental arrows-C
        "\U0001F900-\U0001F9FF"  # Supplemental symbols & pictographs
        "\U0001FA00-\U0001FA6F"  # Chess symbols
        "\U0001FA70-\U0001FAFF"  # Symbols & pictographs extended-A
        "\u2600-\u26FF"          # Misc symbols
        "\u2700-\u27BF"          # Dingbats
        "\ufe0f"                 # Variation selector
        "]+",
        flags=re.UNICODE
    )
    text = emoji_pattern.sub('', text)

    # 6. Hapus spasi berlebih
    text = re.sub(r'\s+', ' ', text).strip()

    return text


In [19]:
TEKS_COLUMN = 'full_text' # Ganti dengan nama kolom teks yang sebenarnya di file Excel Anda

print("--- Memproses Data Positif ---")
# 1. Memuat Data menggunakan path yang baru
df_positif = pd.read_excel('/content/tweet_positif_merge_15_nov.xlsx')

# Tampilkan jumlah baris sebelum duplikasi dihapus
print(f"Jumlah baris awal: {len(df_positif)}")

# 2. Hapus Duplikasi
df_positif.drop_duplicates(subset=[TEKS_COLUMN], inplace=True) # Hapus duplikasi berdasarkan kolom teks
df_positif.reset_index(drop=True, inplace=True)
print(f"Jumlah baris setelah hapus duplikasi: {len(df_positif)}")

# 3. Terapkan Cleaning (Langkah 1-4)
df_positif['cleaned_text'] = df_positif[TEKS_COLUMN].apply(text_cleaning)

# 4. Tokenisasi Teks (Langkah 5)
df_positif['tokens'] = df_positif['cleaned_text'].apply(word_tokenize)

# Tampilkan contoh hasil
print("\nContoh Hasil Data Positif:")
print(df_positif[[TEKS_COLUMN, 'cleaned_text', 'tokens']].head())

--- Memproses Data Positif ---
Jumlah baris awal: 1002
Jumlah baris setelah hapus duplikasi: 748

Contoh Hasil Data Positif:
                                           full_text  \
0  Sebetulnya kampanyeu model lempar2 susu lempar...   
1  Diusir hingga ditusuk oleh preman di daerah Da...   
2  Kenapa masyarakat dibikin bodoh sakit miskin d...   
3  Persoalan terbesar bangsa kita saat ini adalah...   
4   pinterin masyarakatnya dong meanwhile masyara...   

                                        cleaned_text  \
0  sebetulnya kampanyeu model lempar susu lempar ...   
1  diusir hingga ditusuk oleh preman di daerah da...   
2  kenapa masyarakat dibikin bodoh sakit miskin d...   
3  persoalan terbesar bangsa kita saat ini adalah...   
4  pinterin masyarakatnya dong meanwhile masyarak...   

                                              tokens  
0  [sebetulnya, kampanyeu, model, lempar, susu, l...  
1  [diusir, hingga, ditusuk, oleh, preman, di, da...  
2  [kenapa, masyarakat, dibikin, bod

In [20]:
print("\n--- Memproses Data Negatif ---")
# 1. Memuat Data menggunakan path yang baru
df_negatif = pd.read_excel('/content/tweet_negatif_merge_20_nov.xlsx')

# Tampilkan jumlah baris sebelum duplikasi dihapus
print(f"Jumlah baris awal: {len(df_negatif)}")

# 2. Hapus Duplikasi
df_negatif.drop_duplicates(subset=[TEKS_COLUMN], inplace=True) # Hapus duplikasi berdasarkan kolom teks
df_negatif.reset_index(drop=True, inplace=True)
print(f"Jumlah baris setelah hapus duplikasi: {len(df_negatif)}")

# 3. Terapkan Cleaning (Langkah 1-4)
df_negatif['cleaned_text'] = df_negatif[TEKS_COLUMN].apply(text_cleaning)

# 4. Tokenisasi Teks (Langkah 5)
df_negatif['tokens'] = df_negatif['cleaned_text'].apply(word_tokenize)

# Tampilkan contoh hasil
print("\nContoh Hasil Data Negatif:")
print(df_negatif[[TEKS_COLUMN, 'cleaned_text', 'tokens']].head())


--- Memproses Data Negatif ---
Jumlah baris awal: 470
Jumlah baris setelah hapus duplikasi: 453

Contoh Hasil Data Negatif:
                                           full_text  \
0  Bayangkan dalam 20 tahun: 1) Pengusaha mebel 2...   
1  Anak muda jadi pemimpin? Kenapa tidak. Tapiiii...   
2  Pemimpin tidak bisa dicetak. Tak timbul dg sek...   
3  Tipe pekerja itu macam-macam. Setiap leader it...   
4  Jusuf Kalla : Sulitlah rasanya apalagi dipimpi...   

                                        cleaned_text  \
0  bayangkan dalam tahun pengusaha mebel walikota...   
1  anak muda jadi pemimpin kenapa tidak tapiiii o...   
2  pemimpin tidak bisa dicetak tak timbul dg seka...   
3  tipe pekerja itu macammacam setiap leader itu ...   
4  jusuf kalla sulitlah rasanya apalagi dipimpin ...   

                                              tokens  
0  [bayangkan, dalam, tahun, pengusaha, mebel, wa...  
1  [anak, muda, jadi, pemimpin, kenapa, tidak, ta...  
2  [pemimpin, tidak, bisa, dicetak, 

In [21]:
# Menyimpan hasil akhir ke file Excel baru
df_positif.to_excel('positif_preprocessed_final.xlsx', index=False)
df_negatif.to_excel('negatif_preprocessed_final.xlsx', index=False)

print("selesai")

selesai
