In [1]:
import pandas as pd
import re
import string

data_cleaned = pd.read_csv("output/IKN.csv")
data_cleaned = data_cleaned.dropna(subset=['full_text'])
data_cleaned = data_cleaned.drop_duplicates(subset=['full_text'])
data_cleaned.shape

(3435, 3)

In [3]:
data_cleaned.head(10)
data_cleaned = data_cleaned.drop(columns=['Unnamed: 0'])

# DATA CLEANING

In [4]:
def data_clean(data):
    # Hapus mention (@username) menggunakan regex
    data = re.sub(r'@\w+', '', data)
    # Hapus hashtag (#hashtag) menggunakan rege
    data = re.sub(r'#\w+', '', data)
    # Hapus URL menggunakan regex
    data = re.sub(r'http\S+|www\S+|https\S+', '', data)
    # Hapus emoji menggunakan regex
    data = re.sub(r'[\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F700-\U0001F77F]+', '', data)
    # Hapus semua tanda baca menggunakan regex
    data = data.translate(str.maketrans('', '', string.punctuation))
    return data

data_cleaned['cleaned'] = data_cleaned['full_text'].apply(lambda x: data_clean(x))
data_cleaned.to_csv('cleaned6.csv', index=False)
data_cleaned.head(10)

Unnamed: 0,full_text,created_at,cleaned
0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...
1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...
2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...
3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...
4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...
5,Usulan DPR tak Ikut Pindah ke IKN Nusantara Di...,Wed Mar 27 03:18:10 +0000 2024,Usulan DPR tak Ikut Pindah ke IKN Nusantara Di...
6,Suasana Proyek Pembangunan Bandara VVIP IKN ap...,Wed Mar 27 02:48:24 +0000 2024,Suasana Proyek Pembangunan Bandara VVIP IKN ap...
7,Investasi di IKN Nusantara Dinilai Tidak Mengu...,Tue Mar 26 23:39:00 +0000 2024,Investasi di IKN Nusantara Dinilai Tidak Mengu...
8,Inilah Hunian ASN 4 yang mana pembangunan nya ...,Tue Mar 26 13:56:24 +0000 2024,Inilah Hunian ASN 4 yang mana pembangunan nya ...
9,Investasi di IKN Nusantara Dinilai Tidak Mengu...,Tue Mar 26 11:47:44 +0000 2024,Investasi di IKN Nusantara Dinilai Tidak Mengu...


# TRANSLATE

In [22]:
from googletrans.client import Translator
translator = Translator()

data_cleaned['translated'] = data_cleaned['cleaned'].str.encode('ascii', 'ignore').apply(translator.translate, src='id', dest='en')
def clean_tweet2(tweet):
  return ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)", " ", tweet).split())

data_cleaned['translated'] = data_cleaned['translated'].apply(getattr, args=('text',))
data_cleaned['translated'] = data_cleaned.apply(lambda x: clean_tweet2(x['translated']), axis=1)
data_cleaned.head()

Unnamed: 0.1,Unnamed: 0,full_text,created_at,cleaned,translated
0,0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,b These are the 2 units of Landed Houses for M...
1,1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...,b Alhamdulillah thank you for visiting the Ind...
2,2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,b Observers Criticize 2 Projects Owned by Cong...
3,3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...,b Wow Seen from the side of the road towering ...
4,4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...,b When droned to roll off a PLN transformer at...


In [4]:
data_cleaned.to_csv('output/data_translated6.csv', index=False)

# TEXT PREPROCESSING

In [4]:
data_cleaned = pd.read_csv('output/data_translated6.csv')
data_cleaned = data_cleaned.drop(columns=['Unnamed: 0'])
data_cleaned.head()

Unnamed: 0,full_text,created_at,cleaned,translated
0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,b These are the 2 units of Landed Houses for M...
1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...,b Alhamdulillah thank you for visiting the Ind...
2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,b Observers Criticize 2 Projects Owned by Cong...
3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...,b Wow Seen from the side of the road towering ...
4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...,b When droned to roll off a PLN transformer at...


In [5]:
df = pd.read_csv('cleaned6.csv')
df.head()

Unnamed: 0,full_text,created_at,cleaned
0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...
1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...
2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...
3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...
4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...


# CASE FOLDING

In [6]:
def preprocess_text(text):
  #ubah kalimat jadi huruf kecil
  lower_case = text.lower()
  #hapus angka dari kalimat
  result = re.sub(r"\d+", "", lower_case)
  #hapus tanda baca dari kalimat
  result = result.translate(str.maketrans("","",string.punctuation + "!!"))
  #hapus spasi awal & akhir kalimat
  result = result.strip()
  return result

def clean_tweet2(tweet):
  return ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)", " ", tweet).split())

df['case_fold'] = df['cleaned'].apply(lambda x: preprocess_text(x))
df['case_fold'] = df['case_fold'].apply(lambda x: clean_tweet2(x))
df.head()

Unnamed: 0,full_text,created_at,cleaned,case_fold
0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,inilah unit rumah tapak jabatan menteri yang s...
1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...,alhamdulillah terima kasih berkenan mengunjung...
2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,pengamat kritik proyek milik konglomerat pendu...
3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...,wow terlihat dari pinggir jalan gedunggedung m...
4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...,waktu ngedrone roll off trafo pln di pelabuhan...


# TOKENIZING

In [7]:
import nltk
# nltk.download ('all')
from nltk.tokenize import word_tokenize

def tokenize_text(text):
  tokens = word_tokenize(text)
  return tokens

df['token'] = df['case_fold'].apply(lambda x: tokenize_text(x))
df.head()

Unnamed: 0,full_text,created_at,cleaned,case_fold,token
0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,inilah unit rumah tapak jabatan menteri yang s...,"[inilah, unit, rumah, tapak, jabatan, menteri,..."
1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...,alhamdulillah terima kasih berkenan mengunjung...,"[alhamdulillah, terima, kasih, berkenan, mengu..."
2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,pengamat kritik proyek milik konglomerat pendu...,"[pengamat, kritik, proyek, milik, konglomerat,..."
3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...,wow terlihat dari pinggir jalan gedunggedung m...,"[wow, terlihat, dari, pinggir, jalan, gedungge..."
4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...,waktu ngedrone roll off trafo pln di pelabuhan...,"[waktu, ngedrone, roll, off, trafo, pln, di, p..."


# FILTERING (STOPWORD REMOVAL)

In [8]:
import nltk
from nltk.corpus import stopwords
# nltk.download('stopwords')
print(stopwords.words('indonesian'))

['ada', 'adalah', 'adanya', 'adapun', 'agak', 'agaknya', 'agar', 'akan', 'akankah', 'akhir', 'akhiri', 'akhirnya', 'aku', 'akulah', 'amat', 'amatlah', 'anda', 'andalah', 'antar', 'antara', 'antaranya', 'apa', 'apaan', 'apabila', 'apakah', 'apalagi', 'apatah', 'artinya', 'asal', 'asalkan', 'atas', 'atau', 'ataukah', 'ataupun', 'awal', 'awalnya', 'bagai', 'bagaikan', 'bagaimana', 'bagaimanakah', 'bagaimanapun', 'bagi', 'bagian', 'bahkan', 'bahwa', 'bahwasanya', 'baik', 'bakal', 'bakalan', 'balik', 'banyak', 'bapak', 'baru', 'bawah', 'beberapa', 'begini', 'beginian', 'beginikah', 'beginilah', 'begitu', 'begitukah', 'begitulah', 'begitupun', 'bekerja', 'belakang', 'belakangan', 'belum', 'belumlah', 'benar', 'benarkah', 'benarlah', 'berada', 'berakhir', 'berakhirlah', 'berakhirnya', 'berapa', 'berapakah', 'berapalah', 'berapapun', 'berarti', 'berawal', 'berbagai', 'berdatangan', 'beri', 'berikan', 'berikut', 'berikutnya', 'berjumlah', 'berkali-kali', 'berkata', 'berkehendak', 'berkeinginan'

In [9]:
stopwords_set = set(stopwords.words('indonesian'))
def stopword_text(tokens):
  cleaned_tokens = []
  for token in tokens:
    if token not in stopwords_set:
      cleaned_tokens.append(token)
  return cleaned_tokens

df['stop'] = df['token'].apply(lambda x: stopword_text(x))
df.head()

Unnamed: 0,full_text,created_at,cleaned,case_fold,token,stop
0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,inilah unit rumah tapak jabatan menteri yang s...,"[inilah, unit, rumah, tapak, jabatan, menteri,...","[unit, rumah, tapak, jabatan, menteri, rampung..."
1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...,alhamdulillah terima kasih berkenan mengunjung...,"[alhamdulillah, terima, kasih, berkenan, mengu...","[alhamdulillah, terima, kasih, berkenan, mengu..."
2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,pengamat kritik proyek milik konglomerat pendu...,"[pengamat, kritik, proyek, milik, konglomerat,...","[pengamat, kritik, proyek, milik, konglomerat,..."
3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...,wow terlihat dari pinggir jalan gedunggedung m...,"[wow, terlihat, dari, pinggir, jalan, gedungge...","[wow, pinggir, jalan, gedunggedung, menjulang,..."
4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...,waktu ngedrone roll off trafo pln di pelabuhan...,"[waktu, ngedrone, roll, off, trafo, pln, di, p...","[ngedrone, roll, off, trafo, pln, pelabuhan, i..."


# LEMMATIZATION

In [10]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

lemmatizer = WordNetLemmatizer()

def lemmatize_text(tokens):
    result = [lemmatizer.lemmatize(token, get_wordnet_pos(token)) for token in tokens]
    return result

def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

df['lemmatized'] = df['stop'].apply(lambda x: lemmatize_text(x))
df.head()

Unnamed: 0,full_text,created_at,cleaned,case_fold,token,stop,lemmatized
0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,inilah unit rumah tapak jabatan menteri yang s...,"[inilah, unit, rumah, tapak, jabatan, menteri,...","[unit, rumah, tapak, jabatan, menteri, rampung...","[unit, rumah, tapak, jabatan, menteri, rampung..."
1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...,alhamdulillah terima kasih berkenan mengunjung...,"[alhamdulillah, terima, kasih, berkenan, mengu...","[alhamdulillah, terima, kasih, berkenan, mengu...","[alhamdulillah, terima, kasih, berkenan, mengu..."
2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,pengamat kritik proyek milik konglomerat pendu...,"[pengamat, kritik, proyek, milik, konglomerat,...","[pengamat, kritik, proyek, milik, konglomerat,...","[pengamat, kritik, proyek, milik, konglomerat,..."
3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...,wow terlihat dari pinggir jalan gedunggedung m...,"[wow, terlihat, dari, pinggir, jalan, gedungge...","[wow, pinggir, jalan, gedunggedung, menjulang,...","[wow, pinggir, jalan, gedunggedung, menjulang,..."
4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...,waktu ngedrone roll off trafo pln di pelabuhan...,"[waktu, ngedrone, roll, off, trafo, pln, di, p...","[ngedrone, roll, off, trafo, pln, pelabuhan, i...","[ngedrone, roll, off, trafo, pln, pelabuhan, i..."


In [11]:
df.to_csv('output/preprocessed_data8.csv', index=False)

In [5]:
df = pd.read_csv('output/preprocessed_data8.csv')
df.head()

Unnamed: 0,full_text,created_at,cleaned,case_fold,token,stop,lemmatized
0,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,Fri Mar 29 11:48:49 +0000 2024,Inilah 2 unit Rumah Tapak Jabatan Menteri yang...,inilah unit rumah tapak jabatan menteri yang s...,"['inilah', 'unit', 'rumah', 'tapak', 'jabatan'...","['unit', 'rumah', 'tapak', 'jabatan', 'menteri...","['unit', 'rumah', 'tapak', 'jabatan', 'menteri..."
1,Alhamdulillah terima kasih berkenan mengunjung...,Fri Mar 29 02:34:41 +0000 2024,Alhamdulillah terima kasih berkenan mengunjung...,alhamdulillah terima kasih berkenan mengunjung...,"['alhamdulillah', 'terima', 'kasih', 'berkenan...","['alhamdulillah', 'terima', 'kasih', 'berkenan...","['alhamdulillah', 'terima', 'kasih', 'berkenan..."
2,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,Thu Mar 28 23:39:00 +0000 2024,Pengamat Kritik 2 Proyek Milik Konglomerat Pen...,pengamat kritik proyek milik konglomerat pendu...,"['pengamat', 'kritik', 'proyek', 'milik', 'kon...","['pengamat', 'kritik', 'proyek', 'milik', 'kon...","['pengamat', 'kritik', 'proyek', 'milik', 'kon..."
3,Wow‼️Terlihat dari pinggir jalan Gedung-gedung...,Thu Mar 28 06:04:01 +0000 2024,Wow‼️Terlihat dari pinggir jalan Gedunggedung ...,wow terlihat dari pinggir jalan gedunggedung m...,"['wow', 'terlihat', 'dari', 'pinggir', 'jalan'...","['wow', 'pinggir', 'jalan', 'gedunggedung', 'm...","['wow', 'pinggir', 'jalan', 'gedunggedung', 'm..."
4,Waktu ngedrone roll off trafo PLN di pelabuhan...,Thu Mar 28 03:03:32 +0000 2024,Waktu ngedrone roll off trafo PLN di pelabuhan...,waktu ngedrone roll off trafo pln di pelabuhan...,"['waktu', 'ngedrone', 'roll', 'off', 'trafo', ...","['ngedrone', 'roll', 'off', 'trafo', 'pln', 'p...","['ngedrone', 'roll', 'off', 'trafo', 'pln', 'p..."


In [11]:
from google.cloud import translate_v2 as translate
def translate_text(target: str, text: str) -> dict:
    translate_client = translate.Client()
    result = translate_client.translate(text, target_language=target)
    
    return result

target_language = 'en'
translated_texts = df['lemmatized'].apply(lambda x: translate_text(target_language, x)['translatedText'])
# Add the translated texts to the dataframe
df['translated_lemmatized'] = translated_texts
df.head(10)

KeyboardInterrupt: 

In [None]:
df['translated_lemmatized'] = df['translated_lemmatized'].apply(getattr, args=('text',))
df.head(10)

In [None]:
df.to_csv('gcloud_translated.csv', index=False)