In [1]:
import pandas as pd
import random
import numpy as np
import string
import re
from tensorflow.keras import layers
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv('/datasets/tweet.csv')
del df[df.columns[0]]
df

Unnamed: 0,sentimen,tweet
0,negatif,Kata @prabowo Indonesia tidak dihargai bangsa ...
1,netral,"Batuan Langka, Tasbih Jokowi Hadiah dari Habib..."
2,netral,"Di era Jokowi, ekonomi Indonesia semakin baik...."
3,positif,"Bagi Sumatera Selatan, Asian Games berdampak p..."
4,negatif,Negara kita ngutang buat bngun infrastruktur y...
...,...,...
1810,netral,Negarawan sejati sll bangga dan mengedepankan ...
1811,netral,1. HRS ceramah di Damai Indonesiaku 2. Perekon...
1812,netral,Mari bangun bangsa dgn mendukung perekonomian ...
1813,netral,Bantu majukan perekonomian bangsa bersama Pak ...


In [3]:
df.sentimen.value_counts()

positif    612
netral     607
negatif    596
Name: sentimen, dtype: int64

# Cleaning

In [4]:
tweets_cleaned = []

  # Looping setiap kalimat
for sentence in df.tweet:

    sentence = re.sub(r"(pic.twitter.com/[^\s]+)", '', sentence) # remove twitter image link

    sentence = re.sub(r'http[s]?\://\S+', "", sentence) # remove url

    sentence = re.sub(r'\S*.com.*\S', "", sentence)

    sentence = re.sub(r'\S*.co.id.*\S', "", sentence)

    sentence = re.sub(r'([a-z])([A-Z])', r'\1 \2', sentence) # remove kata kata berdempet

    sentence = re.sub(r"#\w+", "", sentence) #remove hashtag

    sentence = sentence.replace('@', '') # remove at@

    sentence = re.sub(r'\b\d+\b', '', sentence) # remove angka berdempet dg kata

    sentence = re.sub('\d', '', sentence) # remove angka

    sentence = re.sub(r'\b(\w+)\s+\1\b', r'\1', sentence) # Remove reapeating char

    sentence = re.sub(r'[^a-zA-Z0-9\s]', '', sentence) # remove punctuation and special character

    sentence = re.sub(r"\s+", " ", sentence) # remove double space

    sentence = sentence.lower() # case folding

    sentence = sentence.strip()

    tweets_cleaned.append(sentence)

In [6]:
display(df.tweet[0])
display(tweets_cleaned[0])

'Kata @prabowo Indonesia tidak dihargai bangsa asing!   Berita ini ðŸ‘‡ pasti hoax buatan penguasa, ya kan @rockygerung?ðŸ˜œ https://twitter.com/mediaindonesia/status/1117575436337160192?s=21Â\xa0â€¦'

'kata prabowo indonesia tidak dihargai bangsa asing berita ini pasti hoax buatan penguasa ya kan rockygerung'

# Spell Correcting

In [7]:
spell_dictionary = open('/datasets/slangword.txt').read()
spell_dictionary

'&:dan\n+:tambah\n/:atau\n=:sama dengan\nababil:anak ingusan\nabal2:palsu\nabal:palsu\nad:ada\nakooh:aku\nalay:norak\nalbm:album\nampe:sampai\nanjir:waw\nanyway:ngomong-ngomong\naq:aku\nasap:secepatnya\nato:atau\natw:atau\nava:foto profil\nbaget:keras kepala\nbaper:bawa perasaan\nbapuk:rusak\nbcr:bicara\nbebeb:pacar\nbegin:awal\nbejibun:bertumpuk banyak\nbener:benar\nber2:berdua\nber3:bertiga\nbetter:lebih baik\nbf:pacar\nbgt:banget\nbhas:bahas\nbhg:bahagia\nbikin:buat\nbinggo:banget\nbingit:banget\nbklan:bakalan\nbkn:bukan\nblg:bilang\nbnr:benar\nbnyk:banyak\nbr:baru\nbrb:akan segera kembali\nbrjaya:berjaya\nbs:bisa\nbsk:besok\nbtw:ngomong-ngomong\ncm:cuma\ncmiiw:koreksi saya\ncnt:cinta\ncongrats:selamat\ncrop:potong\ncya:sampai jumpa lagi\nd:di\nda:ada\ndafuk:kurang ajar\ndamat:tidak peduli\ndempa:demi apa\ndgn:dengan\ndkt:dekat\ndlm:dalam\ndlu:dulu\ndmn:dimana\ndpt:dapat\ndr:dari\ndrpd:daripada\ndsna:disana\ndugem:dunia gemerlap\nelo:kamu\nelu:kamu\nemg:memang\nepsd:episode\nfake:fa

In [8]:
def create_spell_check_dictionary(spell_check_data):
    spell_check_dict = {}
    lines = spell_check_data.strip().split("\n")
    for line in lines:
        key, value = line.split(":")
        spell_check_dict[key] = value
    return spell_check_dict

In [9]:
spell_dictionary = create_spell_check_dictionary(spell_dictionary)
spell_dictionary

{'&': 'dan',
 '+': 'tambah',
 '/': 'atau',
 '=': 'sama dengan',
 'ababil': 'anak ingusan',
 'abal2': 'palsu',
 'abal': 'palsu',
 'ad': 'ada',
 'akooh': 'aku',
 'alay': 'norak',
 'albm': 'album',
 'ampe': 'sampai',
 'anjir': 'waw',
 'anyway': 'ngomong-ngomong',
 'aq': 'aku',
 'asap': 'secepatnya',
 'ato': 'atau',
 'atw': 'atau',
 'ava': 'foto profil',
 'baget': 'keras kepala',
 'baper': 'bawa perasaan',
 'bapuk': 'rusak',
 'bcr': 'bicara',
 'bebeb': 'pacar',
 'begin': 'awal',
 'bejibun': 'bertumpuk banyak',
 'bener': 'benar',
 'ber2': 'berdua',
 'ber3': 'bertiga',
 'better': 'lebih baik',
 'bf': 'pacar',
 'bgt': 'banget',
 'bhas': 'bahas',
 'bhg': 'bahagia',
 'bikin': 'buat',
 'binggo': 'banget',
 'bingit': 'banget',
 'bklan': 'bakalan',
 'bkn': 'bukan',
 'blg': 'bilang',
 'bnr': 'benar',
 'bnyk': 'banyak',
 'br': 'baru',
 'brb': 'akan segera kembali',
 'brjaya': 'berjaya',
 'bs': 'bisa',
 'bsk': 'besok',
 'btw': 'ngomong-ngomong',
 'cm': 'cuma',
 'cmiiw': 'koreksi saya',
 'cnt': 'cinta

In [10]:
def tweet_spell_correction(tweet):
    words = tweet.split()

    corrected_words = []

    for word in words:
        if word in spell_dictionary:
            corrected_word = spell_dictionary[word]
            corrected_words.append(corrected_word)
        else:
            corrected_words.append(word)

    corrected_tweet = ' '.join(corrected_words)

    return corrected_tweet

In [11]:
tweet_spell_corrected = []

for idx in range(len(tweets_cleaned)):
    corrected = tweet_spell_correction(tweets_cleaned[idx])
    tweet_spell_corrected.append(corrected)

display(tweets_cleaned[:5])
print('--'*50)
display(tweet_spell_corrected[:5])

['kata prabowo indonesia tidak dihargai bangsa asing berita ini pasti hoax buatan penguasa ya kan rockygerung',
 'batuan langka tasbih jokowi hadiah dari habib luthfi seharga mercy',
 'di era jokowi ekonomi indonesia semakin baik maju lagi menang total debat',
 'bagi sumatera selatan asian games berdampak pd ekonomi langsung diprediksi mencapai triliun indonesia maju jokowi hebat',
 'negara kita ngutang buat bngun infrastruktur yang udah dipake masyarakat terus masyarakatnya ngeluh karena negara ngutang setiap negara itu pasti ngutang utang bisa dibayar kalo negara dapet penghasilan penghasilan negara itu ya dari pajak']

----------------------------------------------------------------------------------------------------


['kata prabowo indonesia tidak dihargai bangsa asing berita ini pasti palsu buatan penguasa ya kan rockygerung',
 'batuan langka tasbih jokowi hadiah dari habib luthfi seharga mercy',
 'di era jokowi ekonomi indonesia semakin baik maju lagi menang total debat',
 'bagi sumatera selatan asian games berdampak pada ekonomi langsung diprediksi mencapai triliun indonesia maju jokowi hebat',
 'negara kita ngutang buat bngun infrastruktur yang udah dipake masyarakat terus masyarakatnya ngeluh karena negara ngutang setiap negara itu pasti ngutang utang bisa dibayar kalo negara dapet penghasilan penghasilan negara itu ya dari pajak']

In [14]:
display(tweets_cleaned[338]) # 266,
print('--'*50)
display(tweet_spell_corrected[338])

'aku memang setuju macro ekonominya jokowi jago bgt meski mungkin itu memang rancangan yg sudah ditulis sm ahli yg merancang pembangunan indonesia ya tapi jokowi memang memahami dg baik'

----------------------------------------------------------------------------------------------------


'aku memang setuju macro ekonominya jokowi jago banget meski mungkin itu memang rancangan yang sudah ditulis sama ahli yang merancang pembangunan indonesia ya tapi jokowi memang memahami dengan baik'

# Stopword Removal

In [15]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [16]:
stopwords_id = ['yang', 'untuk', 'pada', 'ke', 'para', 'namun', 'menurut', 'antara', 'dia', 'dua', 'ia', 'seperti', 'jika', 'jika', 'sehingga', 'kembali', 'dan', 'ini', 'karena', 'kepada', 'oleh', 'saat', 'harus', 'sementara', 'setelah', 'kami', 'sekitar', 'bagi', 'serta', 'di', 'dari', 'telah', 'sebagai', 'masih', 'hal', 'ketika', 'adalah', 'itu', 'dalam', 'bisa', 'bahwa', 'atau', 'hanya', 'kita', 'dengan', 'akan', 'juga', 'ada', 'mereka', 'sudah', 'saya', 'terhadap', 'secara', 'agar', 'lain', 'anda', 'begitu', 'mengapa', 'kenapa', 'yaitu', 'yakni', 'daripada', 'itulah', 'lagi', 'maka', 'tentang', 'demi', 'dimana', 'kemana', 'pula', 'sambil', 'sebelum', 'sesudah', 'supaya', 'guna', 'kah', 'pun', 'sampai', 'sedangkan', 'selagi', 'sementara', 'tetapi', 'apakah', 'kecuali', 'sebab', 'selain', 'seolah', 'seraya', 'seterusnya', 'tanpa', 'agak', 'boleh', 'dapat', 'dsb', 'dst', 'dll', 'dahulu', 'dulunya', 'anu', 'demikian', 'tapi', 'ingin', 'juga', 'nggak', 'mari', 'nanti', 'melainkan', 'oh', 'ok', 'seharusnya', 'sebetulnya', 'setiap', 'setidaknya', 'sesuatu', 'pasti', 'saja', 'toh', 'walau', 'tolong', 'tentu', 'amat', 'apalagi', 'bagaimanapun']

In [17]:
def remove_stopwords_indo(text):
    # Kode untuk menghapus stopwords
    text_lower = text.lower()
    stop_words = set(stopwords_id)
    tokens = word_tokenize(text_lower)
    filtered_tokens = [token for token in tokens if token.lower() not in stop_words]
    cleaned_text = ' '.join(filtered_tokens)
    return cleaned_text

In [18]:
tweet_no_stopwords = []

for idx in range(len(tweet_spell_corrected)):
    cleaned = remove_stopwords_indo(tweet_spell_corrected[idx])
    tweet_no_stopwords.append(cleaned)

display(tweet_spell_corrected[248])
display(tweet_no_stopwords[248])

'dipikirnya pengembangan esport itu main doang aplikasi yang ada di smartphone itu banyak yang mulainya dari main doang terus jadi aplikasi yang banyak manfaatnya kata siapa pengangguran digaji banyak baca buka wawasan jangan mpermalukan generasi z'

'dipikirnya pengembangan esport main doang aplikasi smartphone banyak mulainya main doang terus jadi aplikasi banyak manfaatnya kata siapa pengangguran digaji banyak baca buka wawasan jangan mpermalukan generasi z'

# Stemming

In [19]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━[0m [32m153.6/209.7 kB[0m [31m4.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [None]:
import Sastrawi
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

In [None]:
# buat fungsi untuk stemming
def stemming_sastrawi(text):
  # define penggunaan sastrawi sebagai stemmer
  stemmer = StemmerFactory().create_stemmer()

  # pakai stemmer
  cleaned_text = stemmer.stem(text)
  return cleaned_text

In [None]:
tweet_stemmed = []

for index in range(len(tweet_no_stopwords)):
  stemmed = stemming_sastrawi(tweet_no_stopwords[index])
  tweet_stemmed.append(stemmed)

In [None]:
display(tweet_no_stopwords[40])
display(tweet_stemmed[40])

'orang luar negeri sangat menghargai prestasi dilakukan jokowi dinegaranya sendiri banyak mencaci'

'orang luar negeri sangat harga prestasi laku jokowi negara sendiri banyak caci'

In [None]:
new_tweet_stemmed = pd.DataFrame(tweet_stemmed, columns=['tweet'])
new_tweet_stemmed.to_csv('/content/drive/MyDrive/sample_dataset/new_tweet_stemmed.csv')

# Texts Backtranslation Augmentation

In [None]:
!pip install googletrans



In [None]:
from googletrans import Translator

def translate_texts(texts, target_language):
    translator = Translator()

    translated_texts = []

    for text in texts:
        translation = translator.translate(text, dest=target_language)
        translated_texts.append(translation.text)

    return translated_texts

# Translator().translate()
# Example usage:
# texts_to_translate = ["Halo, apa kabar?", "Saya suka bahasa Python."]
# translated_texts = translate_texts(texts_to_translate, target_language='en')

# for original, translated in zip(texts_to_translate, translated_texts):
#     print(f"Original: {original} - Translated: {translated}")


In [None]:
tweet_en_trans = []

# for idx in range(len(tweet_stemmed)):
#   translated = translate_texts(tweet_stemmed[idx], target_lenguage='en')
#   tweet_en_trans.append(translated)

tweet_en_trans = translate_texts(tweet_stemmed, target_language='en')
# tweet_en_trans

TypeError: ignored

In [None]:
display(tweet_stemmed[1])
display(tweet_en_trans[1])

In [None]:
tweet_id_trans = []

for idx in range(len(tweet_en_trans)):
  translated = translate_texts(tweet_en_trans[idx], target_lenguage='id')
  tweet_id_trans.append(translated)

In [None]:
display(tweet_stemmed[1])
display(tweet_en_trans[1])
display(tweet_id_trans[1])

# Synonim Replacment

In [None]:
!pip install transformers
!pip install sentencepiece

Collecting sentencepiece
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m14.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.99


In [None]:
import random
import sentencepiece
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import wordnet
from transformers import T5ForConditionalGeneration, T5Tokenizer

In [None]:
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [None]:
# Function for synonym replacement using WordNet
def synonym_replacement(text, probability=0.1):
    words = word_tokenize(text)
    augmented_words = []

    for word in words:
        if random.uniform(0, 1) < probability:
            synonyms = wordnet.synsets(word, lang='ind')
            if synonyms:
                synonym = synonyms[0].lemmas(lang='ind')[0].name()
                augmented_words.append(synonym)
            else:
                augmented_words.append(word)
        else:
            augmented_words.append(word)

    return ' '.join(augmented_words)

def style_transfer(text, model, tokenizer):
    # Specify the desired style transfer task using a prefix
    input_text = "change the style: " + text

    # Tokenize the input text
    input_ids = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True)

    # Generate the style-transferred text
    output_ids = model.generate(input_ids, max_length=512, num_return_sequences=1)

    # Decode and return the transformed text
    style_transferred_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    return style_transferred_text

def text_paraphrasing(text, model, tokenizer):
    # Specify the text paraphrasing task using a prefix
    input_text = "paraphrase: " + text

    # Tokenize the input text
    input_ids = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True)

    # Generate the paraphrased text
    output_ids = model.generate(input_ids, max_length=512, num_return_sequences=1)

    # Decode and return the paraphrased text
    paraphrased_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    return paraphrased_text

def sentence_shuffling(text, probability=0.1):
    sentences = sent_tokenize(text)

    if random.uniform(0, 1) < probability:
        random.shuffle(sentences)
        return ' '.join(sentences)
    else:
        return text

def sentence_deletion(text, probability=0.1):
    sentences = sent_tokenize(text)

    if random.uniform(0, 1) < probability and len(sentences) > 1:
        # Delete a random sentence
        sentences.pop(random.randint(0, len(sentences) - 1))
        return ' '.join(sentences)
    else:
        return text

def word_insertion(text, probability=0.1):
    words = word_tokenize(text)

    if random.uniform(0, 1) < probability:
        # Insert a random word at a random position
        word_to_insert = "merdeka"
        position_to_insert = random.randint(0, len(words))
        words.insert(position_to_insert, word_to_insert)
        return ' '.join(words)
    else:
        return text

# Load the T5 model and tokenizer for style transfer and text paraphrasing
# model_style_transfer = T5ForConditionalGeneration.from_pretrained("t5-small")
# tokenizer_style_transfer = T5Tokenizer.from_pretrained("t5-small")

# Function to perform text augmentation using various techniques
def augment_text_list(texts, augmentation_functions, probabilities):
    augmented_texts = []

    for text in texts:
        augmented_text = text

        for func, prob in zip(augmentation_functions, probabilities):
            augmented_text = func(augmented_text, probability=prob)

        augmented_texts.append(augmented_text)

    return augmented_texts

In [None]:
tweet_augmentation = []

# Define augmentation functions and their corresponding probabilities
augmentation_functions = [synonym_replacement, sentence_shuffling, word_insertion,]
probabilities = [0.3, 0.2, 0.1,]
# tweet_synm_replc = synonym_replacement(tweet_stemmed)
tweet_augmentation = augment_text_list(tweet_stemmed, augmentation_functions, probabilities)

In [None]:
display(tweet_stemmed[:10])
print('-'*50)
display(tweet_augmentation[:10])

['kata prabowo indonesia tidak harga bangsa asing berita palsu buat kuasa ya kan rockygerung',
 'batu langka tasbih jokowi hadiah habib luthfi harga mercy',
 'era jokowi ekonomi indonesia makin baik maju menang total debat',
 'sumatera selatan asi games dampak ekonomi langsung prediksi capai triliun indonesia maju jokowi hebat',
 'negara ngutang buat bngun infrastruktur udah dipake masyarakat terus masyarakat ngeluh negara ngutang negara ngutang utang bayar kalo negara dapet hasil hasil negara ya pajak',
 'bisikin bapak jokowi cuma mikirin putar duit golong tentu esports bagi kecil sekian besar tentu tumbuh ekonomi indonesia bukan fundamental betul kata prabowo bahas sederhana mrpkan aspek fundamental ekonomi',
 'masa tenang ngoceh ajattp jokowi harga mati',
 'keji balas tps kerjasa ekonomi bilateral multilateral doa tps dengar suara hati keji balas tps',
 'iya benar aa mantap kan pilih pimpin beri solusi jokowi bukan salah pimpin belum sbyudhoyono dismash sama mas bowo percuma koalisi

--------------------------------------------------


['kata prabowo indonesia tidak harga bangsa asing berita palsu buat kuasa bahwasanya kan rockygerung',
 'batu langka rosario jokowi hadiah habib luthfi harga mercy',
 'era jokowi ekonomi indonesia makin baik maju menang genap debat',
 'sumatera selatan asi games dampak ekonomi langsung prediksi capai triliun Indonesia maju jokowi hebat',
 'negara ngutang buat bngun infrastruktur udah dipake awam betul-betul masyarakat ngeluh negara ngutang negara ngutang utang bayar kalo negara dapet hasil aksi negara bahwasanya bergadai',
 'bisikin bapak jokowi cuma mikirin pusaran duit golong tentu esports bagi kecil sekian besar tentu berkembang ekonomi indonesia belum fundamental betul kata prabowo bahas sederhana mrpkan aspek fundamental ekonomi',
 'masa tenang ngoceh ajattp jokowi harga berakhir',
 'keji balas tps kerjasa ekonomi bilateral multilateral doa tps dengar suara hati keji balas tps',
 'iya benar aa mantap kan pilih pimpin beri solusi jokowi bukan salah bimbing belum sbyudhoyono dismash

In [None]:
display(tweet_stemmed[10])
print('-'*50)
display(tweet_augmentation[10])

'orang baik jelas islam baju putih pilih pimpin jelas banyak capai nah capai ekonomi lama perintah jokowi coblos yuk kerja'

--------------------------------------------------


'orang baik jelas islam baju beruban pilih bimbing jelas banyak capai nah capai ekonomi jauh memeriksa jokowi coblos yuk kerja'

In [None]:
tweet_augmentation

['kata prabowo indonesia tidak harga bangsa asing berita palsu buat kuasa bahwasanya kan rockygerung',
 'batu langka rosario jokowi hadiah habib luthfi harga mercy',
 'era jokowi ekonomi indonesia makin baik maju menang genap debat',
 'sumatera selatan asi games dampak ekonomi langsung prediksi capai triliun Indonesia maju jokowi hebat',
 'negara ngutang buat bngun infrastruktur udah dipake awam betul-betul masyarakat ngeluh negara ngutang negara ngutang utang bayar kalo negara dapet hasil aksi negara bahwasanya bergadai',
 'bisikin bapak jokowi cuma mikirin pusaran duit golong tentu esports bagi kecil sekian besar tentu berkembang ekonomi indonesia belum fundamental betul kata prabowo bahas sederhana mrpkan aspek fundamental ekonomi',
 'masa tenang ngoceh ajattp jokowi harga berakhir',
 'keji balas tps kerjasa ekonomi bilateral multilateral doa tps dengar suara hati keji balas tps',
 'iya benar aa mantap kan pilih pimpin beri solusi jokowi bukan salah bimbing belum sbyudhoyono dismash

In [None]:
tweet_augmented_cleaned = []

  # Looping setiap kalimat
for sentence in tweet_augmentation:

    sentence = re.sub(r"(pic.twitter.com/[^\s]+)", '', sentence) # remove twitter image link

    sentence = re.sub(r'http[s]?\://\S+', "", sentence) # remove url

    sentence = re.sub(r'\S*.com.*\S', "", sentence)

    sentence = re.sub(r'\S*.co.id.*\S', "", sentence)

    sentence = re.sub(r'([a-z])([A-Z])', r'\1 \2', sentence) # remove kata kata berdempet

    sentence = re.sub(r"#\w+", "", sentence) #remove hashtag

    sentence = sentence.replace('@', '') # remove at@

    sentence = re.sub(r'\b\d+\b', '', sentence) # remove angka berdempet dg kata

    sentence = re.sub('\d', '', sentence) # remove angka

    # sentence = re.sub(r'\b(\w+)\s+\1\b', r'\1', sentence) # Remove reapeating char

    sentence = re.sub(r'[^a-zA-Z0-9\s]', '', sentence) # remove punctuation and special character

    sentence = re.sub(r"\s+", " ", sentence) # remove double space

    sentence = sentence.lower() # case folding

    sentence = sentence.strip()

    tweet_augmented_cleaned.append(sentence)

In [None]:
tweet_augmented_cleaned

['kata prabowo indonesia tidak harga bangsa asing berita palsu buat kuasa bahwasanya kan rockygerung',
 'batu langka rosario jokowi hadiah habib luthfi harga mercy',
 'era jokowi ekonomi indonesia makin baik maju menang genap debat',
 'sumatera selatan asi games dampak ekonomi langsung prediksi capai triliun indonesia maju jokowi hebat',
 'negara ngutang buat bngun infrastruktur udah dipake awam betulbetul masyarakat ngeluh negara ngutang negara ngutang utang bayar kalo negara dapet hasil aksi negara bahwasanya bergadai',
 'bisikin bapak jokowi cuma mikirin pusaran duit golong tentu esports bagi kecil sekian besar tentu berkembang ekonomi indonesia belum fundamental betul kata prabowo bahas sederhana mrpkan aspek fundamental ekonomi',
 'masa tenang ngoceh ajattp jokowi harga berakhir',
 'keji balas tps kerjasa ekonomi bilateral multilateral doa tps dengar suara hati keji balas tps',
 'iya benar aa mantap kan pilih pimpin beri solusi jokowi bukan salah bimbing belum sbyudhoyono dismash 

In [None]:
tweet_augmented = pd.DataFrame(tweet_augmented_cleaned, columns=['tweet'])
tweet_augmented

Unnamed: 0,tweet
0,kata prabowo indonesia tidak harga bangsa asin...
1,batu langka rosario jokowi hadiah habib luthfi...
2,era jokowi ekonomi indonesia makin baik maju m...
3,sumatera selatan asi games dampak ekonomi lang...
4,negara ngutang buat bngun infrastruktur udah d...
...,...
1810,negarawan sejati selalu bangga depan harga dir...
1811,ceramah damai indonesia ekonomi makin baik gbk
1812,bangun bangsa dukung ekonomi negara sama bapak...
1813,bantu kedepan ekonomi bangsa sama bapak jokowi...


In [None]:
df['tweet'] = tweet_augmented['tweet']
df

Unnamed: 0,sentimen,tweet
0,negatif,kata prabowo indonesia tidak harga bangsa asin...
1,netral,batu langka rosario jokowi hadiah habib luthfi...
2,netral,era jokowi ekonomi indonesia makin baik maju m...
3,positif,sumatera selatan asi games dampak ekonomi lang...
4,negatif,negara ngutang buat bngun infrastruktur udah d...
...,...,...
1810,netral,negarawan sejati selalu bangga depan harga dir...
1811,netral,ceramah damai indonesia ekonomi makin baik gbk
1812,netral,bangun bangsa dukung ekonomi negara sama bapak...
1813,netral,bantu kedepan ekonomi bangsa sama bapak jokowi...


In [None]:
df_augmented = df
df_augmented

Unnamed: 0,sentimen,tweet
0,negatif,kata prabowo indonesia tidak harga bangsa asin...
1,netral,batu langka rosario jokowi hadiah habib luthfi...
2,netral,era jokowi ekonomi indonesia makin baik maju m...
3,positif,sumatera selatan asi games dampak ekonomi lang...
4,negatif,negara ngutang buat bngun infrastruktur udah d...
...,...,...
1810,netral,negarawan sejati selalu bangga depan harga dir...
1811,netral,ceramah damai indonesia ekonomi makin baik gbk
1812,netral,bangun bangsa dukung ekonomi negara sama bapak...
1813,netral,bantu kedepan ekonomi bangsa sama bapak jokowi...


In [None]:
df_real = pd.read_csv('/datasets/tweet.csv')
df_real

Unnamed: 0.1,Unnamed: 0,sentimen,tweet
0,0,negatif,Kata @prabowo Indonesia tidak dihargai bangsa ...
1,1,netral,"Batuan Langka, Tasbih Jokowi Hadiah dari Habib..."
2,2,netral,"Di era Jokowi, ekonomi Indonesia semakin baik...."
3,3,positif,"Bagi Sumatera Selatan, Asian Games berdampak p..."
4,4,negatif,Negara kita ngutang buat bngun infrastruktur y...
...,...,...,...
1810,1810,netral,Negarawan sejati sll bangga dan mengedepankan ...
1811,1811,netral,1. HRS ceramah di Damai Indonesiaku 2. Perekon...
1812,1812,netral,Mari bangun bangsa dgn mendukung perekonomian ...
1813,1813,netral,Bantu majukan perekonomian bangsa bersama Pak ...


In [None]:
del df_real[df_real.columns[0]]

In [None]:
df_real

Unnamed: 0,sentimen,tweet
0,negatif,Kata @prabowo Indonesia tidak dihargai bangsa ...
1,netral,"Batuan Langka, Tasbih Jokowi Hadiah dari Habib..."
2,netral,"Di era Jokowi, ekonomi Indonesia semakin baik...."
3,positif,"Bagi Sumatera Selatan, Asian Games berdampak p..."
4,negatif,Negara kita ngutang buat bngun infrastruktur y...
...,...,...
1810,netral,Negarawan sejati sll bangga dan mengedepankan ...
1811,netral,1. HRS ceramah di Damai Indonesiaku 2. Perekon...
1812,netral,Mari bangun bangsa dgn mendukung perekonomian ...
1813,netral,Bantu majukan perekonomian bangsa bersama Pak ...


In [None]:
df_real['tweet'] = tweet_stemmed
df_real

Unnamed: 0,sentimen,tweet
0,negatif,kata prabowo indonesia tidak harga bangsa asin...
1,netral,batu langka tasbih jokowi hadiah habib luthfi ...
2,netral,era jokowi ekonomi indonesia makin baik maju m...
3,positif,sumatera selatan asi games dampak ekonomi lang...
4,negatif,negara ngutang buat bngun infrastruktur udah d...
...,...,...
1810,netral,negarawan sejati selalu bangga depan harga dir...
1811,netral,ceramah damai indonesia ekonomi makin baik gbk
1812,netral,bangun bangsa dukung ekonomi negara sama bapak...
1813,netral,bantu maju ekonomi bangsa sama bapak jokowi yuk


# Merge Dataset

In [None]:
data_merge = pd.concat([df_real, df_augmented], ignore_index=False)
data_merge

Unnamed: 0,sentimen,tweet
0,negatif,kata prabowo indonesia tidak harga bangsa asin...
1,netral,batu langka tasbih jokowi hadiah habib luthfi ...
2,netral,era jokowi ekonomi indonesia makin baik maju m...
3,positif,sumatera selatan asi games dampak ekonomi lang...
4,negatif,negara ngutang buat bngun infrastruktur udah d...
...,...,...
1810,netral,negarawan sejati selalu bangga depan harga dir...
1811,netral,ceramah damai indonesia ekonomi makin baik gbk
1812,netral,bangun bangsa dukung ekonomi negara sama bapak...
1813,netral,bantu kedepan ekonomi bangsa sama bapak jokowi...


In [None]:
data_merge['sentimen'].value_counts()

positif    1224
netral     1214
negatif    1192
Name: sentimen, dtype: int64

In [None]:
from sklearn.utils import shuffle

In [None]:
data_augmntd = shuffle(data_merge)
data_augmntd

Unnamed: 0,sentimen,tweet
135,positif,presiden jokowi raja salman sepakat tingkat ke...
1798,netral,bbm murah biar semua harga sembako ongkos angk...
380,positif,coba tarik baikhati cara jadi korban hacker ka...
1264,negatif,bapak prabowo nama ekonomi digital game sesuai...
1703,netral,bapak sandi pgn lap kerja tambah tusuk prabowo...
...,...,...
784,negatif,kamu kok pilih jokowi sih mau kamu dibegoin be...
463,negatif,saham dijualaset banyak kurang sekarang tidak ...
260,positif,cuma state pakde naik gaji tunjang bapak prabo...
1057,negatif,jokowi pinter ngeles gagal bangun ekonomi mema...


In [None]:
data_augmntd.to_csv('/datasets/tweet_aug_shuffle.csv')

In [None]:
dataset_augmented = pd.DataFrame(columns=['sentimen', 'tweet'])

for  real_sentimen, real_tweet, augmntd_sentimen, augmntd_tweet in zip(df_real['sentimen'], df_real['tweet'], df_augmented['sentimen'], df_augmented['tweet']):
  dataset_augmented = dataset_augmented.append({'sentimen': real_sentimen, 'tweet': real_tweet}, ignore_index=True)
  dataset_augmented = dataset_augmented.append({'sentimen': augmntd_sentimen, 'tweet': augmntd_tweet}, ignore_index=True)

dataset_augmented

[1;30;43mOutput streaming akan dipotong hingga 5000 baris terakhir.[0m
  dataset_augmented = dataset_augmented.append({'sentimen': real_sentimen, 'tweet': real_tweet}, ignore_index=True)
  dataset_augmented = dataset_augmented.append({'sentimen': augmntd_sentimen, 'tweet': augmntd_tweet}, ignore_index=True)
  dataset_augmented = dataset_augmented.append({'sentimen': real_sentimen, 'tweet': real_tweet}, ignore_index=True)
  dataset_augmented = dataset_augmented.append({'sentimen': augmntd_sentimen, 'tweet': augmntd_tweet}, ignore_index=True)
  dataset_augmented = dataset_augmented.append({'sentimen': real_sentimen, 'tweet': real_tweet}, ignore_index=True)
  dataset_augmented = dataset_augmented.append({'sentimen': augmntd_sentimen, 'tweet': augmntd_tweet}, ignore_index=True)
  dataset_augmented = dataset_augmented.append({'sentimen': real_sentimen, 'tweet': real_tweet}, ignore_index=True)
  dataset_augmented = dataset_augmented.append({'sentimen': augmntd_sentimen, 'tweet': augmntd_tw

Unnamed: 0,sentimen,tweet
0,negatif,kata prabowo indonesia tidak harga bangsa asin...
1,negatif,kata prabowo indonesia tidak harga bangsa asin...
2,netral,batu langka tasbih jokowi hadiah habib luthfi ...
3,netral,batu langka rosario jokowi hadiah habib luthfi...
4,netral,era jokowi ekonomi indonesia makin baik maju m...
...,...,...
3625,netral,bangun bangsa dukung ekonomi negara sama bapak...
3626,netral,bantu maju ekonomi bangsa sama bapak jokowi yuk
3627,netral,bantu kedepan ekonomi bangsa sama bapak jokowi...
3628,netral,bapak jokowi ubah cara pandang ekonomi kini se...


In [None]:
dataset_augmented.to_csv('/datasets/tweet_aug.csv')