# preprocessing

In [1]:
import pandas as pd
import re
import string
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
df = pd.read_csv("/content/drive/My Drive/Colab-Notebooks/Analisis-Sentimen-Twitter-Terhadap-Pembatalan-Piala-Dunia-U-20-di-Indonesia-Tahun-2023-main/Dataset/nikuba2-label.csv", encoding='utf-8')
df

Unnamed: 0,Text,Label
0,SAYA SIAP ANGGARKAN RP 40.000 TRILIUN UNTUK NI...,positif
1,"tolong pemerintah perhatianya ke nikuba,kayany...",positif
2,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif
3,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif
4,"Kalau alat nikuba ini di kembangkan, Pertamina...",netral
...,...,...
549,NIKUBA menyelamatkan kendaraan bensin dari ken...,netral
550,"15 milyar terlalu kecil, NIKUBA bernilai 1000r...",negatif
551,Mengapa pemerintah tidak mau menerima hasil ka...,negatif
552,Seharusnya Metro TV tidak hanya nanya ke Aryan...,positif


# Case folding

In [5]:
#Case Folding
df['CaseFolding'] = df['Text'].str.lower()
df.head()

Unnamed: 0,Text,Label,CaseFolding
0,SAYA SIAP ANGGARKAN RP 40.000 TRILIUN UNTUK NI...,positif,saya siap anggarkan rp 40.000 triliun untuk ni...
1,"tolong pemerintah perhatianya ke nikuba,kayany...",positif,"tolong pemerintah perhatianya ke nikuba,kayany..."
2,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ..."
3,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ..."
4,"Kalau alat nikuba ini di kembangkan, Pertamina...",netral,"kalau alat nikuba ini di kembangkan, pertamina..."


# Celaning Data

In [6]:
# ------ CleanData ---------

def remove_tweet_special(text):

    #menghapus username twitter
    text = re.sub('@[^\s]+','',text)

    # remove tab, new line, ans back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")

    # remove non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')

    # remove mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())

    #remove number
    text = re.sub(r"\d+", "", text)

    #remove punctuation
    text = text.translate(str.maketrans("","",string.punctuation))

    # remove white space
    text = text.strip()

    #remove multiple white space
    text = re.sub('\s+',' ',text)

    #remove single char
    text = re.sub(r"\b[a-zA-Z]\b", "", text)

    # remove incomplete URL
    return text.replace("http://", " ").replace("https://", " ")


df['TextClean'] = df['CaseFolding'].apply(remove_tweet_special)

In [7]:
df

Unnamed: 0,Text,Label,CaseFolding,TextClean
0,SAYA SIAP ANGGARKAN RP 40.000 TRILIUN UNTUK NI...,positif,saya siap anggarkan rp 40.000 triliun untuk ni...,saya siap anggarkan rp triliun untuk nikuba ka...
1,"tolong pemerintah perhatianya ke nikuba,kayany...",positif,"tolong pemerintah perhatianya ke nikuba,kayany...",tolong pemerintah perhatianya ke nikubakayanya...
2,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...
3,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...
4,"Kalau alat nikuba ini di kembangkan, Pertamina...",netral,"kalau alat nikuba ini di kembangkan, pertamina...",kalau alat nikuba ini di kembangkan pertamina ...
...,...,...,...,...
549,NIKUBA menyelamatkan kendaraan bensin dari ken...,netral,nikuba menyelamatkan kendaraan bensin dari ken...,nikuba menyelamatkan kendaraan bensin dari ken...
550,"15 milyar terlalu kecil, NIKUBA bernilai 1000r...",negatif,"15 milyar terlalu kecil, nikuba bernilai 1000r...",milyar terlalu kecil nikuba bernilai ribuan tr...
551,Mengapa pemerintah tidak mau menerima hasil ka...,negatif,mengapa pemerintah tidak mau menerima hasil ka...,mengapa pemerintah tidak mau menerima hasil ka...
552,Seharusnya Metro TV tidak hanya nanya ke Aryan...,positif,seharusnya metro tv tidak hanya nanya ke aryan...,seharusnya metro tv tidak hanya nanya ke aryan...


## Tokenizing

In [8]:
# Tokenzing
# NLTK word rokenize
def word_tokenize_wrapper(text):
    return word_tokenize(text)
df['tokens'] =df['TextClean'].apply(word_tokenize_wrapper)
df

Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens
0,SAYA SIAP ANGGARKAN RP 40.000 TRILIUN UNTUK NI...,positif,saya siap anggarkan rp 40.000 triliun untuk ni...,saya siap anggarkan rp triliun untuk nikuba ka...,"[saya, siap, anggarkan, rp, triliun, untuk, ni..."
1,"tolong pemerintah perhatianya ke nikuba,kayany...",positif,"tolong pemerintah perhatianya ke nikuba,kayany...",tolong pemerintah perhatianya ke nikubakayanya...,"[tolong, pemerintah, perhatianya, ke, nikubaka..."
2,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"[kalau, nikubadi, pakai, di, indonesia, tidak,..."
3,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"[kalau, nikubadi, pakai, di, indonesia, tidak,..."
4,"Kalau alat nikuba ini di kembangkan, Pertamina...",netral,"kalau alat nikuba ini di kembangkan, pertamina...",kalau alat nikuba ini di kembangkan pertamina ...,"[kalau, alat, nikuba, ini, di, kembangkan, per..."
...,...,...,...,...,...
549,NIKUBA menyelamatkan kendaraan bensin dari ken...,netral,nikuba menyelamatkan kendaraan bensin dari ken...,nikuba menyelamatkan kendaraan bensin dari ken...,"[nikuba, menyelamatkan, kendaraan, bensin, dar..."
550,"15 milyar terlalu kecil, NIKUBA bernilai 1000r...",negatif,"15 milyar terlalu kecil, nikuba bernilai 1000r...",milyar terlalu kecil nikuba bernilai ribuan tr...,"[milyar, terlalu, kecil, nikuba, bernilai, rib..."
551,Mengapa pemerintah tidak mau menerima hasil ka...,negatif,mengapa pemerintah tidak mau menerima hasil ka...,mengapa pemerintah tidak mau menerima hasil ka...,"[mengapa, pemerintah, tidak, mau, menerima, ha..."
552,Seharusnya Metro TV tidak hanya nanya ke Aryan...,positif,seharusnya metro tv tidak hanya nanya ke aryan...,seharusnya metro tv tidak hanya nanya ke aryan...,"[seharusnya, metro, tv, tidak, hanya, nanya, k..."


## Normalisasi

In [10]:
#normalisasi

normalizad_word = pd.read_csv("/content/drive/My Drive/Colab-Notebooks/Analisis-Sentimen-Twitter-Terhadap-Pembatalan-Piala-Dunia-U-20-di-Indonesia-Tahun-2023-main/normalisasi.csv")

normalizad_word_dict = {}

for index, row in normalizad_word.iterrows():
    if row[0] not in normalizad_word_dict:
        normalizad_word_dict[row[0]] = row[1]

def normalized_term(document):
    return [normalizad_word_dict[term] if term in normalizad_word_dict else term for term in document]

df['normalisasi'] = df['tokens'].apply(normalized_term)

df

Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens,normalisasi
0,SAYA SIAP ANGGARKAN RP 40.000 TRILIUN UNTUK NI...,positif,saya siap anggarkan rp 40.000 triliun untuk ni...,saya siap anggarkan rp triliun untuk nikuba ka...,"[saya, siap, anggarkan, rp, triliun, untuk, ni...","[saya, siap, anggarkan, rp, triliun, untuk, ni..."
1,"tolong pemerintah perhatianya ke nikuba,kayany...",positif,"tolong pemerintah perhatianya ke nikuba,kayany...",tolong pemerintah perhatianya ke nikubakayanya...,"[tolong, pemerintah, perhatianya, ke, nikubaka...","[tolong, pemerintah, perhatianya, ke, nikubaka..."
2,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"[kalau, nikubadi, pakai, di, indonesia, tidak,...","[kalau, nikubadi, pakai, di, indonesia, tidak,..."
3,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"[kalau, nikubadi, pakai, di, indonesia, tidak,...","[kalau, nikubadi, pakai, di, indonesia, tidak,..."
4,"Kalau alat nikuba ini di kembangkan, Pertamina...",netral,"kalau alat nikuba ini di kembangkan, pertamina...",kalau alat nikuba ini di kembangkan pertamina ...,"[kalau, alat, nikuba, ini, di, kembangkan, per...","[kalau, alat, nikuba, ini, di, kembangkan, per..."
...,...,...,...,...,...,...
549,NIKUBA menyelamatkan kendaraan bensin dari ken...,netral,nikuba menyelamatkan kendaraan bensin dari ken...,nikuba menyelamatkan kendaraan bensin dari ken...,"[nikuba, menyelamatkan, kendaraan, bensin, dar...","[nikuba, menyelamatkan, kendaraan, bensin, dar..."
550,"15 milyar terlalu kecil, NIKUBA bernilai 1000r...",negatif,"15 milyar terlalu kecil, nikuba bernilai 1000r...",milyar terlalu kecil nikuba bernilai ribuan tr...,"[milyar, terlalu, kecil, nikuba, bernilai, rib...","[milyar, terlalu, kecil, nikuba, bernilai, rib..."
551,Mengapa pemerintah tidak mau menerima hasil ka...,negatif,mengapa pemerintah tidak mau menerima hasil ka...,mengapa pemerintah tidak mau menerima hasil ka...,"[mengapa, pemerintah, tidak, mau, menerima, ha...","[mengapa, pemerintah, tidak, mau, menerima, ha..."
552,Seharusnya Metro TV tidak hanya nanya ke Aryan...,positif,seharusnya metro tv tidak hanya nanya ke aryan...,seharusnya metro tv tidak hanya nanya ke aryan...,"[seharusnya, metro, tv, tidak, hanya, nanya, k...","[seharusnya, metro, tv, tidak, hanya, tanya, k..."


## StwopWord

In [11]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [12]:

# ----------------------- get stopword from NLTK stopword -------------------------------
# get stopword indonesia
list_stopwords = stopwords.words('indonesian')

# ----------------------- add stopword from txt file ------------------------------------
# read txt stopword using pandas
txt_stopword = pd.read_csv("/content/drive/My Drive/Colab-Notebooks/Analisis-Sentimen-Twitter-Terhadap-Pembatalan-Piala-Dunia-U-20-di-Indonesia-Tahun-2023-main/stopwords-id.txt", names= ["stopwords"], header = None)

# convert stopword string to list & append additional stopword
list_stopwords.extend(txt_stopword["stopwords"][0].split(' '))

# convert list to dictionary
list_stopwords = set(list_stopwords)


#remove stopword pada list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]

df['stopword'] = df['normalisasi'].apply(stopwords_removal)


print(df['stopword'].head())

0    [anggarkan, rp, triliun, nikuba, karya, anak, ...
1    [tolong, pemerintah, perhatianya, nikubakayany...
2    [nikubadi, pakai, indonesia, bisnis, bbm, indo...
3    [nikubadi, pakai, indonesia, bisnis, bbm, indo...
4    [alat, nikuba, kembangkan, pertamina, omsetnya...
Name: stopword, dtype: object


In [13]:
list_stopwords

{'&amp',
 'aaaaa',
 'aargh',
 'ada',
 'adalah',
 'adanya',
 'adapun',
 'agak',
 'agaknya',
 'agar',
 'agv',
 'ahhh',
 'ai',
 'aja',
 'akan',
 'akankah',
 'akhir',
 'akhiri',
 'akhirnya',
 'aku',
 'akulah',
 'amat',
 'amatlah',
 'amp',
 'amputmmediumsocialamputmsourcetwitter',
 'anda',
 'andalah',
 'antar',
 'antara',
 'antaranya',
 'apa',
 'apaan',
 'apabila',
 'apakah',
 'apalagi',
 'apatah',
 'artinya',
 'asal',
 'asalkan',
 'atas',
 'atau',
 'ataukah',
 'ataupun',
 'awal',
 'awalnya',
 'awokawokaowk',
 'bagai',
 'bagaikan',
 'bagaimana',
 'bagaimanakah',
 'bagaimanapun',
 'baghowi',
 'bagi',
 'bagian',
 'bahkan',
 'bahwa',
 'bahwasanya',
 'baik',
 'bakal',
 'bakalan',
 'balik',
 'banyak',
 'bapak',
 'baru',
 'basabasi',
 'bawah',
 'beberapa',
 'begini',
 'beginian',
 'beginikah',
 'beginilah',
 'begitu',
 'begitukah',
 'begitulah',
 'begitupun',
 'bekerja',
 'belakang',
 'belakangan',
 'belum',
 'belumlah',
 'benar',
 'benarkah',
 'benarlah',
 'berada',
 'berakhir',
 'berakhirlah',


In [14]:
df

Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens,normalisasi,stopword
0,SAYA SIAP ANGGARKAN RP 40.000 TRILIUN UNTUK NI...,positif,saya siap anggarkan rp 40.000 triliun untuk ni...,saya siap anggarkan rp triliun untuk nikuba ka...,"[saya, siap, anggarkan, rp, triliun, untuk, ni...","[saya, siap, anggarkan, rp, triliun, untuk, ni...","[anggarkan, rp, triliun, nikuba, karya, anak, ..."
1,"tolong pemerintah perhatianya ke nikuba,kayany...",positif,"tolong pemerintah perhatianya ke nikuba,kayany...",tolong pemerintah perhatianya ke nikubakayanya...,"[tolong, pemerintah, perhatianya, ke, nikubaka...","[tolong, pemerintah, perhatianya, ke, nikubaka...","[tolong, pemerintah, perhatianya, nikubakayany..."
2,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"[kalau, nikubadi, pakai, di, indonesia, tidak,...","[kalau, nikubadi, pakai, di, indonesia, tidak,...","[nikubadi, pakai, indonesia, bisnis, bbm, indo..."
3,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"[kalau, nikubadi, pakai, di, indonesia, tidak,...","[kalau, nikubadi, pakai, di, indonesia, tidak,...","[nikubadi, pakai, indonesia, bisnis, bbm, indo..."
4,"Kalau alat nikuba ini di kembangkan, Pertamina...",netral,"kalau alat nikuba ini di kembangkan, pertamina...",kalau alat nikuba ini di kembangkan pertamina ...,"[kalau, alat, nikuba, ini, di, kembangkan, per...","[kalau, alat, nikuba, ini, di, kembangkan, per...","[alat, nikuba, kembangkan, pertamina, omsetnya..."
...,...,...,...,...,...,...,...
549,NIKUBA menyelamatkan kendaraan bensin dari ken...,netral,nikuba menyelamatkan kendaraan bensin dari ken...,nikuba menyelamatkan kendaraan bensin dari ken...,"[nikuba, menyelamatkan, kendaraan, bensin, dar...","[nikuba, menyelamatkan, kendaraan, bensin, dar...","[nikuba, menyelamatkan, kendaraan, bensin, ken..."
550,"15 milyar terlalu kecil, NIKUBA bernilai 1000r...",negatif,"15 milyar terlalu kecil, nikuba bernilai 1000r...",milyar terlalu kecil nikuba bernilai ribuan tr...,"[milyar, terlalu, kecil, nikuba, bernilai, rib...","[milyar, terlalu, kecil, nikuba, bernilai, rib...","[milyar, nikuba, bernilai, ribuan, triliun, er..."
551,Mengapa pemerintah tidak mau menerima hasil ka...,negatif,mengapa pemerintah tidak mau menerima hasil ka...,mengapa pemerintah tidak mau menerima hasil ka...,"[mengapa, pemerintah, tidak, mau, menerima, ha...","[mengapa, pemerintah, tidak, mau, menerima, ha...","[pemerintah, menerima, hasil, karya, anak, ban..."
552,Seharusnya Metro TV tidak hanya nanya ke Aryan...,positif,seharusnya metro tv tidak hanya nanya ke aryan...,seharusnya metro tv tidak hanya nanya ke aryan...,"[seharusnya, metro, tv, tidak, hanya, nanya, k...","[seharusnya, metro, tv, tidak, hanya, tanya, k...","[metro, tv, aryanto, misel, coba, langsung, fe..."


In [16]:
df.to_csv('/content/drive/My Drive/Colab-Notebooks/Analisis-Sentimen-Twitter-Terhadap-Pembatalan-Piala-Dunia-U-20-di-Indonesia-Tahun-2023-main/Dataset/nikuba2-label-stopword.csv')

## Steaming Data

In [17]:
pip install sastrawi

Collecting sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sastrawi
Successfully installed sastrawi-1.0.1


In [18]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()

def steming(text):
    text = stemmer.stem(text)
    return text


In [19]:
df1 = pd.read_csv('/content/drive/My Drive/Colab-Notebooks/Analisis-Sentimen-Twitter-Terhadap-Pembatalan-Piala-Dunia-U-20-di-Indonesia-Tahun-2023-main/Dataset/nikuba2-label-stopword.csv')
df1

Unnamed: 0.1,Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens,normalisasi,stopword
0,0,SAYA SIAP ANGGARKAN RP 40.000 TRILIUN UNTUK NI...,positif,saya siap anggarkan rp 40.000 triliun untuk ni...,saya siap anggarkan rp triliun untuk nikuba ka...,"['saya', 'siap', 'anggarkan', 'rp', 'triliun',...","['saya', 'siap', 'anggarkan', 'rp', 'triliun',...","['anggarkan', 'rp', 'triliun', 'nikuba', 'kary..."
1,1,"tolong pemerintah perhatianya ke nikuba,kayany...",positif,"tolong pemerintah perhatianya ke nikuba,kayany...",tolong pemerintah perhatianya ke nikubakayanya...,"['tolong', 'pemerintah', 'perhatianya', 'ke', ...","['tolong', 'pemerintah', 'perhatianya', 'ke', ...","['tolong', 'pemerintah', 'perhatianya', 'nikub..."
2,2,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"['kalau', 'nikubadi', 'pakai', 'di', 'indonesi...","['kalau', 'nikubadi', 'pakai', 'di', 'indonesi...","['nikubadi', 'pakai', 'indonesia', 'bisnis', '..."
3,3,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"['kalau', 'nikubadi', 'pakai', 'di', 'indonesi...","['kalau', 'nikubadi', 'pakai', 'di', 'indonesi...","['nikubadi', 'pakai', 'indonesia', 'bisnis', '..."
4,4,"Kalau alat nikuba ini di kembangkan, Pertamina...",netral,"kalau alat nikuba ini di kembangkan, pertamina...",kalau alat nikuba ini di kembangkan pertamina ...,"['kalau', 'alat', 'nikuba', 'ini', 'di', 'kemb...","['kalau', 'alat', 'nikuba', 'ini', 'di', 'kemb...","['alat', 'nikuba', 'kembangkan', 'pertamina', ..."
...,...,...,...,...,...,...,...,...
549,549,NIKUBA menyelamatkan kendaraan bensin dari ken...,netral,nikuba menyelamatkan kendaraan bensin dari ken...,nikuba menyelamatkan kendaraan bensin dari ken...,"['nikuba', 'menyelamatkan', 'kendaraan', 'bens...","['nikuba', 'menyelamatkan', 'kendaraan', 'bens...","['nikuba', 'menyelamatkan', 'kendaraan', 'bens..."
550,550,"15 milyar terlalu kecil, NIKUBA bernilai 1000r...",negatif,"15 milyar terlalu kecil, nikuba bernilai 1000r...",milyar terlalu kecil nikuba bernilai ribuan tr...,"['milyar', 'terlalu', 'kecil', 'nikuba', 'bern...","['milyar', 'terlalu', 'kecil', 'nikuba', 'bern...","['milyar', 'nikuba', 'bernilai', 'ribuan', 'tr..."
551,551,Mengapa pemerintah tidak mau menerima hasil ka...,negatif,mengapa pemerintah tidak mau menerima hasil ka...,mengapa pemerintah tidak mau menerima hasil ka...,"['mengapa', 'pemerintah', 'tidak', 'mau', 'men...","['mengapa', 'pemerintah', 'tidak', 'mau', 'men...","['pemerintah', 'menerima', 'hasil', 'karya', '..."
552,552,Seharusnya Metro TV tidak hanya nanya ke Aryan...,positif,seharusnya metro tv tidak hanya nanya ke aryan...,seharusnya metro tv tidak hanya nanya ke aryan...,"['seharusnya', 'metro', 'tv', 'tidak', 'hanya'...","['seharusnya', 'metro', 'tv', 'tidak', 'hanya'...","['metro', 'tv', 'aryanto', 'misel', 'coba', 'l..."


In [20]:
df1['Steming'] = df1['stopword'].apply(steming)
df1.head()

Unnamed: 0.1,Unnamed: 0,Text,Label,CaseFolding,TextClean,tokens,normalisasi,stopword,Steming
0,0,SAYA SIAP ANGGARKAN RP 40.000 TRILIUN UNTUK NI...,positif,saya siap anggarkan rp 40.000 triliun untuk ni...,saya siap anggarkan rp triliun untuk nikuba ka...,"['saya', 'siap', 'anggarkan', 'rp', 'triliun',...","['saya', 'siap', 'anggarkan', 'rp', 'triliun',...","['anggarkan', 'rp', 'triliun', 'nikuba', 'kary...",anggar rp triliun nikuba karya anak bangsa ins...
1,1,"tolong pemerintah perhatianya ke nikuba,kayany...",positif,"tolong pemerintah perhatianya ke nikuba,kayany...",tolong pemerintah perhatianya ke nikubakayanya...,"['tolong', 'pemerintah', 'perhatianya', 'ke', ...","['tolong', 'pemerintah', 'perhatianya', 'ke', ...","['tolong', 'pemerintah', 'perhatianya', 'nikub...",tolong perintah perhatianya nikubakayanya bp a...
2,2,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"['kalau', 'nikubadi', 'pakai', 'di', 'indonesi...","['kalau', 'nikubadi', 'pakai', 'di', 'indonesi...","['nikubadi', 'pakai', 'indonesia', 'bisnis', '...",nikubadi pakai indonesia bisnis bbm indonesia
3,3,"Kalau nikuba,di pakai di Indonesia, tidak ada ...",negatif,"kalau nikuba,di pakai di indonesia, tidak ada ...",kalau nikubadi pakai di indonesia tidak ada la...,"['kalau', 'nikubadi', 'pakai', 'di', 'indonesi...","['kalau', 'nikubadi', 'pakai', 'di', 'indonesi...","['nikubadi', 'pakai', 'indonesia', 'bisnis', '...",nikubadi pakai indonesia bisnis bbm indonesia
4,4,"Kalau alat nikuba ini di kembangkan, Pertamina...",netral,"kalau alat nikuba ini di kembangkan, pertamina...",kalau alat nikuba ini di kembangkan pertamina ...,"['kalau', 'alat', 'nikuba', 'ini', 'di', 'kemb...","['kalau', 'alat', 'nikuba', 'ini', 'di', 'kemb...","['alat', 'nikuba', 'kembangkan', 'pertamina', ...",alat nikuba kembang pertamina omset anjlok


In [21]:
keep_col = ['Steming','Label']
df1 = df1[keep_col]
df1.to_csv('/content/drive/My Drive/Colab-Notebooks/Analisis-Sentimen-Twitter-Terhadap-Pembatalan-Piala-Dunia-U-20-di-Indonesia-Tahun-2023-main/Dataset/nikuba2-label-steming.csv')

## Menghapus Data set Duplicate

In [None]:
# df.drop_duplicates(subset='Steming', keep = 'first', inplace = True)
# # df1

In [None]:
# pd.value_counts(df1['Label'])