In [29]:
# load pandas
import pandas as pd


# load data
raw_data = pd.read_csv('tweets-data/prabowo_12-04-2024_20-03-17.csv')

In [30]:
# select full_text
tweet_text = raw_data[['full_text']]


# Checking the data
tweet_text.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 118 entries, 0 to 117
Data columns (total 1 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   full_text  118 non-null    object
dtypes: object(1)
memory usage: 1.1+ KB


In [31]:
# Drop duplicated full text
tweet_text = tweet_text.drop_duplicates()


tweet_text.duplicated().sum()


# Check the shape
tweet_text.shape

(118, 1)

In [32]:
import re

# Creating function for cleaning full text
def clean_tweet_text(text):
    text = re.sub(r'@[A-Za-z0-9_]+', ' ', text)
    text = re.sub(r'#\w+', ' ', text)
    text = re.sub(r'RT[\s]+', ' ', text)
    text = re.sub(r'https?://\S+', ' ', text)
    text = re.sub(r'[^A-Za-z0-9]', ' ', text)
    text = re.sub(r'\s+', ' ', text).strip()

    return text

tweet_text['full_text'] = tweet_text['full_text'].apply(clean_tweet_text)

# Check the data
tweet_text.head()

# Case folding full_text
tweet_text['full_text'] = tweet_text['full_text'].str.lower()


for text in tweet_text['full_text']:
    print(text)

pilpres telah usai ramadhanpun berlalu hari ini harus lebih baik dari kemarin dan masa depan harus lebih baik dari hari ini berbagai program 02 disusun menuju indonesia emas 2024 menjadi negara raksasa ke 4 di dunia tak ada yg instan tahapan dimulai
segoblok gobloknya presiden hari ini dia bisa memecat panglima kapan saja dia mau yusril izha mahendra gue makin yakin orang2 yang dibelakang prabowo sebenarnya ga sepenuhnya sayang jokowi mereka2 hanya menggunakan jokowi sebagai kendaraan dan alat meraih kekuasaan
perbedaan open house prabowo dan anies baswedan
pdi p masih belum menghendaki pertemuan prabowo dengan megawati
prabowo menyambangi rumah megawati ya sudah gua ikhlas prabowo jadi presiden asal gibran di diskualifikasi untuk meredam konflik gugatan pilpres agar kostitusi tetap terjaga apakah kalian setuju tinggalkan jejak kalian
piye sampai kpan ucapan prilaku hati nurani bisa slaras apakah materi harta tahta amp jabatan mampu mengangkat derajat sukma stelah raga di kubur sesungg

In [33]:
# text normalize

norm = {' shombhong ':' sombong ', ' orang2 ':' orang-orang ', ' ok ':' oke ', ' bl ':'', ' amp ':'',
        ' tdk ':' tidak ', ' ga ':' tidak ', ' mslh ':' masalah ', ' yg ':' yang ', ' 3x ':'', ' cawe2 ':' cawe-cawe ',
        ' erooor ':' galat ', ' ngeblang ':' kosong ', ' piye ':' bagaimana ', ' gimana ':' bagaimana ', ' r ':'',
        ' ni ': ' ini '}

def normalize(text):
    for i in norm:
        text = text.replace(i, norm[i])

    return text

tweet_text['text_norm'] = tweet_text['full_text'].apply(normalize)

# Check the data
tweet_text.head()

Unnamed: 0,full_text,text_norm
0,pilpres telah usai ramadhanpun berlalu hari in...,pilpres telah usai ramadhanpun berlalu hari in...
1,segoblok gobloknya presiden hari ini dia bisa ...,segoblok gobloknya presiden hari ini dia bisa ...
2,perbedaan open house prabowo dan anies baswedan,perbedaan open house prabowo dan anies baswedan
3,pdi p masih belum menghendaki pertemuan prabow...,pdi p masih belum menghendaki pertemuan prabow...
4,prabowo menyambangi rumah megawati ya sudah gu...,prabowo menyambangi rumah megawati ya sudah gu...


In [24]:
# eliminating stopword
# install nltk
!pip install nltk



In [25]:
# Import nltk
import nltk


# Download stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\septi\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [34]:
# import stopwords indonesia
from nltk.corpus import stopwords

stop = stopwords.words('indonesian')

# Implementing stopwords elimination
tweet_text['text_sw'] = tweet_text['text_norm'].apply(lambda x:' '.join([word for word in x.split() if word not in (stop)]))


# Check the data
tweet_text.head()

Unnamed: 0,full_text,text_norm,text_sw
0,pilpres telah usai ramadhanpun berlalu hari in...,pilpres telah usai ramadhanpun berlalu hari in...,pilpres ramadhanpun kemarin program 02 disusun...
1,segoblok gobloknya presiden hari ini dia bisa ...,segoblok gobloknya presiden hari ini dia bisa ...,segoblok gobloknya presiden memecat panglima y...
2,perbedaan open house prabowo dan anies baswedan,perbedaan open house prabowo dan anies baswedan,perbedaan open house prabowo anies baswedan
3,pdi p masih belum menghendaki pertemuan prabow...,pdi p masih belum menghendaki pertemuan prabow...,pdi p pertemuan prabowo megawati
4,prabowo menyambangi rumah megawati ya sudah gu...,prabowo menyambangi rumah megawati ya sudah gu...,prabowo menyambangi rumah megawati ya gua ikhl...


In [37]:
# Tokenize
nltk.download('punkt')
from nltk.tokenize import sent_tokenize, word_tokenize


tweet_text['token'] = tweet_text['text_sw'].apply(lambda x: word_tokenize(x))

tweet_text.head(10)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\septi\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Unnamed: 0,full_text,text_norm,text_sw,token
0,pilpres telah usai ramadhanpun berlalu hari in...,pilpres telah usai ramadhanpun berlalu hari in...,pilpres ramadhanpun kemarin program 02 disusun...,"[pilpres, ramadhanpun, kemarin, program, 02, d..."
1,segoblok gobloknya presiden hari ini dia bisa ...,segoblok gobloknya presiden hari ini dia bisa ...,segoblok gobloknya presiden memecat panglima y...,"[segoblok, gobloknya, presiden, memecat, pangl..."
2,perbedaan open house prabowo dan anies baswedan,perbedaan open house prabowo dan anies baswedan,perbedaan open house prabowo anies baswedan,"[perbedaan, open, house, prabowo, anies, baswe..."
3,pdi p masih belum menghendaki pertemuan prabow...,pdi p masih belum menghendaki pertemuan prabow...,pdi p pertemuan prabowo megawati,"[pdi, p, pertemuan, prabowo, megawati]"
4,prabowo menyambangi rumah megawati ya sudah gu...,prabowo menyambangi rumah megawati ya sudah gu...,prabowo menyambangi rumah megawati ya gua ikhl...,"[prabowo, menyambangi, rumah, megawati, ya, gu..."
5,piye sampai kpan ucapan prilaku hati nurani bi...,piye sampai kpan ucapan prilaku hati nurani bi...,piye kpan ucapan prilaku hati nurani slaras ma...,"[piye, kpan, ucapan, prilaku, hati, nurani, sl..."
6,aku pemilih prabowo gibran itu dari hati nuran...,aku pemilih prabowo gibran itu dari hati nuran...,pemilih prabowo gibran hati nuraniku bansos ca...,"[pemilih, prabowo, gibran, hati, nuraniku, ban..."
7,refly harun suara prabowo sebelum gibran dical...,refly harun suara prabowo sebelum gibran dical...,refly harun suara prabowo gibran dicalonkan el...,"[refly, harun, suara, prabowo, gibran, dicalon..."
8,kepada bapak amp bu media2 israel cukup sering...,kepada bapakbu media2 israel cukup sering memb...,bapakbu media2 israel berita normalisasi hubun...,"[bapakbu, media2, israel, berita, normalisasi,..."
9,prabowo and the red carpet,prabowo and the red carpet,prabowo and the red carpet,"[prabowo, and, the, red, carpet]"


In [38]:
# Install Sastrawi
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
   ---------------------------------------- 0.0/209.7 kB ? eta -:--:--
   ---------------------------------------- 0.0/209.7 kB ? eta -:--:--
   - -------------------------------------- 10.2/209.7 kB ? eta -:--:--
   ------- ------------------------------- 41.0/209.7 kB 487.6 kB/s eta 0:00:01
   ---------------------------------------- 209.7/209.7 kB 1.8 MB/s eta 0:00:00
Installing collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [40]:
# Stemming
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()


# Create function for stemming
def stemmed_wrapper(text):
    return stemmer.stem(text)

text_dict = {}
count = 0

for row in tweet_text['token']:
    for text in row:
        if text not in text_dict:
            text_dict[text] = ' '

print(len(text_dict))

for word in text_dict:
    text_dict[word] = stemmed_wrapper(word)
    count+=1

# Adding stemmed text into the dataframe
def get_stemmed_text(text):
    return [text_dict[word] for word in text]


tweet_text['text_stem'] = tweet_text['token'].apply(lambda x: ' '.join(get_stemmed_text(x)))

tweet_text.head()

1018


Unnamed: 0,full_text,text_norm,text_sw,token,text_stem
0,pilpres telah usai ramadhanpun berlalu hari in...,pilpres telah usai ramadhanpun berlalu hari in...,pilpres ramadhanpun kemarin program 02 disusun...,"[pilpres, ramadhanpun, kemarin, program, 02, d...",pilpres ramadhanpun kemarin program 02 susun i...
1,segoblok gobloknya presiden hari ini dia bisa ...,segoblok gobloknya presiden hari ini dia bisa ...,segoblok gobloknya presiden memecat panglima y...,"[segoblok, gobloknya, presiden, memecat, pangl...",goblok goblok presiden pecat panglima yusril i...
2,perbedaan open house prabowo dan anies baswedan,perbedaan open house prabowo dan anies baswedan,perbedaan open house prabowo anies baswedan,"[perbedaan, open, house, prabowo, anies, baswe...",beda open house prabowo anies baswedan
3,pdi p masih belum menghendaki pertemuan prabow...,pdi p masih belum menghendaki pertemuan prabow...,pdi p pertemuan prabowo megawati,"[pdi, p, pertemuan, prabowo, megawati]",pdi p temu prabowo megawati
4,prabowo menyambangi rumah megawati ya sudah gu...,prabowo menyambangi rumah megawati ya sudah gu...,prabowo menyambangi rumah megawati ya gua ikhl...,"[prabowo, menyambangi, rumah, megawati, ya, gu...",prabowo sambang rumah megawati ya gua ikhlas p...


In [41]:
# preparing for labeling
data = tweet_text[['text_stem']]

data.head()

Unnamed: 0,text_stem
0,pilpres ramadhanpun kemarin program 02 susun i...
1,goblok goblok presiden pecat panglima yusril i...
2,beda open house prabowo anies baswedan
3,pdi p temu prabowo megawati
4,prabowo sambang rumah megawati ya gua ikhlas p...


In [42]:
# Install needed libraries
!pip install tweet-preprocessor
!pip install textblob
!pip install wordcloud

Collecting tweet-preprocessor
  Downloading tweet_preprocessor-0.6.0-py3-none-any.whl.metadata (5.9 kB)
Downloading tweet_preprocessor-0.6.0-py3-none-any.whl (27 kB)
Installing collected packages: tweet-preprocessor
Successfully installed tweet-preprocessor-0.6.0
Collecting textblob
  Downloading textblob-0.18.0.post0-py3-none-any.whl.metadata (4.5 kB)
Downloading textblob-0.18.0.post0-py3-none-any.whl (626 kB)
   ---------------------------------------- 0.0/626.3 kB ? eta -:--:--
   ----- ---------------------------------- 81.9/626.3 kB 2.3 MB/s eta 0:00:01
   --------------- ------------------------ 245.8/626.3 kB 3.8 MB/s eta 0:00:01
   -------------------- ------------------- 327.7/626.3 kB 2.5 MB/s eta 0:00:01
   ------------------------------ --------- 471.0/626.3 kB 2.7 MB/s eta 0:00:01
   ----------------------------------- ---- 553.0/626.3 kB 2.5 MB/s eta 0:00:01
   ---------------------------------------- 626.3/626.3 kB 2.5 MB/s eta 0:00:00
Installing collected packages: text

In [50]:
# import the libraries
import preprocessor as p
from textblob import TextBlob
from nltk.stem import PorterStemmer

# list data
lst_data = list(data['text_stem'])

# Start labelling
polarity = 0
status = []
total_positive = total_negative = total_netral = total = 0

for i, text in enumerate(lst_data):
    analysis = TextBlob(text)
    polarity += analysis.polarity

    if analysis.sentiment.polarity > 0.0:
        total_positive += 1
        status.append('Positive')
    elif analysis.sentiment.polarity == 0.0:
        total_netral += 1
        status.append('Netral')
    else:
        total_negative += 1
        status.append('Negative')

    total += 1

print('Sentiment labeling result:')
print('Total Positive:', total_positive)
print('Total Netral:', total_netral)
print('Total Negative:', total_negative)
print('Total data:', total)

Sentiment labeling result:
Total Positive: 18
Total Netral: 95
Total Negative: 5
Total data: 118


In [52]:
# adding the status
data['status'] = status
data.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['status'] = status


Unnamed: 0,text_stem,status
0,pilpres ramadhanpun kemarin program 02 susun i...,Netral
1,goblok goblok presiden pecat panglima yusril i...,Netral
2,beda open house prabowo anies baswedan,Netral
3,pdi p temu prabowo megawati,Netral
4,prabowo sambang rumah megawati ya gua ikhlas p...,Netral


In [None]:
# import libraries for visualization
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS

def plot_cloud(wordcloud):
    plt.figure(figsize=(10, 8))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()

all_words = ' '.join(tweets for tweets in data['text_stem'])


wordcloud = WordCloud(
    width = 3000,
    height = 2000,
    random_state = 42,
    
)