In [1]:
import re
import pandas as pd
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.stem import WordNetLemmatizer

import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Membuat Data Dummy

In [14]:
data_tweets = [
    "Saya sangat senang dengan program ini! #Pendidikan",
    "Gak percaya ada orang yang bilang begitu. @teman",
    "Apakah kamu tahu informasi tentang PPKM? Cek di sini: https://example.com",
    "Ini adalah tweet yang luar biasa, btw.",
    "Ayo kita dukung pendidikan di Indonesia!",
    "SeNang banget dapat uang 6000"
]

df = pd.DataFrame(data_tweets, columns=['Text'])

pd.set_option('display.max_colwidth', None)
df

Unnamed: 0,Text
0,Saya sangat senang dengan program ini! #Pendidikan
1,Gak percaya ada orang yang bilang begitu. @teman
2,Apakah kamu tahu informasi tentang PPKM? Cek di sini: https://example.com
3,"Ini adalah tweet yang luar biasa, btw."
4,Ayo kita dukung pendidikan di Indonesia!
5,SeNang banget dapat uang 6000


Mengubah teks ke huruf kecil

In [15]:
df['Text'] = df['Text'].str.lower()
df

Unnamed: 0,Text
0,saya sangat senang dengan program ini! #pendidikan
1,gak percaya ada orang yang bilang begitu. @teman
2,apakah kamu tahu informasi tentang ppkm? cek di sini: https://example.com
3,"ini adalah tweet yang luar biasa, btw."
4,ayo kita dukung pendidikan di indonesia!
5,senang banget dapat uang 6000


Menghapus tautan

In [16]:
df['Text'] = df['Text'].str.replace(r'http\S+|www\S+|https\S+', '', regex=True)
df

Unnamed: 0,Text
0,saya sangat senang dengan program ini! #pendidikan
1,gak percaya ada orang yang bilang begitu. @teman
2,apakah kamu tahu informasi tentang ppkm? cek di sini:
3,"ini adalah tweet yang luar biasa, btw."
4,ayo kita dukung pendidikan di indonesia!
5,senang banget dapat uang 6000


Menghapus mention dan hashtag

In [17]:
df['Text'] = df['Text'].str.replace(r'@\w+|#\w+', '', regex=True)
df

Unnamed: 0,Text
0,saya sangat senang dengan program ini!
1,gak percaya ada orang yang bilang begitu.
2,apakah kamu tahu informasi tentang ppkm? cek di sini:
3,"ini adalah tweet yang luar biasa, btw."
4,ayo kita dukung pendidikan di indonesia!
5,senang banget dapat uang 6000


Menghapus angka

In [18]:
df['Text'] = df['Text'].str.replace(r'\d+', '', regex=True)
df

Unnamed: 0,Text
0,saya sangat senang dengan program ini!
1,gak percaya ada orang yang bilang begitu.
2,apakah kamu tahu informasi tentang ppkm? cek di sini:
3,"ini adalah tweet yang luar biasa, btw."
4,ayo kita dukung pendidikan di indonesia!
5,senang banget dapat uang


Menghapus tanda baca

In [19]:
df['Text'] = df['Text'].str.replace(r'[^\w\s]', '', regex=True)
df

Unnamed: 0,Text
0,saya sangat senang dengan program ini
1,gak percaya ada orang yang bilang begitu
2,apakah kamu tahu informasi tentang ppkm cek di sini
3,ini adalah tweet yang luar biasa btw
4,ayo kita dukung pendidikan di indonesia
5,senang banget dapat uang


Normalisasi singkatan

In [20]:
singkatan_dict = {
    'saya': 'saya',
    'gak': 'tidak',
    'nggak': 'tidak',
    'ayo': 'ayo',
    'btw': 'omong-omong'
}


In [21]:
df['Text'] = df['Text'].apply(lambda x: ' '.join([singkatan_dict.get(word, word) for word in x.split()]))
df

Unnamed: 0,Text
0,saya sangat senang dengan program ini
1,tidak percaya ada orang yang bilang begitu
2,apakah kamu tahu informasi tentang ppkm cek di sini
3,ini adalah tweet yang luar biasa omong-omong
4,ayo kita dukung pendidikan di indonesia
5,senang banget dapat uang


Menghapus stopwords (Kata-kata umum yang sering muncul tetapi tidak menambah makna, misalnya "di", "ke", "yang".)

In [23]:
stop_words = set(stopwords.words('indonesian'))
df['Text'] = df['Text'].apply(lambda x: ' '.join([word for word in x.split() if word not in stop_words]))
df

Unnamed: 0,Text
0,senang program
1,percaya orang bilang
2,informasi ppkm cek
3,tweet omong-omong
4,ayo dukung pendidikan indonesia
5,senang banget uang


Stemming (Mengubah kata menjadi bentuk dasarnya, misalnya "membaca" menjadi "baca".)

In [24]:
factory = StemmerFactory()
stemmer = factory.create_stemmer()
df['Text'] = df['Text'].apply(stemmer.stem)
df

Unnamed: 0,Text
0,senang program
1,percaya orang bilang
2,informasi ppkm cek
3,tweet omong
4,ayo dukung didik indonesia
5,senang banget uang
