## import library

In [1]:
import nltk 
import pandas as pd
import csv
import re
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.tokenize import sent_tokenize, word_tokenize

In [2]:
df = pd.read_csv('data_tweet_vaksin.csv')
df.head()

Unnamed: 0,username,tanggal,tweet
0,pkmjangkar,2022-03-07 23:58:20,.update jadwal vaksinasi covid-19 UPT Puskesma...
1,CNNIndonesia,2022-03-07 23:57:03,Syarat Perjalanan Tanpa PCR-Antigen: Vaksin Co...
2,DindaNatasha15,2022-03-07 23:56:48,Pemerintah sudah pastikan bahwa vaksin covid 1...
3,juvejack,2022-03-07 23:49:31,Menko Maritim dan Investasi Luhut Pandjaitan m...
4,nengsunshine,2022-03-07 23:47:55,"Ok Google! Kalau sudah negatif dari Covid, kap..."


## proses casefolding

In [3]:
def casefolding(tweet):
    tweet = tweet.lower()
    tweet = tweet.strip()  
    return tweet
df['tweet']= df['tweet'].apply(casefolding)
df.head()

Unnamed: 0,username,tanggal,tweet
0,pkmjangkar,2022-03-07 23:58:20,.update jadwal vaksinasi covid-19 upt puskesma...
1,CNNIndonesia,2022-03-07 23:57:03,syarat perjalanan tanpa pcr-antigen: vaksin co...
2,DindaNatasha15,2022-03-07 23:56:48,pemerintah sudah pastikan bahwa vaksin covid 1...
3,juvejack,2022-03-07 23:49:31,menko maritim dan investasi luhut pandjaitan m...
4,nengsunshine,2022-03-07 23:47:55,"ok google! kalau sudah negatif dari covid, kap..."


## proses cleansing

In [5]:
def cleansing(tweet):
    tweet=re.sub(r'@[A-Za-z0-9]+','', tweet)
    tweet= re.sub(r'\w+:\/\/\S+', '', tweet)
    tweet= re.sub(r'[^0-9A-Za-z \t]', '', tweet)
    return tweet
df['tweet']= df['tweet'].apply(cleansing)
df.head()

Unnamed: 0,username,tanggal,tweet
0,pkmjangkar,2022-03-07 23:58:20,update jadwal vaksinasi covid19 upt puskesmas ...
1,CNNIndonesia,2022-03-07 23:57:03,syarat perjalanan tanpa pcrantigen vaksin covi...
2,DindaNatasha15,2022-03-07 23:56:48,pemerintah sudah pastikan bahwa vaksin covid 1...
3,juvejack,2022-03-07 23:49:31,menko maritim dan investasi luhut pandjaitan m...
4,nengsunshine,2022-03-07 23:47:55,ok google kalau sudah negatif dari covid kapan...


## proses remove duplicated

In [7]:
df["tweet"].duplicated().sum()


1458

In [8]:
df["tweet"].drop_duplicates().shape
df.drop_duplicates(subset="tweet", inplace=True)

(1042,)

## proses replace

In [10]:
new_df = df.replace(['vaksin pertama', 'vaksinasi pertama', 'vaksin kedua', 'vaksinasi kedua','vaksin booster', 'vaksinasi booster'], ['vaksinpertama', 'vaksinasipertama', 'vaksinkedua', 'vaksinasikedua', 'vaksinbooster','vaksinasibooster'], regex=True, inplace=True)
new_df

## proses tokenizing

In [12]:
def tokenizing(tweet):
    tokens = nltk.tokenize.word_tokenize(tweet)
    removed = []
    for t in tokens:
        removed.append(t)
    return tokens
df['tweet']= df['tweet'].apply(tokenizing) 
df.head()

Unnamed: 0,username,tanggal,tweet
0,pkmjangkar,2022-03-07 23:58:20,"[update, jadwal, vaksinasi, covid19, upt, pusk..."
1,CNNIndonesia,2022-03-07 23:57:03,"[syarat, perjalanan, tanpa, pcrantigen, vaksin..."
2,DindaNatasha15,2022-03-07 23:56:48,"[pemerintah, sudah, pastikan, bahwa, vaksin, c..."
3,juvejack,2022-03-07 23:49:31,"[menko, maritim, dan, investasi, luhut, pandja..."
4,nengsunshine,2022-03-07 23:47:55,"[ok, google, kalau, sudah, negatif, dari, covi..."


## proses normalisasi

In [14]:
perbaikan=pd.read_csv('normalisasi kata.csv')
koreksi={}

for index, row in perbaikan.iterrows():
    if row [0] not in koreksi:
        koreksi[row[0]]=row [1]
        
def perbaikan_kata(tweet):
    return [koreksi[term] if term in koreksi else term for term in tweet]
df['tweet']= df['tweet'].apply(perbaikan_kata)
df.head()

Unnamed: 0,username,tanggal,tweet
0,pkmjangkar,2022-03-07 23:58:20,"[update, jadwal, vaksinasi, covid 19, upt, pus..."
1,CNNIndonesia,2022-03-07 23:57:03,"[syarat, perjalanan, tanpa, polymerase chain r..."
2,DindaNatasha15,2022-03-07 23:56:48,"[pemerintah, sudah, pastikan, bahwa, vaksin, c..."
3,juvejack,2022-03-07 23:49:31,"[menko, maritim, dan, investasi, luhut, pandja..."
4,nengsunshine,2022-03-07 23:47:55,"[ok, google, kalau, sudah, negatif, dari, covi..."


## proses stopword

In [16]:
stopword=nltk.corpus.stopwords.words('indonesian')
def stopword_removal(tweet):
    text=[word for word in tweet if word not in stopword]
    return text
df['tweet']= df['tweet'].apply(stopword_removal)
df.head() 

Unnamed: 0,username,tanggal,tweet
0,pkmjangkar,2022-03-07 23:58:20,"[update, jadwal, vaksinasi, covid 19, upt, pus..."
1,CNNIndonesia,2022-03-07 23:57:03,"[syarat, perjalanan, polymerase chain reaction..."
2,DindaNatasha15,2022-03-07 23:56:48,"[pemerintah, pastikan, vaksin, covid, 19, terb..."
3,juvejack,2022-03-07 23:49:31,"[menko, maritim, investasi, luhut, pandjaitan,..."
4,nengsunshine,2022-03-07 23:47:55,"[ok, google, negatif, covid, vaksin]"


print (set(stopwords.words('indonesian')))

## proses stemming

In [18]:
def stemming(tweet):
    factory =StemmerFactory()
    stemmer=factory.create_stemmer()
    do= []
    for w in tweet:
        dt=stemmer.stem(w)
        do.append(dt)
    d_clean=[]
    d_clean=" ".join(do)
    print(d_clean)
    return d_clean
df['tweet']= df['tweet'].apply(stemming)
df.to_csv('hasil stemming.csv', index=False)
df_clean =pd.read_csv('hasil stemming.csv', encoding ='latin1')
df_clean.head()

update jadwal vaksinasi covid 19 upt puskesmas jangkar selasa 08 maret 2022 vaksin aman vaksin halal masyarakat sehat indonesia kuat situbondo situbon situbondo situbondo sehat puskesmas jangkar
syarat jalan polymerase chain reaction antigen vaksin covid 19 lengkap
perintah pasti vaksin covid 19 bukti aman uji patuh disiplin protokol sehat
menko maritim investasi luhut pandjaitan tangan pandemi covid 19 baik sesuai bijak salah satu kait atur kendara top news
ok google negatif covid vaksin
heryanto solusi damai covid terap 3 m ekonomi masyarakat normal sembari tunggu vaksinbooster kalang rentan prioritas
tangan covid 19 airlangga nahdlatul ulama berani vaksin halal aman patuh disiplin protokol sehat
saleh partaonan daulay apresiasi bijak wajib laku jalan domestik bukti tes covid 19 vaksin lengkap
jadi ikut pasca imunisasi booster astrazeneca parah asa kena covid tidak tahu habis jalan vaksin
vaksinbooster gibran positif covid 19
beri vaksin sinovac kanak 5 11 program imunisasi covid 19 

samping efek nya 2 2 samping efek konklusi soal aju kesan obat ivermectin dokter klaim kesan lawan covid dokter klaim before ambil vaksin tambah lapor pfizer
sahabat sehat terima vaksin covid 19 dosis ke 3 info sehat taishan covid rapid uji jakarta polymerase chain reaction drive thru jakarta antigen jakarta taishan rapid uji antigen tangerang antigen serpong antigen jakarta barat antigen soekarno hatta polymerase chain reaction jakarta polymerase chain reaction tangerang
dasamuka kalong 1 berita palsu vaksin covid 19 sebar kalang masyarakat
kena covid dosa vaksin paru paru drop fungsi tangga megah seru sama tapi booster paru paru okay badminton satu jam baru ini main 2 jam tidak tahu la hubung dia tapi buruk
coba penasaran instagram info moderna instagram rumah sakit klinik
ya vaksin imun biar kuat serang sakit kena covid imun kuat
wits ban salah ketik dan lain2 alat tes dan terus soal darimana istilah covid 19 tes kits 2017 uu6 2018 psl 65 frasa sertifikat vaksinasi int vaksin ok ser

enak sih pergi tidak perlu antigen polymerase chain reaction kasi orang daerah kota tidak ingin vaksin kena covid duduk kota vaksin lengkap ya lumayan gejala
sangka tahap soal vaksin kena covid kiri kanan orang moga lindung sentiasa
14802 warga indonesia oleh dosis lengkap vaksin covid 19 senin 7 maret 1200 wib data dasar tambah orang suntik dosis 163040 orang
vaksin booster efektivitas negatif omicron paham covid vaksin btw kutip artikel baru
kalimat umpat pandemi sampai dengan vaksin nth varian covid nama kena covid kerumun sehat bangkai atur kali hidup orang ngelunjak kali si manusia stress
kalimat umpat pandemi sampai dengan vaksin kena covid kerumun sehat bangkai atur kali hidup orang ngelunjak kali si manusia stress
lelah malaysia bencana teman sibuk politik vaksin covid balak masing2 bagus duniawi turun angkat tidak sedau allahu
ristianto orang negeri kompak demo tolak vaksin covid indonesia vaksin covid sembah jadi rutinitas suntik jalan sehat generasi bodoh
kang 2 kali vaksin 

tes covid syarat jalan vaksin hapus
misc salah sakit serius akibat jangkit covid 19 kalang kanak2 misc bawa bahaya mauttujuh kes sah tinggal dunia akibat miscdapatkan vaksin covid 19 kanak umur 511
vaksin tiket bebas covid booster kena sedih senang berita
ramai positif covid untung vaksin vaksin selamat jangkit moga sehat sembuh moga uji hilang allah kuat may allah lindung tinggal simpan
airlangga hartarto tonton motogp mandalika tes covid 19 pasuk tribun tonton tempo bisnis
perintah target 208265720 orang sasar vaksinasi covid 19
a kerepot vaksinbooster covid travel philippines eh nerima peduli lindung mau nerima sertifikat pakai buku kuning sertifikat covid dipindahin kesini buku didapet meningitis or
asyik laku jalan domestik vaksin covid 19 lengkap syarat antigen dan polymerase chain reaction
fakta vaksin covid 19
nanya vaksin astrazeneca booster nunggu nunggu 6 pasca covid pasca vaksinkedua
sahabat bpom 2 februari 2022 badan pom tuju izin guna darurat tambah regimen booster homolo

kapasitas kereta batas padat pandemi covid 19 kai komitmen cegah sebar covid 19 terap protokol sehat ketat tumpang ka wajib vaksin 2
vaksinbooster positif covid 19
kemenkes umum beri 21307 dosis vaksin covid 19 24 jam total 24248279 wam news
vaksinasi tuju sistem kebal tubuh nali dengan cepat lawan virus sebab infeksi tuju capai beri vaksin covid 19 turun angka mati akibat virus ini kanwil kumham dki kanwil kemenkumham dki
sholat jumat khatib nya ngaku urus mui kritik bijak covid perintah jaga jarak sholat embel2 dalil lurus rapat shaf kampanye anti vaksin percaya covid payah
habis kena covid vaksin kena covid ya
ayo vaksin covid 19 wujud kelompok immunitysayangi lindung keluarga tertib lintas disiplin protokol sehat ops selamat lodaya 2022 sama cegah covid 19 ayo pakai masker ayo segera vaksin
yaa tidak syukur minyak vaksin tekan sebar covid
benar anak terima vaksin sedia pusat beli belah pusat bandar suhaila osman
kembang covid 19 kota malang landai anak usia 6 sampai 11 jalan vaksin

indonesia disiplin protokol sehat ajak masyarakat kabupaten tanah datar sukses vaksin lanjut booster covid 19
indonesia disiplin protokol sehat jalan vaksin lanjut booster covid 19
indonesia disiplin protokol sehat damping wakil bupati richi aprian suntik vaksinbooster covid 19 aula kantor bupati pagaruyung
via vaksin covid 19 ini astrazeneca pfizer sinovac sinopharm dosis 12az dosis 123 klinik kusuma bagai informasi untuk klinik kusuma ready vaksin yaa klinik sangkut vaksin maret samarinda
via vaksin covid 198 maret 2022 astrazeneca dosis 123by pusk sempaja alamat terterapusk loa bakung pfizer dosis 123 pusk sidomulyo pfizer dosis 23az dosis 12310 maret 2022 kantor kel sambut vaksin maret samarinda
vaksin covid 19 ini astrazeneca pfizer sinovac sinopharm dosis 12az dosis 123 klinik kusuma bagai informasi untuk klinik kusuma ready vaksin yaa klinik sangkut
juli 2021 expos eksklusif data manipulasi ilmuwan studi dunia nyata cdc vaksin covid 19 aman hamil badan
klinik siti health care or

waspada provokasi kelompok penting kait tolak vaksin vaksin covid pilih perintah uji jamin aman indonesia disiplin protokol sehat
indonesia disiplin protokol sehat tambah covid 19 3 minggu satu tugas satgas covid 19 kabupaten kulon progo galak vaksinasi terap protokol sehat protokol sehat
kumulatif kini dosis vaksin program imunisasi covid 19 bangsa pilih 67731132
menteri sehat malaysia menteri kesihatan malaysia vaksin coronavac kanak usia 5 11 program imunisasi covid 19 bangsa kanak vaksin untuk anak esok 7 mac
dar admin vaksin covid 19 anak syarat ajar tatap muka kelas harap tempat anak vaksin ajar sekolah atur
morning tweeps jadwal layan vaksinasi covid 19 rabu jumat uptd puskesmas sawangan yuk lengkap vaksin booster salam sehat semangat vaksinasi covid 19 vaksin covid 19 vaksinbooster pfizer sinovac astrazeneca
perintah bahaya masyarakat tuju vaksinasi tingkat kebal tubuh masyarakat virus corona varian covid 19 omicron vaksin aman anak hamil indonesia disiplin protokol sehat
satga

takut vaksin segara vaksin sehat hindar covid 19
jaga sehat vaksin cegah covid 19 badan sehat
heryanto invasi ukraina rencana om aneksasi krimea masalah negri isu negara covid vaksin inflasi kalau ham sih tradis
covid paham kerja vaksin suntik muncul efek samping lepas khawatir vaksin covid efek samping jam minggu vaksin terima tubuh
orang takut video wuhan sebar berita palsu sungai gangga lengan leceh vaksin covid kali alas ikhtiar pantes ngomongin perang
kesan nantangin tekan covid vaksin
scientist teliti ilmu barangkali pakai vaksin covid
vaksin untuk anak 970000 populasi kanak malaysia terima vaksin covid 19
dengar isu berita palsu luar vaksin sehat tubuh daya imun kuat hindar covid 19
lapor temu berita palsu putar vaksin covid 19 jumat 432022 470 temu berita palsu sebar media sosial sebar capai 2661 konten
trs pihak si lawak lawak berhala gitu lebih baik urus covid aj dokter jual vaksin merdeka merdeka
perintah pasti vaksin covid 19 bukti aman uji indonesia disiplin protokol sehat

kepala dinas sehat provinsi banten ati pamudji hastuti meyebut peristiwa wilayah banten
tahu manfaat vaksin covid 19 taat protokol sehat lama pandemi ayo vaksin indonesia sehat indonesia hebat protokol sehat biasa baru disiplin patuh protokol sehat
juru bicara sinovac biotech ltd manjur vaksin tren
saja fakta vaksin covid 191 vaksin covid 19 tingkat efektivitas sistem kebal tubuh 2 vaksin dorong sistem kebal tubuh merespon virus kontak langsung virus 3 vaksin bantu tubuh
kemenkes umum beri 8176 dosis vaksin covid 19 24 jam total 24226972 dosis wam news
sebar berita palsu temu facebook 2463 konten berita palsu putar vaksin covid 19
menteri lapor temu berita palsu putar vaksin covid 19 johnny plate
jangkit covid benda real ko vaksin ko ko positif susah orang hanat orang keliling ko resiko salah ko bangun orang positif duduk umah diam kuarintin ko sakit parah ko
video anak duga asal badui suntik vaksin covid 19 viral media sosial simak lengkap vaksin
menteri sehat vaksin coronavac sinovac

vaksin harap bantu kurang angka tular virus corona jenis sars cov 2 sebab covid 19 pasien infeksi covid 19 tingkat
serda kamaruddin babinsa koramil 140908 laksana pantau vaksin anak sekolah masyarakat sampai dengan inpres pabbundukang kelbontoramba kec bontonompo selatan kab gowa dukung cepat vaksinasi covid 19
vaksinkedua kanak usia 5 11 vaksin comirnaty pfizer biontech
tubuh bugar lansia 85 india tagih suntik vaksin covid 19
komitmen ajar dosis lengkap vaksin covid 19 bukti bahawa ajar sedia kampus rata rata ajar sedia standar operasi prosedur atur tetap urus ptsb
iya beli vaksin amerika polio 1 kali umur hidup cacar 1 kali umur hidup tetanus 1 kali umur hidup vaksin covid 19 kali kali
antan 6 mac 2022 serama 40150 orang kanak liput 208 atus sasar program imunisasi covid 19 kanak vaksin untuk anak negeri terima dosis lengkap semalamberita penuh
vaksin covid 19 selamat rakyat indonesianewnormal lawan covid 19
lawan covid ayo vaksin vaksin protokol sehat mari protokol sehat breng
via v

berani vaksin lawan covid 19 jokowi peduli rakyat
habis covid vaksin nunggu 3
perkara bincang lalu jalan vaksin vtl udara malaysia brunei tolak kerjasama pasca covid 19 kukuh kerjasama bidang ekonomi
aktif covid 19 nunukan angsur turun positif 23 pasien sembuh 82 orang covid 19 virus corona vaksinasi vaksin pandemi kaltara tara nunukan malinau bulungan tana tidung tanjung lor tribun kaltara ppkm
vaksin indonesia uji aman manfaat cegah tular covid 19 jokowi peduli rakyat
vaksin covid 19 aman halal yaajokowi peduli rakyat
antisipasi covid 19 jelang puasa menko pkm cepat vaksinasi protokol sehat cepat nahh yoohh vaksin biar puasa jalan ibadah bisimillah jokowi peduli rakyat
juta kanak malaysia terima vaksin covid 19
kini360 juta populasi kanak malaysia terima vaksin covid 19 ph raja gagal ph raja gagal ph gagal
juta populasi kanak malaysia terima vaksin covid 19 dapat berita kini telegram
sih efek samping vaksinbooster covid 19 simak info grafik bawah yacek lengkap
waspada provokasi kelom

ganggu saraf bukankah vaksin covid efek buruk sistem saraf nama tics
cinta keluarga vaksin covid aman manfaat keluarga kami apa kamu apa kamu
tuding vaksin covid 19 aman dasar
vaksin covid 19 bahaya akibat fenomena gantung kebal tubuh
lahh nasib lah pandemi covid 19 elak negara super power goncang indonesia negara kembang apalgi rakyat tolol suruh vaksin gratis bagaimana bayar
sebar berita palsu temu facebook 2463 konten berita palsu putar vaksin covid 19
kareem saran tumpang bawa hasil cetak dokumen syarat asli sertifikat vaksin hasil negatif tes covid 19 bandara berangkat antisipasi butuh robby
147 juta orang terima vaksin covid 19 dosis lengkap idcorner
oh insentif covid kak rumah sakit awat r isolasi khusus covid vaksin mmng sk tentu kemenkes kakmohon koreksi salah
bm skrang masuk fasa endemicperatus covid target menteri kesihatan malaysia sakit kritikal kurang rumah sakit tidak ada la katil2 penuh sakit covid jadi ambil la vaksin paya kurang gejala serius
vaksinbooster vaksinasi c

edukasi wali murid mi an nazwa vaksin covid 19 oleh bhabinkamtibmas
covid suda usai wathoni 20 sini ngibul omipret siluman gubernur florida tegur mahasiswa pakai masker bilang kopit selesai lega banget yak merdeka covid vaksin masker yangpentinghalal drama otw
anak hebat anti fucksintop terkiniwow anak sampai dengan mempan suntik vaksin anak sd vaksin covid aneh tahan hadap
iring tingkat sebar varian covid 19 omicron menteri sehat terbit surat edar kait laksana akselarasi vaksinasi dosis lanjut beri dosis 3 upaya baik efektifitas vaksin primer turun
departemen agama islam selangor jadi vaksinbooster covid 19 syarat shalat jumat
covid sakit bikin susah banget gejala akhir2 alhamdulillah ringan vaksin after sickny lho keluh badan ya gampang sakit radang susah makan badan gampang cape dan lain2
jabat sehat negeri jkn pahang maklum serama 40150 kanak usia 11 negeri terima sunti vaksin terusi program imunisasi covid 19 bangsa kanak vaksin untuk anak malaysia berita kini
tiada arah niaga baz

kawal cepat vaksinasi kodim 0819 pasuruan kerah babinsa jajar kita masyarakat vaksin covid 19 anggota bintara bina desa babinsa koramil 081905 grati serda puji utomo
sarawak capai 528 atus kanak terima vaksin covid 19 program imunisasi covid 19 bangsa kanak vaksin untuk anak mula 3 februari
personel polsek salapian laksana mobilisasi warga kantor pos tanjung langkat ambil bantu dana bnpt susul laksana vaksin covid 19 warga vaksin sekdes bawa warga 7 9 orang
ayo vaksin demi tuntas pandemi covid 19
umat islam negeri sembilan sunti dosis lengkap vaksin covid 19 tunai solat masjid surau prosedur operasi standard standar operasi prosedur tetap kekal
4 manfaat vaksin covid jaga protokol sehat vaksin indonesia sehat indonesia hebat satu lawan covid 19 negeri pulih dengan vaksin
1april2022yb kj sunti vaksin covid 19 terima adalah menteri sehat malaysia tipu malaysia pm
waspada info berita palsu vaksin covid 19 nusantara disiplin protokol sehat
vaksin 2 kali bebas covid 19
menteri sehat kemenke

Unnamed: 0,username,tanggal,tweet
0,pkmjangkar,2022-03-07 23:58:20,update jadwal vaksinasi covid 19 upt puskesmas...
1,CNNIndonesia,2022-03-07 23:57:03,syarat jalan polymerase chain reaction antigen...
2,DindaNatasha15,2022-03-07 23:56:48,perintah pasti vaksin covid 19 bukti aman uji ...
3,juvejack,2022-03-07 23:49:31,menko maritim investasi luhut pandjaitan tanga...
4,nengsunshine,2022-03-07 23:47:55,ok google negatif covid vaksin
