# PreProcessing Data
Data preprocessing adalah proses yang mengubah data mentah ke dalam bentuk yang lebih mudah dipahami. Proses ini penting dilakukan karena data mentah sering kali tidak memiliki format yang teratur. Selain itu, data mining juga tidak dapat memproses data mentah, sehingga proses ini sangat penting dilakukan untuk mempermudah proses berikutnya, yakni analisis data.

## Pandas
Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. 

### Install Pandas

In [2]:
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### Import Pandas

In [3]:
import pandas as pd
import numpy as np

## Sastrawi
Python Sastrawi adalah pengembangan dari proyek PHP Sastrawi. Python Sastrawi merupakan library sederhana yang dapat mengubah kata berimbuhan bahasa Indonesia menjadi bentuk dasarnya.

### Install Sastrawi

In [4]:
!pip install Sastrawi

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[K     |████████████████████████████████| 209 kB 5.1 MB/s 
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


## Swifter
Swifter adalah Paket yang secara efisien menerapkan fungsi apa pun ke kerangka data atau seri panda dengan cara tercepat yang tersedia 

### Install Swifter

In [5]:
!pip install swifter

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting swifter
  Downloading swifter-1.3.4.tar.gz (830 kB)
[K     |████████████████████████████████| 830 kB 4.9 MB/s 
Collecting psutil>=5.6.6
  Downloading psutil-5.9.2-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (281 kB)
[K     |████████████████████████████████| 281 kB 46.9 MB/s 
Collecting jedi>=0.10
  Downloading jedi-0.18.1-py2.py3-none-any.whl (1.6 MB)
[K     |████████████████████████████████| 1.6 MB 46.1 MB/s 
Building wheels for collected packages: swifter
  Building wheel for swifter (setup.py) ... [?25l[?25hdone
  Created wheel for swifter: filename=swifter-1.3.4-py3-none-any.whl size=16322 sha256=919ff07959579e4f7b760969d5b32e99b5904e6d06b36d307cca5103291c85fc
  Stored in directory: /root/.cache/pip/wheels/29/a7/0e/3a8f17ac69d759e1e93647114bc9bdc95957e5b0cbfd405205
Successfully built swifter
Installing collected 

## Natural Language Toolkit (NLTK)
Natural Language Toolkit (NLTK) adalah sebuah platform yang digunakan untuk membangun program analisis teks. Platform ini awalnya dirilis oleh Steven Bird dan Edward Loper dalam kaitannya dengan mata kuliah komputasi linguistik di Universitas Pennsylvania pada tahun 2001. Ada sebuah buku pegangan untuk platform tersebut dengan judul Natural Language Processing dengan Python.

### Install NLTK

In [6]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Mengambil Data dari gDrive

In [7]:
data = pd.read_csv("twint/utm.csv")
data

Unnamed: 0,tweet,label
0,PENANDATANGANAN NOTA KESEPAHAMAN DAN PERJANJIA...,pro
1,DESA BINAAN BERBASIS POTENSI LOKAL “ PENTING...,pro
2,Download Logo Universitas Trunojoyo Madura Vec...,pro
3,[Unit Kegiatan Mahasiswa Universitas Trunojoyo...,pro
4,KONGRES IKATAN ALUMNI FAKULTAS HUKUM UNIVERSIT...,pro
5,[UKM PADUAN SUARA GOLDEN UNIVERSITAS TRUNOJOYO...,pro
6,BEDAH BUKU BIOGRAFI SYAICHONA MOH. CHOLIL GURU...,pro
7,@sbmptnfess Universitas trunojoyo madura,pro
8,Anggota kelompok : -Mohammad Afrizal (22011110...,pro
9,Anggota kelompok : -Mohammad Afrizal (22011110...,pro


## Case Folding
Tahap untuk merubah teks yang memiliki huruf kapital menjadi huruf kecil

In [8]:
data['tweet'] = data['tweet'].str.lower()
data['tweet']

0     penandatanganan nota kesepahaman dan perjanjia...
1     desa binaan  berbasis potensi lokal  “ penting...
2     download logo universitas trunojoyo madura vec...
3     [unit kegiatan mahasiswa universitas trunojoyo...
4     kongres ikatan alumni fakultas hukum universit...
5     [ukm paduan suara golden universitas trunojoyo...
6     bedah buku biografi syaichona moh. cholil guru...
7              @sbmptnfess universitas trunojoyo madura
8     anggota kelompok : -mohammad afrizal (22011110...
9     anggota kelompok : -mohammad afrizal (22011110...
10    @convomfs utm. universitas trunojoyo madura mu...
11    [ukm paduan suara golden universitas trunojoyo...
12    baru saja mengirim foto @ universitas trunojoy...
13    universitas trunojoyo madura. ukt paling tingg...
14    apakah langkah partai nasdem terlalu cepat ?  ...
15    1. wakil ketua mk aswanto memberikan ceramah d...
16    [ukm paduan suara golden universitas trunojoyo...
17    [ukm paduan suara golden universitas truno

## Menghapus Karakter Spesial

In [9]:
import string 
import re #regex library
# import word_tokenize & FreqDist from NLTK

from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist

# ------ Tokenizing ---------

def remove_special(text):
    # remove tab, new line, ans back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\'," ").replace('\\f'," ").replace('\\r'," ")
    # remove non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')
    # remove mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # remove incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
                
data['tweet'] = data['tweet'].apply(remove_special)
data['tweet']

0     penandatanganan nota kesepahaman dan perjanjia...
1     desa binaan berbasis potensi lokal ? pentingny...
2     download logo universitas trunojoyo madura vector
3     [unit kegiatan mahasiswa universitas trunojoyo...
4     kongres ikatan alumni fakultas hukum universit...
5     [ukm paduan suara golden universitas trunojoyo...
6     bedah buku biografi syaichona moh. cholil guru...
7                          universitas trunojoyo madura
8     anggota kelompok : -mohammad afrizal (22011110...
9     anggota kelompok : -mohammad afrizal (22011110...
10    utm. universitas trunojoyo madura murceee. ukt...
11    [ukm paduan suara golden universitas trunojoyo...
12    baru saja mengirim foto @ universitas trunojoy...
13    universitas trunojoyo madura. ukt paling tingg...
14    apakah langkah partai nasdem terlalu cepat ? l...
15    1. wakil ketua mk aswanto memberikan ceramah d...
16    [ukm paduan suara golden universitas trunojoyo...
17    [ukm paduan suara golden universitas truno

## Menghapus Angka

In [10]:
def remove_number(text):
    return  re.sub(r"\d+", "", text)

data['tweet'] = data['tweet'].apply(remove_number)
data['tweet']

0     penandatanganan nota kesepahaman dan perjanjia...
1     desa binaan berbasis potensi lokal ? pentingny...
2     download logo universitas trunojoyo madura vector
3     [unit kegiatan mahasiswa universitas trunojoyo...
4     kongres ikatan alumni fakultas hukum universit...
5     [ukm paduan suara golden universitas trunojoyo...
6     bedah buku biografi syaichona moh. cholil guru...
7                          universitas trunojoyo madura
8     anggota kelompok : -mohammad afrizal () - novi...
9     anggota kelompok : -mohammad afrizal () - novi...
10    utm. universitas trunojoyo madura murceee. ukt...
11    [ukm paduan suara golden universitas trunojoyo...
12    baru saja mengirim foto @ universitas trunojoy...
13    universitas trunojoyo madura. ukt paling tingg...
14    apakah langkah partai nasdem terlalu cepat ? l...
15    . wakil ketua mk aswanto memberikan ceramah da...
16    [ukm paduan suara golden universitas trunojoyo...
17    [ukm paduan suara golden universitas truno

## Menghapus Tanda Baca

In [11]:
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

data['tweet'] = data['tweet'].apply(remove_punctuation)
data['tweet']

0     penandatanganan nota kesepahaman dan perjanjia...
1     desa binaan berbasis potensi lokal  pentingnya...
2     download logo universitas trunojoyo madura vector
3     unit kegiatan mahasiswa universitas trunojoyo ...
4     kongres ikatan alumni fakultas hukum universit...
5     ukm paduan suara golden universitas trunojoyo ...
6     bedah buku biografi syaichona moh cholil guru ...
7                          universitas trunojoyo madura
8     anggota kelompok  mohammad afrizal   novi tri ...
9     anggota kelompok  mohammad afrizal   novi tri ...
10    utm universitas trunojoyo madura murceee ukt t...
11    ukm paduan suara golden universitas trunojoyo ...
12    baru saja mengirim foto  universitas trunojoyo...
13    universitas trunojoyo madura ukt paling tinggi...
14    apakah langkah partai nasdem terlalu cepat  li...
15     wakil ketua mk aswanto memberikan ceramah dal...
16    ukm paduan suara golden universitas trunojoyo ...
17    ukm paduan suara golden universitas trunoj

## Menghapus Spasi

In [12]:
#remove whitespace leading & trailing
def remove_whitespace_LT(text):
    return text.strip()

data['tweet'] = data['tweet'].apply(remove_whitespace_LT)


#remove multiple whitespace into single whitespace
def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

data['tweet'] = data['tweet'].apply(remove_whitespace_multiple)
data['tweet']

0     penandatanganan nota kesepahaman dan perjanjia...
1     desa binaan berbasis potensi lokal pentingnya ...
2     download logo universitas trunojoyo madura vector
3     unit kegiatan mahasiswa universitas trunojoyo ...
4     kongres ikatan alumni fakultas hukum universit...
5     ukm paduan suara golden universitas trunojoyo ...
6     bedah buku biografi syaichona moh cholil guru ...
7                          universitas trunojoyo madura
8     anggota kelompok mohammad afrizal novi tri ulf...
9     anggota kelompok mohammad afrizal novi tri ulf...
10    utm universitas trunojoyo madura murceee ukt t...
11    ukm paduan suara golden universitas trunojoyo ...
12    baru saja mengirim foto universitas trunojoyo ...
13    universitas trunojoyo madura ukt paling tinggi...
14    apakah langkah partai nasdem terlalu cepat liv...
15    wakil ketua mk aswanto memberikan ceramah dala...
16    ukm paduan suara golden universitas trunojoyo ...
17    ukm paduan suara golden universitas trunoj

## Menghapus huruf Tunggal

In [13]:
# remove single char
def remove_singl_char(text):
    return re.sub(r"\b[a-zA-Z]\b", " ", text)

data['tweet'] = data['tweet'].apply(remove_singl_char)
data['tweet']

0     penandatanganan nota kesepahaman dan perjanjia...
1     desa binaan berbasis potensi lokal pentingnya ...
2     download logo universitas trunojoyo madura vector
3     unit kegiatan mahasiswa universitas trunojoyo ...
4     kongres ikatan alumni fakultas hukum universit...
5     ukm paduan suara golden universitas trunojoyo ...
6     bedah buku biografi syaichona moh cholil guru ...
7                          universitas trunojoyo madura
8     anggota kelompok mohammad afrizal novi tri ulf...
9     anggota kelompok mohammad afrizal novi tri ulf...
10    utm universitas trunojoyo madura murceee ukt t...
11    ukm paduan suara golden universitas trunojoyo ...
12    baru saja mengirim foto universitas trunojoyo ...
13    universitas trunojoyo madura ukt paling tinggi...
14    apakah langkah partai nasdem terlalu cepat liv...
15    wakil ketua mk aswanto memberikan ceramah dala...
16    ukm paduan suara golden universitas trunojoyo ...
17    ukm paduan suara golden universitas trunoj

## Tokenizing
Tokenizing adalah proses pemisahan teks menjadi potongan-potongan yang disebut sebagai token untuk kemudian di analisa. Kata, angka, simbol, tanda baca dan entitas penting lainnya dapat dianggap sebagai token

In [14]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [15]:
# NLTK word Tokenize 
def word_tokenize_wrapper(text):
    return word_tokenize(text)

data['tweet'] = data['tweet'].apply(word_tokenize_wrapper)
data['tweet']

0     [penandatanganan, nota, kesepahaman, dan, perj...
1     [desa, binaan, berbasis, potensi, lokal, penti...
2     [download, logo, universitas, trunojoyo, madur...
3     [unit, kegiatan, mahasiswa, universitas, truno...
4     [kongres, ikatan, alumni, fakultas, hukum, uni...
5     [ukm, paduan, suara, golden, universitas, trun...
6     [bedah, buku, biografi, syaichona, moh, cholil...
7                      [universitas, trunojoyo, madura]
8     [anggota, kelompok, mohammad, afrizal, novi, t...
9     [anggota, kelompok, mohammad, afrizal, novi, t...
10    [utm, universitas, trunojoyo, madura, murceee,...
11    [ukm, paduan, suara, golden, universitas, trun...
12    [baru, saja, mengirim, foto, universitas, trun...
13    [universitas, trunojoyo, madura, ukt, paling, ...
14    [apakah, langkah, partai, nasdem, terlalu, cep...
15    [wakil, ketua, mk, aswanto, memberikan, cerama...
16    [ukm, paduan, suara, golden, universitas, trun...
17    [ukm, paduan, suara, golden, universitas, 

## Filtering
Proses untuk menghapus kata hubung atau kata yang tidak memiliki makna

In [16]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [17]:
list_stopwords = stopwords.words('indonesian')

#Menghapus Stopword dari list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]

data['tweet'] = data['tweet'].apply(stopwords_removal)

data['tweet']

0     [penandatanganan, nota, kesepahaman, perjanjia...
1     [desa, binaan, berbasis, potensi, lokal, kesad...
2     [download, logo, universitas, trunojoyo, madur...
3     [unit, kegiatan, mahasiswa, universitas, truno...
4     [kongres, ikatan, alumni, fakultas, hukum, uni...
5     [ukm, paduan, suara, golden, universitas, trun...
6     [bedah, buku, biografi, syaichona, moh, cholil...
7                      [universitas, trunojoyo, madura]
8     [anggota, kelompok, mohammad, afrizal, novi, t...
9     [anggota, kelompok, mohammad, afrizal, novi, t...
10    [utm, universitas, trunojoyo, madura, murceee,...
11    [ukm, paduan, suara, golden, universitas, trun...
12     [mengirim, foto, universitas, trunojoyo, madura]
13    [universitas, trunojoyo, madura, ukt, tingginy...
14    [langkah, partai, nasdem, cepat, live, ketua, ...
15    [wakil, ketua, mk, aswanto, ceramah, kegiatan,...
16    [ukm, paduan, suara, golden, universitas, trun...
17    [ukm, paduan, suara, golden, universitas, 

## Stemming
Data training hasil dari filtering akan dilakukan pengecekan atau pencarian kata-kata yang sesuai dengan kamus umum. Apabila data training hasil filtering sesuai dengan kamus umum maka kata akan dikeluarkan sementara, karena sudah dianggap sebagai kata dasar. Apabila masih terdapat kata yang tidak termasuk dalam kata dasar maka tahap selanjutnya adalah menghapus inflection suffixes yang merupakan akhiran pertama. Kata yang memiliki akhiran partticles seperti “-pun”, “-kah”, “-tah”, “- lah” dan akhiran possessive pronoun seperti “-mu”, “-ku” dan “-nya” dihilangkan. Setelah dilakukan proses case folding, tokenezing, dan filtering, proses selanjutnya yaitu stemming. Stemming yang digunakan pada penelitian ini menggunakan algoritma Enhanced Confix Stipping Stemmer, terdiri dari beberapa langkah: Data training hasil dari filtering akan dilakukan pengecekan atau pencarian kata-kata yang sesuai dengan kamus umum. Apabila data training hasil filtering sesuai dengan kamus umum maka kata akan dikeluarkan sementara, karena sudah dianggap sebagai kata dasar. Apabila masih terdapat kata yang tidak termasuk dalam kata dasar maka tahap selanjutnya adalah menghapus inflection suffixes yang merupakan akhiran pertama. Kata yang memiliki akhiran partticles seperti “-pun”, “-kah”, “-tah”, “- lah” dan akhiran possessive pronoun seperti “-mu”, “-ku” dan “-nya” dihilangkan.

In [18]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import swifter

# create stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# stemmed
def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}

for document in data['tweet']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '
            
print(len(term_dict))
print("------------------------")

for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    print(term,":" ,term_dict[term])
    
print(term_dict)
print("------------------------")

# apply stemmed term to dataframe
def get_stemmed_term(document):
    return [term_dict[term] for term in document]

data['tweet'] = data['tweet'].swifter.apply(get_stemmed_term)
data['tweet']

165
------------------------
penandatanganan : penandatanganan
nota : nota
kesepahaman : paham
perjanjian : janji
kerja : kerja
universitas : universitas
trunojoyo : trunojoyo
madura : madura
ruang : ruang
guru : guru
tri : tri
dharma : dharma
perguruan : guru
desa : desa
binaan : bina
berbasis : bas
potensi : potensi
lokal : lokal
kesadaran : sadar
hukum : hukum
masyarakat : masyarakat
bira : bira
kabupaten : kabupaten
sampang : sampang
rangka : rangka
dies : dies
natalis : natalis
fakultas : fakultas
download : download
logo : logo
vector : vector
unit : unit
kegiatan : giat
mahasiswa : mahasiswa
hello : hello
choristers : choristers
were : were
comeback : comeback
so : so
kali : kali
ps : ps
golden : golden
mengadakan : ada
choral : choral
clinic : clinic
dilaksanakan : laksana
minggu : minggu
tanggal : tanggal
oktober : oktober
selesai : selesai
aula : aula
rkb : rkb
kongres : kongres
ikatan : ikat
alumni : alumni
kolaborasi : kolaborasi
mewujudkan : wujud
utm : utm
kompak : kompak

Pandas Apply:   0%|          | 0/18 [00:00<?, ?it/s]

0     [penandatanganan, nota, paham, janji, kerja, u...
1     [desa, bina, bas, potensi, lokal, sadar, hukum...
2     [download, logo, universitas, trunojoyo, madur...
3     [unit, giat, mahasiswa, universitas, trunojoyo...
4     [kongres, ikat, alumni, fakultas, hukum, unive...
5     [ukm, padu, suara, golden, universitas, trunoj...
6     [bedah, buku, biografi, syaichona, moh, cholil...
7                      [universitas, trunojoyo, madura]
8     [anggota, kelompok, mohammad, afrizal, novi, t...
9     [anggota, kelompok, mohammad, afrizal, novi, t...
10    [utm, universitas, trunojoyo, madura, murceee,...
11    [ukm, padu, suara, golden, universitas, trunoj...
12        [kirim, foto, universitas, trunojoyo, madura]
13    [universitas, trunojoyo, madura, ukt, tinggi, ...
14    [langkah, partai, nasdem, cepat, live, ketua, ...
15    [wakil, ketua, mk, aswanto, ceramah, giat, nga...
16    [ukm, padu, suara, golden, universitas, trunoj...
17    [ukm, padu, suara, golden, universitas, tr

## Menyimpan ke File CSV

In [19]:
data.to_csv('preprocessing.csv')