***TEXT PROCESSING***

Text Processing merupakan bagian dari Machine Learning.

In [1]:
import numpy as np
import pandas as pd
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.stem import WordNetLemmatizer, PorterStemmer, LancasterStemmer, SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
import re
import string
import nltk
from nltk.corpus import stopwords, wordnet
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Ajie\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Ajie\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Ajie\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

#### Library yang digunakan

In [2]:
labeled_data = pd.read_csv('labeled_data.csv', index_col=0)
labeled_data.head()

Unnamed: 0,count,hate_speech,offensive_language,neither,class,tweet
0,3,0,0,3,2,!!! RT @mayasolovely: As a woman you shouldn't...
1,3,0,3,0,1,!!!!! RT @mleew17: boy dats cold...tyga dwn ba...
2,3,0,3,0,1,!!!!!!! RT @UrKindOfBrand Dawg!!!! RT @80sbaby...
3,3,0,2,1,1,!!!!!!!!! RT @C_G_Anderson: @viva_based she lo...
4,6,0,6,0,1,!!!!!!!!!!!!! RT @ShenikaRoberts: The shit you...


In [3]:
labeled_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 24783 entries, 0 to 25296
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   count               24783 non-null  int64 
 1   hate_speech         24783 non-null  int64 
 2   offensive_language  24783 non-null  int64 
 3   neither             24783 non-null  int64 
 4   class               24783 non-null  int64 
 5   tweet               24783 non-null  object
dtypes: int64(5), object(1)
memory usage: 1.3+ MB


***Melakukan Teks Pre-Processing***

Text Preprocessing adalah salah satu bagian dari Natural Language Processing (NLP) dan merupakan tahapan paling awal sebelum masuk ke dalam proses inti pengolahan data. Text Preprocessing berfungsi dalam mempersiapkan data yang digunakan agar lebih terstruktur dan efektif. NLP merupakan teknologi Artificial Intelligence (AI) yang digunakan untuk mengubah data inti dari suatu dokumen berbentuk teks (text form) menjadi suatu data kuantitatif berbentuk angka (numerical form) secara cepat. Sehingga, data dapat diproses lebih lanjut seperti, dilakukan klasifikasi,clustering, dan sebagainya.

In [4]:
tweet = labeled_data['tweet']
print(tweet)

0        !!! RT @mayasolovely: As a woman you shouldn't...
1        !!!!! RT @mleew17: boy dats cold...tyga dwn ba...
2        !!!!!!! RT @UrKindOfBrand Dawg!!!! RT @80sbaby...
3        !!!!!!!!! RT @C_G_Anderson: @viva_based she lo...
4        !!!!!!!!!!!!! RT @ShenikaRoberts: The shit you...
                               ...                        
25291    you's a muthaf***in lie &#8220;@LifeAsKing: @2...
25292    you've gone and broke the wrong heart baby, an...
25294    young buck wanna eat!!.. dat nigguh like I ain...
25295                youu got wild bitches tellin you lies
25296    ~~Ruffled | Ntac Eileen Dahlia - Beautiful col...
Name: tweet, Length: 24783, dtype: object


#### Function Teks Pre Processing

In [5]:
def clean(text):
    text = text.lower()  # Lowercase text
    text = re.sub(r'\d+', '', text.lower())  # Clear Number
    text = text.translate(str.maketrans("", "", string.punctuation))  # Clear  !@#$##&$*(%)
    text = text.strip()  # Bersihkan whitespaces (karakter karakter yang aneh/tak terlihat)
    return text

**Penerapan/Apply Fungsi pada salah satu feature**

In [6]:
tweet = tweet.apply(clean)
tweet

0        rt mayasolovely as a woman you shouldnt compla...
1        rt mleew boy dats coldtyga dwn bad for cuffin ...
2        rt urkindofbrand dawg rt sbabylife you ever fu...
3           rt cganderson vivabased she look like a tranny
4        rt shenikaroberts the shit you hear about me m...
                               ...                        
25291    yous a muthafin lie lifeasking pearls coreyema...
25292    youve gone and broke the wrong heart baby and ...
25294    young buck wanna eat dat nigguh like i aint fu...
25295                youu got wild bitches tellin you lies
25296    ruffled  ntac eileen dahlia  beautiful color c...
Name: tweet, Length: 24783, dtype: object

In [7]:
pip install nltk 




In [8]:
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()
stop_words = set(stopwords.words('english'))

Perbedaan antara stemmer dan Lemmatizer adalah, Lemmatizer mempertimbangkan konteks dan mengubah kata menjadi bentuk dasarnya yang berarti, sedangkan stemmer hanya menghilangkan beberapa karakter terakhir, seringkali menyebabkan kesalahan arti dan ejaan.

‘Caring’ -> lemmatizer -> ‘Care’
‘Caring’ -> stemmer -> ‘Car’

In [9]:
def tokenstem(text):
    words = word_tokenize(text)
    filtered = []
    for w in words:
        if w not in stop_words:
            w = lemmatizer.lemmatize(w)
            w = stemmer.stem(w)
            filtered.append(w)
    return filtered

In [10]:
tweet = tweet.apply(tokenstem)
tweet

0        [rt, mayasolov, woman, shouldnt, complain, cle...
1        [rt, mleew, boy, dat, coldtyga, dwn, bad, cuff...
2        [rt, urkindofbrand, dawg, rt, sbabylif, ever, ...
3            [rt, cganderson, vivabas, look, like, tranni]
4        [rt, shenikarobert, shit, hear, might, true, m...
                               ...                        
25291    [you, muthafin, lie, lifeask, pearl, coreyeman...
25292    [youv, gone, broke, wrong, heart, babi, drove,...
25294    [young, buck, wan, na, eat, dat, nigguh, like,...
25295                [youu, got, wild, bitch, tellin, lie]
25296    [ruffl, ntac, eileen, dahlia, beauti, color, c...
Name: tweet, Length: 24783, dtype: object

**Penjelasan**

Lowercase = Fungsi yang mengubah huruf kapital menjadi huruf kecil.

Regular Expression = Fungsi yang digunakan untuk menghapus angka.

Punctuation = Fungsi yang digunakan untuk menghapus tanda baca.

Fungsi strip, digunakan untuk menghapus white space yaitu spasi di awal ataupun di akhir kalimat.

Tokenize = Proses pemisahan menjadi potongan kata.

Lemmatizer = Menghilangkan akhiran infleksi dari suatu kata dan mengembalikan kata tersebut menjadi kata dasarnya, sebagai contohnya kata runs, running, dan ran akan diubah menjadi kata dasarnya yaitu run.

Stemming = Tahapan pencarian dan pengubahan kata dasar dari tiap kata hasil Filtering.

Stop Words = Kata umum yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Seperti, 'the'.

Setelah dilakukannya text pre processing, maka selanjutnya data bisa mulai diproses dengan mengubahnya terlebih dahulu ke dalam bentuk angka. Setelah diubah, maka data akan mulai diproses menggunakan Machine Learning.