# 
# Dokumen ini menjelaskan tentang preprocessing teks yang meliputi beberapa langkah penting seperti mengubah teks menjadi huruf kecil, menghilangkan stopwords, melakukan stemming, dan normalisasi teks.

 Pada cell pertama, kita membaca file CSV yang berisi tweet dan mengubah semua teks di kolom 'message to examine' menjadi huruf kecil. Kemudian, kita menyimpan 100 baris pertama dari data yang sudah diubah menjadi huruf kecil ke dalam file baru bernama 'lowercased_tweets.csv'.

 Pada cell ketiga, kita menggunakan NLTK untuk mengunduh dan memuat stopwords dalam bahasa Inggris. Setelah itu, kita menghilangkan stopwords dari setiap pesan di kolom 'message to examine' dan menyimpan hasilnya ke dalam kolom baru bernama 'message_no_stopwords'. Hasilnya ditampilkan dengan menampilkan 5 baris pertama dari dataframe yang sudah dihilangkan stopwords-nya.

 Pada cell keempat, kita melakukan stemming pada teks yang sudah dihilangkan stopwords-nya. Pertama, kita mengunduh data 'punkt' dari NLTK untuk keperluan tokenisasi. Kemudian, kita melakukan tokenisasi pada teks dan melakukan stemming pada token-token tersebut menggunakan PorterStemmer. Hasil stemming kemudian digabungkan kembali menjadi teks yang sudah dinormalisasi.

 Secara keseluruhan, dokumen ini memberikan panduan langkah demi langkah untuk melakukan preprocessing teks yang meliputi lower casing, penghilangan stopwords, stemming, dan normalisasi teks menggunakan Python dan NLTK.


In [2]:
import pandas as pd

file_path = 'sentiment_tweets.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Mengubah semua teks di kolom 'message to examine' menjadi huruf kecil
df['message to examine'] = df['message to examine'].str.lower()

# Mengambil 100 baris pertama dari dataframe
df_head_100 = df.head(100)

# Menyimpan 100 baris pertama yang sudah diubah menjadi huruf kecil ke file baru
df_head_100.to_csv('lowercased_tweets.csv', index=False)

# Menampilkan pesan bahwa dataset telah disimpan
print('Lowercased dataset saved to lowercased_tweets.csv')

with open('lowercased_tweets.csv', 'r') as file:
    for _ in range(5):
        print(file.readline())

Lowercased dataset saved to lowercased_tweets.csv
Index,message to examine,label (depression result)

106,"just had a real good moment. i missssssssss him so much, ",0

217,is reading manga  http://plurk.com/p/mzp1e,0

220,@comeagainjen http://twitpic.com/2y2lx - http://www.youtube.com/watch?v=zogfqvh2me8 ,0

288,"@lapcat need to send 'em to my accountant tomorrow. oddly, i wasn't even referring to my taxes. those are supporting evidence, though. ",0



In [11]:
import nltk
from nltk.corpus import stopwords

# Langkah 1: Unduh stopwords (jika Anda belum melakukannya)
nltk.download('stopwords')

# Langkah 2: Muat dataset Anda dari file CSV
df_stopwords = pd.read_csv(file_path)

# Langkah 3: Ubah semua teks di kolom 'message to examine' menjadi huruf kecil
df_stopwords['message to examine'] = df_stopwords['message to examine'].str.lower()

# Langkah 4: Ambil daftar stopwords dalam bahasa Inggris
stop_words = set(stopwords.words('english'))

# Langkah 5: Hilangkan stopwords dari setiap pesan di kolom 'message to examine'
df_stopwords['message_no_stopwords'] = df_stopwords['message to examine'].apply(
    lambda x: ' '.join(word for word in x.split() if word not in stop_words)
)

# Langkah 6: Tampilkan 5 baris pertama dari dataframe yang sudah dihilangkan stopwords-nya
df_stopwords.head()
print(df_stopwords[['Index', 'message to examine', 'message_no_stopwords']].head())

   Index                                 message to examine  \
0    106  just had a real good moment. i missssssssss hi...   
1    217         is reading manga  http://plurk.com/p/mzp1e   
2    220  @comeagainjen http://twitpic.com/2y2lx - http:...   
3    288  @lapcat need to send 'em to my accountant tomo...   
4    540      add me on myspace!!!  myspace.com/lookthunder   

                                message_no_stopwords  
0               real good moment. missssssssss much,  
1             reading manga http://plurk.com/p/mzp1e  
2  @comeagainjen http://twitpic.com/2y2lx - http:...  
3  @lapcat need send 'em accountant tomorrow. odd...  
4             add myspace!!! myspace.com/lookthunder  


[nltk_data] Error loading stopwords: <urlopen error [SSL:
[nltk_data]     CERTIFICATE_VERIFY_FAILED] certificate verify failed:
[nltk_data]     unable to get local issuer certificate (_ssl.c:997)>


In [15]:
import nltk
from nltk.stem import PorterStemmer

# Mengunduh data 'punkt' dari NLTK
nltk.download('punkt')

df_stemming = df_stopwords

# Tokenisasi teks yang sudah dihilangkan stopwords-nya
df_stemming['tokens'] = df_stemming['message_no_stopwords'].apply(nltk.word_tokenize)

stemmer = PorterStemmer()

# Melakukan stemming pada token-token
df_stemming['stemmed'] = df_stemming['tokens'].apply(lambda x: [stemmer.stem(word) for word in x])

# Menggabungkan kembali token-token yang sudah di-stem menjadi teks
df_stemming['stemmed_text'] = df_stemming['stemmed'].apply(lambda x: ' '.join(x))

# Menampilkan 5 baris pertama dari dataframe yang sudah di-stem
print(df_stemming[['Index', 'message_no_stopwords', 'stemmed_text']].head())


[nltk_data] Error loading punkt: <urlopen error [SSL:
[nltk_data]     CERTIFICATE_VERIFY_FAILED] certificate verify failed:
[nltk_data]     unable to get local issuer certificate (_ssl.c:997)>


   Index                               message_no_stopwords  \
0    106               real good moment. missssssssss much,   
1    217             reading manga http://plurk.com/p/mzp1e   
2    220  @comeagainjen http://twitpic.com/2y2lx - http:...   
3    288  @lapcat need send 'em accountant tomorrow. odd...   
4    540             add myspace!!! myspace.com/lookthunder   

                                        stemmed_text  
0             real good moment . missssssssss much ,  
1               read manga http : //plurk.com/p/mzp1  
2  @ comeagainjen http : //twitpic.com/2y2lx - ht...  
3  @ lapcat need send 'em account tomorrow . oddl...  
4             add myspac ! ! ! myspace.com/lookthund  


In [16]:
import re

# Salin df_stemming ke df_normalization
df_normalization = df_stemming.copy()

# Contoh kamus singkatan (Anda dapat menggantinya dengan yang lebih lengkap)
abbreviations = {
    "u": "you",
    "r": "are",
    "c": "see",
    "b4": "before",
    "gtg": "got to go",
    "lol": "laugh out loud",
    "idk": "I don't know",
    "smh": "shaking my head",
    "btw": "by the way",
    "omg": "oh my god",
    "tbh": "to be honest",
    "brb": "be right back",
    "afk": "away from keyboard",
    "bff": "best friends forever",
    "fyi": "for your information",
    "imo": "in my opinion",
    "irl": "in real life",
    "jk": "just kidding",
    "np": "no problem",
    "rofl": "rolling on the floor laughing",
    "ttyl": "talk to you later",
    "wfh": "work from home",
    "wtf": "what the f***",
    "yw": "you're welcome",
    "asap": "as soon as possible",
    "dm": "direct message",
    "tba": "to be announced",
    "tbd": "to be determined",
    "ftw": "for the win",
    "nvm": "never mind",
    "omw": "on my way",
    "ppl": "people",
    "thx": "thanks",
    "gr8": "great",
    "bday": "birthday",
    "hmu": "hit me up",
    "icymi": "in case you missed it",
    "imo": "in my opinion",
    "lmk": "let me know",
    "np": "no problem",
    "rn": "right now",
    "tmi": "too much information",
    "ttys": "talk to you soon",
    "wbu": "what about you",
    "wyd": "what are you doing",
    # Tambahkan lebih banyak singkatan sesuai kebutuhan
}

# Fungsi untuk normalisasi
def normalize_text(text):
    # Ubah ke huruf kecil
    text = text.lower()
    
    # Hapus tanda baca dan karakter khusus
    text = re.sub(r'[^\w\s]', '', text)
    
    # Ganti singkatan umum menggunakan kamus
    for abbr, full in abbreviations.items():
        text = re.sub(r'\b' + re.escape(abbr) + r'\b', full, text)

    return text

# Terapkan normalisasi ke kolom 'stemmed_text'
df_normalization['normalized_text'] = df_normalization['stemmed_text'].apply(normalize_text)

# Tampilkan teks asli yang sudah di-stem dan teks yang sudah dinormalisasi
print(df_normalization[['Index', 'message to examine', 'stemmed_text', 'normalized_text']].head())

   Index                                 message to examine  \
0    106  just had a real good moment. i missssssssss hi...   
1    217         is reading manga  http://plurk.com/p/mzp1e   
2    220  @comeagainjen http://twitpic.com/2y2lx - http:...   
3    288  @lapcat need to send 'em to my accountant tomo...   
4    540      add me on myspace!!!  myspace.com/lookthunder   

                                        stemmed_text  \
0             real good moment . missssssssss much ,   
1               read manga http : //plurk.com/p/mzp1   
2  @ comeagainjen http : //twitpic.com/2y2lx - ht...   
3  @ lapcat need send 'em account tomorrow . oddl...   
4             add myspac ! ! ! myspace.com/lookthund   

                                     normalized_text  
0               real good moment  missssssssss much   
1                     read manga http  plurkcompmzp1  
2   comeagainjen http  twitpiccom2y2lx  http  www...  
3   lapcat need send em account tomorrow  oddli  ...  
4        