## Problem

Cleaning textual data in the 'Artikel' column of the given dataframe by removing stopwords, numeric, symbolic, and meaningless words.

## Objective

Preprocess the textual data in the 'Artikel' column to obtain a cleaned version of the text, where stopwords, numeric, symbolic, and meaningless words have been removed. The objective is to make the text more meaningful and suitable for further analysis or natural language processing tasks.

## Hints

1. Utilize the NLTK library for text preprocessing tasks like tokenization and removing stopwords.
2. Tokenize the words in each article using the `word_tokenize()` function from NLTK.
3. Download the list of stopwords using `nltk.download('stopwords')` and access them using `stopwords.words('indonesian')`.
4. Use list comprehension to filter out words that are numeric, symbolic, or stopwords from the tokenized words.
5. Check if a word consists only of alphabetic characters using the `isalpha()` method.
6. Convert the cleaned tokens back to a string using the `join()` method.
7. Drop the unnecessary columns from the dataframe using the `drop()` method.

By following these steps, you will be able to clean the textual data in the dataframe and obtain a new column with cleaned text.


In [9]:
import pandas as pd
pd.set_option('display.max_colwidth', None)

data = {
    'Artikel': [
        'Saat ini, jumlah penduduk di Indonesia mencapai 270 juta jiwa.',
        'Suhu udara hari ini mencapai 30°C di Jakarta.',
        'Penjualan smartphone melonjak 50% dalam setahun.',
        'Perusahaan XYZ memiliki keuntungan sebesar Rp 1.000.000.000.',
        'Pasar saham turun 2% setelah pengumuman terbaru.',
        'Dalam laporan keuangan, laba bersih mencapai Rp 500.000.000.',
        'Jumlah penderita flu meningkat 10 kali lipat.',
        'Persentase keberhasilan proyek ini mencapai 75%.',
        'Harga beras naik Rp 2.000 per kilogram.',
        'Kode akses Anda adalah @Abc123!',
        'Pertandingan sepak bola akan dimulai pada pukul 19.00 WIB.',
        'Produksi mobil nasional mencapai 200.000 unit per tahun.',
        'Penulis buku terkenal, J.K. Rowling, akan mengadakan tur dunia.',
        'Angka pengangguran menurun sebesar 1,5% dalam tiga bulan terakhir.',
        'Cuaca hari ini cerah ☀️ di daerah Surabaya.',
        'Peringkat sekolah ini berada di urutan ke-10 nasional.',
        'Pendapatan per kapita naik menjadi Rp 50 juta per tahun.',
        'Simbol perdagangan saham PT XYZ adalah $XYZ.',
        'Data ini dihasilkan pada tanggal 5 Juni 2023.',
        'Pasar forex mengalami fluktuasi mata uang yang tinggi.',
        'Rasio utang terhadap aset mencapai 50%.',
        'Dalam persamaan ini, x = 2 dan y = 3.',
        'Luas area hutan di Indonesia berkurang 2.000 hektar setiap tahun.',
        'Persentase kehadiran siswa dalam ujian nasional mencapai 95%.',
        'Pendapatan tahunan perusahaan ini meningkat 15%.',
        'Jumlah kunjungan wisatawan ke Bali mencapai 10 juta orang.',
        'Diagram ini menunjukkan hubungan antara A dan B.',
        'Angka inflasi tahun ini diperkirakan sebesar 3,5%.',
        'Data penjualan bulan lalu mencapai Rp 10.000.000.000.',
        'Perdagangan internasional Indonesia melibatkan negara A, B, dan C.',
        'Perkiraan cuaca untuk besok adalah hujan dengan suhu 25°C.'
    ]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Artikel
0,"Saat ini, jumlah penduduk di Indonesia mencapai 270 juta jiwa."
1,Suhu udara hari ini mencapai 30°C di Jakarta.
2,Penjualan smartphone melonjak 50% dalam setahun.
3,Perusahaan XYZ memiliki keuntungan sebesar Rp 1.000.000.000.
4,Pasar saham turun 2% setelah pengumuman terbaru.
5,"Dalam laporan keuangan, laba bersih mencapai Rp 500.000.000."
6,Jumlah penderita flu meningkat 10 kali lipat.
7,Persentase keberhasilan proyek ini mencapai 75%.
8,Harga beras naik Rp 2.000 per kilogram.
9,Kode akses Anda adalah @Abc123!


In [2]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
nltk.download('punkt')


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [12]:
# Tokenize the words in each article
df['Tokens'] = df['Artikel'].apply(lambda x: word_tokenize(x))

# remove whitespce
df['Tokens'] = df['Tokens'].apply(lambda x: [word.strip() for word in x ])

# Remove stopwords, numeric, symbolic, and meaningless words
stop_words = set(stopwords.words('indonesian'))
df['Cleaned'] = df['Tokens'].apply(lambda x: [word for word in x if word.isalpha() and word not in stop_words])

# Convert the cleaned tokens back to a string
df['Cleaned'] = df['Cleaned'].apply(lambda x: ' '.join(x))

# lower the document
df['Cleaned'] = df['Cleaned'].str.lower()

# Drop the unnecessary columns
df = df.drop(['Tokens'], axis=1)

# Print the cleaned dataframe
df

Unnamed: 0,Artikel,Cleaned
0,"Saat ini, jumlah penduduk di Indonesia mencapai 270 juta jiwa.",saat penduduk indonesia mencapai juta jiwa
1,Suhu udara hari ini mencapai 30°C di Jakarta.,suhu udara mencapai jakarta
2,Penjualan smartphone melonjak 50% dalam setahun.,penjualan smartphone melonjak setahun
3,Perusahaan XYZ memiliki keuntungan sebesar Rp 1.000.000.000.,perusahaan xyz memiliki keuntungan rp
4,Pasar saham turun 2% setelah pengumuman terbaru.,pasar saham turun pengumuman terbaru
5,"Dalam laporan keuangan, laba bersih mencapai Rp 500.000.000.",dalam laporan keuangan laba bersih mencapai rp
6,Jumlah penderita flu meningkat 10 kali lipat.,jumlah penderita flu meningkat kali lipat
7,Persentase keberhasilan proyek ini mencapai 75%.,persentase keberhasilan proyek mencapai
8,Harga beras naik Rp 2.000 per kilogram.,harga beras rp kilogram
9,Kode akses Anda adalah @Abc123!,kode akses anda
