# Identifikasi Komentar Toxic pada Konten Media Sosial di Indonesia

## Background

Penggunaan internet dan sosial media di Indonesia telah mengalami pertumbuhan pesat dalam beberapa tahun terakhir. Seiring dengan perkembangan teknologi dan ketersediaan akses internet yang semakin mudah, banyak orang di Indonesia telah bergabung dengan berbagai platform media sosial seperti Facebook, Twitter, Instagram, YouTube, bahkan media sosial lokal seperti Kaskus. Berdasarkan data yang diterbitkan oleh datareportal.com pada Januari 2023, jumlah pengguna internet di Indonesia mencapai angka yang sangat signifikan, yaitu sekitar 212,9 juta orang atau 77% dari total populasi. Selain itu, tercatat sekitar 167 juta orang atau 60,4% dari total populasi merupakan pengguna media sosial aktif. Jumlah ini menandakan bahwa lebih dari setengah populasi Indonesia memiliki akses ke internet dan berpotensi menggunakan platform media sosial.

<center>
<img src="https://raw.githubusercontent.com/syahvan/indo-toxic-comment-classification/main/image/Data-Tren-Pengguna-Internet-dan-Media-sosial-di-Indonesia-Tahun-2023.png" width="700"/>
</center>

Tingginya penetrasi internet dan sosial media di Indonesia juga menyebabkan banyak orang menghabiskan waktu harian mereka untuk berinteraksi di platform tersebut. Menurut data dari sumber yang sama, pada Januari 2023, rata-rata pengguna internet di Indonesia menghabiskan waktu lebih dari 3 jam per hari untuk beraktivitas di media sosial. Fenomena ini menunjukkan betapa signifikannya peran media sosial dalam kehidupan sehari-hari masyarakat Indonesia.

<center>
<img src="https://raw.githubusercontent.com/syahvan/indo-toxic-comment-classification/main/image/Waktu-Orang-Indonesia-Mengakses-Media-Digital-Tahun-2023.png" width="700"/>
</center>

Sayangnya, pertumbuhan penggunaan media sosial juga membawa dampak negatif. Salah satunya adalah adanya komentar-komentar toxic di berbagai platform media sosial. Komentar-komentar ini bisa berupa ujaran kebencian, pornografi, radikalisme, pelecehan, intimidasi, atau ancaman yang ditujukan kepada individu atau kelompok tertentu. Komentar toxic seperti ini dapat mengakibatkan perpecahan masyarakat, kerusuhan antar individu dan kelompok, gangguan emosional, dan bahkan berpotensi membahayakan kesejahteraan mental para korbannya. Oleh karenanya, pendeteksian komentar-komentar yang mengandung unsur toxic menjadi sesuatu yang harus dikritisi.

Dalam menghadapi dan menangani masalah komentar toxic di media sosial, diperlukan suatu pendekatan yang efektif dan proaktif. Salah satu solusi yang dapat diadopsi adalah dengan membangun sebuah sistem klasifikasi komentar toxic menggunakan model machine learning. Sistem ini bertujuan untuk secara otomatis mengidentifikasi komentar-komentar yang mengandung unsur toxic sehingga dapat segera ditindaklanjuti oleh pihak platform media sosial. Dengan demikian, diharapkan akan tercipta lingkungan media sosial yang lebih aman, positif, dan harmonis bagi seluruh penggunanya.

## Problem Statement

Untuk mengidentifikasi sebuah komentar toxic kita bisa menganalisis satu persatu dari komentar tersebut dan menilai apakah komentar tersebut mengandung unsur/indikator toxic atau tidak. Namun, komentar toxic tersebut sangat rentan untuk menimbulkan emosi negatif dan dapat memicu kerusuhan di media sosial dengan cepat. Oleh karena itu, diperlukan pendekatan teknologi berupa pengembangan model klasifikasi komentar toxic yang mampu mengidentifikasi secara otomatis komentar-komentar yang mengandung unsur toxic sehingga dapat diatasi dengan lebih cepat dan efisien.

## Project Idea

Pencegahan penyebaran komentar toxic dapat dilakukan dengan melakukan identifikasi sedini mungkin sebelum komentar toxic tersebut menimbulkan kerusuhan di masyarakat. Oleh karena itu, pada project ini akan dikembangkan sebuah model klasifikasi untuk mengidentifikasi apakah sebuah komentar berupa tulisan pada media sosial Twitter, Instagram, dan Kaskus mengandung unsur toxic atau tidak.

## Problem Scope

Pada project ini akan digunakan sebuah data komentar yang ada pada sosial media Twitter, Instagram, dan Kaskus yang diambil dari [Github](https://github.com/ahmadizzan/netifier). Dataset ini mengandung informasi sebagai berikut:


*   `original_text`: komentar yang dimuat
*   `source`: sumber media sosial dari komentar yang dimuat
*   `pornografi`: label apakah komentar mengandung unsur pornografi (0 tidak, 1 iya)
*   `sara`: label apakah komentar mengandung unsur sara (0 tidak, 1 iya)
*   `radikalisme`: label apakah komentar mengandung unsur radikalisme (0 tidak, 1 iya)
*   `pencemaran_nama_baik`: label apakah komentar mengandung unsur pencemaran nama baik (0 tidak, 1 iya)


Selanjutnya, kebutuhan pembuatan model machine learning untuk mengidentifikasi apakah komentar tersebut toxic atau tidak akan menggunakan multilabel yaitu variabel `pornografi`, `sara`, `radikalisme` dan `pencemaran_nama_baik`. Sedangkan untuk prediktornya akan menggunakan variabel `original_text` yang akan diekstrak dan dibersihkan lebih lanjut agar lebih mendukung dan mempermudah pemodelan.

Untuk modelnya sendiri akan dibuat sebuah model klasifikasi dengan memanfaatkan algoritma Naive Bayes, Random Forest, LSTM, dan transformer seperti BERT dan GPT.


## Output

Output dari project ini berupa dashboard analysis yang menampilkan Exploratory Data untuk menunjukkan kata-kata yang menyebabkan sebuah komentar berpotensi untuk digolongkan sebagai sebuah komentar toxic atau bukan. Selain itu, user juga dapat menginputkan teks komentar yang nantinya oleh model akan diidentifikasi sebagai komentar toxic/bukan.

## Business Impact

Selain identifikasi pada media sosial, project ini bisa dikembangkan untuk mendeteksi dini komentar toxic pada chat game yang juga rentan terhadap komentar toxic, atau media lainnya yang menyediakan comment section untuk meminimalisir perselisihan dan kerusuhan ke depannya.

## Exploratory Data Analysis

### Load Library

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### Load Data

In [2]:
data_train = pd.read_csv('https://raw.githubusercontent.com/syahvan/indo-toxic-comment-classification/main/data/train.csv')
data_test = pd.read_csv('https://raw.githubusercontent.com/syahvan/indo-toxic-comment-classification/main/data/test.csv')

In [3]:
data_train.sample(10)

Unnamed: 0,original_text,source,pornografi,sara,radikalisme,pencemaran_nama_baik
6150,Dalam sejarah indonesia ga ada kafir yg bawa2 ...,twitter,0,1,1,1
1732,hai para #cowok #pria yang suka sama #cowok #p...,twitter,1,0,0,0
3710,Umat beragama tolong dong jgn terprovokasi dgn...,twitter,0,0,0,0
1850,"Jangan sering mentingin dia , dan jangn sering...",instagram,0,0,0,0
2633,Padahal bacotannya bener :shutup: \n\nKalau ag...,kaskus,0,0,0,0
4385,alkitab mungkin dia ud mau murtad karena cape ...,kaskus,0,0,0,0
3489,@avankukuh uhh HRS sex ama siapa sihh?? Itu ch...,instagram,1,0,0,1
6364,Mukidi banci jelek trdeteksi panik ! Elektabil...,kaskus,0,1,0,1
6077,"@BasherRL heh kontol, jan sok pemes lu di rp, ...",twitter,1,0,0,1
2287,Baghdad #Iraq\nMain 2car Bom Dhmakey Jis k Nti...,twitter,0,0,0,0


In [5]:
data_test.sample(10)

Unnamed: 0,original_text,source,pornografi,sara,radikalisme,pencemaran_nama_baik
68,jika saja si penulis tidak pernah di cuci otak...,kaskus,0,1,0,0
59,Lu tuh spesies jenis apa sih? Kok muka lo beru...,instagram,1,0,0,1
440,Salam terali besi min!! Lo gk lebih dari abg a...,instagram,0,0,0,1
221,[img]https://s.kaskus.id/images/2018/07/06/907...,kaskus,0,0,1,0
4,beda kalo disini kalo komplain lgs di bully am...,kaskus,0,0,0,0
312,@dewi18ibgdrgn cerai karena alasan classic? is...,instagram,0,0,0,0
7,@made.soe.production yupss setuju .. bodoamat ...,instagram,0,0,0,0
211,"Bener banget! Apa lagi kalo jembut lebat, maki...",twitter,1,0,0,0
707,Semoga para mujahid tetap istiqomah melanjutka...,kaskus,0,0,1,0
404,Ternyata gx sesuai EXPETASI klw lagi memakai c...,instagram,0,0,0,1
