# Languange Detector With Machine Learning in Python

- Use Datasets from Github amanKharwal Repo

- Import Library dan Load Dataset

Pada bagian ini, kita akan mengimpor beberapa library penting yang digunakan untuk pemrosesan data dan membangun model machine learning berbasis teks.

In [2]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
data = pd.read_csv("dataset.csv")
print(data.head())

                                                Text  language
0  klement gottwaldi surnukeha palsameeriti ning ...  Estonian
1  sebes joseph pereira thomas  på eng the jesuit...   Swedish
2  ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...      Thai
3  விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...     Tamil
4  de spons behoort tot het geslacht haliclona en...     Dutch


* Penjelasan

Kolom Text
Berisi potongan kalimat atau paragraf dalam berbagai bahasa. Ini merupakan fitur utama (feature) yang akan digunakan sebagai input untuk model machine learning.

Kolom language
Menunjukkan bahasa dari teks tersebut. Ini adalah label (target) yang akan diprediksi oleh model.
Contoh:

Baris 0 → Bahasa Estonia

Baris 1 → Bahasa Swedia

Baris 2 → Bahasa Thai

Baris 3 → Bahasa Tamil

Baris 4 → Bahasa Belanda

Tujuan Dataset
Dataset ini kemungkinan digunakan untuk tugas language identification — yaitu mengklasifikasikan teks ke dalam bahasa yang sesuai.

- Sebelum memproses data lebih lanjut, kita perlu memastikan bahwa tidak ada nilai kosong atau hilang di dalam dataset.

In [7]:
data.isnull().sum()

Text        0
language    0
dtype: int64

* Nilai 0 pada setiap kolom berarti tidak ada data yang hilang.

* Jika ada nilai lebih dari 0, berarti terdapat baris yang perlu dibersihkan atau dihapus sebelum pemrosesan lebih lanjut.

Untuk mengetahui seberapa seimbang dataset yang kita gunakan, kita dapat melihat jumlah teks per bahasa dengan perintah berikut:

In [6]:
data["language"].value_counts()

language
Estonian      1000
Swedish       1000
Thai          1000
Tamil         1000
Dutch         1000
Japanese      1000
Turkish       1000
Latin         1000
Urdu          1000
Indonesian    1000
Portugese     1000
French        1000
Chinese       1000
Korean        1000
Hindi         1000
Spanish       1000
Pushto        1000
Persian       1000
Romanian      1000
Russian       1000
English       1000
Arabic        1000
Name: count, dtype: int64

Setiap bahasa memiliki jumlah data = 1000
Artinya dataset ini sangat seimbang (balanced dataset) — tidak ada bahasa yang mendominasi.

Keuntungan dataset seimbang:

Model machine learning akan belajar dengan adil terhadap semua bahasa.

Tidak terjadi bias terhadap bahasa tertentu (misalnya bahasa Inggris yang sering muncul lebih banyak dalam dataset lain).

Jumlah total data:
Terdapat 22 bahasa × 1000 data = 22.000 teks.


Setelah memastikan dataset bersih dan seimbang, langkah berikutnya adalah mengubah teks menjadi bentuk numerik agar bisa diproses oleh model machine learning. kemudian kita split menjadi data training dan data test

In [9]:
x = np.array(data["Text"])
y = np.array(data["language"])

cv = CountVectorizer()
X = cv.fit_transform(x)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

Karena ini adalah masalah klasifikasi multikelas, maka saya akan menggunakan algoritma Multinomial Naïve Bayes untuk melatih model deteksi bahasa, karena algoritma ini biasanya memberikan performa yang sangat baik pada permasalahan klasifikasi dengan banyak kelas (multiclass classification).

In [10]:
model = MultinomialNB()
model.fit(X_train, y_train)
model.score(X_test, y_test)

0.953168044077135

- model = MultinomialNB()
Membuat objek model Naïve Bayes tipe Multinomial, yang cocok untuk data hasil CountVectorizer (berbasis frekuensi kata).

- model.fit(X_train, y_train)
Melatih model menggunakan data latih (X_train) dan label bahasa (y_train).

- model.score(X_test, y_test)
Menghitung akurasi model dengan membandingkan prediksi pada data uji (X_test) terhadap label sebenarnya (y_test).

Hasil Akurasi -> 0.953168044077135
Artinya, model berhasil mengklasifikasikan bahasa dengan akurasi sekitar 95.3%.

Setelah model selesai dilatih, kini kita dapat mengujinya secara langsung dengan memberikan teks baru.
Kode berikut memungkinkan pengguna mengetik teks, lalu model akan memprediksi bahasanya.

In [12]:
user = input("Enter a text: ")
data = cv.transform([user]).toarray()
output = model.predict(data)
print(output)

['Russian']


Model kini dapat mendeteksi bahasa teks baru secara real-time.

Akurasi model sebelumnya (≈95%) menunjukkan prediksi yang sangat dapat diandalkan.

# Kesimpulan

Proyek ini berhasil membangun model deteksi bahasa otomatis menggunakan algoritma Multinomial Naïve Bayes dengan hasil yang sangat memuaskan.

(Ringkasan Tahapan)

1. Import Library & Load Dataset
    -> Dataset berisi teks dari berbagai bahasa berhasil dimuat menggunakan Pandas.

2. Pengecekan Data
   -> Tidak ditemukan data kosong (missing values), dan setiap bahasa memiliki jumlah data yang sama (1000 data per bahasa), sehingga dataset seimbang (balanced).

3. Vectorization
   -> Teks diubah menjadi bentuk numerik menggunakan CountVectorizer untuk memudahkan pemrosesan oleh algoritma machine learning.

* Split Data
Dataset dibagi menjadi:

    * 67% data latih

    * 33% data uji
untuk memastikan model dapat diuji dengan data yang belum pernah dilihat sebelumnya.

4. Pelatihan Model
   -> Menggunakan algoritma Multinomial Naïve Bayes, yang sangat cocok untuk kasus multiclass text classification seperti deteksi bahasa.

5. Evaluasi Model
    -> Model mencapai akurasi sebesar 95.3%, menandakan performa yang sangat baik.

6. Prediksi Bahasa Baru
    -> Model mampu memprediksi bahasa dari teks input pengguna dengan hasil yang akurat, misalnya:

Contoh :

"Saya suka belajar mesin cerdas" → Indonesian

"Bonjour, comment ça va?" → French