# Language Detection With Machine Learning

Sebagai manusia, kita bisa secara mudah mendeteksi bahasa terhadap kalimat, sebagai contoh perbedaan bahasa indonesia dan bahasa inggris. Project ini dapat mengklasifikasikan sebuah kalimat menggunakan bahasa. Google Translate merupakan salah satu translator bahasa yang paling banyak digunakan didunia. Jadi, diproject kita kali ini akan membuat sebuah model machine learning untuk mendeteksi bahasa.\
Sebenarnya sudah banyak model yang digunakan untuk mendeteksi bahasa. Lebih banyak data terhadap bahasa maka akurasi terhadap model akan semakin baik. Dataset ini berasal dari kaggle yang berisi seputar 22 bahasa popouler yang berisi 1000 kalimat setiap bahasa

## 1. Import Library

Kita akan mengimport beberapa library yang diperlukan untuk membuat model machine learning

In [1]:
import pandas as pd # berfungsi untuk membaca file csv
import numpy as np # berfungsi untuk melakukan operasi vektor dan matriks
from sklearn.feature_extraction.text import CountVectorizer # berfungsi untuk melakukan vektorisasi pada kalimat
from sklearn.model_selection import train_test_split # berfungsi untuk membagi data menjadi data training dan data testing
from sklearn.naive_bayes import MultinomialNB # berfungsi untuk melakukan klasifikasi dengan menggunakan algoritma Naive Bayes khusus untuk multiclass

## 2. Membaca Dataset

In [3]:
data = pd.read_csv('https://raw.githubusercontent.com/amankharwal/Website-data/master/dataset.csv')
data.head(10)

Unnamed: 0,Text,language
0,klement gottwaldi surnukeha palsameeriti ning ...,Estonian
1,sebes joseph pereira thomas på eng the jesuit...,Swedish
2,ถนนเจริญกรุง อักษรโรมัน thanon charoen krung เ...,Thai
3,விசாகப்பட்டினம் தமிழ்ச்சங்கத்தை இந்துப் பத்திர...,Tamil
4,de spons behoort tot het geslacht haliclona en...,Dutch
5,エノが行きがかりでバスに乗ってしまい、気分が悪くなった際に助けるが、今すぐバスを降りたいと運...,Japanese
6,tsutinalar i̇ngilizce tsuutina kanadada albert...,Turkish
7,müller mox figura centralis circulorum doctoru...,Latin
8,برقی بار electric charge تمام زیرجوہری ذرات کی...,Urdu
9,シャーリー・フィールドは、サン・ベルナルド・アベニュー沿い市民センターとrtマーティン高校に...,Japanese


**Catatan**\
Kita bisa lihat diatas untuk 10 data pertama terdapat beberapa text dengan bahasa tertentu misalnya **klement gottwaldi surnukeha palsameeriti ning ...** dengan bahasa	**Estonian**

In [4]:
# mengecek apakah ada data yang kosong

data.isnull().sum()

Text        0
language    0
dtype: int64

In [6]:
# mengecek jumlah data pada setiap kelas

data['language'].value_counts()

Estonian      1000
Swedish       1000
English       1000
Russian       1000
Romanian      1000
Persian       1000
Pushto        1000
Spanish       1000
Hindi         1000
Korean        1000
Chinese       1000
French        1000
Portugese     1000
Indonesian    1000
Urdu          1000
Latin         1000
Turkish       1000
Japanese      1000
Dutch         1000
Tamil         1000
Thai          1000
Arabic        1000
Name: language, dtype: int64

**Catatan**\
Bisa kita lihat diatas bahwa jumlah kelas terdiri dari 22 bahasa atau kelas dengan jumlah data masing-masing kelas adalah 1000. Total keseluruhan data ialah 22000. Kita dapat membuat model machine learning dengan jumlah dataset sebesar ini

## 3. Membuat Model

Kita akan membagikan data kedalam set data pelatihan dan set data pengujian serta variabel X sebagai atribut text dan variabel y sebagai atribut language

In [8]:
X = np.array(data['Text']) # mengambil data teks lalu dijadikan array
y = np.array(data['language']) # mengambil data kelas lalu dijadikan array

cv = CountVectorizer() # membuat objek CountVectorizer
X = cv.fit_transform(X) # melakukan vektorisasi pada data teks

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) # membagi data menjadi data training dan data testing dengan perbandingan 67:33

print(X_train.shape) # mengecek dimensi X data training
print(X_test.shape) # mengecek dimensi X data testing
print(y_train.shape) # mengecek dimensi y data training
print(y_test.shape) # mengecek dimensi y data testing

(14740, 277720)
(7260, 277720)
(14740,)
(7260,)


**Catatan**
Bisa kita lihat diatas untuk data training dan testing sebagai berikut
1. Jumlah Data Training : 14740
2. Jumlah Data Testing : 7260

Sedangkan untuk jumlah atribut ketika dilakukan vektorasasi adalah **277720** atau dengan kata lain ada sekitar 277720 kata yang terbentuk dari dataset ini

Kenapa kita menggunakan **MultinomialNaiveBayes** bukan **BernoulliNaiveBayes** seperti pada project sebelumnya, jawabanya cukup simple. project ini akan melakukan klasifikasi terhadap beberapa kelas bahasa atau dengan kata lain klasifikasi untuk multiclass sedangkan BernouliNaiveBayes khusus untuk klasifikasi biner

In [10]:
model = MultinomialNB()
model.fit(X_train, y_train)
print(f'Skor Akurasi : {model.score(X_test, y_test)}')

Skor Akurasi : 0.953168044077135


Kita bisa lihat diatas bahwa untuk model machine learning yang kita buat menghasilkan akurasi **0.953168044077135** atau 95% dapat mendeteksi terhadap 22 bahasa

In [11]:
user = input("Masukkan Kalimat : ") # berfungsi untuk meminta inputan dari user
data = cv.transform([user]).toarray() # melakukan vektorisasi pada inputan user
output = model.predict(data) # melakukan prediksi
print(f'Hasil Prediksi Bahasa : {output}') # berfungsi untuk menampilkan hasil prediksi

Hasil Prediksi Bahasa : ['Indonesian']


## 4. Kesimpulan

Dari kalimat masukkan dari user **Saya sekarang sedang mengerjakan project** berhasil dideteksi oleh model machine learning menggunakan bahasa **Indonesia**