# Определение языка по символьным n-граммам

Сегодня мы будем классифицировать тексты по языкам - английский, латынь, индонезийский и баскский. По алфавиту они очень схожи, поэтому по кодам символов отличить их сложно. Будем использовать машинное обучение.

In [4]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [5]:
# чтение датасета
articles_df = pd.read_csv('articles_df.csv',index_col=0)
articles_df[articles_df.lang == 'bask'].head()

Unnamed: 0,article,lang
0,Mylochromis ericotaenia Mylochromis generoko a...,bask
1,Benquet Okzitaniako udalerri bat da. Administr...,bask
2,Cynoglossus kapuasensis Cynoglossus generoko a...,bask
3,"Litoria anfibio genero bat da, Anura ordenaren...",bask
4,"Tuili Medio Campidanoko (Sardinia, Italia) uda...",bask


## Векторизация

In [6]:
# YOUR CODE HERE
trg = TfidfVectorizer(analyzer = 'char', ngram_range = (6, 6))
mat_trg = trg.fit_transform(articles_df.article)

In [7]:
mat_trg

<400x269263 sparse matrix of type '<class 'numpy.float64'>'
	with 498159 stored elements in Compressed Sparse Row format>

## Обучение классификатора

Разделяем выборки:

In [8]:
x_train, x_test, y_train, y_test = train_test_split(mat_trg, articles_df['lang'], random_state=42)

In [9]:
len(y_train)

300

In [10]:
y_test[:10]

9      lat
80     lat
33     eng
10     lat
93     eng
84     eng
29     ind
94     eng
66     lat
26    bask
Name: lang, dtype: object

Обучите разные классификаторы из списка импортов ниже и посмотрите, что выходит.
Смотреть что выходит - на тестовой выборке через `classification_report`. Выберите тот классификатор, который вам больше всего нравится.

In [11]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import LinearSVC
from sklearn.svm import SVC

In [12]:
# YOUR CODE HERE
model = LinearSVC()
model.fit(x_train, y_train)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

In [13]:
y_pred = model.predict(x_test)

In [14]:
y_pred[:10]

array(['lat', 'lat', 'eng', 'lat', 'eng', 'eng', 'ind', 'eng', 'lat',
       'bask'], dtype=object)

In [324]:
print(classification_report(y_test, y_pred))

             precision    recall  f1-score   support

       bask       1.00      1.00      1.00        21
        eng       1.00      1.00      1.00        31
        ind       1.00      1.00      1.00        23
        lat       1.00      1.00      1.00        25

avg / total       1.00      1.00      1.00       100



In [337]:
text = 'Per Apollinem medicum et Aesculapium, Hygiamque et Panaceam juro, deos deasque omnes testes citans, mepte viribus et judicio meo hos jusjurandum et hanc stipulationem plene praestaturum. Illum nempe parentum meorum loco habiturum spondeo, qui me artem istam docuit, eique alimenta impertirurum, et quibuscunque opus habuerit, suppeditaturum. Victus etiam rationem pro virili et ingenio meo aegris salutarem praescripturum a pemiciosa vero et improba eosdem prohibiturum. Nullius praeterea precibus adductus, mortiferum medicamentum cuique propinabo, neque huius rei consilium dabo. Caste et sancte colam et artem meam. Quaecumque vero in vita hominum sive medicinam factitans, sive non, vel videro, vel audivero, quae in vulgus efferre non decet, ea reticebo non secus atque arcana fidei meae commissa. Quod si igitur hocce jusjurandum fideliter servem, neque violem, contingat et prospero successu tarn in vita, quam in arte mea fruar et gloriam immortalem gentium consequar. Sine autem id transgrediar et pejerem contraria hisce mihi eveniam.'

In [331]:
text = 'Ὄμνυμι Ἀπόλλωνα ἰητρὸν, καὶ Ἀσκληπιὸν, καὶ Ὑγείαν, καὶ Πανάκειαν, καὶ θεοὺς πάντας τε καὶ πάσας, ἵστορας ποιεύμενος, ἐπιτελέα ποιήσειν κατὰ δύναμιν καὶ κρίσιν ἐμὴν ὅρκον τόνδε καὶ ξυγγραφὴν τήνδε. Ἡγήσασθαι μὲν τὸν διδάξαντά με τὴν τέχνην ταύτην ἴσα γενέτῃσιν ἐμοῖσι, καὶ βίου κοινώσασθαι, καὶ χρεῶν χρηίζοντι μετάδοσιν ποιήσασθαι, καὶ γένος τὸ ἐξ ωὐτέου ἀδελφοῖς ἴσον ἐπικρινέειν ἄῤῥεσι, καὶ διδάξειν τὴν τέχνην ταύτην, ἢν χρηίζωσι μανθάνειν, ἄνευ μισθοῦ καὶ ξυγγραφῆς, παραγγελίης τε καὶ ἀκροήσιος καὶ τῆς λοιπῆς ἁπάσης μαθήσιος μετάδοσιν ποιήσασθαι υἱοῖσί τε ἐμοῖσι, καὶ τοῖσι τοῦ ἐμὲ διδάξαντος, καὶ μαθηταῖσι συγγεγραμμένοισί τε καὶ ὡρκισμένοις νόμῳ ἰητρικῷ, ἄλλῳ δὲ οὐδενί.'

In [333]:
text = 'Богат и славен Кочубей. Его луга необозримы; Там табуны его коней. Пасутся вольны, нехранимы. Кругом Полтавы хутора. Окружены его садами'

In [296]:
text = 'зеленоглазое такси притормози притормози'

In [335]:
text = 'The English Wikipedia is the English-language edition of the free online encyclopedia Wikipedia. '

In [339]:
text = 'Marilyn Monroe adalah seorang aktris dan peragawati Amerika. Terkenal karena memerankan karakter "pirang bodoh", ia menjadi salah satu simbol seks'

In [340]:
x_new = trg.transform([text])
y_new_pred = model.predict(x_new)
y_new_pred

array(['ind'], dtype=object)

In [16]:
y_new_probs = model.predict_proba(x_new)

AttributeError: 'LinearSVC' object has no attribute 'predict_proba'

In [303]:
y_new_probs

array([[0. , 0.8, 0. , 0.2]])