In [1]:
from fastai.text import *
import numpy as np
from sklearn.model_selection import train_test_split
import pickle
import sentencepiece as spm
import re
import pdb

In [2]:
import fastai, torch
fastai.__version__ , torch.__version__

('1.0.57', '1.0.0')

In [3]:
torch.cuda.set_device(0)

In [4]:
def random_seed(seed_value, use_cuda):
    np.random.seed(seed_value)  
    torch.manual_seed(seed_value)  
    random.seed(seed_value)
    if use_cuda:
        torch.cuda.manual_seed(seed_value)
        torch.cuda.manual_seed_all(seed_value)  
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False

In [5]:
random_seed(42, True)

In [6]:
!pwd

/data/home/ubuntu/gaurav/in/nlp-for-malyalam/classification


In [7]:
path = Path('./')

In [8]:
df_train = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/ml/ml-train.csv', header=None)
df_train.head()

Unnamed: 0,0,1
0,business,ജോലിയില്‍ നിന്ന് ഒരു ബ്രേക്ക് എടുക്കുന്നതിനു മ...
1,business,കമ്ബോളങ്ങള്‍ കരടിയുടെ പിടിയില്‍
2,business,കൊച്ചി മെട്രോയുടെ ബ്രാന്‍ഡ് അംബാസിഡറായി നടന്‍ ...
3,business,"ഇന്ധനവിലയില്‍ വീണ്ടും വര്‍ദ്ധനവ്, പെട്രോളിന് 1..."
4,sports,ഫെഡറേഷന്‍ കപ്പ‌് അത‌്‌ലറ്റിക‌്സിന‌് ഇന്ന‌് തുട...


In [9]:
Counter(list(df_train[0]))

Counter({'business': 1551, 'entertainment': 1759, 'sports': 1726})

In [10]:
df_valid = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/ml/ml-valid.csv', header=None)
df_valid.head()

Unnamed: 0,0,1
0,business,"ട്രെയിന്‍ യാത്രയില്‍ ഇനി കുലുക്കം കുറയും, ജെര്..."
1,sports,പാ​ലാ സെ​ന്‍റ് തോ​മ​സ് ചാ​മ്ബ്യന്മാ​ര്‍
2,sports,ഓസ്‌ട്രേലിയയ്‌ക്കെതിരെ ഇനി ധോണിയില്ല; ലോകകപ്പി...
3,sports,ടെസ്റ്റിന് വേഗം കൂട്ടാന്‍ എം.സി.സി
4,sports,ഓള്‍ ഇംഗ്ലണ്ട് ബാഡ്മിന്റണില്‍ ശ്രീകാന്തും പുറത...


In [11]:
df_test = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/ml/ml-test.csv', header=None)
df_test.head()

Unnamed: 0,0,1
0,sports,ഇഞ്ചുറി ടൈം പെനാല്‍റ്റിയില്‍ എഫ് സി പോര്‍ട്ടോ
1,entertainment,ആമിര്‍ ഖാന്റെ ഏറ്റവും പുതിയ ചിത്രം ലാല്‍ സിങ് ...
2,sports,ഐ പി എല്ലിന് മുന്‍പായി ഓസ്‌ട്രേലിയന്‍ ടീമിനൊപ്...
3,business,സാമ്ബത്തിക ജീവിതം സുരക്ഷിതമാക്കണോ? ഈ അഞ്ച് ശീല...
4,business,എല്‍ഇഡി ബള്‍ബുകള്‍ ലഭ്യമാക്കും; പദ്ധതിയുടെ രജി...


In [12]:
df_train.shape, df_valid.shape, df_test.shape

((5036, 2), (630, 2), (630, 2))

In [13]:
cutoff = int(0.1*len(df_train))

In [14]:
df_train = pd.DataFrame({0: list(df_train[0])[:cutoff], 1: list(df_train[1])[:cutoff]})
df_train.shape

(503, 2)

In [15]:
df_train[df_train[0].isnull()].shape, df_valid[df_valid[0].isnull()].shape, df_test[df_test[0].isnull()].shape

((0, 2), (0, 2), (0, 2))

In [16]:
label_cols = [0]

In [17]:
class MalyalamTokenizer(BaseTokenizer):
    def __init__(self, lang:str):
        self.lang = lang
        self.sp = spm.SentencePieceProcessor()
        self.sp.Load(str('./../../models/malayalam/tokenizer/malyalam_lm.model'))
        
    def tokenizer(self, t:str) -> List[str]:
        return self.sp.EncodeAsPieces(t)

In [18]:
sp = spm.SentencePieceProcessor()
sp.Load(str('./../../models/malayalam/tokenizer/malyalam_lm.model'))
itos = [sp.IdToPiece(int(i)) for i in range(10000)]

In [19]:
# 10,000 is the vocab size that we chose in sentencepiece
malyalam_vocab = Vocab(itos)

In [20]:
tokenizer = Tokenizer(tok_func=MalyalamTokenizer, lang='ml')

In [21]:
tokenizer.special_cases

['xxunk',
 'xxpad',
 'xxbos',
 'xxeos',
 'xxfld',
 'xxmaj',
 'xxup',
 'xxrep',
 'xxwrep']

In [22]:
data_lm = TextLMDataBunch.from_df(path=path, train_df=df_train, valid_df=df_valid, test_df=df_test, tokenizer=tokenizer, vocab=malyalam_vocab)

In [23]:
data_lm.show_batch()

idx,text
0,"് ▁വീണ്ടും ▁വര ് ▁ ദ്ധ ന വ് , ▁പെട്രോ ള ിന് ▁14 ▁പൈ സ യും ▁ഡീ സ ലി ന് ▁15 ▁പൈ സ യും ▁വര ് ▁ ദ്ധ ിച്ചു ▁ x x bo s ▁ഫെഡറ േഷന ് ▁കപ്പ ▁ ് ▁അത ▁ ് ▁ല റ്റി ക ▁ ് സി ന ▁ ് ▁ഇന്ന ▁ ് ▁തുടക്കം ▁ x x bo s ▁ഓഹരി ▁സൂചി ക കള ് ▁നേട്ട ത്തില ് ▁"
1,"▁പരിശീലന ത്തിന് ▁തുടക്കം ▁കുറിച്ച് ▁ ഹാര ് ▁ ദ്ദ ിക് ▁പാണ്ഡ്യ ▁ x x bo s ▁ലൈഫ് ▁ഇന ് ▁ഷ ു റ ന് ▁സ് ▁പ്രീ മിയ ം ▁ഏ പ്ര ില ് ▁മുതല ് ▁കുറയ ും ▁ x x bo s ▁ബി ഹാ റിനെ ▁ഇള ക്കി മ റി ക്കാന ് ▁കോണ ് ▁ഗ്ര സ് ; ▁രാ ഹു ലിന്റെ ▁വിള ിക ാത്ത ് ▁പ്രമുഖ രുടെ ▁പട , ▁ഇത് തവണ ▁പൊടി പാ റും"
2,"bo s ▁മാക് ▁സ് ▁ഭൂ പ യുടെ ▁ 51 ▁ശതമാനം ▁ഓഹരി കള ് ▁ട്ര ൂ ▁നോ ര ് ▁ ത്ത് ▁ഫണ്ട ിന് ▁വിറ്റ ു ; ▁ഇടപാട ് ▁5 10 ▁കോടി ▁രൂപ യ്ക്ക് , ▁ആരോഗ്യ ▁ഇന ് ▁ഷ ൂ റ ന് ▁സ് ▁മേഖല ▁വിട ുക യാണെന്ന് ▁മാക് ▁സ് ▁ഇന്ത്യ ▁ x x bo s ▁ലൂ ക്ക യിലെ ▁പുതിയ ▁ ലൊ ക്ക േഷന ് ▁സ്റ്റ ില ് ▁പുറത്തു വിട്ടു ▁ x x"
3,"▁ബോളിവുഡ ിലേക്ക് ▁ x x bo s ▁ഹാ ട്രി ക്കു മായി ▁ക്രി സ്റ്റ ിയ ാനോ ▁അവതരിച്ച ു ; ▁അത് ▁ല റ്റി കോ യെ ▁ത കര ് ▁ ത്ത് ▁യുവ ന്റ സ് ▁ചാ മ ് ബ് യ ന് ▁സ് ▁ലീഗ് ▁ക്വാ ര ് ▁ ട്ട റി ല് ▁ x x bo s ▁"" താ ന് ▁ആയിരുന്നു ▁പി ▁എസ് ▁ജി ▁പരിശീലക ന് ▁എ ങ്ക ില ് ▁പാല ത്തില ് ▁നിന്ന് ▁എടുത്ത ്"
4,x x bo s ▁കോ ഹ് ലി ക്കെതിരെ ▁പന്ത െ റിയ ുക യെന്ന ത് ▁പ്രയാസ മേറിയ ▁കാര്യ ം ▁ ; ▁ആ ഡ ം ▁സാമ ് ബ ▁ x x bo s ▁' എന്ന െ ▁നോക്കി ▁പാ യും ▁തോട്ട ത്തി ' ലെ ▁പുതിയ ▁ ലൊ ക്ക േഷന ് ▁സ്റ്റ ില ് ▁പുറത്തു വിട്ടു ▁ x x bo s ▁വിദേശ നാണ് യ ▁ ശേഖര ത്തില ് ▁കു തി പ്പ് ▁ x x


In [24]:
awd_lstm_config = awd_lstm_lm_config.copy()
awd_lstm_config['n_hid'] = 1150
learn = language_model_learner(data_lm, arch=AWD_LSTM, drop_mult=0.3, config=awd_lstm_config, pretrained=False)

In [25]:
# Loading the pretrained language model on malyalam wikipedia
learn.load('../../../models/malayalam/lm/ULMFiT/third_ml_lm', with_opt=True)

LanguageLearner(data=TextLMDataBunch;

Train: LabelList (503 items)
x: LMTextList
▁ x x bo s ▁ജോലി യില ് ▁നിന്ന് ▁ഒരു ▁ബ്ര േക്ക് ▁എടുക്ക ുന്നതിനു ▁മു ന് ▁പ ് . .,▁ x x bo s ▁ക മ ് ബോ ള ങ്ങള ് ▁കര ടി യുടെ ▁പിടി യില ്,▁ x x bo s ▁കൊച്ചി ▁മെട്രോ യുടെ ▁ബ്രാ ന് ▁ ഡ് ▁അംബ ാ സി ഡ റായി ▁നട ന് ▁സുരേഷ് ▁ഗോപി യെ ▁നിയമ ിച്ചു,▁ x x bo s ▁ഇന്ധന വില യില ് ▁വീണ്ടും ▁വര ് ▁ ദ്ധ ന വ് , ▁പെട്രോ ള ിന് ▁14 ▁പൈ സ യും ▁ഡീ സ ലി ന് ▁15 ▁പൈ സ യും ▁വര ് ▁ ദ്ധ ിച്ചു,▁ x x bo s ▁ഫെഡറ േഷന ് ▁കപ്പ ▁ ് ▁അത ▁ ് ▁ല റ്റി ക ▁ ് സി ന ▁ ് ▁ഇന്ന ▁ ് ▁തുടക്കം
y: LMLabelList
,,,,
Path: .;

Valid: LabelList (630 items)
x: LMTextList
▁ x x bo s ▁ട്രെയിന ് ▁യാത്ര യില ് ▁ഇനി ▁കുല ു ക്കം ▁കുറയ ും , ▁ജെ ര ് ▁ ക്ക ിങ് ▁ഒഴിവാക്ക ുന്നതിനുള്ള ▁നൂതന ▁സാങ്കേതിക ▁വിദ്യ ▁പ്രീ മിയ ം ▁ട്രെയിന ുകളില ്,▁ x x bo s ▁പാ ▁ലാ ▁സെ ▁ന് ▁റ ് ▁തോ ▁മ ▁സ് ▁ചാ ▁മ ് ബ് യ ന് മാ ▁ര ്,▁ x x bo s ▁ഓ സ് ▁ട്ര േലിയ യ് ▁ ക്കെതിരെ ▁ഇനി ▁ധ ോ ണിയ ില്ല ; ▁ലോകകപ്പ ിന് ▁മു മ ് ബ് ▁ഋഷഭ ് ▁പന്ത ിന് ▁സു വര ് ▁ ണാ വസ രം <unk>,▁ x x bo s ▁ടെസ്റ്റ ിന് ▁ വേഗ ം ▁കൂട്ട ാന ് ▁എം 

In [26]:
# Fine tuning the prtrained LM on current dataset

In [27]:
learn.freeze()

In [28]:
learn.fit_one_cycle(1, 1e-2)

epoch,train_loss,valid_loss,accuracy,time
0,5.905622,5.6334,0.205804,00:00


In [29]:
learn.unfreeze()

In [30]:
learn.fit_one_cycle(5, 1e-3)

epoch,train_loss,valid_loss,accuracy,time
0,5.595372,5.496525,0.219821,00:00
1,5.441041,5.125693,0.264062,00:00
2,5.230444,4.886929,0.29442,00:00
3,5.065716,4.787233,0.306027,00:00
4,4.944873,4.766661,0.307679,00:00


In [31]:
learn.predict('മലയാള ികളായ ▁വിമാന യാത്ര ക്കാര',n_words=10)

'മലയാള ികളായ ▁വിമാന യാത്ര ക്കാര ണ ത്തിനു ▁മുന്ന േ , ▁കേ ഷ ിന്റെ ▁വലിയ ▁പിടി'

In [32]:
learn.save_encoder('fine_tuned_enc')

In [33]:
data_clas = TextClasDataBunch.from_df(path=path, train_df=df_train, valid_df=df_valid, test_df=df_test, tokenizer=tokenizer, vocab=malyalam_vocab, bs=16)

In [34]:
data_clas.show_batch()

text,target
▁ x x bo s ▁റാ ഞ്ചി ▁ഏകദിന ത്തില ് ▁ഉ സ് മാന ് ▁ഖ ്വാ ജ യ്ക്ക് ▁സെഞ്ച്വറി ; ▁മോശ ം ▁ഫോ മി ല് ▁നിന്ന് ▁മോചന ം ▁നേടി ▁ത കര ് ▁ ത്ത ടിച്ച ് ▁ആര ണ് ▁ഫി ഞ്ച് ; ▁വെടി ക്കെ ട്ട് ▁തുടക്കം ▁മുതല ാ ക്കാന ് ▁കഴിയ ാതെ ▁ഓ സീ സ് ; ▁ഇന്ത്യ ക്ക് ▁3 14 ▁റ ണ് ▁സ് ▁വിജയ ലക്ഷ ്യം ; ▁മാ ച്ച് ▁ഫീ ▁മുഴ,sports
▁ x x bo s ▁ഇവ ള െ ▁വീട്ടിലേക്ക ് ▁കൂട്ടി യാ ലോ ▁എന്ന് ▁ രണ ് ▁വീ റിന്റെ ▁ചോദ്യം <unk> ▁ല ണ്ട നില ് ▁ഷ ൂ ട്ട ിനെ ത്തു മ ് ബോ ള ് ▁കാണ ണമെന്ന് ▁തോന്നിയ ാല ് ▁ഇ ങ്ങോട്ട ് ▁എത്തിയ ാല ് ▁മതി യെന്ന് ▁ദീപ ിക യുടെ ▁ഉപദേശ ം ; ▁മാ ഡ ം ▁ട ് യു സാ ഡ് ▁സ് ▁വാ ക് ▁സ് ▁മ്യൂസിയ ത്തില ് ▁ഇട,entertainment
▁ x x bo s ▁സഹകരണ ▁സംഘ ങ്ങളുടെ ▁പേര ിനൊപ്പം ▁' ബാങ്ക ് ' ▁എന്ന് ▁ചേര ് ▁ ത്ത ിട്ടു ണ്ട െ ങ്ക ില ് ▁നിക്ഷേപ ങ്ങള ് ▁ ക്ക് ▁നികുതി ▁ന ല് ▁ക ണമെന്ന് ▁ആ ദ ായ ▁നി ക തി ▁വകുപ്പ ് ; ▁നിക്ഷേപ ത്തിന്റെ ▁പലിശ യില ് ▁നിന്നും ▁നികുതി ▁ഈ ടാ ക്കാന ് ▁ജില്ലാ ▁സഹകരണ ▁ബാങ്ക ുകള ് ▁ ക്ക് ▁നിര ് ▁ദ് ദേശം ; ▁ലൈ സ ന്,business
▁ x x bo s ▁കടക്ക െ ണി യില ായ ▁പ്രമുഖ ▁ഭക്ഷ്യ എ ണ്ണ ▁ഉത് പാദ ക ▁ക മ ് ബ നി യായ ▁ രു ചി ▁സോ യ യെ ▁ഏറ്റെടുക്ക ാന ് ▁ബാബ ▁രാം ദേവ ിന്റെ ▁പ ത ഞ ് ▁ജല ി ; ▁ക മ ് ബ നി യുടെ ▁ 43 50 ▁കോടി ▁രൂപ യുടെ ▁കട ം ▁പ ത ഞ ് ▁ജല ി ▁കൊടുത്തു ▁തീര ് ▁ ക്ക ുമെന്ന് ▁ഓ,business
▁ x x bo s ▁ഉ ▁പ ▁യോ ▁ക് താ ▁ ക്ക ▁ ളു ▁ടെ ▁കെ വൈ സി ▁വി ▁വ ▁ര ▁ ങ്ങ ▁ ള ് ▁ശ േ ▁ഖ ▁ രി ▁ ക്കു ▁ ന്ന ▁തി ▁നു ▁മൊ ബൈ ▁ല ് ▁വാ ▁ല ▁ റ്റ് ▁ക മ ് ബ നി ▁ക ▁ ള ് ▁ ക്ക് ▁ആറു ▁മാസം ▁കൂടി ▁സമയം ▁ന ല് ▁കി ▁റിസ ര ് ▁വ ് ▁ബാങ്ക്,business


In [35]:
del awd_lstm_config['tie_weights']
del awd_lstm_config['out_bias']

In [36]:
learn = text_classifier_learner(data_clas, arch=AWD_LSTM, drop_mult=0.5, config=awd_lstm_config)

In [37]:
learn.load_encoder('fine_tuned_enc')

RNNLearner(data=TextClasDataBunch;

Train: LabelList (503 items)
x: TextList
▁ x x bo s ▁ജോലി യില ് ▁നിന്ന് ▁ഒരു ▁ബ്ര േക്ക് ▁എടുക്ക ുന്നതിനു ▁മു ന് ▁പ ് . .,▁ x x bo s ▁ക മ ് ബോ ള ങ്ങള ് ▁കര ടി യുടെ ▁പിടി യില ്,▁ x x bo s ▁കൊച്ചി ▁മെട്രോ യുടെ ▁ബ്രാ ന് ▁ ഡ് ▁അംബ ാ സി ഡ റായി ▁നട ന് ▁സുരേഷ് ▁ഗോപി യെ ▁നിയമ ിച്ചു,▁ x x bo s ▁ഇന്ധന വില യില ് ▁വീണ്ടും ▁വര ് ▁ ദ്ധ ന വ് , ▁പെട്രോ ള ിന് ▁14 ▁പൈ സ യും ▁ഡീ സ ലി ന് ▁15 ▁പൈ സ യും ▁വര ് ▁ ദ്ധ ിച്ചു,▁ x x bo s ▁ഫെഡറ േഷന ് ▁കപ്പ ▁ ് ▁അത ▁ ് ▁ല റ്റി ക ▁ ് സി ന ▁ ് ▁ഇന്ന ▁ ് ▁തുടക്കം
y: CategoryList
business,business,business,business,sports
Path: .;

Valid: LabelList (630 items)
x: TextList
▁ x x bo s ▁ട്രെയിന ് ▁യാത്ര യില ് ▁ഇനി ▁കുല ു ക്കം ▁കുറയ ും , ▁ജെ ര ് ▁ ക്ക ിങ് ▁ഒഴിവാക്ക ുന്നതിനുള്ള ▁നൂതന ▁സാങ്കേതിക ▁വിദ്യ ▁പ്രീ മിയ ം ▁ട്രെയിന ുകളില ്,▁ x x bo s ▁പാ ▁ലാ ▁സെ ▁ന് ▁റ ് ▁തോ ▁മ ▁സ് ▁ചാ ▁മ ് ബ് യ ന് മാ ▁ര ്,▁ x x bo s ▁ഓ സ് ▁ട്ര േലിയ യ് ▁ ക്കെതിരെ ▁ഇനി ▁ധ ോ ണിയ ില്ല ; ▁ലോകകപ്പ ിന് ▁മു മ ് ബ് ▁ഋഷഭ ് ▁പന്ത ിന് ▁സു വര ് ▁ ണാ വസ രം <unk>,▁ x x bo s ▁ടെസ്

In [38]:
learn.freeze()

In [39]:
learn.loss_func.func

CrossEntropyLoss()

In [40]:
mcc = MatthewsCorreff()

In [41]:
learn.metrics = [mcc, accuracy]

In [42]:
learn.fit_one_cycle(1, 1e-2)

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.913209,0.839934,0.531958,0.684127,00:01


In [43]:
learn.freeze_to(-2)
learn.fit_one_cycle(1, 1e-2)

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.696013,0.615921,0.627481,0.750794,00:01


In [44]:
learn.save('second-full')

In [45]:
learn.unfreeze()
learn.fit_one_cycle(5, 1e-3, callbacks=[callbacks.SaveModelCallback(learn, every='improvement', monitor='accuracy', name='final')])

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.431186,0.55188,0.6861,0.790476,00:02
1,0.319877,0.485127,0.72028,0.811111,00:02
2,0.249567,0.429949,0.766443,0.844444,00:02
3,0.185514,0.437544,0.767014,0.844444,00:02
4,0.144947,0.429736,0.763979,0.842857,00:02


Better model found at epoch 0 with accuracy value: 0.7904762029647827.
Better model found at epoch 1 with accuracy value: 0.8111110925674438.
Better model found at epoch 2 with accuracy value: 0.8444444537162781.


In [46]:
learn.load('final')

RNNLearner(data=TextClasDataBunch;

Train: LabelList (503 items)
x: TextList
▁ x x bo s ▁ജോലി യില ് ▁നിന്ന് ▁ഒരു ▁ബ്ര േക്ക് ▁എടുക്ക ുന്നതിനു ▁മു ന് ▁പ ് . .,▁ x x bo s ▁ക മ ് ബോ ള ങ്ങള ് ▁കര ടി യുടെ ▁പിടി യില ്,▁ x x bo s ▁കൊച്ചി ▁മെട്രോ യുടെ ▁ബ്രാ ന് ▁ ഡ് ▁അംബ ാ സി ഡ റായി ▁നട ന് ▁സുരേഷ് ▁ഗോപി യെ ▁നിയമ ിച്ചു,▁ x x bo s ▁ഇന്ധന വില യില ് ▁വീണ്ടും ▁വര ് ▁ ദ്ധ ന വ് , ▁പെട്രോ ള ിന് ▁14 ▁പൈ സ യും ▁ഡീ സ ലി ന് ▁15 ▁പൈ സ യും ▁വര ് ▁ ദ്ധ ിച്ചു,▁ x x bo s ▁ഫെഡറ േഷന ് ▁കപ്പ ▁ ് ▁അത ▁ ് ▁ല റ്റി ക ▁ ് സി ന ▁ ് ▁ഇന്ന ▁ ് ▁തുടക്കം
y: CategoryList
business,business,business,business,sports
Path: .;

Valid: LabelList (630 items)
x: TextList
▁ x x bo s ▁ട്രെയിന ് ▁യാത്ര യില ് ▁ഇനി ▁കുല ു ക്കം ▁കുറയ ും , ▁ജെ ര ് ▁ ക്ക ിങ് ▁ഒഴിവാക്ക ുന്നതിനുള്ള ▁നൂതന ▁സാങ്കേതിക ▁വിദ്യ ▁പ്രീ മിയ ം ▁ട്രെയിന ുകളില ്,▁ x x bo s ▁പാ ▁ലാ ▁സെ ▁ന് ▁റ ് ▁തോ ▁മ ▁സ് ▁ചാ ▁മ ് ബ് യ ന് മാ ▁ര ്,▁ x x bo s ▁ഓ സ് ▁ട്ര േലിയ യ് ▁ ക്കെതിരെ ▁ഇനി ▁ധ ോ ണിയ ില്ല ; ▁ലോകകപ്പ ിന് ▁മു മ ് ബ് ▁ഋഷഭ ് ▁പന്ത ിന് ▁സു വര ് ▁ ണാ വസ രം <unk>,▁ x x bo s ▁ടെസ്

In [47]:
from sklearn.metrics import accuracy_score, matthews_corrcoef
df_dict = {'query': list(df_test[1]), 'actual_label': list(df_test[0]), 'predicted_label': ['']*df_test.shape[0]}
all_nodes = list(set(df_train[0]))
for node in all_nodes:
    df_dict[node] = ['']*df_test.shape[0]
    
i2c = {}
for key, value in learn.data.c2i.items():
    i2c[value] = key
    
df_result = pd.DataFrame(df_dict)
preds = learn.get_preds(ds_type=DatasetType.Test, ordered=True)
for index, row in df_result.iterrows():
    for node in all_nodes:
        row[node] = preds[0][index][learn.data.c2i[node]].item()
    row['predicted_label'] = i2c[np.argmax(preds[0][index]).data.item()]
df_result.head()

Unnamed: 0,query,actual_label,predicted_label,sports,business,entertainment
0,ഇഞ്ചുറി ടൈം പെനാല്‍റ്റിയില്‍ എഫ് സി പോര്‍ട്ടോ,sports,sports,0.874616,0.115009,0.0103751
1,ആമിര്‍ ഖാന്റെ ഏറ്റവും പുതിയ ചിത്രം ലാല്‍ സിങ് ...,entertainment,sports,0.718552,0.0681029,0.213345
2,ഐ പി എല്ലിന് മുന്‍പായി ഓസ്‌ട്രേലിയന്‍ ടീമിനൊപ്...,sports,sports,0.907093,0.0874963,0.00541089
3,സാമ്ബത്തിക ജീവിതം സുരക്ഷിതമാക്കണോ? ഈ അഞ്ച് ശീല...,business,entertainment,0.0324708,0.0549577,0.912571
4,എല്‍ഇഡി ബള്‍ബുകള്‍ ലഭ്യമാക്കും; പദ്ധതിയുടെ രജി...,business,sports,0.466611,0.291206,0.242183


In [48]:
accuracy_score(df_result['actual_label'], df_result['predicted_label'])

0.8238095238095238

In [49]:
matthews_corrcoef(df_result['actual_label'], df_result['predicted_label'])

0.7347112289913106

In [50]:
df_result.to_csv('inltk_headlines_ml_without_aug.csv', index=False)