In [1]:
from fastai.text import *
import numpy as np
from sklearn.model_selection import train_test_split
import pickle
import sentencepiece as spm
import re
import pdb

In [2]:
import fastai, torch
fastai.__version__ , torch.__version__

('1.0.57', '1.0.0')

In [3]:
torch.cuda.set_device(0)

In [4]:
def random_seed(seed_value, use_cuda):
    np.random.seed(seed_value)  
    torch.manual_seed(seed_value)  
    random.seed(seed_value)
    if use_cuda:
        torch.cuda.manual_seed(seed_value)
        torch.cuda.manual_seed_all(seed_value)  
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False

In [5]:
random_seed(42, True)

In [6]:
path = Path('./')

In [7]:
df_train = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/gu/gu-train.csv', header=None)
df_train.head()

Unnamed: 0,0,1
0,entertainment,સાડીમાં જ દેખાતી 'નાગિન 3' ની એક્ટ્રેસનો જુઓ બ...
1,business,"નીરવ મોદીના જેકેટમાં એવુ શું છે ખાસ, જેની કિંમ..."
2,business,નોટ નહી કરાવે ખોટઃશનિવાર અને રવિવાર બેન્કો ખુલ...
3,business,મોબાઇલ : ઇન્ટેક્સ કંપનીએ ઓછી કિંમતમાં લોન્ચ કર...
4,business,"એક જ નિર્ણયથી બદલાઈ ગઈ કિસ્મત, વર્ષભરમાં ફેમિલ..."


In [8]:
Counter(list(df_train[0]))

Counter({'business': 1867, 'entertainment': 2324, 'tech': 1078})

In [9]:
df_valid = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/gu/gu-valid.csv', header=None)
df_valid.head()

Unnamed: 0,0,1
0,business,અમદાવાદઃખેતરમાંથી સીધી હવે કેસર કેરી ગ્રાહકો સ...
1,entertainment,"#MeToo પર રહેમાને તોડી ચુપ્પી, આપ્યું આ નિવેદન"
2,entertainment,IPLમાં પરફોર્મ કરવા માટે રણવીર સિંહે માગી અધધ....
3,entertainment,"બિકીનીમાં બિચ પર જોવા મળી મલાઈકા, તસવીરો શેર ક..."
4,tech,હવે મોબાઇલથી ઘરે બેઠા કમાઇ શકો છો 40 હજાર રૂપિ...


In [10]:
df_test = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/gu/gu-test.csv', header=None)
df_test.head()

Unnamed: 0,0,1
0,business,"કેપ્ટન વિરાટ કોહલીનો નવો રેકોર્ડ, પ્યૂમા સાથે ..."
1,entertainment,PHOTOS: દેવ દિવાળી ઉજવવા બનારસ પહોંચ્યો અનિલ ક...
2,entertainment,રીતિક રોશને પૂર્વ પત્ની સુઝેન અને બાળકો સાથે ક...
3,entertainment,આ ટીવી એકટ્રેસે પિંક સ્કર્ટમાં કરાવ્યું હોટ ફો...
4,entertainment,નિક સાથે વેકેશન એન્જોય કરવા જંગલમાં નીકળી પ્રિ...


In [11]:
df_train.shape, df_valid.shape, df_test.shape

((5269, 2), (659, 2), (659, 2))

In [12]:
cutoff = int(0.1*len(df_train))

In [13]:
df_train = pd.DataFrame({0: list(df_train[0])[:cutoff], 1: list(df_train[1])[:cutoff]})
df_train.shape

(526, 2)

In [14]:
df_train[df_train[0].isnull()].shape, df_valid[df_valid[0].isnull()].shape, df_test[df_test[0].isnull()].shape

((0, 2), (0, 2), (0, 2))

In [15]:
label_cols = [0]

In [16]:
class GujaratiTokenizer(BaseTokenizer):
    def __init__(self, lang:str):
        self.lang = lang
        self.sp = spm.SentencePieceProcessor()
        self.sp.Load(str('./../../models/gujarati/tokenizer/gujarati_lm.model'))
        
    def tokenizer(self, t:str) -> List[str]:
        return self.sp.EncodeAsPieces(t)

In [17]:
sp = spm.SentencePieceProcessor()
sp.Load(str('./../../models/gujarati/tokenizer/gujarati_lm.model'))
itos = [sp.IdToPiece(int(i)) for i in range(20000)]

In [18]:
itos[:10]

['<unk>', '<s>', '</s>', '.', ',', '▁છે', '▁', '▁અને', 'ની', 'માં']

In [19]:
# 20,000 is the vocab size that we chose in sentencepiece
gujarati_vocab = Vocab(itos)

In [20]:
tokenizer = Tokenizer(tok_func=GujaratiTokenizer, lang='gu')

In [21]:
tokenizer.special_cases

['xxunk',
 'xxpad',
 'xxbos',
 'xxeos',
 'xxfld',
 'xxmaj',
 'xxup',
 'xxrep',
 'xxwrep']

In [22]:
data_lm = TextLMDataBunch.from_df(path=path, train_df=df_train, valid_df=df_valid, test_df=df_test, tokenizer=tokenizer, vocab=gujarati_vocab, label_cols=label_cols)

In [23]:
data_lm.show_batch()

idx,text
0,"ટેક્સ ▁કંપનીએ ▁ઓછી ▁કિંમત માં ▁લોન્ચ ▁કર્યો ▁એક ્વા ▁એ યર ▁2 ▁x x bo s ▁એક ▁જ ▁નિર્ણય થી ▁બદલાઈ ▁ગઈ ▁કિ સ્ મત , ▁વર્ષ ભર માં ▁ફેમિલી ને ▁કરાવ્યો ▁કરોડો નો ▁ફાયદો ▁x x bo s ▁શ્રી દેવી ના ▁રાજકીય ▁સન્માન ▁સાથે ▁અંતિમ ▁સંસ્કાર , <unk> ▁r t i માં ▁થયા ▁ખુલાસા ▁x x bo s ▁લોન ▁ફ્ર ો ડ ▁કેસમાં ▁ચંદ ા ▁કોચ ર ▁અને ▁વીડિયો"
1,"રે ▁33 ▁કરોડ ▁યુઝર્સ ને ▁પાસવર્ડ ▁બદલવા નું ▁કહ્યું , ▁તમાર ું ▁નામ ▁તો ▁નથી ▁ને ? ▁x x bo s <unk> ▁p h o t o s : ▁મિસ ▁યુનિવર્સ ▁20 18 ▁સ્પર્ધા , ▁જુઓ ▁બિ કિ ની ▁રાઉન્ડમાં ▁સુંદર ીઓ નો ▁જલ વો ▁x x bo s ▁રોલ ્સ ▁રોય સ ▁કરતા ▁પણ ▁મોંઘી ▁છે ▁આ ▁અ તર ની ▁શી શી , ▁કિંમત ▁જાણી ને ▁આંખો ▁થઈ ▁જશે"
2,"▁સિઝન ▁શરૂ ▁થાય ▁તે ▁પહેલા ▁તેનું ▁આ ▁સિ ક્રેટ ▁જાણ ો ▁x x bo s ▁સલમાન ના ▁ભાઇ ની <unk> ▁e x ▁ગર્લ ફ્રે ન્ડ ▁ઇન્ સ્ટા ગ્રામ ▁પર ▁છ વાઇ , ▁શેર ▁કરી ▁બોલ ્ડ ▁તસવીરો ▁x x bo s ▁આ ઇટ મ ▁ગર્લ ▁નો રા ▁ફતેહ ી એ ▁સેલ િબ ્રેટ ▁કર્યો ▁બર્ થ - ડે , ▁પાર્ટી માં ▁આવ્યા ▁સ્ટાર ્સ ▁x x bo s <unk> ▁p"
3,"▁આ ▁સૌથી ▁સસ્તા ▁પ્લાન માં ▁મળી ▁રહ્યું ▁છે ▁અન લિ મિ ટેડ ▁ઇન્ટરનેટ ▁અને ▁કોલ િંગ ▁x x bo s ▁માત્ર ▁રૂ . 20 માં ▁ખોલ ાવ વો ▁સેવ િંગ ▁એકાઉન્ટ , ▁મળશે ▁તમામ ▁બેંકિંગ ▁સર્વિસ ▁x x bo s ▁અમરેલી : ▁બાબરા ▁માર્કેટીંગ ▁યાર્ડ માં ▁150 ▁જેટલા ▁મજુર ો ▁હડતાળ ▁પર , ▁કપાસ ની ▁હરાજી ▁થઈ ▁ઠ પ ▁x x bo s ▁સલમાન ે ▁શરૂ ▁કર્યુ ▁' 10 ▁કા"
4,"▁અહીંયા થી ▁ખરીદ ો ▁બ્રાન્ડ ેડ ▁કપડા ▁x x bo s ▁આશા ▁ભો સ લે ના ▁આ ▁પગલાં ▁બાદ ▁ લતા એ ▁તોડી ▁નાખ્યા ં ▁હતાં ▁તમામ ▁સંબંધ ▁x x bo s ▁આ ▁છે ▁20 18 ના ▁ટોપ ▁10 ▁સ્માર્ટફોન ્સ , ▁ખરીદ શો ▁તો ▁પ સ્તા શો ▁નહીં ▁x x bo s ▁ રિયા ▁ચક્રવર્તી એ ▁શેર ▁કરી ▁હોટ ▁ફોટો શ ૂટ ની ▁તસવીરો , ▁ફે ન્સે ▁કર્યો ▁લાઇ"


In [24]:
awd_lstm_config = awd_lstm_lm_config.copy()
awd_lstm_config['n_hid'] = 1150
learn = language_model_learner(data_lm, arch=AWD_LSTM, drop_mult=0.3, config=awd_lstm_config, pretrained=False)

In [25]:
# Loading the pretrained language model on gujarati wikipedia
learn.load('../../../models/gujarati/lm/ULMFiT/third_gu_lm', with_opt=True)

LanguageLearner(data=TextLMDataBunch;

Train: LabelList (526 items)
x: LMTextList
▁x x bo s ▁સાડી માં ▁જ ▁દેખાતી ▁' ના ગ િન ▁3 ' ▁ની ▁એક્ટ ્રે સ નો ▁જુઓ ▁બોલ ્ડ ▁અવતાર,▁x x bo s ▁ની ર વ ▁મોદી ના ▁જે કેટ માં ▁એવુ ▁શું ▁છે ▁ખાસ , ▁જેની ▁કિંમત ▁છે ▁આઠ ▁લાખ ▁રૂપિયા,▁x x bo s ▁નોટ ▁નહી ▁કરાવે ▁ખોટ ઃ શ નિ વાર ▁અને ▁રવિવાર ▁બેન્કો ▁ખુલ્લી ▁રહેશે,▁x x bo s ▁મોબાઇલ ▁: ▁ઇન્ ટેક્સ ▁કંપનીએ ▁ઓછી ▁કિંમત માં ▁લોન્ચ ▁કર્યો ▁એક ્વા ▁એ યર ▁2,▁x x bo s ▁એક ▁જ ▁નિર્ણય થી ▁બદલાઈ ▁ગઈ ▁કિ સ્ મત , ▁વર્ષ ભર માં ▁ફેમિલી ને ▁કરાવ્યો ▁કરોડો નો ▁ફાયદો
y: LMLabelList
,,,,
Path: .;

Valid: LabelList (659 items)
x: LMTextList
▁x x bo s ▁અમદાવાદ ઃ ખેત ર માંથી ▁સીધી ▁હવે ▁કેસર ▁કેરી ▁ગ્રાહકો ▁સુધી ▁પહોચ શે , મે યર ે ▁કેરી ▁મહોત્સવ ▁ખુલ્લો ▁મુક્યો,▁x x bo s ▁ <unk> ▁me t o o ▁પર ▁રહેમાન ે ▁તોડી ▁ચુ પ્પી , ▁આપ્યું ▁આ ▁નિવેદન,▁x x bo s <unk> <unk> l માં ▁પર ફોર્મ ▁કરવા ▁માટે ▁રણ વીર ▁સિંહ ે ▁માગી ▁અધ ધ . . . ર કમ,▁x x bo s ▁બિ કી ની માં ▁બિ ચ ▁પર ▁જોવા ▁મળી ▁મ લાઈ કા , ▁તસવીરો ▁શેર ▁કરતાં ▁જ ▁થઈ ▁ટ્રો લ,▁x x bo s ▁હવે ▁મો

In [26]:
learn.freeze()

In [27]:
learn.fit_one_cycle(1, 1e-1)

epoch,train_loss,valid_loss,accuracy,time
0,6.455141,5.708843,0.238449,00:00


In [28]:
learn.unfreeze()

In [29]:
learn.fit_one_cycle(3, 1e-2)

epoch,train_loss,valid_loss,accuracy,time
0,4.382281,5.084447,0.272489,00:00
1,3.927202,4.985622,0.29202,00:00
2,3.509896,5.049925,0.296596,00:00


In [30]:
learn.predict('શાહરૂખ ખાન સાથે',n_words=10)

'શાહરૂખ ખાન સાથે ▁ફેરબદલ ો ▁ગુજરાત ઃ ▁સલમાન ▁મિસ્ત્રી ની ▁નજર થી ▁થઈ'

In [31]:
learn.save_encoder('fine_tuned_enc')

In [32]:
data_clas = TextClasDataBunch.from_df(path=path, train_df=df_train, valid_df=df_valid, test_df=df_test, tokenizer=tokenizer, vocab=gujarati_vocab, label_cols=label_cols, bs=64)

In [33]:
data_clas.show_batch()

text,target
"▁x x bo s ▁રે ▁બે કારી ! ▁સ્વ િ પર ની ▁14 ▁જગ્યા ▁માટે <unk> ▁m . t e ch , <unk> ▁b . t e ch , <unk> ▁m b a ▁ઉમેદવારો એ ▁અરજી ▁કરી",business
"▁x x bo s ▁go og le એ ▁લોન્ચ ▁કર્યા <unk> ▁p i x el ▁3 ▁અને <unk> ▁p i x el ▁3 ▁ <unk> <unk> , ▁જાણ ો ▁ફી ચર ્સ ▁અને ▁કિંમત",tech
"▁x x bo s ▁' દેશ ી ▁ગર્લ ' ની ▁બે ચલ રેટ ▁પાર્ટી માં ▁પર િણી તિ ▁અને ▁ઇ શા ▁અંબાણી એ ▁રાખ્યો ▁રંગ , ▁જુઓ <unk> ▁p h o t o s",entertainment
▁x x bo s ▁ફોર્બ્સ ▁ઈન્ ડીયા <unk> ▁w - p ow er <unk> ▁t ra il b la z ers ▁20 19 ▁ લિસ્ટ ! ▁પ્રિય ં કા ▁સહિત ▁આ ▁લોકોને ▁મળી ▁જગ્યા,entertainment
▁x x bo s <unk> ▁p h o t o s : ▁ત ૈ મુ ર ની ▁બર્ થ ▁ડે ▁સેલ િબ ્રેટ ▁કરવા ં ▁સૈ ફ ▁અને ▁કર િના ▁પહોચ ્યા ▁કેપ ▁ટાઉન,entertainment


In [34]:
del awd_lstm_config['tie_weights']
del awd_lstm_config['out_bias']

In [35]:
learn = text_classifier_learner(data_clas, arch=AWD_LSTM, drop_mult=0.5, config=awd_lstm_config)

In [36]:
learn.load_encoder('fine_tuned_enc')

RNNLearner(data=TextClasDataBunch;

Train: LabelList (526 items)
x: TextList
▁x x bo s ▁સાડી માં ▁જ ▁દેખાતી ▁' ના ગ િન ▁3 ' ▁ની ▁એક્ટ ્રે સ નો ▁જુઓ ▁બોલ ્ડ ▁અવતાર,▁x x bo s ▁ની ર વ ▁મોદી ના ▁જે કેટ માં ▁એવુ ▁શું ▁છે ▁ખાસ , ▁જેની ▁કિંમત ▁છે ▁આઠ ▁લાખ ▁રૂપિયા,▁x x bo s ▁નોટ ▁નહી ▁કરાવે ▁ખોટ ઃ શ નિ વાર ▁અને ▁રવિવાર ▁બેન્કો ▁ખુલ્લી ▁રહેશે,▁x x bo s ▁મોબાઇલ ▁: ▁ઇન્ ટેક્સ ▁કંપનીએ ▁ઓછી ▁કિંમત માં ▁લોન્ચ ▁કર્યો ▁એક ્વા ▁એ યર ▁2,▁x x bo s ▁એક ▁જ ▁નિર્ણય થી ▁બદલાઈ ▁ગઈ ▁કિ સ્ મત , ▁વર્ષ ભર માં ▁ફેમિલી ને ▁કરાવ્યો ▁કરોડો નો ▁ફાયદો
y: CategoryList
entertainment,business,business,business,business
Path: .;

Valid: LabelList (659 items)
x: TextList
▁x x bo s ▁અમદાવાદ ઃ ખેત ર માંથી ▁સીધી ▁હવે ▁કેસર ▁કેરી ▁ગ્રાહકો ▁સુધી ▁પહોચ શે , મે યર ે ▁કેરી ▁મહોત્સવ ▁ખુલ્લો ▁મુક્યો,▁x x bo s ▁ <unk> ▁me t o o ▁પર ▁રહેમાન ે ▁તોડી ▁ચુ પ્પી , ▁આપ્યું ▁આ ▁નિવેદન,▁x x bo s <unk> <unk> l માં ▁પર ફોર્મ ▁કરવા ▁માટે ▁રણ વીર ▁સિંહ ે ▁માગી ▁અધ ધ . . . ર કમ,▁x x bo s ▁બિ કી ની માં ▁બિ ચ ▁પર ▁જોવા ▁મળી ▁મ લાઈ કા , ▁તસવીરો ▁શેર ▁

In [37]:
learn.freeze()

In [38]:
learn.loss_func.func

CrossEntropyLoss()

In [39]:
mcc = MatthewsCorreff()

In [40]:
learn.metrics = [mcc, accuracy]

In [41]:
learn.fit_one_cycle(1, 1e-2, moms=(0.8,0.7))

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.802973,0.866583,0.51463,0.694992,00:00


In [42]:
learn.freeze_to(-2)
learn.fit_one_cycle(1, slice(1e-2/(2.6**4),1e-2), moms=(0.8,0.7))

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.538299,0.701671,0.493413,0.681335,00:00


In [43]:
learn.save('second-full')

In [44]:
learn.load('second-full')

RNNLearner(data=TextClasDataBunch;

Train: LabelList (526 items)
x: TextList
▁x x bo s ▁સાડી માં ▁જ ▁દેખાતી ▁' ના ગ િન ▁3 ' ▁ની ▁એક્ટ ્રે સ નો ▁જુઓ ▁બોલ ્ડ ▁અવતાર,▁x x bo s ▁ની ર વ ▁મોદી ના ▁જે કેટ માં ▁એવુ ▁શું ▁છે ▁ખાસ , ▁જેની ▁કિંમત ▁છે ▁આઠ ▁લાખ ▁રૂપિયા,▁x x bo s ▁નોટ ▁નહી ▁કરાવે ▁ખોટ ઃ શ નિ વાર ▁અને ▁રવિવાર ▁બેન્કો ▁ખુલ્લી ▁રહેશે,▁x x bo s ▁મોબાઇલ ▁: ▁ઇન્ ટેક્સ ▁કંપનીએ ▁ઓછી ▁કિંમત માં ▁લોન્ચ ▁કર્યો ▁એક ્વા ▁એ યર ▁2,▁x x bo s ▁એક ▁જ ▁નિર્ણય થી ▁બદલાઈ ▁ગઈ ▁કિ સ્ મત , ▁વર્ષ ભર માં ▁ફેમિલી ને ▁કરાવ્યો ▁કરોડો નો ▁ફાયદો
y: CategoryList
entertainment,business,business,business,business
Path: .;

Valid: LabelList (659 items)
x: TextList
▁x x bo s ▁અમદાવાદ ઃ ખેત ર માંથી ▁સીધી ▁હવે ▁કેસર ▁કેરી ▁ગ્રાહકો ▁સુધી ▁પહોચ શે , મે યર ે ▁કેરી ▁મહોત્સવ ▁ખુલ્લો ▁મુક્યો,▁x x bo s ▁ <unk> ▁me t o o ▁પર ▁રહેમાન ે ▁તોડી ▁ચુ પ્પી , ▁આપ્યું ▁આ ▁નિવેદન,▁x x bo s <unk> <unk> l માં ▁પર ફોર્મ ▁કરવા ▁માટે ▁રણ વીર ▁સિંહ ે ▁માગી ▁અધ ધ . . . ર કમ,▁x x bo s ▁બિ કી ની માં ▁બિ ચ ▁પર ▁જોવા ▁મળી ▁મ લાઈ કા , ▁તસવીરો ▁શેર ▁

In [45]:
learn.unfreeze()
learn.fit_one_cycle(5, 1e-2, callbacks=[callbacks.SaveModelCallback(learn, every='improvement', monitor='accuracy', name='final')])

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.349164,0.55551,0.66458,0.789074,00:01
1,0.2533,0.539321,0.651812,0.77997,00:01
2,0.201973,0.518953,0.684019,0.801214,00:01
3,0.157583,0.578573,0.676847,0.795144,00:01
4,0.122792,0.533806,0.691944,0.805766,00:01


Better model found at epoch 0 with accuracy value: 0.7890743613243103.
Better model found at epoch 2 with accuracy value: 0.8012139797210693.
Better model found at epoch 4 with accuracy value: 0.8057662844657898.


In [46]:
learn.load('final')

RNNLearner(data=TextClasDataBunch;

Train: LabelList (526 items)
x: TextList
▁x x bo s ▁સાડી માં ▁જ ▁દેખાતી ▁' ના ગ િન ▁3 ' ▁ની ▁એક્ટ ્રે સ નો ▁જુઓ ▁બોલ ્ડ ▁અવતાર,▁x x bo s ▁ની ર વ ▁મોદી ના ▁જે કેટ માં ▁એવુ ▁શું ▁છે ▁ખાસ , ▁જેની ▁કિંમત ▁છે ▁આઠ ▁લાખ ▁રૂપિયા,▁x x bo s ▁નોટ ▁નહી ▁કરાવે ▁ખોટ ઃ શ નિ વાર ▁અને ▁રવિવાર ▁બેન્કો ▁ખુલ્લી ▁રહેશે,▁x x bo s ▁મોબાઇલ ▁: ▁ઇન્ ટેક્સ ▁કંપનીએ ▁ઓછી ▁કિંમત માં ▁લોન્ચ ▁કર્યો ▁એક ્વા ▁એ યર ▁2,▁x x bo s ▁એક ▁જ ▁નિર્ણય થી ▁બદલાઈ ▁ગઈ ▁કિ સ્ મત , ▁વર્ષ ભર માં ▁ફેમિલી ને ▁કરાવ્યો ▁કરોડો નો ▁ફાયદો
y: CategoryList
entertainment,business,business,business,business
Path: .;

Valid: LabelList (659 items)
x: TextList
▁x x bo s ▁અમદાવાદ ઃ ખેત ર માંથી ▁સીધી ▁હવે ▁કેસર ▁કેરી ▁ગ્રાહકો ▁સુધી ▁પહોચ શે , મે યર ે ▁કેરી ▁મહોત્સવ ▁ખુલ્લો ▁મુક્યો,▁x x bo s ▁ <unk> ▁me t o o ▁પર ▁રહેમાન ે ▁તોડી ▁ચુ પ્પી , ▁આપ્યું ▁આ ▁નિવેદન,▁x x bo s <unk> <unk> l માં ▁પર ફોર્મ ▁કરવા ▁માટે ▁રણ વીર ▁સિંહ ે ▁માગી ▁અધ ધ . . . ર કમ,▁x x bo s ▁બિ કી ની માં ▁બિ ચ ▁પર ▁જોવા ▁મળી ▁મ લાઈ કા , ▁તસવીરો ▁શેર ▁

In [47]:
from sklearn.metrics import accuracy_score, matthews_corrcoef
df_dict = {'query': list(df_test[1]), 'actual_label': list(df_test[0]), 'predicted_label': ['']*df_test.shape[0]}
all_nodes = list(set(df_train[0]))
for node in all_nodes:
    df_dict[node] = ['']*df_test.shape[0]
    
i2c = {}
for key, value in learn.data.c2i.items():
    i2c[value] = key
    
df_result = pd.DataFrame(df_dict)
preds = learn.get_preds(ds_type=DatasetType.Test, ordered=True)
for index, row in df_result.iterrows():
    for node in all_nodes:
        row[node] = preds[0][index][learn.data.c2i[node]].item()
    row['predicted_label'] = i2c[np.argmax(preds[0][index]).data.item()]
df_result.head()

Unnamed: 0,query,actual_label,predicted_label,entertainment,business,tech
0,"કેપ્ટન વિરાટ કોહલીનો નવો રેકોર્ડ, પ્યૂમા સાથે ...",business,entertainment,0.599113,0.375544,0.0253421
1,PHOTOS: દેવ દિવાળી ઉજવવા બનારસ પહોંચ્યો અનિલ ક...,entertainment,entertainment,0.988363,0.00876637,0.00287105
2,રીતિક રોશને પૂર્વ પત્ની સુઝેન અને બાળકો સાથે ક...,entertainment,entertainment,0.999361,0.000357525,0.000281632
3,આ ટીવી એકટ્રેસે પિંક સ્કર્ટમાં કરાવ્યું હોટ ફો...,entertainment,entertainment,0.953725,0.00963108,0.0366438
4,નિક સાથે વેકેશન એન્જોય કરવા જંગલમાં નીકળી પ્રિ...,entertainment,entertainment,0.998184,0.00101225,0.000803556


In [48]:
accuracy_score(df_result['actual_label'], df_result['predicted_label'])

0.8088012139605463

In [49]:
matthews_corrcoef(df_result['actual_label'], df_result['predicted_label'])

0.7018231816473297

In [50]:
df_result.to_csv('inltk_headlines_gu_without_aug.csv', index=False)