In [1]:
from fastai.text import *
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import pickle
import sentencepiece as spm
import re
import pdb

In [2]:
import fastai, torch
fastai.__version__ , torch.__version__

('1.0.57', '1.0.0')

In [3]:
torch.cuda.set_device(0)

In [4]:
def random_seed(seed_value, use_cuda):
    np.random.seed(seed_value)  
    torch.manual_seed(seed_value)  
    random.seed(seed_value)
    if use_cuda:
        torch.cuda.manual_seed(seed_value)
        torch.cuda.manual_seed_all(seed_value)  
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False

In [5]:
random_seed(42, True)

In [6]:
path = Path('./')

In [7]:
!pwd

/data/home/ubuntu/gaurav/in/nlp-for-tamil/classification


In [8]:
df_train = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/ta/ta-train.csv', header=None)
df_train.head()

Unnamed: 0,0,1
0,tamil-cinema,கே.வி.ஆனந்தே ட்விட்டரில் இதை அறிவித்துள்ளார். ...
1,spirituality,"பரிகாரம்: சுக்கிரன், கேதுவுக்குப் பிரீதி, பரிக..."
2,business,8 லட்சம் கார்களை திரும்பப் பெற்றது ஹோண்டா நிறு...
3,business,2003-ம் ஆண்டு அக்டோபர் மாதத்திலிருந்து 2013-ம்...
4,spirituality,தொழில் வியாபாரத்தில் பணத்தேவை ஏற்படலாம். கடன் ...


In [9]:
df_valid = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/ta/ta-valid.csv', header=None)
df_valid.head()

Unnamed: 0,0,1
0,tamil-cinema,"'4ஜி', 'சர்வம் தாளமயம்', 'அடங்காதே' உள்ளிட்ட ப..."
1,spirituality,பாண்டிச்சேரியில் அம்பலத்தாடையார் மடத்து வீதியி...
2,business,விளைபொருட்களை உரிய விலையில் சந்தைப்படுத்த 10 ம...
3,spirituality,"’காஞ்சிபுரத்திலே ஸ்ரீசக்ரம், மாங்காட்டிலே அர்த..."
4,spirituality,ஈசன் புளிய மரத்தருகே தோன்றியதால் புளிய மரம் தல...


In [10]:
df_test = pd.read_csv(path/'../../classification_public_datasets/inltk-headlines/ta/ta-test.csv', header=None)
df_test.head()

Unnamed: 0,0,1
0,spirituality,மாலவனின் மீது மாளாத அன்பும் பக்தியும் கொண்டு ப...
1,tamil-cinema,"நண்பன் காதலுக்கும், தன் காதலுக்கும் சேர்ந்து ப..."
2,tamil-cinema,ஒரு திரைப்படத்தைப் பார்க்கும் பலருக்கும் பலவித...
3,spirituality,"செவ்வாயின் சித்திரை நட்சத்திரம் 3, 4-ம் பாதம் ..."
4,spirituality,அந்தச் சமயத்தில் தாளக் கருவிகளோடு மணியும் சேர்...


In [11]:
df_train.shape, df_valid.shape, df_test.shape

((5346, 2), (669, 2), (669, 2))

In [12]:
cutoff = int(0.05*len(df_train))

In [13]:
df_train = pd.DataFrame({0: list(df_train[0])[:cutoff], 1: list(df_train[1])[:cutoff]})
df_train.shape

(267, 2)

In [14]:
df_train[df_train[0].isnull()].shape, df_valid[df_valid[0].isnull()].shape, df_test[df_test[0].isnull()].shape

((0, 2), (0, 2), (0, 2))

In [15]:
Counter(list(df_train[0]))

Counter({'business': 91, 'spirituality': 82, 'tamil-cinema': 94})

In [16]:
class TamilTokenizer(BaseTokenizer):
    def __init__(self, lang:str):
        self.lang = lang
        self.sp = spm.SentencePieceProcessor()
        self.sp.Load(str('./../../models/tamil/tokenizer/tamil_spm_8k.model'))
        
    def tokenizer(self, t:str) -> List[str]:
        return self.sp.EncodeAsPieces(t)

In [17]:
sp = spm.SentencePieceProcessor()
sp.Load(str('./../../models/tamil/tokenizer/tamil_spm_8k.model'))
itos = [sp.IdToPiece(int(i)) for i in range(8000)]

In [18]:
tamil_vocab = Vocab(itos)

In [19]:
tokenizer = Tokenizer(tok_func=TamilTokenizer, lang='ta')

In [20]:
label_cols = [0]

In [21]:
data_lm = TextLMDataBunch.from_df(path=path, train_df=df_train, valid_df=df_valid, test_df=df_test, tokenizer=tokenizer, vocab=tamil_vocab)

In [22]:
data_lm.show_batch()

idx,text
0,"ன்ஸ் ▁நிறுவனம் ▁தயாரிக்க ிறது . ▁ x x b os ▁பரி கார ம் : ▁சு க்கிர ன் , ▁கே து வுக்கு ப் ▁பி ரீ தி , ▁பரி கார ங்கள் ▁செய்து ▁கொள்ள வும் . ▁ x x b os ▁8 ▁லட்ச ம் ▁கார் களை ▁திரும்ப ப் ▁பெற்றது ▁ஹோ ண்டா ▁நிறுவனம் ▁ x x b os ▁2003 - ம் ▁ஆண்டு ▁அக்டோபர் ▁மாத த்திலிருந்து ▁2013 - ம் ▁ஆண்டு ▁மார்ச் ▁மாதம் ▁வரை ▁ஜெனரல் ▁டை"
1,▁வித ம் ▁பட த்துக்கு ▁நியாய ம் ▁சேர்க்க ிறது . ▁ x x b os ▁தொழில் ▁வியாபார த்தில் ▁இருந்த ▁மெ த்தன ப் ▁போ க்கு ▁மாறும் . ▁வியாபார ம் ▁தொடர்பான ▁பயண ங்கள் ▁சு மா ரான ▁பல ன் ▁தரும் . ▁உத்தி யோ க த்தில் ▁இருப்ப வர்கள் ▁திட்டமிட்ட படி ▁பணிகளை ▁முடிக்க ▁முடியாமல் ▁தாமத ம் ▁ஏற்படலாம் . ▁சக ▁ஊழியர் களுடன் ▁கவன மாக ▁பழ க ுவது ▁நல்ல து . ▁ x x b os ▁ ம்மா
2,"ித்த ுள்ளது . ▁அதில் ▁இந்நிறுவன ம் ▁தெரிவிக்க ும் ▁கருத்து களைக் ▁கேட்டு ▁அதன் ▁அடிப்படையில் ▁முடிவ ெடுக்க ுமாறு ▁பரிந்துரை த்த ுள்ளது . ▁ x x b os ▁ <unk> ▁ஆறு ▁மாத ங்களுக்கு ▁பிறகு ▁அப்போதைய ▁தலைமை ச் ▁செயல் ▁அதிகாரி ▁ஜெ ர் ரி ▁கி ரின் ஸ்டன் ▁கேட்டு க்கொண்ட தன் ▁பேர ில் , ▁ டெல் டா ▁நிறுவனத்தின் ▁தலைமை ▁நிதி ▁அதிகாரி யாக ▁2004 - ம் ▁ஆண்டு ▁பொறுப்பேற்ற ார் . ▁அப்போது ▁கடும் ▁நிதி ▁நெருக்கடி ▁மற்றும் ▁பிரச்சினை யில்"
3,"வில்லை ▁என்ற ெல்லாம் ▁விமர்சன ங்கள் ▁எழுந்த ன . ▁ x x b os ▁மூன்ற ையும் ▁பார்த்த ▁அசோக ▁மன்னர் ▁தன் ▁அமைச்ச ரிடம் , ▁அந்த ▁மூன்று ▁தலை களையும் ▁சந்தை க்குச் ▁சென்று ▁வி ற்று விட்டு ▁வர ச் சொ ன் னார் . ▁மன்னர ின் ▁கட்டளை ப்படி ▁சந்தை க்குச் ▁சென்ற வன் ▁தி ண றி னான் . ▁ x x b os ▁ > > ▁ஏ ▁ / ▁சி ▁கே ஸ் ▁அளவை ▁பரிச ோ தி த்து"
4,▁உருவாகிய ுள்ளது . ▁ x x b os ▁ஹை த ரா பா த்தில் ▁உள்ள ▁ஒரு ▁தனியார் ▁மருத்துவமனையில் ▁சிகிச்சை ▁பெற்று ▁வந்தார் . ▁சிகிச்சை ▁பல னின் றி ▁நே ற்று ▁அவரது ▁உயிர் ▁பிரி ந்தது . ▁அவரது ▁உடல் ▁சென்னை ▁கொண்டுவர ப்படுகிறது . ▁நாளை ▁மத ியம் ▁அவரது ▁இறுதி ச் ▁சடங்கு ▁நடைபெற ▁உள்ளது . ▁ x x b os ▁நோக்கி யா ▁பிரா ண்டை ▁வாங்கிய ுள்ள ▁ஹெ ச் எம் டி ▁குளோ பல் ▁நிறுவனம் ▁அடுத்த ▁மூன்று ▁ஆண்டுகளுக்கு ள்


In [23]:
awd_lstm_config = awd_lstm_lm_config.copy()
awd_lstm_config['n_hid'] = 1150
learn = language_model_learner(data_lm, arch=AWD_LSTM, drop_mult=0.3, config=awd_lstm_config, pretrained=False)

In [24]:
learn.load('../../../models/tamil/lm/wikitalm_8k_447_third')

LanguageLearner(data=TextLMDataBunch;

Train: LabelList (267 items)
x: LMTextList
▁ x x b os ▁கே . வி . ஆ ன ந்தே ▁ ட் விட்ட ரில் ▁இதை ▁அறிவித்த ுள்ளார் . ▁இந்தப் ▁பட த்துக்கு ▁கே வ் மி க் ▁ஆ ரி ▁ஒளிப்பதி வு ▁செய்ய , ▁ஹா ரி ஸ் ▁ஜெய ராஜ் ▁இசை ய மை க்கிறார் . ▁பட்டு க்கோட்டை ▁பிர பா கர் ▁வசன ம் ▁எழுத , ▁கலை ▁இயக்குநராக ▁கிர ண் ▁பணியாற்ற ுகிறார் . ▁இந்தப் ▁பட த்தை ▁ லை கா ▁பு ரொ ட க் ▁ஷ ன்ஸ் ▁நிறுவனம் ▁தயாரிக்க ிறது .,▁ x x b os ▁பரி கார ம் : ▁சு க்கிர ன் , ▁கே து வுக்கு ப் ▁பி ரீ தி , ▁பரி கார ங்கள் ▁செய்து ▁கொள்ள வும் .,▁ x x b os ▁8 ▁லட்ச ம் ▁கார் களை ▁திரும்ப ப் ▁பெற்றது ▁ஹோ ண்டா ▁நிறுவனம்,▁ x x b os ▁2003 - ம் ▁ஆண்டு ▁அக்டோபர் ▁மாத த்திலிருந்து ▁2013 - ம் ▁ஆண்டு ▁மார்ச் ▁மாதம் ▁வரை ▁ஜெனரல் ▁டை ன மி க் ▁கார் ப்ப ரே ஷன் ▁நிறுவனத்தின் ▁நிர்வாக த் ▁துணை த்தலைவர் ▁பொறுப்ப ில் ▁இருந்தவர் .,▁ x x b os ▁தொழில் ▁வியாபார த்தில் ▁பண த்தே வை ▁ஏற்படலாம் . ▁கடன் ▁விவகார ங்களில் ▁கவன மாக ▁செயல்பட ுவது ▁நல்ல து . ▁உத்தி யோ க த்தில் ▁இருப்ப வர்கள் ▁ஓய்வு ▁இல்லாமல் ▁பணியாற்ற ▁வேண்டி ▁இருக்கும் . ▁இயந்த

In [25]:
learn.freeze()

In [26]:
learn.fit_one_cycle(1, 1e-2)

epoch,train_loss,valid_loss,accuracy,time
0,4.679752,4.44184,0.255421,00:00


In [27]:
learn.unfreeze()

In [28]:
learn.fit_one_cycle(5, 1e-3)

epoch,train_loss,valid_loss,accuracy,time
0,4.4636,4.366399,0.273629,00:00
1,4.392247,4.174277,0.301116,00:00
2,4.27939,4.088448,0.327647,00:00
3,4.175834,4.067676,0.329879,00:00
4,4.098936,4.063956,0.331728,00:00


In [29]:
learn.predict('▁தனது ▁சொந்த',n_words=10)

'▁தனது ▁சொந்த ▁பெரிய ▁முக்கோண ▁வடிவ ▁வீ ட ாகும் . ▁இது ▁குரு தி'

In [30]:
learn.save_encoder('fine_tuned_enc')

In [31]:
data_clas = TextClasDataBunch.from_df(path=path, train_df=df_train, valid_df=df_valid, test_df=df_test, tokenizer=tokenizer, vocab=tamil_vocab, label_cols=label_cols, bs=64)

In [32]:
data_clas.show_batch()

text,target
▁ x x b os ▁' ' ப ச ங்களை ▁அ ழ ▁வைக்க ு ற து தான் ▁பொ ண்ண ு ங்கள ோ ட ▁ஃப ு ல் டை ம் ▁ஜா ப் ' ' . ▁' ' மே ய் க்கிறது ▁எ ரு மை ▁அது ல ▁என்ன ▁பெருமை ' ' ▁ச தீ ஷ ின் ▁ஒ ன் ▁ லை னர் ▁வசன ங்களுக்கு ▁தி யே ட்ட ரில் ▁கை த ட்ட ல்கள் ▁பல மாக ▁விழ ுகின்றன,tamil-cinema
"▁ x x b os ▁ ஸி ஜி யா ங் ▁ஹை போ ▁இன் டர் நெட் ▁டெக் னா ல ஜி ▁கம்பெனி ▁( z he j i ang <unk> <unk> ai b o ▁in ter n et <unk> <unk> e ch n ology <unk> p an y . ▁சுருக்கமாக ▁ z h i t c ) ▁என்று ▁பெயர் ▁சூட்ட ினார் கள் . ▁இந்தப் ▁பெயரை யும் , ▁இணைய ப் ▁பக்க ங்களுக்கான ▁சீன ப்",business
"▁ x x b os ▁ச மீ ப த்தில் ▁5 , 7 2,000 ▁ லை க்கு களை ▁கடந்து ▁' வி வேக ம் ' ▁டீ ஸ ர் ▁உலக ▁சாதனை ▁பெற்றது . ▁இதனை க் ▁கட க்க ▁வேண்டும் ▁என்று ▁விஜய் ▁ரசிகர் கள் ▁போட்டி ▁போ ட்டு ▁' மெ ர் சல் ' ▁டீ ஸ ருக்கு ▁ லை க்கு களை ▁குவி த்து ▁வந்தார் கள் . ▁இதனால் ▁ 98 ▁லட்ச ம் ▁பார்வை களை ▁கடந்து ▁சுமார் ▁7 ▁",tamil-cinema
"▁ x x b os ▁‘ என் னன் னு ▁தெரிய ல . ▁மன சே ▁சரி யில் ல ப்பா ’ ▁என்று ▁சொல்ல ாத வர் களே ▁இல்லை . ▁‘ இ ப்ப தான் ▁மன சு ▁தக்க ையா , ▁லே சா ▁இரு க்கு ’ ▁என்று ▁சொல்ல ாத வர்கள் ▁கூட ▁எ வரு மே ▁இல்லை தா னே . ▁இந்த ▁‘ ச ரி யில் லை ’ க்கும் ▁‘ லே சா ▁இரு க்கு ’ க்கும் ▁ஆதார கர் த்தா",spirituality
"▁ x x b os ▁2013 ஆம் ▁ஆண்டு ▁ ட் விட்ட ரில் ▁இணைந்த ார் ▁ர ஜி னி காந்த ் . ▁ஆனால் , ▁2014 ஆம் ▁ஆண்டு தான் ▁முதல் ▁ ட் வீ ட்டை யே ▁பதி விட்டார் . ▁முதல் ▁மூன்று ▁ ட் வ ீட்டு களில் , ▁ ட் விட்ட ரில் ▁அவரை ▁வர வே ற்ற ▁ரசிகர் கள் ▁உள்ளிட்ட ▁அனைவருக்கும் ▁நன் றி ▁தெரிவித்த ுள்ள ▁ர ஜி னி , ▁நான்காவது ▁ ட் வீட்ட ாக ▁ந ர",tamil-cinema


In [33]:
del awd_lstm_config['tie_weights']
del awd_lstm_config['out_bias']

In [34]:
learn = text_classifier_learner(data_clas, arch=AWD_LSTM, drop_mult=0.5, config=awd_lstm_config)

In [35]:
learn.load_encoder('fine_tuned_enc')

RNNLearner(data=TextClasDataBunch;

Train: LabelList (267 items)
x: TextList
▁ x x b os ▁கே . வி . ஆ ன ந்தே ▁ ட் விட்ட ரில் ▁இதை ▁அறிவித்த ுள்ளார் . ▁இந்தப் ▁பட த்துக்கு ▁கே வ் மி க் ▁ஆ ரி ▁ஒளிப்பதி வு ▁செய்ய , ▁ஹா ரி ஸ் ▁ஜெய ராஜ் ▁இசை ய மை க்கிறார் . ▁பட்டு க்கோட்டை ▁பிர பா கர் ▁வசன ம் ▁எழுத , ▁கலை ▁இயக்குநராக ▁கிர ண் ▁பணியாற்ற ுகிறார் . ▁இந்தப் ▁பட த்தை ▁ லை கா ▁பு ரொ ட க் ▁ஷ ன்ஸ் ▁நிறுவனம் ▁தயாரிக்க ிறது .,▁ x x b os ▁பரி கார ம் : ▁சு க்கிர ன் , ▁கே து வுக்கு ப் ▁பி ரீ தி , ▁பரி கார ங்கள் ▁செய்து ▁கொள்ள வும் .,▁ x x b os ▁8 ▁லட்ச ம் ▁கார் களை ▁திரும்ப ப் ▁பெற்றது ▁ஹோ ண்டா ▁நிறுவனம்,▁ x x b os ▁2003 - ம் ▁ஆண்டு ▁அக்டோபர் ▁மாத த்திலிருந்து ▁2013 - ம் ▁ஆண்டு ▁மார்ச் ▁மாதம் ▁வரை ▁ஜெனரல் ▁டை ன மி க் ▁கார் ப்ப ரே ஷன் ▁நிறுவனத்தின் ▁நிர்வாக த் ▁துணை த்தலைவர் ▁பொறுப்ப ில் ▁இருந்தவர் .,▁ x x b os ▁தொழில் ▁வியாபார த்தில் ▁பண த்தே வை ▁ஏற்படலாம் . ▁கடன் ▁விவகார ங்களில் ▁கவன மாக ▁செயல்பட ுவது ▁நல்ல து . ▁உத்தி யோ க த்தில் ▁இருப்ப வர்கள் ▁ஓய்வு ▁இல்லாமல் ▁பணியாற்ற ▁வேண்டி ▁இருக்கும் . ▁இயந்திர ம்

In [36]:
learn.freeze()

In [37]:
learn.loss_func.func

CrossEntropyLoss()

In [38]:
mcc = MatthewsCorreff()

In [39]:
learn.metrics = [mcc, accuracy]

In [40]:
learn.fit_one_cycle(1, 1e-2)

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.916208,1.039931,0.394583,0.484305,00:01


In [41]:
learn.freeze_to(-2)
learn.fit_one_cycle(1, 1e-2)

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.536464,0.914741,0.800972,0.86846,00:01


In [42]:
learn.unfreeze()
learn.fit_one_cycle(5, 1e-3, callbacks=[callbacks.SaveModelCallback(learn, every='improvement', monitor='accuracy', name='final')])

epoch,train_loss,valid_loss,matthews_correff,accuracy,time
0,0.334453,0.869782,0.687768,0.783259,00:01
1,0.323205,0.80546,0.722468,0.80867,00:01
2,0.296233,0.735485,0.786363,0.856502,00:01
3,0.269651,0.681123,0.810811,0.874439,00:01
4,0.250174,0.642534,0.817138,0.878924,00:01


Better model found at epoch 0 with accuracy value: 0.7832586169242859.
Better model found at epoch 1 with accuracy value: 0.8086696267127991.
Better model found at epoch 2 with accuracy value: 0.8565022349357605.
Better model found at epoch 3 with accuracy value: 0.8744394779205322.
Better model found at epoch 4 with accuracy value: 0.878923773765564.


In [43]:
from sklearn.metrics import accuracy_score, matthews_corrcoef
df_dict = {'query': list(df_test[1]), 'actual_label': list(df_test[0]), 'predicted_label': ['']*df_test.shape[0]}
all_nodes = list(set(df_train[0]))
for node in all_nodes:
    df_dict[node] = ['']*df_test.shape[0]
    
i2c = {}
for key, value in learn.data.c2i.items():
    i2c[value] = key
    
df_result = pd.DataFrame(df_dict)
preds = learn.get_preds(ds_type=DatasetType.Test, ordered=True)
for index, row in df_result.iterrows():
    for node in all_nodes:
        row[node] = preds[0][index][learn.data.c2i[node]].item()
    row['predicted_label'] = i2c[np.argmax(preds[0][index]).data.item()]
df_result.head()

Unnamed: 0,query,actual_label,predicted_label,business,tamil-cinema,spirituality
0,மாலவனின் மீது மாளாத அன்பும் பக்தியும் கொண்டு ப...,spirituality,spirituality,0.107074,0.305477,0.587449
1,"நண்பன் காதலுக்கும், தன் காதலுக்கும் சேர்ந்து ப...",tamil-cinema,tamil-cinema,0.109806,0.656684,0.23351
2,ஒரு திரைப்படத்தைப் பார்க்கும் பலருக்கும் பலவித...,tamil-cinema,tamil-cinema,0.175811,0.645693,0.178496
3,"செவ்வாயின் சித்திரை நட்சத்திரம் 3, 4-ம் பாதம் ...",spirituality,spirituality,0.150347,0.33372,0.515934
4,அந்தச் சமயத்தில் தாளக் கருவிகளோடு மணியும் சேர்...,spirituality,tamil-cinema,0.213414,0.44128,0.345306


In [44]:
accuracy_score(df_result['actual_label'], df_result['predicted_label'])

0.8624813153961136

In [45]:
matthews_corrcoef(df_result['actual_label'], df_result['predicted_label'])

0.7942185397391086

In [46]:
df_result.to_csv('inltk_headlines_ta_without_aug.csv', index=False)