In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import font_manager as fm
from collections import Counter

import re
from tamil import utf8
from indicnlp import common
from indicnlp import loader
from indicnlp.tokenize import indic_tokenize
from indicnlp.transliterate.unicode_transliterate import ItransTransliterator

INDIC_NLP_RESOURCES=r"./indic_nlp_resources/"
# Export the path to the Indic NLP Resources directory programmatically
common.set_resources_path(INDIC_NLP_RESOURCES)
# Initialize the Indic NLP library
loader.load()

# Working On the Model ...

## Reading the Cleaned Data

In [5]:
df_tamil = pd.read_csv("./tamilmurasu_data/tamil_news_cleaned.csv", encoding='utf-8')
df_tamil.sample(5)

Unnamed: 0,news_id,news_date,news_category,news_title,news_article
39141,39616,1/31/2013 2:41:26 PM,தமிழகம்,ஆண்டுக்கான கூட்டம் : சட்டசபை நாளை கூடுகிறது ; ...,சென்னை : தமிழக சட்டசபை நாளை காலை 10 மணிக்கு கூ...
84094,84826,11/25/2015 3:04:47 PM,தமிழகம்,திமுக சார்பில் வெள்ளத்தால் பாதித்த 1500 பேருக்...,வேளச்சேரி : திமுக சார்பில் வெள்ளத்தால் பாதிக்க...
65447,66134,11/20/2014 2:19:20 PM,சினிமா(ரீல்மா),வாலிபரை மணக்க விரும்புகிறார் 63 வயதாகும் இந்தி...,மும்பை : 1970களில் பாலிவுட் படவுலகை கலக்கியவர்...
45361,45900,7/10/2013 2:03:26 PM,இந்தியா,தலைநகர் டெல்லியை கலக்கும் கிளினிக் எல்லா நோய்க...,புதுடெல்லி : நோயாளிகளின் உடலில் பிளேடால் கீறி ...
34490,34913,10/16/2012 5:52:06 PM,ஆன்மீகம்,நலங்கள் அள்ளி தரும் நவராத்திரி,சிவனுக்கு உகந்தது சிவராத்திரி . தம் தேவியர்க்க...


## Making all words/sentences lists

In [6]:
# storing as
# [ [article1] , [article2]  ... ]

articles_sentences_combined = []
for i in range(len(df_tamil)):
    pattern = r"[\xa0.,?!:/@#$%^&*(){}<>-_\+=\[\]\d’‘\"'\\]"  # Matches symbols and digits \xa0
    cur_article = re.sub(pattern, '', df_tamil['news_article'][i])
    articles_sentences_combined.append(cur_article)
#     if i == 1000:
#         break

# print(df_tamil['news_article'][823][200:])
# re.sub(pattern, '', df_tamil['news_article'][823][200:])

In [7]:
print(articles_sentences_combined[3944])

திண்டுக்கல்  ஆத்தூர் தொகுதி தேமுதிக வேட்பாளர் பாலசுப்பிரமணி நேற்று வேட்புமனு தாக்கல் செய்ய திண்டுக்கல் கலெக்டர் ஆபீசுக்கு வந்தார்  அவரிடம் உச்சகட்ட பரபரப்பு  அதிமுக மாவட்ட செயலாளர் நத்தம் விசுவநாதன்  மாவட்ட அவைத்தலைவர் சீனிவாசனும் உடன் வந்தனர்  வாட்ச்சை திருப்பி திருப்பி பார்த்துக் கொண்டே தேர்தல் அதிகாரி முருகவேலின் அறைக்குள் ஓடினார் பாலசுப்பிரமணி  வாங்கிப் பார்த்த அதிகாரிக்கு அதிர்ச்சி  என்னங்க   வெறும் படிவத்தை கொடுக்கறீங்க  நிரப்பவில்லையா   என்றார்  ஒரு மணி வரைதான் நல்ல நேரம்னாங்க  மொதல்ல வாங்கிடுங்க  அப்புறம் நிரப்புறேன் என்றார் பாலசுப்பிரமணி  நிரப்பாத படிவத்தை வாங்க முடியாது கறாராக கூறிவிட்டார் அதிகாரி  வாசல் பகுதியில் அறைக்கு சென்றனர்  பூர்த்தி செய்ய மணி நேரம் ஆனது  தாக்கல் செய்துவிட்டு சென்றார்  http    election  dinakaran  com 


In [8]:
# storing vocabulary by removing repeated words

tamil_repeating_vocab = []
for i,cur_article in enumerate(articles_sentences_combined):
    cur_words = cur_article.split()
    tamil_repeating_vocab.extend(cur_words)

tamil_vocab = list(set(tamil_repeating_vocab))

print(len(tamil_repeating_vocab) , len(tamil_vocab))

17717464 579080


# Converting data into vectors using different methods

## using CountVectorizer

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

# trying sklearn countvectorizer on tamil dataset
bag_tamil_words = CountVectorizer()
tamil_count_vecs = bag_tamil_words.fit_transform(articles_sentences_combined).toarray()

In [11]:
print(bag_tamil_words.get_feature_names_out())
print(sum(list(tamil_count_vecs[223])))
tamil_count_vecs[223]

['aaaoe' 'aai' 'aaisite' ... 'ஹஸரங' 'ஹஸரத' 'ஹஹ']
80


array([0, 0, 0, ..., 0, 0, 0], dtype=int64)

## using TF-IDF

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

# trying sklearn TfidfVectorizer on tamil dataset
tfidf_tamil_words = TfidfVectorizer()
tamil_tfidf_vecs = tfidf_tamil_words.fit_transform(articles_sentences_combined).toarray()

In [13]:
print(tfidf_tamil_words.get_feature_names_out())
print(len(tfidf_tamil_words.get_feature_names_out()))
print(sum(list(tamil_tfidf_vecs[4383])))
tamil_tfidf_vecs[4383]

['aaaoe' 'aai' 'aaisite' ... 'ஹஸரங' 'ஹஸரத' 'ஹஹ']
13295
4.004336372491501


array([0., 0., 0., ..., 0., 0., 0.])

## Continuous Bag of Words

# Training Models

In [23]:
# encoding the 15 unique categories

from sklearn.preprocessing import LabelEncoder

# tamil news categories
categories = list(df_tamil['news_category'])

# Initialize and fit the LabelEncoder
label_encoder = LabelEncoder()
target_vectors = label_encoder.fit_transform(categories)

print("Encoded Categories:", target_vectors)
print("Category Mapping:", dict(zip(label_encoder.classes_, range(len(label_encoder.classes_)))))


Encoded Categories: [10 10  1 ...  6  6  4]
Category Mapping: {'ஆன்மீகம்': 0, 'இந்தியா': 1, 'உலகம்': 2, 'கல்வி': 3, 'குற்றம்': 4, 'சினிமா(ரீல்மா)': 5, 'தமிழகம்': 6, 'தலையங்கம்': 7, 'தொழில்': 8, 'மருத்துவம்': 9, 'மர்மம்': 10, 'மாவட்ட மசாலா': 11, 'விளையாட்டு': 12, 'வேலைவாய்ப்பு': 13, 'ஸ்டேட் எக்ஸ்பிரஸ்': 14}
