# Install Packages and Import Libraries

In [None]:
!pip install indic_nlp_library

Collecting indic_nlp_library
  Downloading indic_nlp_library-0.92-py3-none-any.whl (40 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/40.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.3/40.3 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting sphinx-argparse (from indic_nlp_library)
  Downloading sphinx_argparse-0.4.0-py3-none-any.whl (12 kB)
Collecting sphinx-rtd-theme (from indic_nlp_library)
  Downloading sphinx_rtd_theme-1.3.0-py2.py3-none-any.whl (2.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.8/2.8 MB[0m [31m35.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting morfessor (from indic_nlp_library)
  Downloading Morfessor-2.0.6-py3-none-any.whl (35 kB)
Collecting sphinxcontrib-jquery<5,>=4 (from sphinx-rtd-theme->indic_nlp_library)
  Downloading sphinxcontrib_jquery-4.1-py2.py3-none-any.whl (121 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m 

In [None]:
!pip install openpyxl



In [None]:
import pandas as pd
import re
from indicnlp.tokenize import indic_tokenize
from textblob import TextBlob

In [None]:
pd.set_option('display.max_colwidth', None)

# Import Data

In [None]:
!gdown --fuzzy https://drive.google.com/file/d/1qmnFqNUqa6O48ETaj4zzEOMGkzgaQAnl/view?usp=sharing

Downloading...
From: https://drive.google.com/uc?id=1qmnFqNUqa6O48ETaj4zzEOMGkzgaQAnl
To: /content/Task_Tg_G1.zip
  0% 0.00/268k [00:00<?, ?B/s]100% 268k/268k [00:00<00:00, 106MB/s]


In [None]:
!unzip /content/Task_Tg_G1.zip

Archive:  /content/Task_Tg_G1.zip
  inflating: test_data_telugu-hate.xlsx  
  inflating: __MACOSX/._test_data_telugu-hate.xlsx  
  inflating: training_data_telugu-hate.xlsx  
  inflating: __MACOSX/._training_data_telugu-hate.xlsx  


In [None]:
def classify(text):
    if re.match(r'^[అ-఺\ా-౿\s0-9]*$', text):
        return 'Telugu'
    elif re.match(r'^[a-zA-Z\s0-9]*$', text):
        return 'English'
    elif re.match(r'^[అ-఺\ా-౿a-zA-Z\s0-9]*$', text):
        return 'Mixed'
    else:
        return 'Unknown'

In [None]:
def tokenizer(text):
    tokens = indic_tokenize.trivial_tokenize(text)
    return tokens

In [None]:
def preprocess_text(text):
    cleaned_text = re.sub(r'[^\w\s]', '', text)
    cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()
    cleaned_text = cleaned_text.replace('\n', ' ')
    lang_type = classify(text)
    tokenized_comments = tokenizer(cleaned_text)
    return cleaned_text, lang_type, tokenized_comments

In [None]:
df_train = pd.read_excel("/content/training_data_telugu-hate.xlsx")
df_test= pd.read_excel("/content/test_data_telugu-hate.xlsx")

In [None]:
df_train['Label'].value_counts()

non-hate    1661
hate        1539
Name: Label, dtype: int64

In [None]:
df_test['Label'].value_counts()

non-hate    400
hate        400
Name: Label, dtype: int64

In [None]:
df_train.shape

(3200, 3)

In [None]:
df_test.shape

(800, 3)

In [None]:
df_train['clean_data_Comments'], df_train['lang_type'], df_train['tokenized_comments'] = zip(*df_train['Comments'].apply(preprocess_text))
df_test['clean_data_Comments'], df_test['lang_type'], df_test['tokenized_comments'] = zip(*df_test['Comments'].apply(preprocess_text))

In [None]:
df_train['lang_type'].value_counts()

Unknown    1902
English    1176
Telugu       94
Mixed        28
Name: lang_type, dtype: int64

In [None]:
df_train['lang_type'].value_counts()

Unknown    1902
English    1176
Telugu       94
Mixed        28
Name: lang_type, dtype: int64

In [None]:
df_test['lang_type'].value_counts()

Unknown    493
English    272
Telugu      30
Mixed        5
Name: lang_type, dtype: int64

In [None]:

df_train.head()

Unnamed: 0,S.No,Comments,Label,clean_data_Comments,lang_type,tokenized_comments
0,HATE_2857,"\nDr YNM\n1 month ago\nఇందులో మనం పెద్దగా ఆలోచించాల్సిన అవసరం లేదు. అంతా కాలం మహిమ.ఏదో ఒకరోజు కాలం ఆయనకు ఇవ్వవలసిన గిఫ్ట్ తప్పకుండా ఇస్తుంది. చేసిన కర్మలు అనుభవించక తప్పదు.. సోనియా గాంధీ అయినా, మోదీ అయినా, చంద్రబాబు నాయుడు అయినా, జగన్ అయినా.. కాలం అంతే..",non-hate,Dr YNM 1 month ago ఇదల మన పదదగ ఆలచచలసన అవసర లద అత కల మహమఏద ఒకరజ కల ఆయనక ఇవవవలసన గఫట తపపకడ ఇసతద చసన కరమల అనభవచక తపపద సనయ గధ అయన మద అయన చదరబబ నయడ అయన జగన అయన కల అత,Unknown,"[Dr, YNM, 1, month, ago, ఇదల, మన, పదదగ, ఆలచచలసన, అవసర, లద, అత, కల, మహమఏద, ఒకరజ, కల, ఆయనక, ఇవవవలసన, గఫట, తపపకడ, ఇసతద, చసన, కరమల, అనభవచక, తపపద, సనయ, గధ, అయన, మద, అయన, చదరబబ, నయడ, అయన, జగన, అయన, కల, అత]"
1,HATE_2969,\nlakshmankumar kavali\nNext Step is tdp vallu money print cheyakunda adukuntunaru ane press meet pette mare chepatadu,non-hate,lakshmankumar kavali Next Step is tdp vallu money print cheyakunda adukuntunaru ane press meet pette mare chepatadu,English,"[lakshmankumar, kavali, Next, Step, is, tdp, vallu, money, print, cheyakunda, adukuntunaru, ane, press, meet, pette, mare, chepatadu]"
2,HATE_1985,\n​trs party lo telangana kosam poradina valle unnara poratam ki vyatirekam ga unnollani ministers ala chesinaru..gurivinda ginja ki kinda unna macha kanapadadu,non-hate,trs party lo telangana kosam poradina valle unnara poratam ki vyatirekam ga unnollani ministers ala chesinarugurivinda ginja ki kinda unna macha kanapadadu,Unknown,"[trs, party, lo, telangana, kosam, poradina, valle, unnara, poratam, ki, vyatirekam, ga, unnollani, ministers, ala, chesinarugurivinda, ginja, ki, kinda, unna, macha, kanapadadu]"
3,HATE_2974,\nఅన్నయ్య ప్రింటింగ్ మిషన్ ద్వారా 6093 కోట్ల రూపాయలు వన్ డే ప్రింటింగ్,non-hate,అననయయ పరటగ మషన దవర 6093 కటల రపయల వన డ పరటగ,Unknown,"[అననయయ, పరటగ, మషన, దవర, 6093, కటల, రపయల, వన, డ, పరటగ]"
4,HATE_2810,\nఏముంది పదవికోసం గుధ్ధ కూడా నాకేస్తారు ఈ రాజకీయ రాబందులు,non-hate,ఏమద పదవకస గధధ కడ నకసతర ఈ రజకయ రబదల,Unknown,"[ఏమద, పదవకస, గధధ, కడ, నకసతర, ఈ, రజకయ, రబదల]"


In [None]:
df_test.head()

Unnamed: 0,S.No,Comments,Label,clean_data_Comments,lang_type,tokenized_comments
0,HATE_4271,\nవిజయ్ దేవరకొండ గురించి చెప్పింది చాలా పర్ఫెక్ట్ గా చెప్పారు మేడమ్.,non-hate,వజయ దవరకడ గరచ చపపద చల పరఫకట గ చపపర మడమ,Unknown,"[వజయ, దవరకడ, గరచ, చపపద, చల, పరఫకట, గ, చపపర, మడమ]"
1,HATE_4977,నిన్ను కూడా ఎవరు నమ్మరు . మీ నాయకుడు గురించి కూడ నమ్మకం లేదు,hate,ననన కడ ఎవర నమమర మ నయకడ గరచ కడ నమమక లద,Unknown,"[ననన, కడ, ఎవర, నమమర, మ, నయకడ, గరచ, కడ, నమమక, లద]"
2,HATE_4321,"""కెజియఫ్"" మనిషి ఒంటరివాడైనా ధైర్యంగా పరిస్థితులతో పోరాడి బతకగలిగేంత ధైర్యం ఇచ్చే సినిమా.""కాంతారా"" మనిషి ధైర్యవంతుడు, అందరూ ఉన్నవాడైనా మూఢనమ్మకాల పేరుతో మనిషిలో ఉన్న ధైర్యాన్ని నాశనం చేసే సినిమా.",non-hate,కజయఫ మనష ఒటరవడన ధరయగ పరసథతలత పరడ బతకగలగత ధరయ ఇచచ సనమకతర మనష ధరయవతడ అదర ఉననవడన మఢనమమకల పరత మనషల ఉనన ధరయనన నశన చస సనమ,Unknown,"[కజయఫ, మనష, ఒటరవడన, ధరయగ, పరసథతలత, పరడ, బతకగలగత, ధరయ, ఇచచ, సనమకతర, మనష, ధరయవతడ, అదర, ఉననవడన, మఢనమమకల, పరత, మనషల, ఉనన, ధరయనన, నశన, చస, సనమ]"
3,HATE_4444,0 pellillu chesukoni padimandini kanakoodadu.janabha yimka perigite yimti stalalu chalavu,non-hate,0 pellillu chesukoni padimandini kanakoodadujanabha yimka perigite yimti stalalu chalavu,Unknown,"[0, pellillu, chesukoni, padimandini, kanakoodadujanabha, yimka, perigite, yimti, stalalu, chalavu]"
4,HATE_1594,"100% literacy rate unna kerala lo ne janalu gorrelu la unte, migilin rashtrallo unna janalu paristhiti emito...... I feel ashamed being part of this type of public",hate,100 literacy rate unna kerala lo ne janalu gorrelu la unte migilin rashtrallo unna janalu paristhiti emito I feel ashamed being part of this type of public,Unknown,"[100, literacy, rate, unna, kerala, lo, ne, janalu, gorrelu, la, unte, migilin, rashtrallo, unna, janalu, paristhiti, emito, I, feel, ashamed, being, part, of, this, type, of, public]"


In [None]:
df_train.to_excel("/content/train_data_basic_preprocessed.xlsx", index=False, engine='openpyxl')
df_test.to_excel("/content/test_data_basic_preprocessed.xlsx", index=False, engine='openpyxl')