## Combining Training and Testing data together for preprocessing

In [1]:
# Install deep translator for translation. This is mandatory.
# pip install -U deep-translator

In [5]:
# The method we will use to translate all the data we have.
GoogleTranslator(source='te', target='en').translate("సెప్టెంబరుతో ముగిసిన త్రైమాసికంలో ఎన్‌ఎండిసి ప్రోత్సాహకర ఫలితాలను ప్రకటించింది. జూలై") 

'NMDC has announced encouraging results for the quarter ended September. July'

In [2]:
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np

# Additional modules
import sys

# Data visualisation 
import matplotlib.pyplot as plt
import seaborn as sns

from numpy import sqrt
from deep_translator import GoogleTranslator

### Perform the steps below if you want to combine two or more datasets into one. The dataset acquired for this project was split into two. The datasets had to be combined into one. 

In [3]:
df_train = pd.read_csv('train_telugu_news.csv')
df_train.tail()

Unnamed: 0,SNo,date,heading,body,topic
17307,10296,02-02-2017 12:18:11,"చిరు,ఎన్టీఆర్ వల్ల కాజల్‌కు దక్కిందేమిటి..?",ఇండస్ట్రీలో హీరోయిన్‌గా రాణించాలంటే కేవలం గ్లా...,entertainment
17308,13641,20-12-2017 04:16:32,"హిమాచల్‌ సీఎం రేసులో నడ్డా, జైరామ్‌","షిమ్లా, డిసెంబరు 19: హిమాచల్‌ ప్రదేశ్‌ అసెంబ్ల...",nation
17309,17288,20-05-2017 03:00:10,సతతహరిత విప్లవం అవసరం,2022 నాటికి రైతుల ఆదాయం రెట్టింపు చేయడానికి క...,nation
17310,20882,13-06-2017 04:30:36,ఇంగ్లండ్‌ జెర్సీలో వార్న్‌..!,పందెంలో ఓడిన షేనలండన్: ఆస్ట్రేలియా స్పిన్ లెజె...,sports
17311,13905,17-12-2017 02:12:54,ఆ శక్తి రాహుల్‌కు ఉంది!,ధైర్యంగా పార్టీని నడపగలరు దేశం సవాళ్లను ఎదుర్...,nation


In [4]:
df_test = pd.read_csv('test_telugu_news.csv')
df_test.tail()

Unnamed: 0,SNo,date,heading,body,topic
4324,4093,18-11-2017 01:17:03,వర్గ హత్యలు ఆగాలి!,\nమొన్న త్రిసూరులో పట్టపగలు ఆరెస్సెస్ కార్యకర్...,editorial
4325,13874,22-03-2017 19:02:03,'ఫేస్‌బుక్‌'పై నిషేధం..?,ఇస్లామాబాద్: దైవదూషణకు సంబంధించిన సమాచారానికి ...,nation
4326,15364,15-06-2017 03:18:08,అమెరికా చట్టసభ్యుడిపై కాల్పులు,"ఒక రిపబ్లికన్‌ సభ్యుడు, నలుగురు అధికారులకు గాయ...",nation
4327,17166,18-05-2017 19:22:27,కోటి రూపాయల.. రద్దైన పాత కరెన్సీ స్వాధీనం,"థానే: కోటి రూపాయల విలువైన రద్దైన పాత రూ.1000, ...",nation
4328,8138,15-11-2017 22:37:02,ప్రస్తుతం ఆ కేటగిరీలో ఉన్నా,\n‘‘సంగీతం అనేది మహా సముద్రం. నేర్చుకునే కొద్ద...,entertainment


In [5]:
df = pd.concat([df_train,df_test], axis=0)

## Save the combined datasets into an excel file.
### Perform this step to save your data for future use.

df.to_excel(r'PATH-TO-THE-FOLDER-YOU-WANT-TO-SAVE-THE-FILE-AND-FILENAME', index = False, header=True)
##### Example below
df.to_excel(r'D:\OneDrive\VR_PC_Desktop\Machine Learning\ML_Project\dataset.xlsx', index = False, header=True)

## Data Cleaning: The text contains redundant characters that must be removed. The characters are generally encountered in unicode format.

In [6]:
import re
def clean_telugu_text_vocab(str_element):
    a=str(str_element)
    a=a.replace("\r",'')
    a=a.replace("\n",'')
    a=a.replace('\u200c', '')
    a=a.replace("  ","")
    a=a.replace('"','')
    a=a.replace(u'xao','')
  
   
    return a
df['body']=df['body'].apply(clean_telugu_text_vocab)
df['heading']=df['heading'].apply(clean_telugu_text_vocab)
def clean_telugu_text(str_element):
    a=str(str_element)
    
    a=a.replace("\r",'')
    a=a.replace("\n",'')
    a=a.replace('\u200c', '')
    a=a.replace("  ","")
    a=a.replace('"','')
    a=a.replace(u'xao','')
  
    
    return a
df['body']=df['body'].apply(clean_telugu_text)
df['heading']=df['heading'].apply(clean_telugu_text)

In [7]:
df.tail()

Unnamed: 0,SNo,date,heading,body,topic
4324,4093,18-11-2017 01:17:03,వర్గ హత్యలు ఆగాలి!,మొన్న త్రిసూరులో పట్టపగలు ఆరెస్సెస్ కార్యకర్త ...,editorial
4325,13874,22-03-2017 19:02:03,'ఫేస్బుక్'పై నిషేధం..?,ఇస్లామాబాద్: దైవదూషణకు సంబంధించిన సమాచారానికి ...,nation
4326,15364,15-06-2017 03:18:08,అమెరికా చట్టసభ్యుడిపై కాల్పులు,"ఒక రిపబ్లికన్ సభ్యుడు, నలుగురు అధికారులకు గాయా...",nation
4327,17166,18-05-2017 19:22:27,కోటి రూపాయల.. రద్దైన పాత కరెన్సీ స్వాధీనం,"థానే: కోటి రూపాయల విలువైన రద్దైన పాత రూ.1000, ...",nation
4328,8138,15-11-2017 22:37:02,ప్రస్తుతం ఆ కేటగిరీలో ఉన్నా,‘‘సంగీతం అనేది మహా సముద్రం. నేర్చుకునే కొద్దీ ...,entertainment


### Save to a file if needed.
df.to_excel(r'PATH+FILENAME', index = False, header=True)

## Translation function definition.

In [19]:
import time
def translation(str_element):
    a = str(str_element)
    try:
        b = GoogleTranslator(source='te', target='en').translate(a)
    except:
        b=a
        print("Did not translate")
    return b

In [None]:
df['body_en'] = df['body'].apply(translation)

In [24]:
df.tail()

Unnamed: 0,SNo,date,heading,body,topic
4324,4093,18-11-2017 01:17:03,వర్గ హత్యలు ఆగాలి!,"[మొన్న, త్రిసూరులో, పట్టపగలు, ఆరెస్సెస్, కార్య...",editorial
4325,13874,22-03-2017 19:02:03,'ఫేస్‌బుక్‌'పై నిషేధం..?,"[ఇస్లామాబాద్:, దైవదూషణకు, సంబంధించిన, సమాచారాన...",nation
4326,15364,15-06-2017 03:18:08,అమెరికా చట్టసభ్యుడిపై కాల్పులు,"[ఒక, రిపబ్లికన్‌, సభ్యుడు,, నలుగురు, అధికారులక...",nation
4327,17166,18-05-2017 19:22:27,కోటి రూపాయల.. రద్దైన పాత కరెన్సీ స్వాధీనం,"[థానే:, కోటి, రూపాయల, విలువైన, రద్దైన, పాత, రూ...",nation
4328,8138,15-11-2017 22:37:02,ప్రస్తుతం ఆ కేటగిరీలో ఉన్నా,"[‘‘సంగీతం, అనేది, మహా, సముద్రం., నేర్చుకునే, క...",entertainment


In [None]:
df["heading_en"] = df['heading'].apply(translation)

### Save to a file if needed.
df.to_excel(r'PATH+FILENAME', index = False, header=True)

In [10]:
df["heading_en"] = df["heading"]

In [11]:
df.tail()

Unnamed: 0,SNo,date,heading,body,topic,heading_en
21636,4093,18-11-2017 01:17:03,వర్గ హత్యలు ఆగాలి!,మొన్న త్రిసూరులో పట్టపగలు ఆరెస్సెస్ కార్యకర్త ...,editorial,వర్గ హత్యలు ఆగాలి!
21637,13874,22-03-2017 19:02:03,'ఫేస్బుక్'పై నిషేధం..?,ఇస్లామాబాద్: దైవదూషణకు సంబంధించిన సమాచారానికి ...,nation,'ఫేస్బుక్'పై నిషేధం..?
21638,15364,15-06-2017 03:18:08,అమెరికా చట్టసభ్యుడిపై కాల్పులు,"ఒక రిపబ్లికన్ సభ్యుడు, నలుగురు అధికారులకు గాయా...",nation,అమెరికా చట్టసభ్యుడిపై కాల్పులు
21639,17166,18-05-2017 19:22:27,కోటి రూపాయల.. రద్దైన పాత కరెన్సీ స్వాధీనం,"థానే: కోటి రూపాయల విలువైన రద్దైన పాత రూ.1000, ...",nation,కోటి రూపాయల.. రద్దైన పాత కరెన్సీ స్వాధీనం
21640,8138,15-11-2017 22:37:02,ప్రస్తుతం ఆ కేటగిరీలో ఉన్నా,‘‘సంగీతం అనేది మహా సముద్రం. నేర్చుకునే కొద్దీ ...,entertainment,ప్రస్తుతం ఆ కేటగిరీలో ఉన్నా


In [3]:
df["heading_en"] = df["heading_en"].apply(translation)

In [15]:
df.tail()

Unnamed: 0,SNo,date,heading,body,topic,heading_en
21636,4093,18-11-2017 01:17:03,వర్గ హత్యలు ఆగాలి!,మొన్న త్రిసూరులో పట్టపగలు ఆరెస్సెస్ కార్యకర్త ...,editorial,Class killings must stop!
21637,13874,22-03-2017 19:02:03,'ఫేస్బుక్'పై నిషేధం..?,ఇస్లామాబాద్: దైవదూషణకు సంబంధించిన సమాచారానికి ...,nation,Ban on 'Facebook'?
21638,15364,15-06-2017 03:18:08,అమెరికా చట్టసభ్యుడిపై కాల్పులు,"ఒక రిపబ్లికన్ సభ్యుడు, నలుగురు అధికారులకు గాయా...",nation,US lawmaker shot
21639,17166,18-05-2017 19:22:27,కోటి రూపాయల.. రద్దైన పాత కరెన్సీ స్వాధీనం,"థానే: కోటి రూపాయల విలువైన రద్దైన పాత రూ.1000, ...",nation,Crore rupees.. Seizure of canceled old currency
21640,8138,15-11-2017 22:37:02,ప్రస్తుతం ఆ కేటగిరీలో ఉన్నా,‘‘సంగీతం అనేది మహా సముద్రం. నేర్చుకునే కొద్దీ ...,entertainment,Currently in that category


### Save to a file.
df.to_excel(r'PATH+FILENAME', index = False, header=True)