<a href="https://colab.research.google.com/github/akhilesh008/AIML-Training-Akhilesh/blob/main/English_to_Hindi_Transformer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('/content/drive/MyDrive/Language_Translation/Hindi_English_Truncated_Corpus.csv', encoding='utf-8')
print(data.head())

      source                                   english_sentence  \
0        ted  politicians do not have permission to do what ...   
1        ted         I'd like to tell you about one such child,   
2  indic2012  This percentage is even greater than the perce...   
3        ted  what we really mean is that they're bad at not...   
4  indic2012  .The ending portion of these Vedas is called U...   

                                      hindi_sentence  
0  राजनीतिज्ञों के पास जो कार्य करना चाहिए, वह कर...  
1  मई आपको ऐसे ही एक बच्चे के बारे में बताना चाहू...  
2   यह प्रतिशत भारत में हिन्दुओं प्रतिशत से अधिक है।  
3     हम ये नहीं कहना चाहते कि वो ध्यान नहीं दे पाते  
4        इन्हीं वेदों का अंतिम भाग उपनिषद कहलाता है।  


## Data Cleaning and preprocessing

In [3]:
pd.isnull(data).sum()

source              0
english_sentence    2
hindi_sentence      0
dtype: int64

#### There are some null values under english_sentences. so remove it and repopulate the data

In [4]:
data = data[~pd.isnull(data['english_sentence'])]
pd.isnull(data).sum()

source              0
english_sentence    0
hindi_sentence      0
dtype: int64

#### Remove duplicates

In [5]:
data.drop_duplicates(inplace=True)

### Experimenting with some subset of the data - 25000 samples

In [6]:
data = data.sample(n=25000)
data.shape

(25000, 3)

### Do some preprocessing to the dataset like converting to lowercase , remove quotes, punctuations, numbers . Add start and end token to the dataset

In [7]:
# lowercase conversion
data['english_sentence'] = data['english_sentence'].apply(lambda x: x.lower())
data['hindi_sentence'] = data['hindi_sentence'].apply(lambda x: x.lower())

In [8]:
# removing quotes
import re
data['english_sentence'] = data['english_sentence'].apply(lambda x: re.sub("'",'',x))
data['hindi_sentence'] = data['hindi_sentence'].apply(lambda x: re.sub("'",'',x))

In [9]:
# remove punctuations
# get all the punctuations
import string
punc = set(string.punctuation)
data['english_sentence'] = data['english_sentence'].apply(lambda x: ''.join(ch for ch in x if ch not in punc))
data['hindi_sentence'] = data['hindi_sentence'].apply(lambda x: ''.join(ch for ch in x if x not in punc))


In [10]:
# remove all numbers
from string import digits
remove_digits = str.maketrans('','',digits)
data['english_sentence'] = data['english_sentence'].apply(lambda x: x.translate(remove_digits))
data['hindi_sentence'] = data['hindi_sentence'].apply(lambda x: x.translate(remove_digits))
data['hindi_sentence'] = data['hindi_sentence'].apply(lambda x: re.sub("[२३०८१५७९४६]", "", x))

#remove extra space
data['english_sentence'] = data['english_sentence'].apply(lambda x: x.strip())
data['hindi_sentence'] = data['hindi_sentence'].apply(lambda x: x.strip())
data['english_sentence'] = data['english_sentence'].apply(lambda x: re.sub(' +'," ",x))
data['hindi_sentence'] = data['hindi_sentence'].apply(lambda x: re.sub(' +'," ",x))

In [11]:
#add start and end tokens to each target sentence , i.e hindi sentence
data['hindi_sentence'] = data['hindi_sentence'].apply(lambda x : 'START_ '+ x + ' _END')

In [12]:
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', -1)

# print the pre-processed dataframe header

data.head()

  pd.set_option('display.max_colwidth', -1)


Unnamed: 0,source,english_sentence,hindi_sentence
42217,indic2012,umpires too change their positions the square leg umpire takes position behind the stumps and vice versa,START_ अंपायर भी अपनी स्थिति को बदलते हैं ताकि जो अंपायर स्क्वेयर लेग की स्थिति में था वह विकेट के पीछे चला जाता है और इसका विपरीत भी होता है। _END
14252,indic2012,the real mauza is to be presented with challenge,START_ किसी भी नबी का असल मौअजज़ा वह ‎है जिसे वह दावे के साथ पेश करे। _END
107216,tides,efforts made by the representatives of the people to get rid of harmful social customs are checkmated by government and our society cannot progress sufficiently fast or adapt itself to changing circumstances largely because of official opposition,"START_ जनता के प्रतिनिधियों ने समाज के नुकसानदेह रीति-रिवाजों से छुटकारा पाने के लिए जो कोशिशें की है , उनके रास्ते में सरकार ने रूकावटें पैदा कर दी हैं और हमारा समाज आमतौर पर सरकार की खिलाफत की वजह से काफी तेजी से तरक़्की नहीं कर सकता और न मौजूदा बदलते हालात के मुताबिक अपने को ढाल ही सकता है . _END"
85512,tides,this temple too is a veritable museum of sculptures of varied iconography that include some fine dance poses,START_ यह मंदिर भी विविध प्रतिमा विज्ञान की मूर्तियों का वास्तविक संग्रहालय है जिसमें कुछ उत्कृष्ट नृत्य मुद्रांए भी हैं . _END
42692,ted,so we might have for the first time in our species,START_ तो हम शायद - पहली बार इस प्रजाति में - _END


### Get english and Hindi vocab

In [13]:
all_eng_words = set()
for eng in data['english_sentence']:
  for word in eng.split():
    if word not in all_eng_words:
      all_eng_words.add(word)

all_hindi_words = set()
for hindi in data['hindi_sentence']:
  for word in hindi.split():
    if word not in all_hindi_words:
      all_hindi_words.add(word)

print('English vocab length - {}'.format(len(all_eng_words)))
print('Hindi Vocab length - {}'.format(len(all_hindi_words)))

English vocab length - 31082
Hindi Vocab length - 39756


### Add length of each sentence as column to the dataset

In [14]:
data['length_english_sentence'] = data['english_sentence'].apply(lambda x:len(x.split(" ")))
data['length_hindi_sentence'] = data['hindi_sentence'].apply(lambda x:len(x.split(" ")))

data.head()

Unnamed: 0,source,english_sentence,hindi_sentence,length_english_sentence,length_hindi_sentence
42217,indic2012,umpires too change their positions the square leg umpire takes position behind the stumps and vice versa,START_ अंपायर भी अपनी स्थिति को बदलते हैं ताकि जो अंपायर स्क्वेयर लेग की स्थिति में था वह विकेट के पीछे चला जाता है और इसका विपरीत भी होता है। _END,17,31
14252,indic2012,the real mauza is to be presented with challenge,START_ किसी भी नबी का असल मौअजज़ा वह ‎है जिसे वह दावे के साथ पेश करे। _END,9,17
107216,tides,efforts made by the representatives of the people to get rid of harmful social customs are checkmated by government and our society cannot progress sufficiently fast or adapt itself to changing circumstances largely because of official opposition,"START_ जनता के प्रतिनिधियों ने समाज के नुकसानदेह रीति-रिवाजों से छुटकारा पाने के लिए जो कोशिशें की है , उनके रास्ते में सरकार ने रूकावटें पैदा कर दी हैं और हमारा समाज आमतौर पर सरकार की खिलाफत की वजह से काफी तेजी से तरक़्की नहीं कर सकता और न मौजूदा बदलते हालात के मुताबिक अपने को ढाल ही सकता है . _END",37,62
85512,tides,this temple too is a veritable museum of sculptures of varied iconography that include some fine dance poses,START_ यह मंदिर भी विविध प्रतिमा विज्ञान की मूर्तियों का वास्तविक संग्रहालय है जिसमें कुछ उत्कृष्ट नृत्य मुद्रांए भी हैं . _END,18,22
42692,ted,so we might have for the first time in our species,START_ तो हम शायद - पहली बार इस प्रजाति में - _END,11,12


In [15]:
data[data['length_english_sentence']>30].shape

(2452, 5)

In [17]:
data = data[data['length_english_sentence']<20]
data = data[data['length_hindi_sentence']<20]

In [18]:
data.shape

(15325, 5)

### Store the maximum length of english and hindi sentence

In [20]:
max_eng_sentence = max(data['length_english_sentence'])
max_hin_sentence = max(data['length_english_sentence'])

print('Max lenth of english sentence - {}'.format(max_eng_sentence))
print('Max length of hindi senetce - {}'.format(max_hin_sentence))

Max lenth of english sentence - 19
Max length of hindi senetce - 19


### Get the english and hindi words in sorted order
### Also get the encoder and decoder tokens

In [23]:
input_words = sorted(list(all_eng_words))
target_words = sorted(list(all_hindi_words))
num_encoder_token = len(all_eng_words)
num_decoder_token = len(all_hindi_words)

print('Encoder tokens {} ; Decoder Tokens {}'.format(num_encoder_token, num_encoder_token))

Encoder tokens 31082 ; Decoder Tokens 31082


### add one extra token for zero padding

In [22]:
num_decoder_token +=1

In [24]:
input_token_index = dict([(word, i+1) for i, word in enumerate(input_words)])
target_token_index = dict([(word, i+1) for i, word in enumerate(target_words)])
reverse_input_char_index = dict((i, word) for word, i in input_token_index.items())
reverse_target_char_index = dict((i, word) for word, i in target_token_index.items())

from sklearn.utils import shuffle
data = shuffle(data)
data.head()

Unnamed: 0,source,english_sentence,hindi_sentence,length_english_sentence,length_hindi_sentence
10881,indic2012,golden door is the entrance of dubar square and is very beautiful,START_ स्वर्ण द्वार जो दरबार स्क्वैयर का प्रवेश द्वार है काफी आकर्षक है। _END,12,14
112229,indic2012,descriptions of terrorism,START_ आतंकवाद के प्रकार _END,3,5
4510,indic2012,innings,START_ पारियां _END,1,3
61015,ted,is again its a view thats held by proglobalizers,START_ यह एक विचार है कि समर्थक globalizers द्वारा आयोजित है _END,9,12
26089,indic2012,maratha warriors premier league is the town team of mumbai,START_ मुंबई की मराठा वारियर्स प्रीमियर हाकी लीग में शहर की टीम है। _END,10,14


### Split the data in train and test

In [25]:
from sklearn.model_selection import train_test_split

X, y = data['english_sentence'], data['hindi_sentence']
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)
print('Train size - {}; Test Size - {}'.format(X_train.shape, X_test.shape))

Train size - (12260,); Test Size - (3065,)


### Save datasets

In [26]:
X_train.to_pickle('/content/drive/MyDrive/Language_Translation/X_train.pkl')
X_test.to_pickle('/content/drive/MyDrive/Language_Translation/X_test.pkl')

### Generate training and testing batch

In [None]:
import numpy as np

def generate_batch(X=X_train, y=y_train, batch_size=128):
  while True:
    for j in range(0, len(X), batch_size):
      encoder_input_data = np.zeros((batch_size, max_eng_sentence),dtype='float32')
      decoder_input_data = np.zeros((batch_size,max_hin_sentence),dtype='floar32')
      decoder_target_data = np.zeros((batch_size, max_hin_sentence, num_decoder_token),dtype='float32')

      for i, (input_text, output_text) in enumerate(zip(X[j:j+batch_size], y[j:j+batch_size])):
        for t, word in enumerate(input_text):
          encoder_input_data[i,t] = input_token_index[word]
        for t, word in enumerate(output_text):
          if t<len(output_text.split())-1:
            decoder_input_data[i,t] = target_token_index[word]
          if t>0:
