# PARI Indian Language corpora

PARI has a rich collection of Indian language translation. Over a hundred translators across the country add translations in up to 14 Indian languages to English reports submitted by journalists reporting from locations in rural India.

## This notebook explores the various ways in which these corpora can be used for better understanding Indian languages.

Systems such as Term and Translatiom Memory (TM) is being constructed for Indian language translators from this corpus. 

Some independent linguistic study can also be done on developing a linguistic distance function between languages withn the same and different language family. 


In [1]:
import os
import pandas as pd
import glob
from collections import defaultdict
import re

In [2]:
def cleanhtml(raw_html):
#   cleanr = re.compile('<.*?>')
    cleanr = re.compile('<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});')
    cleantext = re.sub(cleanr, '', raw_html)
    return cleantext

In [3]:
def cleanEncoding(s):
    s= s.replace('Â\xa0', ' ')
    s= s.replace('\n',' ')
    return s

In [4]:
def readFile(filename):
    text = open(filename, encoding="utf8").read()
    text = cleanhtml(cleanEncoding(text))
    return text

In [5]:
root = "D:\\pari_new3\\"
out = "D:\\pari\\out\\"
dirs = glob.glob( root + "/*")

all_s = defaultdict(lambda: defaultdict(set))

for d in dirs:
    files = glob.glob (d + "/*.txt")
    lang = os.path.basename(d)
    for f in files:
        para = os.path.basename(f)
        all_s[para][lang] = readFile(f)

df = pd.DataFrame.from_dict(data=all_s, orient='index')
df.to_csv(out+'translations.csv', header=True, encoding='utf-8-sig')

## Languages such as Urdu and Hindi are very close to each other. 
These in particular are registers of the same spoken language of the North Indian plains. Similar language complexes exist in other major world languages such as Serbo-Croatian. 

## Can we develope a linguistic distance function between two languages?

In [6]:
df = pd.read_csv(out+'translations.csv', encoding='utf-8-sig')
df1 = df[~df['hi'].isna() & ~df['ur'].isna()][['hi','ur']]
df1

Unnamed: 0,hi,ur
27,‘हम सभी [नासिक जिले के डिंडोरी तालुका के] विभि...,’ہم سبھی [ناسک ضلع کے ڈنڈوری تعلقہ کے] مختلف گ...
28,नासिक जिले के निर्गुडे करंजली गांव के पांडुरंग...,ناسک ضلع کے نرگوڈے کرنجلی گاؤں کے پانڈورنگ پوا...
29,अपने तालुका के अन्य किसानों को ढूंढते ; यह दोप...,اپنے تعلقہ کے دیگر کسانوں کو ڈھونڈتے ہوئے؛ یہ ...
30,लकड़ी से निकलने वाला धुआं किसानों के लिए खाना ...,لکڑی سے نکلنے والا دھواں کسانوں کے لیے کھانا ب...
31,कुंडाबाई गंगुडे उन महिलाओं में से एक थीं जिन्ह...,کُنڈا بائی گنگوڈے اُن خواتین میں سے ایک تھیں ج...
...,...,...
8010,"सर्दियों में , महिलाएं मिट्टी के सैंकड़ों बर्त...",سردی میں، عورتیں سینکڑوں مٹی کے برتن بناتی ہیں...
8011,समुदाय के बुजुर्ग मंगली शनमुगम (बायें) और राजू...,برادری کے بزرگ منگلی شن موگم (بائیں) اور راجو ...
8012,"इसी आध्यात्मिक संबंध के कारण, समय के बदलने के ...",اسی روحانی تعلقات کی وجہ سے زمانہ بدلنے کے باو...
8013,"सुगी, जो अपने पति, बेटे और परिवार के साथ रहती ...",سوگی، جو اپنے شوہر، بیٹے اور فیملی کے ساتھ رہت...


In [7]:
df1['ur'].values

array(['’ہم سبھی [ناسک ضلع کے ڈنڈوری تعلقہ کے] مختلف گاؤوں سے ہیں۔ پچھلے لمبے مارچ کے دوران ہم دوست بن گئے تھے‘، خواتین نے اناج صاف کرتے ہوئے کہا ',
       'ناسک ضلع کے نرگوڈے کرنجلی گاؤں کے پانڈورنگ پوار نے اجتماعی کھانا بنانے کے لیے جلانے کی لکڑی کاٹی ',
       'اپنے تعلقہ کے دیگر کسانوں کو ڈھونڈتے ہوئے؛ یہ دوپہر کے کھانے کا وقت ہے ',
       ...,
       'اسی روحانی تعلقات کی وجہ سے زمانہ بدلنے کے باوجود، کوزہ گری کا ہنر کوٹا آبادیوں میں آج تک زندہ ہے۔ ’’آج، ہماری برادری کے چھوٹے بچے انگلش میڈیم اسکولوں میں پڑھائی کرنے کے، دور دراز کا سفر کرتے ہیں۔ ان کے پاس ان چیزوں کو دیکھنے اور سیکھنے کا وقت کہاں ہے؟ تاہم، سال میں ایک بار تہوار کے دوران، تمام عورتوں کو ایک ساتھ بیٹھنا اور اس کام کو کرنا پڑتا ہے،‘‘ سوگی کہتی ہیں۔ پھر یہ لڑکیوں کے لیے اس دستکاری کو سیکھنے کا بھی وقت ہوتا ہے۔ کچھ غیر منافع والی تنظیمیں، جو کوٹا گری میں کام کر رہی ہیں، وہ کوٹا مٹی کے کام کی احیا میں مدد کرنے کی کوشش کر رہی ہیں۔ نیل گریز آدیواسی ویلفیئر ایسوسی ایشن نے ۲۰۱۶-۲۰۱۷ میں، کوٹا خواتین کے ذریعے بنائے گئے مٹی کے

## Languages such as Odia and Bangla are close to each other but very distinct. 

They are both eastern Indo-Aryan languages and widely considered to be mutually intelligible.

# Distance function d between two language corpora would be such that

d(Or, Bn) < d(Hi, Ur)


In [8]:
df1 = df[~df['or'].isna() & ~df['bn'].isna()][['or','bn']]
df1

Unnamed: 0,or,bn
7,ନାକସୋଡା ଗାଁରେ ଥିବା ତାଙ୍କ ଘରେ ରାମେଶ୍ୱର ଜାତବଙ୍କ ...,নাকসোদা গ্রামে রামেশ্বর জাতভের মা -বাবা । এই গ...
8,ସୈନ୍ଥ୍ରୀ ଗାଁରେ ଘସି ଓ ଜାଳେଣି ରଖାଯାଇଥିବା ଗୋଟିଏ ଘ...,সাঁইথরি গ্রামে এরকম একটি গোবর আর জ্বালানির বিত...
9,"ଅଞ୍ଜୁ ଫୁଲବାରିଆ ରାହୋଲିର ନିର୍ବାଚିତ ଦଳିତ ସରପଞ୍ଚ, ...",অঞ্জু ফুলওয়ারিয়া ছিলেন রাহোলির নির্বাচিত দলিত ...
10,ଯେତେବେଳେ ଭୱଁରି ଦେବୀଙ୍କର ୧୩ ବର୍ଷର ଝିଅକୁ ବାଜରା କ...,ভানওয়ারি দেবীর তেরো বছরের মেয়েকে যখন এক উঁচু জ...
11,ଋାମେଶ୍ୱରଙ୍କ ବାପା ମଙ୍ଗି ଲାଲ ବି ସାକ୍ଷୀ ଭାବେ ବୟାନ...,রামেশ্বরের বাবা মাঙ্গি লাল নিজেই সাক্ষ্য পালটে...
...,...,...
4949,ଏହି ଅଞ୍ଚଳରେ ଲୋକଙ୍କର ସ୍ୱାସ୍ଥ୍ୟ କ୍ଷେତ୍ରରେ କାମ କର...,এলাকার স্বাস্থ্যসংক্রান্ত সমস্যাগুলি নিয়ে কাজ ...
4950,ଅନ୍ୟମାନେ ଲଙ୍କା ତୋଳିବା ଋତୁରେ ଫେବ୍ରୁୟାରୀରୁ ଏପ୍ରି...,অন্যরা শুধুমাত্র ফেব্রুয়ারি থেকে এপ্রিল মাস প...
4951,ଛତିଶଗଡ଼ର ସୁକମା ଜିଲ୍ଲାର ମୂଳ ବାସିନ୍ଦା କଲମୁଙ୍କ ଗା...,কালমুর আদি নিবাস হল ছত্তিশগড়ের সুকমা জেলার এক...
4952,ଛତିଶଗଡରୁ ଯେଉଁ ଆଦିବାସୀମାନେ ଦୀର୍ଘ ସମୟ ପୂର୍ବରୁ କୃ...,"ছত্তিশগড়ের আদিবাসী মানুষেরা, যাঁরা দীর্ঘদিন হ..."


In [11]:
df1 = df[~df['or'].isna() & ~df['bn'].isna() & ~df['hi'].isna() & ~df['mr'].isna()][['en', 'hi', 'ur','bn', 'or']]


# Various metric of linguistic distance have been formulated. For example, by Barry Chiswick and Paul Miller. 

These have included historical linguistics parameters, mutual intelligibility, lexical similarity etc. Perhaps deep learning presents a new opportunity to quantify this distance.

# A neural network could quantify the distance between languages as felt by human beings.


In [12]:
df1

Unnamed: 0,en,hi,ur,bn,or
35,"""I haven't eaten anything since morning,"" said...","“मैंने सुबह से कुछ नहीं खाया है,” नासिक जिले क...",’’میں نے صبح سے کچھ نہیں کھایا ہے،‘‘ ناسک ضلع ...,"“সকাল থেকে কিছু খাইনি,” জানালেন ৫০ বছর বয়সী ক...",ଅପରାହ୍ନ ପ୍ରାୟ ୧.୩୦ର ସମୟ ଥିଲା। ନାସିକ୍‌ ଜିଲ୍ଲାର ...
37,"Pooling grains, vegetables and other supplies,...",पिछले सप्ताह के विरोध प्रदर्शन के दौरान नासिक ...,پچھلے ہفتہ کے احتجاجی مظاہرہ کے دوران ناسک ضلع...,গত সপ্তাহে কৃষক বিক্ষোভ চলাকালীন নাসিক জেলার ব...,"ଗତ ସପ୍ତାହର ପ୍ରତିବାଦ ସମୟରେ ଖାଦ୍ୟଶସ୍ୟ, ପନିପରିବା ..."
38,A different kind of eating out,एक अलग तरह का खाना,ایک الگ قسم کا کھانا,অন্য এক চড়ুইভাতি,ଏକ ଭିନ୍ନଧରଣର ଭୋଜି
42,"Vishwanath Khule of Vidarbha’s Akola district,...","विदर्भ के अकोला जिले के विश्वनाथ खुले , जिनके ...",وِدربھ کے اکولا ضلع کے وشوناتھ کھُلے، جن کے بی...,"বিদর্ভের অকোলা জেলার বিশ্বনাথ খুলে, যাঁর সন্তা...","ବିଦର୍ଭର ଅକୋଲା ଜିଲ୍ଲାର ବିଶ୍ୱନାଥ ଖୁଲେ, ତାଙ୍କର ପୁ..."
43,We can’t resolve the agrarian crisis if we do ...,अगर हम महिला किसानों के अधिकारों और समस्याओं क...,ہم زرعی بحران کو تب تک حل نہیں کر سکتے، جب تک ...,দেশের অসংখ্য মহিলা কৃষিজীবীদের অধিকার এবং সমস্...,ଯଦି ଆମେ ମହିଳା ଚାଷୀମାନଙ୍କର ଅଧିକାର ଓ ସମସ୍ୟା ପ୍ରତ...
...,...,...,...,...,...
4949,A non-governmental organisation that works on ...,एक गैर सरकारी संगठन जो इस क्षेत्र में स्वास्थ्...,ایک غیر سرکاری تنظیم جو اس علاقہ میں صحت سے مت...,এলাকার স্বাস্থ্যসংক্রান্ত সমস্যাগুলি নিয়ে কাজ ...,ଏହି ଅଞ୍ଚଳରେ ଲୋକଙ୍କର ସ୍ୱାସ୍ଥ୍ୟ କ୍ଷେତ୍ରରେ କାମ କର...
4950,Others prefer to migrate only during the chill...,"अन्य लोग केवल फरवरी से अप्रैल के बीच, मिर्च तो...",دیگر لوگ صرف فروری سے اپریل کے درمیان، مرچ توڑ...,অন্যরা শুধুমাত্র ফেব্রুয়ারি থেকে এপ্রিল মাস প...,ଅନ୍ୟମାନେ ଲଙ୍କା ତୋଳିବା ଋତୁରେ ଫେବ୍ରୁୟାରୀରୁ ଏପ୍ରି...
4951,"Kalmu, originally from a village in Chhattisga...","कलमू, जो मुख्य रूप से छत्तीसगढ़ के एक गांव के ...",کلمو، جو بنیادی طور سے چھتیس گڑھ کے ایک گاؤں ک...,কালমুর আদি নিবাস হল ছত্তিশগড়ের সুকমা জেলার এক...,ଛତିଶଗଡ଼ର ସୁକମା ଜିଲ୍ଲାର ମୂଳ ବାସିନ୍ଦା କଲମୁଙ୍କ ଗା...
4952,Adivasis from Chhattisgarh who have for long m...,छत्तीसगढ़ के आदिवासी जो काफी समय पहले कृषि मजद...,چھتیس گڑھ کے آدیواسی جو کافی پہلے زرعی مزدوری ...,"ছত্তিশগড়ের আদিবাসী মানুষেরা, যাঁরা দীর্ঘদিন হ...",ଛତିଶଗଡରୁ ଯେଉଁ ଆଦିବାସୀମାନେ ଦୀର୍ଘ ସମୟ ପୂର୍ବରୁ କୃ...
