<a href="https://colab.research.google.com/github/AI4Bharat/indicTrans/blob/main/indicTrans_hosted_api_inference.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install mosestokenizer
!pip install indic-nlp-library

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting mosestokenizer
  Downloading mosestokenizer-1.2.1.tar.gz (37 kB)
Collecting openfile
  Downloading openfile-0.0.7-py3-none-any.whl (2.4 kB)
Collecting uctools
  Downloading uctools-1.3.0.tar.gz (4.6 kB)
Collecting toolwrapper
  Downloading toolwrapper-2.1.0.tar.gz (3.2 kB)
Building wheels for collected packages: mosestokenizer, toolwrapper, uctools
  Building wheel for mosestokenizer (setup.py) ... [?25l[?25hdone
  Created wheel for mosestokenizer: filename=mosestokenizer-1.2.1-py3-none-any.whl size=49189 sha256=92b4b8f7ff5794912fa5888562f1408ea92d51c87654caf0e56bddbb5b47c665
  Stored in directory: /root/.cache/pip/wheels/b0/35/f7/af1258779a0b890abc3c79481460c597cb1f3659d0603cfb9d
  Building wheel for toolwrapper (setup.py) ... [?25l[?25hdone
  Created wheel for toolwrapper: filename=toolwrapper-2.1.0-py3-none-any.whl size=3353 sha256=332430df7c639a99e2584df60d741c4b692620e

In [2]:
import requests
import time
from tqdm import tqdm
import json
from pprint import pprint

In [3]:
uri = "http://216.48.181.177:5050"

In [4]:

# to translate one sentence, we use the translate sentence endpoint

API_URL = f"{uri}/translate_sentence"


# In the Json field of the request, we specify the text we want translation for, the source language and the target language

response = requests.post(
    API_URL,
    json={
  "text": "If you develop these symptoms in someone close to you, staying at home can help prevent the spread of Coronavirus infection.",
  "source_language": "en",
  "target_language": "ta"
},
)

In [5]:
output = json.loads(response.text)
print(output)

{'text': 'உங்களுக்கு நெருக்கமான ஒருவரிடம் இந்த அறிகுறிகள் உங்களுக்கு ஏற்பட்டால், வீட்டிலேயே தங்கியிருப்பது கொரோனா வைரஸ் தொற்று பரவுவதைத் தடுக்க உதவும்.', 'duration': 0.85}


In [6]:
print(f"Request completed in {output['duration']} seconds and the translation is {output['text']}")

Request completed in 0.85 seconds and the translation is உங்களுக்கு நெருக்கமான ஒருவரிடம் இந்த அறிகுறிகள் உங்களுக்கு ஏற்பட்டால், வீட்டிலேயே தங்கியிருப்பது கொரோனா வைரஸ் தொற்று பரவுவதைத் தடுக்க உதவும்.


In [7]:
# to translate a batch of sentences, we use batch_translate endpoint
API_URL = f"{uri}/batch_translate"

# This is a sample batch of 4 tamil sentences. IF you have a large batch of sentences, please break it into smaller batches (typically of size 8 or 16) and query the API multiple times.

sentence_batch = ['இத்தொற்றுநோய் உலகளாவிய சமூக மற்றும் பொருளாதார சீர்குலைவை ஏற்படுத்தியுள்ளது.',
 'இதனால் பெரும் பொருளாதார மந்தநிலைக்குப் பின்னர் உலகளவில் மிகப்பெரிய மந்தநிலை ஏற்பட்டுள்ளது.',
 'இது விளையாட்டு,மத, அரசியல் மற்றும் கலாச்சார நிகழ்வுகளை ஒத்திவைக்க அல்லது ரத்து செய்ய வழிவகுத்தது.',
 'அச்சம் காரணமாக முகக்கவசம், கிருமிநாசினி உள்ளிட்ட பொருட்களை அதிக நபர்கள் வாங்கியதால் விநியோகப் பற்றாக்குறை ஏற்பட்டது.']

# here we give the sentence_batch to "text_lines" and change the source and target language accordingly
response = requests.post(
    API_URL,
    json={
  "text_lines": sentence_batch,
  "source_language": "ta",
  "target_language": "en"
},
)

output = json.loads(response.text)

In [8]:
print(output)

{'text_lines': ['The pandemic has caused global social and economic disruption.', 'This has led to the worlds largest recession since the Great Depression.', 'This led to the postponement or cancellation of sporting, religious, political and cultural events.', 'Due to this fear, there was a shortage of supply as most of the people purchased the items like masks, sanitizers etc.'], 'duration': 0.34}


In [9]:
print(f"Request completed in {output['duration']} seconds and the translation is {output['text_lines']}")

Request completed in 0.34 seconds and the translation is ['The pandemic has caused global social and economic disruption.', 'This has led to the worlds largest recession since the Great Depression.', 'This led to the postponement or cancellation of sporting, religious, political and cultural events.', 'Due to this fear, there was a shortage of supply as most of the people purchased the items like masks, sanitizers etc.']


In [10]:
# if you want to translate a paragraph, you can first break it into sentences first

# the following code shows you how to break the paragraph into batch of sentences

# install these libraries
# pip install mosestokenizer
# pip install indic-nlp-library

from mosestokenizer import *
from indicnlp.tokenize import sentence_tokenize

INDIC = ["as", "bn", "gu", "hi", "kn", "ml", "mr", "or", "pa", "ta", "te"]

def split_sentences(paragraph, language):
    if language == "en":
        with MosesSentenceSplitter(language) as splitter:
            return splitter([paragraph])
    elif language in INDIC:
        return sentence_tokenize.sentence_split(paragraph, lang=language)




```python
split_sentences("""COVID-19 is caused by infection with the severe acute respiratory
syndrome coronavirus 2 (SARS-CoV-2) virus strain. The disease is mainly transmitted via the respiratory
route when people inhale droplets and particles that infected people release as they breathe, talk, cough, sneeze, or sing. """, language='en')

# >> ['COVID-19 is caused by infection with the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) virus strain.',
#  'The disease is mainly transmitted via the respiratory route when people inhale droplets and particles that infected people release as they breathe, talk, cough, sneeze, or sing.']

split_sentences("""இத்தொற்றுநோய் உலகளாவிய சமூக மற்றும் பொருளாதார சீர்குலைவை ஏற்படுத்தியுள்ளது.இதனால் பெரும் பொருளாதார மந்தநிலைக்குப் பின்னர் உலகளவில் மிகப்பெரிய மந்தநிலை ஏற்பட்டுள்ளது. இது விளையாட்டு,மத, அரசியல் மற்றும் கலாச்சார நிகழ்வுகளை ஒத்திவைக்க அல்லது ரத்து செய்ய வழிவகுத்தது.
அச்சம் காரணமாக முகக்கவசம், கிருமிநாசினி உள்ளிட்ட பொருட்களை அதிக நபர்கள் வாங்கியதால் விநியோகப் பற்றாக்குறை ஏற்பட்டது.""",
 language='ta')

# >> ['இத்தொற்றுநோய் உலகளாவிய சமூக மற்றும் பொருளாதார சீர்குலைவை ஏற்படுத்தியுள்ளது.',
#  'இதனால் பெரும் பொருளாதார மந்தநிலைக்குப் பின்னர் உலகளவில் மிகப்பெரிய மந்தநிலை ஏற்பட்டுள்ளது.',
#  'இது விளையாட்டு,மத, அரசியல் மற்றும் கலாச்சார நிகழ்வுகளை ஒத்திவைக்க அல்லது ரத்து செய்ய வழிவகுத்தது.',
#  'அச்சம் காரணமாக முகக்கவசம், கிருமிநாசினி உள்ளிட்ட பொருட்களை அதிக நபர்கள் வாங்கியதால் விநியோகப் பற்றாக்குறை ஏற்பட்டது.']
```

In [11]:
sample_paragraph = "Pongal, is also referred to as Thai Pongal, is a multi-day Hindu harvest festival celebrated by Tamils in India and Sri Lanka. It is observed at the start of the month Tai according to Tamil solar calendar, and this is typically about January 14."

sentence_batch = split_sentences(sample_paragraph, language="en")

In [12]:
# once you have the paragraph converted to batch of sentences, you can use the batch_translate endpoint which we saw previously

# here we are translating the english sentences to hindi
response = requests.post(
    API_URL,
    json={
  "text_lines": sentence_batch,
  "source_language": "en",
  "target_language": "hi"
},
)

output = json.loads(response.text)

In [13]:
print(output["text_lines"])

['पोंगल, जिसे थाई पोंगल के रूप में भी जाना जाता है, भारत और श्रीलंका में तमिलों द्वारा मनाया जाने वाला एक बहु-दिवसीय हिंदू फसल त्योहार है।', 'यह तमिल सौर कैलेंडर के अनुसार ताई महीने की शुरुआत में मनाया जाता है, और यह आमतौर पर 14 जनवरी को मनाया जाता है।']


In [14]:
print("source sentence in english -----> Hindi Translation")
print()
for src_sen, tgt_sen in zip(sentence_batch, output["text_lines"]):
    print(f"{src_sen} -----> {tgt_sen}")

source sentence in english -----> Hindi Translation

Pongal, is also referred to as Thai Pongal, is a multi-day Hindu harvest festival celebrated by Tamils in India and Sri Lanka. -----> पोंगल, जिसे थाई पोंगल के रूप में भी जाना जाता है, भारत और श्रीलंका में तमिलों द्वारा मनाया जाने वाला एक बहु-दिवसीय हिंदू फसल त्योहार है।
It is observed at the start of the month Tai according to Tamil solar calendar, and this is typically about January 14. -----> यह तमिल सौर कैलेंडर के अनुसार ताई महीने की शुरुआत में मनाया जाता है, और यह आमतौर पर 14 जनवरी को मनाया जाता है।
