Este documento descreve o processo de tradução automatizada utlizado como passo inicial para o desenvolvimento de um léxico grego-português para o Bible Online Learner.

O processo se baseou primariamente no tutorial [Translate a Pandas data frame using googletrans library](https://towardsdatascience.com/translate-a-pandas-data-frame-using-googletrans-library-fb0aa7fca592), desenvolvido por Amanda Iglesias Moreno.

# Importando o Googletrans

Googletrans é uma biblioteca gratuita para Python que usa a API de tradução do Google. Para fazer a tradução, o primeiro passo é importar a biblioteca. Para isso usamos o comando `pip`.

In [1]:
# instala googletrans usiando pip
!pip install googletrans==4.0.0-rc1

# importa a biblioteca
import googletrans
from googletrans import Translator



# Traduzindo um texto

Depois de instalada a biblioteca `googletrans`, o próximo passo é criar um objeto do tipo `translator`. Esse objeto usa o método `translate` para traduzir um conjunto de caracteres qualquer, no caso, o texto. O método retorna um atributo, `.text` que contém a tradução.

In [13]:
# cria um objeto do tipo translator
tradutor = Translator()

# usa o método translate para traduzir o texto - por padrão, a língua alvo é inglês
traducao = tradutor.translate('Olá, Mundo!')

# o método ´translate´ retorna um objeto com uma série de atributos

# Translated(src=pt, dest=en, text=Hello World!, pronunciation=None, extra_data="{'confiden...")
print(traducao)

# obtém o texto traduzido usando o atributo '.text'
traducao.text

# Após a execução, deve aparecer a expressão 'Hello World'

Translated(src=pt, dest=en, text=Hello World!, pronunciation=None, extra_data="{'confiden...")


'Hello World!'

Há alguns parâmetros que podem ser usados (alguns deles apareceram antes quando solicitamos que as informações do objeto fossem mostradas). `src` especifica a língua original do texto. `dest` designa a língua alvo da tradução. Se não forem configurados, a biblioteca `googletrans` tentará detectar a língua original e vai traduzir o texto para o inglês. Uma lista das abreviaturas para cada língua disponível pode ser vista usando-se o atributo `.LANGUAGES`.

In [15]:
# línguas disponíveis para tradução
print(googletrans.LANGUAGES)

{'af': 'afrikaans', 'sq': 'albanian', 'am': 'amharic', 'ar': 'arabic', 'hy': 'armenian', 'az': 'azerbaijani', 'eu': 'basque', 'be': 'belarusian', 'bn': 'bengali', 'bs': 'bosnian', 'bg': 'bulgarian', 'ca': 'catalan', 'ceb': 'cebuano', 'ny': 'chichewa', 'zh-cn': 'chinese (simplified)', 'zh-tw': 'chinese (traditional)', 'co': 'corsican', 'hr': 'croatian', 'cs': 'czech', 'da': 'danish', 'nl': 'dutch', 'en': 'english', 'eo': 'esperanto', 'et': 'estonian', 'tl': 'filipino', 'fi': 'finnish', 'fr': 'french', 'fy': 'frisian', 'gl': 'galician', 'ka': 'georgian', 'de': 'german', 'el': 'greek', 'gu': 'gujarati', 'ht': 'haitian creole', 'ha': 'hausa', 'haw': 'hawaiian', 'iw': 'hebrew', 'he': 'hebrew', 'hi': 'hindi', 'hmn': 'hmong', 'hu': 'hungarian', 'is': 'icelandic', 'ig': 'igbo', 'id': 'indonesian', 'ga': 'irish', 'it': 'italian', 'ja': 'japanese', 'jw': 'javanese', 'kn': 'kannada', 'kk': 'kazakh', 'km': 'khmer', 'ko': 'korean', 'ku': 'kurdish (kurmanji)', 'ky': 'kyrgyz', 'lo': 'lao', 'la': 'lat

Ao usar o método `.translate`, o retorno é um objeto que contem os seguintes atributos:

* src = língua original
* dest = língua alvo
* origin = texto original
* text = texto traduzido
* pronunciation = pronúncia

Usando o objeto criado anteriormente, podemos obter as seguintes informações:

In [22]:
tradutor = Translator()
traducao = tradutor.translate('Olá, Mundo!')

# obtém o texto traduzido- atributo .text
print(traducao.text)

# obtém o texto original - atributo .origin
print(traducao.origin)

# obtém a língua original - atributo .src
print(traducao.src)

# obtém a língua alvo - atributo .dest
print(traducao.dest)

# obtém a pronúncia do texto - atributo .pronunciation
print(traducao.pronunciation)

Hello World!
Olá, Mundo!
pt
en
None


# Traduzindo dataframes

Dataframe é um conjunto de dados na forma de tabela. O objetivo aqui é traduzir completamente um dataframe que contém um léxico grego-inglês para o português usando a biblioteca `googletrans`. O documento pode ser encontrado [aqui](). O objetivo é traduzir as entradas da coluna "English Translation" e colocar o resultado em "Portuguese Translation". Para isso, o primeiro passo é configurar o documento através doa biblioteca `pandas`, que é própria para manipular esse tipo de conjunto de dados.