# **Traduzindo textos com Python**
*by [JOVIANO SILVEIRA](https://www.joviano.com)*

<center><img width="45%" src="https://raw.githubusercontent.com/jovianosilveira/img/master/joviano-silveira-algoritmo-traducao.png"></center>

Recorrentemente necessitamos traduzir dados de nossos datasets, sejam eles do Python, ou mesmo em um Power BI, e poderia você pensar que teria que ter os dados gravados em duas linguagens, mas não!

Claro que o ideal, por questão de contexto, é gravar ter os dados gravados nas referidas linguagens, mas quando você precisa de uma conversão automática, esse script pode te ajudar

##**EXPLICANDO O COMANDO**

In [1]:
# importando biblioteca
# -q serve para não aparecer as mensagens "chatas"
# ! serve para instalar no Colab | se for no local, basta instalar 1 só vez, sem o !
# documentação: https://py-googletrans.readthedocs.io/en/latest/
! pip install googletrans -q

In [2]:
# importando a bibliotecas usadas no projeto
from googletrans import Translator
from datetime import datetime
import time
import pandas as pd

In [3]:
# Setando tradutos com a linguagem destino
translator = Translator()
translator.translate('eu sou feliz', src='pt', dest = 'en').text

'I am happy'

##**SIMULANDO UM DATASET COM SUA QUANTIDADE DE LINHAS**

In [4]:
# quantas linhas eu quero?
linhas = 100

In [5]:
# criar uma lista com a quantidade de linhas
lista = range(linhas)

# para cada item da lista, criar fazer apend em nova lista, com uma frase padrão
frases = []
for i in lista:
  i = 'o livro está sobre a mesa'
  frases.append(i)
# mostrar quantidade de frases criadas
len(frases)

100

<center><img width="45%" src="https://github.com/jovianosilveira/img/blob/master/joviano-silveira-a-gente-ja-chegou-while.jpg?raw=true"></center>

Criei um LOOP, pois o serviço de tradução mostrou "instabilidade" na tradução, a qual pode ser explicada pelo fato de o Google disponibilizar uma API para tradução, PAGA E EM USD.

Logo, para "contornar" a situação, criei um "verificador", ou seja, se a frase traduzida é igual a frase original, então volta ao inicio da lista depois de 10 segundos.

*como cada texto será buscado na internet, e alimentará seu dataset, isso pode levar uns minutos. Imagine você, copiando texto, colando no tradutor, pegando a tradução, e colando no dataset... é isso que ele fará*

In [6]:
# data e hora inicial do loop para medirmos a performance
ini = datetime.now() 
# lista vazia, que será alimentada no loop
frases_traduzidas = [] 

#quantidade de frases original
qtd_frases = len(frases) 
qtd_frases_total = qtd_frases 

#carregar variavel para o Loop poder iniciar
a = 'a'
b = 'b'

while qtd_frases > 0:

  if a != b:
    
    #remover a ultima linha da lista
    a = frases[0] 

    # tentar traduzir
    b = translator.translate(a, src='pt', dest = 'en').text 

  if a != b: # se conseguiu traduzir...

    # remover a primeira linha da lista
    frases = frases[1:] 

    # adicionar a tradução na lista
    frases_traduzidas = frases_traduzidas + [b] 
    print(qtd_frases, b)

  else:  # se o Google não traduziu...
    # em caso de break, esperar 10 segundos para retomar
    time.sleep(10) 

  # carregar variavel para o Loop poder voltar ao inicio do loop
  b = 'b'
  a = 'a'   

  # contar quantas frases sobraram, se maior que zero, reinicia o loop
  qtd_frases = len(frases)

# data e hora final do loop para medirmos a performance
fim = datetime.now() 

#tempo delta
tempo = fim-ini 

print('tempo total foi:',tempo)
print('tempo por linha foi:', tempo / qtd_frases_total)

100 the book is on the table
99 the book is on the table
98 the book is on the table
97 the book is on the table
96 the book is on the table
95 the book is on the table
94 the book is on the table
93 the book is on the table
92 the book is on the table
91 the book is on the table
90 the book is on the table
89 the book is on the table
88 the book is on the table
87 the book is on the table
86 the book is on the table
85 the book is on the table
84 the book is on the table
83 the book is on the table
82 the book is on the table
81 the book is on the table
80 the book is on the table
79 the book is on the table
78 the book is on the table
77 the book is on the table
76 the book is on the table
75 the book is on the table
74 the book is on the table
73 the book is on the table
72 the book is on the table
71 the book is on the table
70 the book is on the table
69 the book is on the table
68 the book is on the table
67 the book is on the table
66 the book is on the table
65 the book is on t

##**E SE EU TIVER UMA TABELA? COMO EU FAÇO?**

### Criando uma tabela

In [7]:
# quantas linhas eu quero?
linhas = 100

# criar uma lista com a quantidade de linhas
lista = range(linhas)

# para cada item da lista, criar fazer apend em nova lista, com uma frase padrão
frases = []
for i in lista:
  i = 'o livro está sobre a mesa'
  frases.append(i)
# mostrar quantidade de frases criadas
len(frases)

100

In [8]:
df = pd.DataFrame(frases, columns=['FraseOriginal'])
df

Unnamed: 0,FraseOriginal
0,o livro está sobre a mesa
1,o livro está sobre a mesa
2,o livro está sobre a mesa
3,o livro está sobre a mesa
4,o livro está sobre a mesa
...,...
95,o livro está sobre a mesa
96,o livro está sobre a mesa
97,o livro está sobre a mesa
98,o livro está sobre a mesa


In [9]:
# Criando função resumida
def TraduzirColuna(texto, origem, destino):
  a = 'a'
  b = 'a'
  while a == b:
    b = translator.translate(texto, src=origem, dest = destino).text
    if a != b:
      c = b
  return c

In [10]:
# data e hora inicial do loop para medirmos a performance
ini = datetime.now() 

# Iterando linha a linha com Lambda
df['FraseTraduzida'] = df['FraseOriginal'].apply(lambda x: TraduzirColuna(x, 'pt', 'en'))

# data e hora final do loop para medirmos a performance
fim = datetime.now() 

#tempo delta
tempo = fim-ini 

print('tempo total foi:',tempo)
print('tempo por linha foi:', tempo / qtd_frases_total)

df

tempo total foi: 0:00:05.251014
tempo por linha foi: 0:00:00.052510


Unnamed: 0,FraseOriginal,FraseTraduzida
0,o livro está sobre a mesa,the book is on the table
1,o livro está sobre a mesa,the book is on the table
2,o livro está sobre a mesa,the book is on the table
3,o livro está sobre a mesa,the book is on the table
4,o livro está sobre a mesa,the book is on the table
...,...,...
95,o livro está sobre a mesa,the book is on the table
96,o livro está sobre a mesa,the book is on the table
97,o livro está sobre a mesa,the book is on the table
98,o livro está sobre a mesa,the book is on the table


## **CONCLUSÃO**

Você pode usar essa tecnica, mas como ela depende de request em um serviço externo, para iterar em seus dados, saiba que pode demorar.

Se você precisar usar a técnica, coloque a rodar, e insira os dados no seu banco de dados, para não precisar reexecutar e ficar calculando, calculando....

Vejo vocês na próxima

### Conheça meu trabalho

<a href="https://www.joviano.com">
<img src="https://raw.githubusercontent.com/jovianosilveira/img/master/joviano-silveira-site-logo.png" alt="joviano.com" width="5%">
</a>

<a href="https://www.youtube.com/jovianosilveira">
<img src="https://github.com/jovianosilveira/img/blob/master/joviano-silveira-youtube-logo.png?raw=true" alt="joviano.com" width="5%">
</a>

<a href="http://www.linkedin.com/in/jovianosilveira">
<img src="https://github.com/jovianosilveira/img/blob/master/joviano-silveira-linkedin-logo.png?raw=true" alt="joviano.com" width="5%">
</a>

<a href="https://www.instagram.com/jovi.silveira">
<img src="https://github.com/jovianosilveira/img/blob/master/joviano-silveira-instagram-logo.png?raw=true" alt="joviano.com" width="5%">
</a>

<a href="https://www.facebook.com/jovi.silveira.cursos">
<img src="https://github.com/jovianosilveira/img/blob/master/joviano-silveira-facebook-logo.png?raw=true" alt="joviano.com" width="5%">
</a>

### Conheça os cursos que fiz para você

<a href="https://www.joviano.com/cursos-para-voce">
<img src="https://github.com/jovianosilveira/img/blob/master/joviano-silveira-cursos-logo.png?raw=true" alt="joviano.com" width="10%">
</a>