<a href="https://colab.research.google.com/github/PauloCesarRSilva/using-azure-resources-to-translate/blob/main/Translate_Using_Azure_OpenAI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [13]:
!pip install requests beautifulsoup4 openai langchain-openai



In [14]:
import requests
from bs4 import BeautifulSoup

In [15]:
def extract_text_from_url(url:str):
  """
  Extract text data from url page

  Parameters
  ----------

  url:str
    The URL page

  Returns
  -------
  text_clean:str
    The text of the URL

  """
  res = requests.get(url)

  if res.status_code == 200:
    soup = BeautifulSoup(res.text, 'html.parser')
    for script_or_style in soup(['script', 'style']):
      script_or_style.decompose()

    text = soup.get_text(separator= ' ')

    return text
  else:
    raise Exception (
        f"Failed to fetch URL. {res.status_code} reason: {res.reason}"
    )

In [16]:
extract_text_from_url('https://medium.com/@paulocesar.r.silva/say-goodbye-to-slow-api-data-retrieval-with-for-loops-87a80fd1f7ae')

'Say Goodbye to Slow API Data Retrieval with for loops! Unlock Efficiency with Spark RDD Distributed Computing! | by Paulo Cesar Rodrigues da Silva | Medium Open in app Sign up Sign in Write Sign up Sign in Say Goodbye to Slow API Data Retrieval with for loops! Unlock Efficiency with Spark RDD Distributed Computing! A Journey from Slow Loops to Spark RDD Efficiency Paulo Cesar Rodrigues da Silva · Follow 6 min read · Mar 7, 2024 -- Listen Share Introduction For loops are cornerstone of programming, allowing us to perform many tasks efficiently. As technology has advanced, for loops have become more versatile and faster. However, when dealing with data and with the increase in data volume, we’ve started to notice their limitations, especially when dealing with large amounts of data. Imagine you have a task that involves processing huge amounts of data. This is where we encounter a problem. While for loops work fine for small tasks, they become slow and inefficient when dealing with mass

In [32]:
from langchain_openai.chat_models.azure import AzureChatOpenAI

client = AzureChatOpenAI(
    azure_endpoint='your-endpoint.openai.azure.com/',
    api_key='your-key',
    api_version='2024-02-15-preview',
    deployment_name='gpt-4o-mini',
    max_retries=0
)

def translate_article(text:str, lang:str):
  """
  Translate article format text

  Parameters
  ----------
  text:str
    The text of the article
  lang:str
    The language the text will be translated
  """
  messages = [
      ("system", "Você atua como tradutor de textos"),
      ("user", f"Traduza o {text} para o idioma {lang}")
  ]

  response = client.invoke(messages)
  #print(response.content)
  return response.content

In [33]:
translate_article('Hello World', 'Francês')

'"Hello World" em francês é "Bonjour le monde".'

In [35]:
url = 'https://medium.com/@paulocesar.r.silva/say-goodbye-to-slow-api-data-retrieval-with-for-loops-87a80fd1f7ae'
text = extract_text_from_url(url)
translate_article(text, 'português')

'Diga adeus à recuperação lenta de dados da API com loops for! Desbloqueie a eficiência com o Spark RDD de computação distribuída! | por Paulo Cesar Rodrigues da Silva | Medium\n\nDiga adeus à recuperação lenta de dados da API com loops for! Desbloqueie a eficiência com o Spark RDD de computação distribuída! Uma jornada dos loops lentos à eficiência do Spark RDD\n\nPaulo Cesar Rodrigues da Silva · Seguir 6 min de leitura · 7 de março de 2024\n\n-- Ouvir Compartilhar\n\nIntrodução\n\nOs loops for são a pedra angular da programação, permitindo que realizemos muitas tarefas de forma eficiente. À medida que a tecnologia avançou, os loops for se tornaram mais versáteis e rápidos. No entanto, ao lidar com dados e com o aumento do volume de dados, começamos a notar suas limitações, especialmente ao trabalhar com grandes quantidades de dados. Imagine que você tem uma tarefa que envolve processar enormes quantidades de dados. É aqui que encontramos um problema. Embora os loops for funcionem bem

Diga adeus à recuperação lenta de dados da API com loops for! Desbloqueie a eficiência com o Spark RDD de computação distribuída! | por Paulo Cesar Rodrigues da Silva | Medium

Diga adeus à recuperação lenta de dados da API com loops for! Desbloqueie a eficiência com o Spark RDD de computação distribuída! Uma jornada dos loops lentos à eficiência do Spark RDD

Paulo Cesar Rodrigues da Silva · Seguir 6 min de leitura · 7 de março de 2024

-- Ouvir Compartilhar

Introdução

Os loops for são a pedra angular da programação, permitindo que realizemos muitas tarefas de forma eficiente. À medida que a tecnologia avançou, os loops for se tornaram mais versáteis e rápidos. No entanto, ao lidar com dados e com o aumento do volume de dados, começamos a notar suas limitações, especialmente ao trabalhar com grandes quantidades de dados. Imagine que você tem uma tarefa que envolve processar enormes quantidades de dados. É aqui que encontramos um problema. Embora os loops for funcionem bem para pequenas tarefas, eles se tornam lentos e ineficientes ao lidar com conjuntos de dados massivos. À medida que as empresas buscam economizar tempo e dinheiro, encontrar maneiras melhores de lidar com grandes quantidades de dados é crucial. Neste artigo, exploraremos por que os loops for têm dificuldades com big data e apresentaremos uma solução: o uso do Spark RDD. Essa tecnologia promete um tempo de processamento mais rápido e melhor desempenho, ajudando as empresas a aproveitarem ao máximo seus dados.

O problema revelado

Imagine isso: a empresa tem um trabalho que busca e recupera dados de uma API. O problema? Existem cerca de 5000 registros para processar, e a API leva de 1 a 2 segundos para responder a cada solicitação. Vamos supor que cada registro leve exatamente um segundo; um loop for tradicional ainda levaria impressionantes 5000 segundos para processar todos os dados. Isso equivale a 83,33 minutos! Apenas imagine a frustração de esperar que um único loop percorra 5000 registros, sem mencionar a pressão financeira sobre a empresa, que deve arcar com os custos de um trabalho que consome mais de uma hora de tempo de processamento por dia para uma única tarefa.

A busca por uma solução

A solução para nossa recuperação de dados estava bem diante dos meus olhos o tempo todo, mas foi necessário um momento de insight para perceber seu potencial. Com alguns experimentos e orientação do ChatGPT, embarquei em uma jornada para paralelizar a execução das chamadas da API — uma solução que eu nunca havia considerado antes. Ao usar o Spark RDD, descobri o poder transformador do Spark RDD para buscar dados de APIs. Ao distribuir a carga de trabalho entre várias unidades de processamento, consegui uma solução que não apenas era altamente escalável, mas também inerentemente resiliente. Os resultados foram surpreendentes! Nosso trabalho, que costumava levar horas, agora termina em uma fração do tempo — 90% menos, para ser exato. Isso não apenas nos economiza tempo e dinheiro, mas também significa que podemos lidar com mais trabalho no futuro.

Adotando o Spark RDD:

Spark RDD significa Resilient Distributed Dataset, um objeto Spark com uma diferença única e singular em comparação com um objeto Python: ele é distribuído. Através do RDD, você pode aproveitar e fazer uso do melhor que a computação distribuída tem a oferecer. Por exemplo, veja o ecossistema Spark:

[Imagem do Ecossistema Spark]

Se você executar seu código Python, ele opera no nível do driver, representando apenas a superfície das capacidades do Spark. No entanto, ao trabalhar com Spark RDDs, você mergulha mais fundo no Spark Core, interagindo com objetos Spark no nível central. Aqui, a computação distribuída e o paralelismo têm prioridade sobre o manuseio de objetos Python.

[Imagem de como o Spark funciona com processamento paralelo.]

Resultados e Benefícios:

Vamos supor que eu precise fazer chamadas de API em cerca de 5000 registros cada. Executando um loop for em Python no Spark, isso é o que acontece: Como você pode ver, o código é executado apenas no nível do driver. Nenhum paralelismo ou distribuição ocorre aqui.

Usando o loop for em Python:
- O código é executado sequencialmente em uma única máquina.
- Cada iteração processa um elemento de cada vez.

Considerando que eu processo cada elemento de cada vez, e cada elemento leva 1 segundo para processar, ter 5000 registros levará 5000 segundos para terminar, ou seja, 83,33 minutos! Isso está longe de ser eficiente e consome um tempo considerável. No entanto, e se eu pudesse paralelizar a operação, permitindo chamadas de API simultâneas em vários computadores? Quando você cria um Spark RDD a partir dos seus dados, o Spark:
- Distribui a computação entre vários nós em um cluster.
- Processa dados em paralelo, aplicando a função de transformação a cada elemento da partição RDD independentemente.

Como resultado, você não está apenas realizando uma operação por vez, mas processando múltiplos itens simultaneamente, levando a um tempo de execução significativamente reduzido devido à utilização de várias máquinas. Com a capacidade de processar 4 itens simultaneamente em um único segundo, você completa o processamento em 1250 segundos, ou seja, 20,83 minutos! Isso representa uma redução notável de 75% no tempo de execução, assumindo que seu cluster consiste em 4 trabalhadores.

O código

Se você tiver um código assim:

```python
list_data  # a lista dos seus dados
list_data_new = []

def get_api_call(item):
    # operação para buscar dados da API
    for item in list_data:
        data = get_api_call(item)
        list_data_new.append(data)
```

Basta substituir seu loop for por isso:

```python
def get_api_call(item):
    # operação para buscar dados da API
    # transformar a lista `list_data` em um RDD (objeto Spark)
    # para que possamos fazer uso dos recursos do Spark, como paralelismo
    list_data_rdd = sc.parallelize(list_data)
    # agora que estamos lidando com um objeto Spark, podemos realizar operações usando
    # paralelismo. Aqui, o Spark está serializando a função Python
    # `get_api_call` em bytecode e enviando para os nós trabalhadores
    # Assim, o mapeamento é aplicado em cada partição do RDD nos nós trabalhadores
    # independentemente
    result_rdd = list_data_rdd.map(get_api_call)
    # finalmente, fazemos um `collect` para retornar os dados de volta ao driver como
    # lista Python
    list_data_new = result_rdd.collect()
```

Cuidado: O uso de `.collect()` recupera os dados do RDD de volta ao driver, podendo causar problemas de desempenho, especialmente com grandes conjuntos de dados. Alternativamente, se você não estiver realizando nenhuma operação complexa em seus dados, considere converter o RDD em um DataFrame.

Mas e se minha função tiver dois ou mais parâmetros?

A abordagem é bastante simples:

```python
def get_api_call(item_1, item_2):
    # operação para buscar dados da API
    # considerando que sua fonte é um DataFrame, crie uma lista com um par de
    # tuplas. Para isso, você pode usar a compreensão de listas
    list_data_pairs = [(list_data_df["item_1"][i], list_data_df["item_2"][i]) for i in range(len(list_data_df))]
    list_data_rdd = sc.parallelize(list_data_pairs)
    # no rdd.map, basta fazer uma simples alteração para que você possa mapear seus parâmetros
    # de acordo
    results_rdd = list_data_rdd.map(lambda pair: get_api_call(*pair))
    list_data_new = results_rdd.collect()
```

Conclusão:

Em conclusão, aproveitar o Spark RDD para computação distribuída pode melhorar significativamente a eficiência das tarefas de processamento de dados, particularmente ao lidar com grandes conjuntos de dados. Ao paralelizar operações entre vários nós em um cluster, o Spark RDD permite tempos de execução mais rápidos e melhor utilização de recursos.

Referências:
- Spark Under The Hood: Partition. Spark é um motor de computação distribuída… | por Thejas Babu | Medium
- PySpark: Tudo que você precisa saber! | por Sharan Harsoor | AI Mind
- Spark Python Databricks Sistemas Distribuídos Computação Paralela

--

Seguir

Escrito por Paulo Cesar Rodrigues da Silva
6 Seguidores · 3 Seguindo
Apaixonado por dados e tecnologia.

Seguir

Nenhuma resposta ainda

Ajuda
Status
Sobre
Carreiras
Imprensa
Blog
Privacidade
Termos