# Aula 1: Conhecendo os modelos

**[Hugging Face](https://huggingface.co/)**


A Hugging Face é uma empresa focada em tecnologia de Inteligência Artificial (IA) e Processamento de Linguagem Natural (NLP), responsável por criar e manter uma plataforma aberta que facilita a criação, treinamento e utilização de modelos avançados de aprendizado de máquina, especialmente para tarefas relacionadas ao processamento de linguagem.

## Começando a resumir textos

**[Biblioteca Transformers](https://huggingface.co/docs/transformers/en/index)**


A biblioteca Transformers da Hugging Face é uma das ferramentas mais populares e utilizadas na comunidade de NLP. Ela oferece uma interface simplificada para trabalhar com modelos de linguagem baseados em transformadores, como BERT, GPT, T5 e muitos outros. Com suporte para diversas tarefas, como análise de sentimentos, tradução automática, e geração de texto, a biblioteca permite que desenvolvedores e pesquisadores implementem soluções de NLP de forma eficiente e eficaz.


**[Função pipeline da Biblioteca Transformers](https://huggingface.co/docs/transformers/en/main_classes/pipelines)**

A função pipeline da biblioteca Transformers é uma ferramenta poderosa e versátil que simplifica o uso de modelos pré-treinados para várias tarefas de processamento de linguagem natural (NLP). Ela fornece uma interface de alto nível que permite aos usuários realizar tarefas complexas de NLP com apenas algumas linhas de código.

A função pipeline serve como um ponto de entrada para diversas tarefas de NLP, como análise de sentimentos, tradução, sumarização, e geração de texto. Ela abstrai a complexidade dos modelos e da tokenização, oferecendo uma interface fácil de usar que simplifica a implementação dessas tarefas.

In [1]:
!pip install transformers



In [2]:
from transformers import pipeline

## Começando a traduzir textos

In [3]:
resumidor_texto = pipeline("summarization")

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json: 0.00B [00:00, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

Device set to use cpu


In [4]:
texto_exemplo = """
A inteligência artificial (IA) é uma área da ciência da computação que enfatiza a criação de máquinas inteligentes que trabalham e reagem como seres humanos.
Algumas das atividades que os computadores com inteligência artificial são
projetados para fazer incluem: reconhecimento de fala, aprendizado, planejamento e resolução de problemas. A pesquisa associada à inteligência artificial é altamente técnica e especializada.Os principais problemas da inteligência artificial incluem programação de computadores para certos traços como conhecimento,
raciocínio, solução de problemas, percepção, aprendizado, planejamento, habilidade
de manipular e mover objetos.
"""

In [5]:
resumo = resumidor_texto(texto_exemplo, max_length=120, min_length=70)

In [6]:
resumo

[{'summary_text': ' A pesquisa associada to inteligência artificial is altamente técnica e especializada . The IAI enfatiza a criação de máquinas inteligentes that trabalham e reagem como seres humanos . Algumas das atividades que computadores com IAI sãoprojetados para fazer incluem: reconhecimento de fala, aprendizado, planejamento e resolução of problemas'}]

In [7]:
print(resumo[0]['summary_text'])

 A pesquisa associada to inteligência artificial is altamente técnica e especializada . The IAI enfatiza a criação de máquinas inteligentes that trabalham e reagem como seres humanos . Algumas das atividades que computadores com IAI sãoprojetados para fazer incluem: reconhecimento de fala, aprendizado, planejamento e resolução of problemas


In [8]:
texto_ingles = """
Artificial intelligence (AI) is a field of computer science that emphasizes the
creation of intelligent machines that work and react like humans. Some of the
activities that computers with artificial intelligence are designed to perform
include speech recognition, learning, planning, and problem-solving. Research
associated with artificial intelligence is highly technical and specialized.
The main problems of artificial intelligence include programming computers for
certain traits such as knowledge, reasoning, problem-solving, perception,
learning, planning, and the ability to manipulate and move objects.
"""

In [9]:
resumo_ingles = resumidor_texto(texto_ingles, max_length=120, min_length=70)

Your max_length is set to 120, but your input_length is only 115. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=57)


In [10]:
print(resumo_ingles[0]['summary_text'])

 Artificial intelligence (AI) is a field of computer science that emphasizes the creation of intelligent machines that work and react like humans . The main problems of artificial intelligence include programming computers for certain traits such as knowledge, reasoning, problem-solving, perception, learning, planning, and the ability to manipulate and move objects . Research with artificial intelligence is highly technical and specialized .


In [11]:
tratutor = pipeline("translation_en_to_fr")

No model was supplied, defaulted to google-t5/t5-base and revision a9723ea (https://huggingface.co/google-t5/t5-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/892M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cpu


In [12]:
texto_ingles = """
Artificial intelligence (AI) is a field of computer science that emphasizes the
creation of intelligent machines that work and react like humans. Some of the
activities that computers with artificial intelligence are designed to perform
include speech recognition, learning, planning, and problem-solving.'
"""

In [13]:
traducao = tratutor(texto_ingles,  max_length=400, min_length=100)

Both `max_new_tokens` (=256) and `max_length`(=400) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


In [14]:
traducao

[{'translation_text': "L'intelligence artificielle (AI) est un domaine d'informatique qui met l'accent sur la création de machines intelligentes qui fonctionnent et réagissent comme les humains. Parmi les activités que les ordinateurs dotés d'une intelligence artificielle sont conçus pour effectuer figurent la reconnaissance de la parole, l'apprentissage, la planification et la résolution de problèmes."}]

In [15]:
print(traducao[0]['translation_text'])

L'intelligence artificielle (AI) est un domaine d'informatique qui met l'accent sur la création de machines intelligentes qui fonctionnent et réagissent comme les humains. Parmi les activités que les ordinateurs dotés d'une intelligence artificielle sont conçus pour effectuer figurent la reconnaissance de la parole, l'apprentissage, la planification et la résolution de problèmes.


Aula 2: Resumo de textos

Escolhendo modelo

In [16]:
from transformers import pipeline

In [17]:
modelo_resumo = "facebook/bart-large-cnn"

In [18]:
resumidor_eng = pipeline("summarization", model=modelo_resumo)

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cpu


In [19]:
texto_classificacao = """
Classification in machine learning involves assigning labels to input data based on its features and is fundamental in applications like spam detection, medical diagnosis, and image categorization. The process includes data collection and preparation, feature selection, choosing an algorithm (such as logistic regression, decision trees, SVM, k-NN, or neural networks), training, evaluation, hyperparameter tuning, and deployment. Despite its power, classification faces challenges like imbalanced datasets, ensuring model generalization, and handling noisy data. Successful classification models require careful handling of these steps and challenges to effectively solve real-world problems.
"""

In [20]:
resumo = resumidor_eng(texto_classificacao, max_length=70, min_length=30)

In [21]:
resumo

[{'summary_text': 'Classification in machine learning involves assigning labels to input data based on its features. Despite its power, classification faces challenges like imbalanced datasets. Successful classification models require careful handling of these steps.'}]

In [22]:
print(resumo[0]['summary_text'])

Classification in machine learning involves assigning labels to input data based on its features. Despite its power, classification faces challenges like imbalanced datasets. Successful classification models require careful handling of these steps.


Aplicando o resumo

In [23]:
texto_powerbi_en = """
Power BI is a data analysis and reporting tool developed by Microsoft. Its main function is to transform raw data into interactive and understandable visual information. Power BI is widely used by companies of all sizes to improve decision-making and business strategies.
One of the main attractions of Power BI is its ability to integrate with a variety of data sources, such as SQL databases, Excel files, cloud services like Azure and Google Analytics, among others. This allows users to centralize all their data on a single platform, facilitating analysis and information sharing.
Power BI is composed of three main components: Power BI Desktop, Power BI Service, and Power BI Mobile. Power BI Desktop is a desktop application that allows users to create detailed reports and dashboards. Power BI Service is an online platform where reports and dashboards can be published and shared with other members of the organization. Finally, Power BI Mobile allows users to access their reports and dashboards from anywhere using mobile devices.
One of the most powerful features of Power BI is the ability to create interactive visualizations. These visualizations allow users to explore data in various ways, identifying patterns and trends that might go unnoticed in traditional data tables. Additionally, Power BI offers a vast library of customizable visualizations, including bar charts, line charts, geographic maps... //Trecho omitido """

In [27]:
len(texto_powerbi_en)

1440

In [24]:
def carregar_modelo(nome_modelo):
  resumidor = pipeline("summarization", model=nome_modelo)
  return resumidor

In [25]:
def resumir_texto(texto):
  resumidor_texto = carregar_modelo("facebook/bart-large-cnn")
  resumo = resumidor_texto(texto, max_length=200, min_length=100)
  resumo_texto = resumo[0]['summary_text']
  return resumo_texto

In [26]:
resumir_texto(texto_powerbi_en)

Device set to use cpu


'Power BI is a data analysis and reporting tool developed by Microsoft. Its main function is to transform raw data into interactive and understandable visual information. Power BI is widely used by companies of all sizes to improve decision-making and business strategies. One of the most powerful features of Power BI are the ability to create interactive visualizations. These visualizations allow users to explore data in various ways, identifying patterns and trends that might go unnoticed in traditional data tables. The tool is composed of three main components: Power BI Desktop, Power BI Service, and Power BI Mobile.'

Aula 3: Traduzindo textos

Escolhendo modelo

In [28]:
from transformers import pipeline

In [29]:
modelo_traducao = "facebook/nllb-200-distilled-600M"

In [30]:
tradutor = pipeline("translation", model=modelo_traducao, src_lang="eng_Latn", tgt_lang="por_Latn")

config.json:   0%|          | 0.00/846 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.46G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.46G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/189 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/564 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/4.85M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.3M [00:00<?, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

Device set to use cpu


In [31]:
texto_ingles_pt = """
Classification is one of the fundamental tasks in machine learning, where the
goal is to predict the category or class of a sample based on its features. This
technique is widely used in various applications such as image recognition,
medical diagnosis, spam filtering, sentiment analysis, and many others.
"""

In [32]:
traducao_texto = tradutor(texto_ingles_pt, max_length=200)

In [33]:
traducao_texto

[{'translation_text': 'A classificação é uma das tarefas fundamentais do aprendizado de máquina, onde o objetivo é prever a categoria ou classe de uma amostra com base em suas características. Esta técnica é amplamente utilizada em várias aplicações, como reconhecimento de imagem, diagnóstico médico, filtragem de spam, análise de sentimentos e muitas outras. '}]

In [34]:
print(traducao_texto[0]['translation_text'])

A classificação é uma das tarefas fundamentais do aprendizado de máquina, onde o objetivo é prever a categoria ou classe de uma amostra com base em suas características. Esta técnica é amplamente utilizada em várias aplicações, como reconhecimento de imagem, diagnóstico médico, filtragem de spam, análise de sentimentos e muitas outras. 


Texto inglês:
Classification is one of the fundamental tasks in machine learning, where the
goal is to predict the category or class of a sample based on its features. This
technique is widely used in various applications such as image recognition,
medical diagnosis, spam filtering, sentiment analysis, and many others.

Texto português:
A classificação é uma das tarefas fundamentais do aprendizado de máquina, onde o objetivo é prever a categoria ou classe de uma amostra com base em suas características. Esta técnica é amplamente utilizada em várias aplicações, como reconhecimento de imagem, diagnóstico médico, filtragem de spam, análise de sentimentos e muitas outras.


Explorando outras linguagens

In [35]:
def carregar_modelo_trad(modelo, ling_origem, ling_final):
  tradutor = pipeline("translation", model=modelo, src_lang=ling_origem, tgt_lang=ling_final)
  return tradutor

In [36]:
def traduzir_texto(texto, ling_origem, ling_final):
  tradutor = carregar_modelo_trad("facebook/nllb-200-distilled-600M", ling_origem, ling_final)
  traducao = tradutor(texto, max_length=400)
  traducao_texto = traducao[0]['translation_text']
  return traducao_texto

In [37]:
texto_espanhol = """
La regresión lineal es un método estadístico utilizado para modelar la relación
entre una variable dependiente y una o más variables independientes. El objetivo
es encontrar la mejor línea recta que se ajuste a los datos, de manera que se
pueda predecir el valor de la variable dependiente a partir de las variables
independientes.
"""

In [38]:
codigos_linguagens = {
    "Acehnese (Arabic script)": "ace_Arab",
    "Acehnese (Latin script)": "ace_Latn",
    "Mesopotamian Arabic": "acm_Arab",
    "Ta’izzi-Adeni Arabic": "acq_Arab",
    "Tunisian Arabic": "aeb_Arab",
    "Afrikaans": "afr_Latn",
    "South Levantine Arabic": "ajp_Arab",
    "Akan": "aka_Latn",
    "Amharic": "amh_Ethi",
    "North Levantine Arabic": "apc_Arab",
    "Modern Standard Arabic": "arb_Arab",
    "Modern Standard Arabic (Romanized)": "arb_Latn",
    "Najdi Arabic": "ars_Arab",
    "Moroccan Arabic": "ary_Arab",
    "Egyptian Arabic": "arz_Arab",
    "Assamese": "asm_Beng",
    "Asturian": "ast_Latn",
    "Awadhi": "awa_Deva",
    "Central Aymara": "ayr_Latn",
    "South Azerbaijani": "azb_Arab",
    "North Azerbaijani": "azj_Latn",
    "Bashkir": "bak_Cyrl",
    "Bambara": "bam_Latn",
    "Balinese": "ban_Latn",
    "Belarusian": "bel_Cyrl",
    "Bemba": "bem_Latn",
    "Bengali": "ben_Beng",
    "Bhojpuri": "bho_Deva",
    "Banjar (Arabic script)": "bjn_Arab",
    "Banjar (Latin script)": "bjn_Latn",
    "Standard Tibetan": "bod_Tibt",
    "Bosnian": "bos_Latn",
    "Buginese": "bug_Latn",
    "Bulgarian": "bul_Cyrl",
    "Catalan": "cat_Latn",
    "Cebuano": "ceb_Latn",
    "Czech": "ces_Latn",
    "Chokwe": "cjk_Latn",
    "Central Kurdish": "ckb_Arab",
    "Crimean Tatar": "crh_Latn",
    "Welsh": "cym_Latn",
    "Danish": "dan_Latn",
    "German": "deu_Latn",
    "Southwestern Dinka": "dik_Latn",
    "Dyula": "dyu_Latn",
    "Dzongkha": "dzo_Tibt",
    "Greek": "ell_Grek",
    "English": "eng_Latn",
    "Esperanto": "epo_Latn",
    "Estonian": "est_Latn",
    "Basque": "eus_Latn",
    "Ewe": "ewe_Latn",
    "Faroese": "fao_Latn",
    "Fijian": "fij_Latn",
    "Finnish": "fin_Latn",
    "Fon": "fon_Latn",
    "French": "fra_Latn",
    "Friulian": "fur_Latn",
    "Nigerian Fulfulde": "fuv_Latn",
    "Scottish Gaelic": "gla_Latn",
    "Irish": "gle_Latn",
    "Galician": "glg_Latn",
    "Guarani": "grn_Latn",
    "Gujarati": "guj_Gujr",
    "Haitian Creole": "hat_Latn",
    "Hausa": "hau_Latn",
    "Hebrew": "heb_Hebr",
    "Hindi": "hin_Deva",
    "Chhattisgarhi": "hne_Deva",
    "Croatian": "hrv_Latn",
    "Hungarian": "hun_Latn",
    "Armenian": "hye_Armn",
    "Igbo": "ibo_Latn",
    "Ilocano": "ilo_Latn",
    "Indonesian": "ind_Latn",
    "Icelandic": "isl_Latn",
    "Italian": "ita_Latn",
    "Javanese": "jav_Latn",
    "Japanese": "jpn_Jpan",
    "Kabyle": "kab_Latn",
    "Jingpho": "kac_Latn",
    "Kamba": "kam_Latn",
    "Kannada": "kan_Knda",
    "Kashmiri (Arabic script)": "kas_Arab",
    "Kashmiri (Devanagari script)": "kas_Deva",
    "Georgian": "kat_Geor",
    "Central Kanuri (Arabic script)": "knc_Arab",
    "Central Kanuri (Latin script)": "knc_Latn",
    "Kazakh": "kaz_Cyrl",
    "Kabiyè": "kbp_Latn",
    "Kabuverdianu": "kea_Latn",
    "Khmer": "khm_Khmr",
    "Kikuyu": "kik_Latn",
    "Kinyarwanda": "kin_Latn",
    "Kyrgyz": "kir_Cyrl",
    "Kimbundu": "kmb_Latn",
    "Northern Kurdish": "kmr_Latn",
    "Kikongo": "kon_Latn",
    "Korean": "kor_Hang",
    "Lao": "lao_Laoo",
    "Ligurian": "lij_Latn",
    "Limburgish": "lim_Latn",
    "Lingala": "lin_Latn",
    "Lithuanian": "lit_Latn",
    "Lombard": "lmo_Latn",
    "Latgalian": "ltg_Latn",
    "Luxembourgish": "ltz_Latn",
    "Luba-Kasai": "lua_Latn",
    "Ganda": "lug_Latn",
    "Luo": "luo_Latn",
    "Mizo": "lus_Latn",
    "Standard Latvian": "lvs_Latn",
    "Magahi": "mag_Deva",
    "Maithili": "mai_Deva",
    "Malayalam": "mal_Mlym",
    "Marathi": "mar_Deva",
    "Minangkabau (Arabic script)": "min_Arab",
    "Minangkabau (Latin script)": "min_Latn",
    "Macedonian": "mkd_Cyrl",
    "Plateau Malagasy": "plt_Latn",
    "Maltese": "mlt_Latn",
    "Meitei (Bengali script)": "mni_Beng",
    "Halh Mongolian": "khk_Cyrl",
    "Mossi": "mos_Latn",
    "Maori": "mri_Latn",
    "Burmese": "mya_Mymr",
    "Dutch": "nld_Latn",
    "Norwegian Nynorsk": "nno_Latn",
    "Norwegian Bokmål": "nob_Latn",
    "Nepali": "npi_Deva",
    "Northern Sotho": "nso_Latn",
    "Nuer": "nus_Latn",
    "Nyanja": "nya_Latn",
    "Occitan": "oci_Latn",
    "West Central Oromo": "gaz_Latn",
    "Odia": "ory_Orya",
    "Pangasinan": "pag_Latn",
    "Eastern Panjabi": "pan_Guru",
    "Papiamento": "pap_Latn",
    "Western Persian": "pes_Arab",
    "Polish": "pol_Latn",
    "Portuguese": "por_Latn",
    "Dari": "prs_Arab",
    "Southern Pashto": "pbt_Arab",
    "Ayacucho Quechua": "quy_Latn",
    "Romanian": "ron_Latn",
    "Rundi": "run_Latn",
    "Russian": "rus_Cyrl",
    "Sango": "sag_Latn",
    "Sanskrit": "san_Deva",
    "Santali": "sat_Olck",
    "Sicilian": "scn_Latn",
    "Shan": "shn_Mymr",
    "Sinhala": "sin_Sinh",
    "Slovak": "slk_Latn",
    "Slovenian": "slv_Latn",
    "Samoan": "smo_Latn",
    "Shona": "sna_Latn",
    "Sindhi": "snd_Arab",
    "Somali": "som_Latn",
    "Southern Sotho": "sot_Latn",
    "Spanish": "spa_Latn",
    "Tosk Albanian": "als_Latn",
    "Sardinian": "srd_Latn",
    "Serbian": "srp_Cyrl",
    "Swati": "ssw_Latn",
    "Sundanese": "sun"
}

In [39]:
texto_esp_pt = traduzir_texto(texto_espanhol, codigos_linguagens['Spanish'], codigos_linguagens['Portuguese'])

Device set to use cpu


In [41]:
print(texto_esp_pt)

A regressão linear é um método estatístico usado para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. O objetivo é encontrar a melhor linha reta que se ajuste aos dados, para que se possa prever o valor da variável dependente a partir das variáveis independentes. 


Texto português:

A regressão linear é um método estatístico usado para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. O objetivo é encontrar a melhor linha reta que se ajuste aos dados, para que se possa prever o valor da variável dependente a partir das variáveis independentes.

Texto espanhol:

La regresión lineal es un método estadístico utilizado para modelar la relación
entre una variable dependiente y una o más variables independientes. El objetivo
es encontrar la mejor línea recta que se ajuste a los datos, de manera que se
pueda predecir el valor de la variable dependiente a partir de las variables
independientes.

In [42]:
texto_frances = """
La visualisation de données est un processus qui consiste à représenter
graphiquement des informations et des données. En utilisant des éléments visuels
tels que des graphiques, des cartes, des diagrammes et des tableaux, la
visualisation de données permet aux individus de comprendre rapidement des
tendances, des anomalies et des modèles dans les données. Elle est essentielle
dans le domaine de l'analyse de données, car elle transforme des données
complexes et volumineuses en représentations visuelles plus faciles à
interpréter.
"""

In [43]:
texto_fr_pt = traduzir_texto(texto_espanhol, codigos_linguagens['French'], codigos_linguagens['Portuguese'])

Device set to use cpu


In [44]:
print(texto_fr_pt)

A regressão linear é um método estadístico usado para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. O objetivo é encontrar a melhor linha reta que se ajuste aos dados, de modo que se possa prever o valor da variável dependente a partir das variáveis independentes. 


Unindo os modelos

In [45]:
def carregar_modelo_trad_resum(modelo_resumo, modelo_trad, ling_origem, ling_final):
  resumidor = pipeline("summarization", model=modelo_resumo)
  tradutor = pipeline("translation", model=modelo_trad, src_lang=ling_origem, tgt_lang=ling_final)
  return resumidor, tradutor

In [46]:
def resumir_traduzir_texto_eng_pt(texto):
  ling_origem = "eng_Latn"
  ling_final = "por_Latn"

  modelo_resumo = "facebook/bart-large-cnn"
  modelo_trad = "facebook/nllb-200-distilled-600M"

  resumidor_texto, tradutor_texto = carregar_modelo_trad_resum(modelo_resumo, modelo_trad, ling_origem, ling_final)

  # Resumo
  resumo = resumidor_texto(texto, max_length=200, min_length=100)
  resumo_texto = resumo[0]['summary_text']

  # Tradução
  traducao = tradutor_texto(resumo_texto, max_length=400)
  traducao_resuno_texto = traducao[0]['translation_text']

  return traducao_resuno_texto

In [48]:
texto_nlp_eng = """
Natural Language Processing (NLP) is a field of artificial intelligence that focuses on the interaction between computers and human language. It involves the development of algorithms and models that enable machines to understand, interpret, and generate human language. NLP combines concepts from computer science, linguistics, and machine learning to process and analyze large amounts of natural language data.

The ability to process and understand human language is crucial for many applications in today's digital world. NLP powers a wide range of technologies that we use daily, including:
Search Engines: Understanding and processing user queries to return relevant search results.
Voice Assistants: Enabling devices like Siri, Alexa, and Google Assistant to understand spoken commands and respond appropriately.
Translation Services: Providing accurate translations between different languages, as seen in tools like Google Translate.
Customer Support: Automating responses in chatbots and virtual assistants to handle customer inquiries efficiently.
Text Analysis: Analyzing sentiments, extracting key information, and summarizing documents for better insights.

NLP has a wide array of applications across various industries:
Healthcare: NLP is used to process and analyze medical records, extract relevant information, and assist in clinical decision-making.
Finance: Analyzing financial documents, news, and reports to provide insights and make informed decisions.
Marketing: Understanding customer sentiments and feedback to tailor marketing strategies and improve customer experience.
Legal: Automating the review of legal documents, contracts, and compliance reports to save time and reduce errors.
Education: Enhancing educational tools, grading systems, and providing personalized learning experiences.
"""

In [49]:
resultado = resumir_traduzir_texto_eng_pt(texto_nlp_eng)

Device set to use cpu
Device set to use cpu


In [50]:
print(resultado)

Natural Language Processing (NLP) é um campo de inteligência artificial que se concentra na interação entre computadores e linguagem humana. NLP combina conceitos de ciência da computação, linguística e aprendizado de máquina para processar e analisar grandes quantidades de dados de linguagem natural. Tem uma ampla gama de aplicações em várias indústrias, incluindo saúde, finanças, educação e suporte ao cliente. A capacidade de entender a linguagem humana é crucial para muitas aplicações no mundo digital de hoje, incluindo motores de busca, assistentes de voz e serviços de tradução.


Texto português:

Natural Language Processing (NLP) é um campo de inteligência artificial que se concentra na interação entre computadores e linguagem humana. NLP combina conceitos de ciência da computação, linguística e aprendizado de máquina para processar e analisar grandes quantidades de dados de linguagem natural. Tem uma ampla gama de aplicações em várias indústrias, incluindo saúde, finanças, educação e suporte ao cliente. A capacidade de entender a linguagem humana é crucial para muitas aplicações no mundo digital de hoje, incluindo motores de busca, assistentes de voz e serviços de tradução.