# NLP: resumindo textos com HuggingFace e Gradio

## 01. Conhecendo os modelos

### Aplicando o pipeline para resumo

In [1]:
from transformers import pipeline

  from .autonotebook import tqdm as notebook_tqdm
2025-05-21 14:05:27.725450: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-05-21 14:05:27.847102: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1747847127.889153  537807 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1747847127.902278  537807 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1747847128.001251  537807 computation_placer.cc:177] computation placer already r

In [2]:
resumidor_texto = pipeline('summarization')

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cpu


In [3]:
texto_exemplo = """
A inteligência artificial (IA) é uma área da ciência da computação que enfatiza
a criação de máquinas inteligentes que trabalham e reagem como seres humanos.
Algumas das atividades que os computadores com inteligência artificial são
projetados para fazer incluem: reconhecimento de fala, aprendizado, planejamento
e resolução de problemas. A pesquisa associada à inteligência artificial é
altamente técnica e especializada. Os principais problemas da inteligência
artificial incluem programação de computadores para certos traços como conhecimento,
raciocínio, solução de problemas, percepção, aprendizado, planejamento, habilidade
de manipular e mover objetos.
"""

In [4]:
resumo = resumidor_texto(texto_exemplo, max_length=120, min_length=70)

In [5]:
resumo

[{'summary_text': ' A pesquisa associada to inteligência artificial isaltamente técnica e especializada . The IAI enfatiza a criação de máquinas inteligentes that trabalham e reagem como seres humanos . Algumas das atividades que computadores com IAI sãoprojetados for fazer incluem: reconhecimento de fala, aprendizado, planejamento, resolução of problemas'}]

In [6]:
print(resumo[0]['summary_text'])

 A pesquisa associada to inteligência artificial isaltamente técnica e especializada . The IAI enfatiza a criação de máquinas inteligentes that trabalham e reagem como seres humanos . Algumas das atividades que computadores com IAI sãoprojetados for fazer incluem: reconhecimento de fala, aprendizado, planejamento, resolução of problemas


In [7]:
texto_ingles = """
Artificial intelligence (AI) is a field of computer science that emphasizes the
creation of intelligent machines that work and react like humans. Some of the
activities that computers with artificial intelligence are designed to perform
include speech recognition, learning, planning, and problem-solving. Research
associated with artificial intelligence is highly technical and specialized.
The main problems of artificial intelligence include programming computers for
certain traits such as knowledge, reasoning, problem-solving, perception,
learning, planning, and the ability to manipulate and move objects.
"""

In [8]:
resumo_ingles = resumidor_texto(texto_ingles, max_length=120, min_length=70)

Your max_length is set to 120, but your input_length is only 115. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=57)


In [9]:
resumo_ingles[0]['summary_text']

' Artificial intelligence (AI) is a field of computer science that emphasizes the creation of intelligent machines that work and react like humans . The main problems of artificial intelligence include programming computers for certain traits such as knowledge, reasoning, problem-solving, perception, learning, planning, and the ability to manipulate and move objects . Research with artificial intelligence is highly technical and specialized .'

### Para saber mais: conhecendo o Hugging Face

A biblioteca Hugging Face é uma das mais populares na áres de Processamento de Linguagem Natural (NLP). Ela oferece uma grande variedade de modelos pré-treinados que podem ser utilizados para diversas tarefas, como tradução, resumo, classificação de texto, entre outras.

#### O que são modelos pré-treinados?

Modelos pré-treinados são modelos de machine learning que foram treinados em grandes quantidades de dados antes de serem disponibilizados ao público. Isso significa que eles já aprenderam a identificar padrões e a realizar tarefas específicas de NLP, o que poupa tempo e recursos para quem deseja implementar essas soluções.

#### Principais arquiteturas de modelos

Entre as várias arquiteturas disponíveis na Hugging Face, algumas das mais utilizadas são:

- **BERT (Bidirectional Encoder Representations from Transformers)**: Focado em entender o contexto bidirecional de uma palavra em uma frase. É amplamente utilizado para tarefas de compreensão de linguagem, como classificação de texto e perguntas e respostas.
- **GPT (Generative Pre-trained Transformer)**: Projetado pa tarefas de geração de texto. O GPT é conhecido por sua capacidade de produzir texto que parece ter sido escrito por um humano, senfo usado em chatbots e aplicações de geração de conteúdo.
- **T5 (Text-To-Text Transfer Transformer)**: Trata todas as tarefas de NLP como problemas de transformação de texto. Isso inclui tradução, resumo, e até mesmo tarefas de preenchimento de lacunas.

#### Utilizando a função `pipeline()`

Uma das principais funcionalidades da biblioteca Transformers da Hugging Face é a função `pipeline()`. Essa função permite realizar a conexão a modelos pré-treinados e utilizá-los para diversas tarefas de NLP com poucas linhas de código.

Por exemplo: para realizar a tarefa de sumarização, basta importar a função `pipeline`, escolher o modelo desejado e aplicar no texto o que você deseja resumir.

Como exemplo, podemos conferir o código abaixo:

```python
from transformers import pipeline

# Criando o pipeline de sumarização
summarizer = pipeline('summarization')

# Texto de exemplo
texto = 'A Amanda está focada em aprimorar seus conhecimentos em Ciência de Dados. Como forma de expandir seus conhecimentos, ela tem o hábito de realizar leituras semanais sobre assuntos relacionados à área, seja através de blogs, artigos ou postagens técnicas. Porém, ela não tem muito tempo durante a semana para ler todo esse material por completo.'

# Resumindo o texto
resumo = summarizer(texto)
print(resumo)
```

A Hugging Face facilita o acesso e a utilização de modelos NLP, tornando possível integrar essas tecnologias em aplicações de forma rápida e eficiente. Os modelos pré-treinados oferecem uma base robusta para diversas tarefas, permitindo que desenvolvedores foquem na solução de problemas específicos sem a necessidade de treinar modelos do zero. Com a função `pipeline()`, é possível experimentar diferentes modelos e escolher aquele que melhor se adequa às suas necessidades.

### Para saber mais: explorando os Tokens em NLP

Durante este curso, será comum ouvirmos a palavra “Tokens”, mas o que isso significa exatamente?

Tokens são uma parte fundamental no processamento de linguagem natural (NLP). Eles são as unidades básicas em que os textos são divididos para análise. Vamos explicar com mais detalhes aqui embaixo.

#### O que são Tokens?

Tokens são segmentos de textos, podendo ser palavras, caracteres, ou subpalavras, dependendo do método de tokenização utilizado. A tokenização é o processo de dividir um texto em tokens. Por exemplo, na frase: “Eu adoro aprender sobre Data Science!”, a tokenização por palavras produziria os tokens: [“Eu”, “adoro”, “aprender”, “sobre”, “Data”, “Science”, “!”].

#### Tipos de tokenização

1. Tokenização por palavras
   - Descrição: a abordagem mais comum, onde o texto é divido em palavras.
   - Exemplo: “Estou estudando aprendizado de máquina” seria dividido em [“Estou”, “estudando”, “aprendizado”, “de”, “máquina”].
2. Tokenização por caracteres
   - Descrição: cada caractere é um token, sendo útil para linguagens com caracteres complexos.
   - Exemplo: “Eu” seria dividido em [“E”, “u”].
3. Tokenização por subpalavras
   - Descrição: técnica usada por modelos como o BERT e GPT, onde palavras são divididas em subpartes. É útil para lidar com palavras raras ou desconhecidas.
   - Exemplo: “aprendizado” seria dividido em [“aprendi”, “zado”].

#### Importância dos tokens

- Pré-processamento: tokens são usados para limpar e preparar textos para análise.
- Modelagem: modelos de NLP trabalham diretamente com tokens.
- Análise Sintática: tokens ajudam na análise gramatical e na extração de significado de frases.

Portanto, o ponto principal é compreender que os Tokens são a **base** sobre a qual construímos nossos modelos de NLP. Entender como eles funcionam e como são utilizados pode melhorar a eficácia dos seus projetos.

### Aplicando o pipeline para tradução

In [10]:
tradutor_texto = pipeline('translation_en_to_fr')

No model was supplied, defaulted to google-t5/t5-base and revision a9723ea (https://huggingface.co/google-t5/t5-base).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cpu


In [11]:
texto_ingles = """
Artificial intelligence (AI) is a field of computer science that emphasizes the
creation of intelligent machines that work and react like humans. Some of the
activities that computers with artificial intelligence are designed to perform
include speech recognition, learning, planning, and problem-solving.
"""

In [12]:
traducao = tradutor_texto(texto_ingles, max_length=400, min_length=100)

Both `max_new_tokens` (=256) and `max_length`(=400) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


In [13]:
traducao

[{'translation_text': "L'intelligence artificielle (AI) est un domaine d'informatique qui met l'accent sur la création de machines intelligentes qui fonctionnent et réagissent comme les humains. Certaines des activités que les ordinateurs dotés d'une intelligence artificielle sont conçus pour effectuer sont la reconnaissance de la parole, l'apprentissage, la planification et la résolution de problèmes."}]

In [14]:
print(traducao[0]['translation_text'])

L'intelligence artificielle (AI) est un domaine d'informatique qui met l'accent sur la création de machines intelligentes qui fonctionnent et réagissent comme les humains. Certaines des activités que les ordinateurs dotés d'une intelligence artificielle sont conçus pour effectuer sont la reconnaissance de la parole, l'apprentissage, la planification et la résolution de problèmes.


### Para saber mais: modelos de resumo e de tradução da Hugging Face

A biblioteca Hugging Face oferece uma variedade de modelos pré-treinados para diversas tarefas, incluindo resumo e tradução de textos. Esses modelos são projetados para entender e processar a linguagem humana de maneira eficiente, facilitando a automação de tarefas que antes exigiam intervenção manual intensiva.

#### Modelos de Resumo

Os modelos de resumo são projetados para reduzir textos longos em versões mais curtas, mantendo as informações mais relevantes. Entre os modelos mais utilizados parar essa tarefa estão:

- **BART (Bidirectional and Auto-Regressive Transformers)**: Este modelo combina as características de modelos bidirecionais, como o BERT, com a capacidade de geração de texto de modelos auto-regressivos, como o GPT. BART é eficaz para tarefas de resumo porque pode considerar o contexto completo do texto enquanto gera resumos coerentes.
- **T5 (Text-To-Text Transfer Transformer)**: O T5 trata todas as tarefas de NLP como problemas de transformação de texto. Para a tarefa de sumarização, ele é treinado para transformar um texto longo em uma versão resumida, mantendo o significado e a essência do conteúdo original.

Exemplo de uso do modelo BART para sumarização:

```python
from transformers import pipeline

# Criando o pipeline de sumarização com BART
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# Texto de exemplo
texto = "Amanda está focada em aprimorar seus conhecimentos em Ciência de Dados. Ela realiza leituras semanais sobre assuntos relacionados à área, seja através de blogs, artigos ou postagens técnicas. Porém, ela não tem muito tempo durante a semana para ler todo esse material por completo."

# Resumindo o texto
resumo = summarizer(texto)
print(resumo)
```

#### Modelos de Tradução

Os modelos de tradução são usados para converter texto de um idioma para outro. A Hugging Face disponibiliza modelos treinados para diversas combinações de idiomas, incluindo traduções entre inglês, francês, romeno e alemão. Alguns dos modelos mais comuns são os seguintes:

- **mBART (Multilingual BART)**: Este é um modelo variante do BART que foi treinado em dados de múltiplos idiomas. Ele é capaz de realizar traduções e outras tarefas de NLP em vários idiomas, tornando-o muito útil para aplicações multilíngues.
- **MarianMT**: Baseado na arquitetura Transformer, MarianMT é um conjunto de modelos de tradução desenvolvidos pela equipe de pesquisa da Microsoft. Estes modelos são altamente eficientes para tradução automática entre muitos pares de idiomas.

Exemplo de uso do modelo MarianMT para tradução:

```python
from transformers import pipeline

# Criando o pipeline de tradução com MarianMT
translator = pipeline("translation_fr_to_en", model="Helsinki-NLP/opus-mt-fr-en")

# Texto de exemplo em francês
texto_frances = "Amanda se concentre sur l'amélioration de ses compétences en science des données. Elle lit chaque semaine des articles sur le sujet, que ce soit des blogs, des articles ou des publications techniques. Cependant, elle n'a pas beaucoup de temps pendant la semaine pour lire tout ce matériel en entier."

# Traduzindo o texto para inglês
traducao = translator(texto_frances)
print(traducao)
```

A Hugging Face simplifica a utilização de modelos avançados de NLP para tarefas de resumo e tradução, tornando essas tecnologias acessíveis a desenvolvedores e pesquisadores. Modelos como BART, T5 e MarianMT oferecem soluções robustas para a condensação e tradução de textos, permitindo que tarefas complexas sejam realizadas de forma eficiente e com alta qualidade. Utilizando a função `pipeline()`, é possível integrar esses modelos em aplicações com facilidade, proporcionando melhorias significativas em produtividae e precisão.

## 02. Resumo de textos

### Escolhendo o modelo

In [15]:
modelo_resumo = 'facebook/bart-large-cnn'

In [16]:
resumidor_eng = pipeline('summarization', model=modelo_resumo)

Device set to use cpu


In [17]:
texto_classificacao = """
Classification in machine learning involves assigning labels to input data based 
on its features and is fundamental in applications like spam detection, medical 
diagnosis, and image categorization. The process includes data collection and 
preparation, feature selection, choosing an algorithm (such as logistic regression, 
decision trees, SVM, k-NN, or neural networks), trainig, evaluation, hyperparameter 
tuning, and deployment. Despite its power, classification faces challenges like imbalanced 
datasets, ensuring model generalization, and handling noisy data. Successful classification 
models require careful handling of these steps and challenges to effectively solve real-world problems.
"""

In [18]:
resumo = resumidor_eng(texto_classificacao, max_length=70, min_length=30)

In [19]:
resumo

[{'summary_text': 'Classification in machine learning involves assigning labels to input data. It is fundamental in applications like spam detection, medical diagnosis, and image categorization. Despite its power, classification faces challenges like imbalanced datasets.'}]

In [20]:
print(resumo[0]['summary_text'])

Classification in machine learning involves assigning labels to input data. It is fundamental in applications like spam detection, medical diagnosis, and image categorization. Despite its power, classification faces challenges like imbalanced datasets.


### Resumindo textos

In [21]:
texto_powerbi_en = """
Power BI is a data analysis and reporting tool developed by Microsoft. Its main 
function is to transform raw data into interactive and understandable visual 
information. Power BI is widely used by companies of all sizes to improve 
decision-making and business strategies.

One of the main attractions of Power BI is its ability to integrate with a 
variety of data sources, such as SQL databases, Excel files, cloud services like 
Azure and Google Analytics, among others. This allows users to centralize all 
their data on a single platform, facilitating analysis and information sharing.

Power BI is composed of three main components: Power BI Desktop, Power BI 
Service, and Power BI Mobile. Power BI Desktop is a desktop application that 
allows users to create detailed reports and dashboards. Power BI Service is an 
online platform where reports and dashboards can be published and shared with 
other members of the organization. Finally, Power BI Mobile allows users to 
access their reports and dashboards from anywhere using mobile devices.

One of the most powerful features of Power BI is the ability to create 
interactive visualizations. These visualizations allow users to explore data in 
various ways, identifying patterns and trends that might go unnoticed in 
traditional data tables. Additionally, Power BI offers a vast library of 
customizable visualizations, including bar charts, line charts, geographic maps, 
scatter plots, and many others.
"""

In [22]:
def carregar_modelo(nome_modelo: str):
    return pipeline('summarization', model=nome_modelo)

In [23]:
def resumir_texto(texto: str):
    resumidor_texto = carregar_modelo('facebook/bart-large-cnn')
    resumo = resumidor_texto(texto, max_length=200, min_length=100)
    return resumo[0]['summary_text']

In [24]:
resumir_texto(texto_powerbi_en)

Device set to use cpu


'Power BI is a data analysis and reporting tool developed by Microsoft. Its main function is to transform raw data into interactive and understandable visual information. Power BI is composed of three main components: Power BI Desktop, Power BI Service, and Power BI Mobile. It is widely used by companies of all sizes to improve decision-making and business strategies. It can integrate with a variety of data sources, such as SQL databases, Excel files, cloud services like Google Analytics, among others.'

#### Resumo final:

Power BI is a data analysis and reporting tool developed by Microsoft.

Its main function is to transform raw data into interactive and understandable visual information.

Power BI is composed of three main components: Power BI Desktop, Power BI Service, and Power BI Mobile.

It is widely used by companies of all sizes to improve decision-making and business strategies.

It can integrate with a variety of data sources, such as SQL databases, Excel files, cloud services like Google Analytics, among others.

## 03. Tradução de textos

### Escolhendo o modelo

In [25]:
modelo_traducao = 'facebook/nllb-200-distilled-600M'

In [26]:
tradutor = pipeline('translation', model=modelo_traducao, src_lang='eng_Latn', tgt_lang='por_Latn')

Device set to use cpu


In [27]:
texto_ingles_pt = """
Classification is one of the fundamental tasks in machine learning, where the 
goal is to predict the category or class of a sample based on its features. This 
technique is widely used in various applications such as image recognition, 
medical diagnosis, spam filtering, sentiment analysis, and many others.
"""

In [28]:
traducao_texto = tradutor(texto_ingles_pt, max_length=200)

In [29]:
traducao_texto

[{'translation_text': 'A classificação é uma das tarefas fundamentais do aprendizado de máquina, onde o objetivo é prever a categoria ou classe de uma amostra com base em suas características. Esta técnica é amplamente utilizada em várias aplicações, como reconhecimento de imagem, diagnóstico médico, filtragem de spam, análise de sentimentos e muitas outras. '}]

In [30]:
print(traducao_texto[0]['translation_text'])

A classificação é uma das tarefas fundamentais do aprendizado de máquina, onde o objetivo é prever a categoria ou classe de uma amostra com base em suas características. Esta técnica é amplamente utilizada em várias aplicações, como reconhecimento de imagem, diagnóstico médico, filtragem de spam, análise de sentimentos e muitas outras. 


### Explorando outras linguagens

In [31]:
def carregar_modelo_trad(nome_modelo: str, ling_origem: str, ling_final: str):
    return pipeline('translation', model=nome_modelo, src_lang=ling_origem, tgt_lang=ling_final)

In [40]:
def traduzir_texto(texto: str, ling_origem: str, ling_final: str) -> str:
    tradutor_texto = carregar_modelo_trad('facebook/nllb-200-distilled-600M', ling_origem, ling_final)
    traducao = tradutor_texto(texto, max_length=400)
    return traducao[0]['translation_text']

In [33]:
texto_espanhol = """
La regresión lineal es un método estadístico utilizado para modelar la relación 
entre una variable dependiente y una o más variables independientes. El objetivo 
es encontrar la mejor línea recta que se ajuste a los datos, de manera que se 
pueda predecir el valor de la variable dependiente a partir de las variables 
independientes.
"""

In [34]:
codigos_linguagens = {
    'Acehnese (Arabic script)': 'ace_Arab',
    'Acehnese (Latin script)': 'ace_Latn',
    'Mesopotamian Arabic': 'acm_Arab',
    'Ta’izzi-Adeni Arabic': 'acq_Arab',
    'Tunisian Arabic': 'aeb_Arab',
    'Afrikaans': 'afr_Latn',
    'South Levantine Arabic': 'ajp_Arab',
    'Akan': 'aka_Latn',
    'Amharic': 'amh_Ethi',
    'North Levantine Arabic': 'apc_Arab',
    'Modern Standard Arabic': 'arb_Arab',
    'Modern Standard Arabic (Romanized)': 'arb_Latn',
    'Najdi Arabic': 'ars_Arab',
    'Moroccan Arabic': 'ary_Arab',
    'Egyptian Arabic': 'arz_Arab',
    'Assamese': 'asm_Beng',
    'Asturian': 'ast_Latn',
    'Awadhi': 'awa_Deva',
    'Central Aymara': 'ayr_Latn',
    'South Azerbaijani': 'azb_Arab',
    'North Azerbaijani': 'azj_Latn',
    'Bashkir': 'bak_Cyrl',
    'Bambara': 'bam_Latn',
    'Balinese': 'ban_Latn',
    'Belarusian': 'bel_Cyrl',
    'Bemba': 'bem_Latn',
    'Bengali': 'ben_Beng',
    'Bhojpuri': 'bho_Deva',
    'Banjar (Arabic script)': 'bjn_Arab',
    'Banjar (Latin script)': 'bjn_Latn',
    'Standard Tibetan': 'bod_Tibt',
    'Bosnian': 'bos_Latn',
    'Buginese': 'bug_Latn',
    'Bulgarian': 'bul_Cyrl',
    'Catalan': 'cat_Latn',
    'Cebuano': 'ceb_Latn',
    'Czech': 'ces_Latn',
    'Chokwe': 'cjk_Latn',
    'Central Kurdish': 'ckb_Arab',
    'Crimean Tatar': 'crh_Latn',
    'Welsh': 'cym_Latn',
    'Danish': 'dan_Latn',
    'German': 'deu_Latn',
    'Southwestern Dinka': 'dik_Latn',
    'Dyula': 'dyu_Latn',
    'Dzongkha': 'dzo_Tibt',
    'Greek': 'ell_Grek',
    'English': 'eng_Latn',
    'Esperanto': 'epo_Latn',
    'Estonian': 'est_Latn',
    'Basque': 'eus_Latn',
    'Ewe': 'ewe_Latn',
    'Faroese': 'fao_Latn',
    'Fijian': 'fij_Latn',
    'Finnish': 'fin_Latn',
    'Fon': 'fon_Latn',
    'French': 'fra_Latn',
    'Friulian': 'fur_Latn',
    'Nigerian Fulfulde': 'fuv_Latn',
    'Scottish Gaelic': 'gla_Latn',
    'Irish': 'gle_Latn',
    'Galician': 'glg_Latn',
    'Guarani': 'grn_Latn',
    'Gujarati': 'guj_Gujr',
    'Haitian Creole': 'hat_Latn',
    'Hausa': 'hau_Latn',
    'Hebrew': 'heb_Hebr',
    'Hindi': 'hin_Deva',
    'Chhattisgarhi': 'hne_Deva',
    'Croatian': 'hrv_Latn',
    'Hungarian': 'hun_Latn',
    'Armenian': 'hye_Armn',
    'Igbo': 'ibo_Latn',
    'Ilocano': 'ilo_Latn',
    'Indonesian': 'ind_Latn',
    'Icelandic': 'isl_Latn',
    'Italian': 'ita_Latn',
    'Javanese': 'jav_Latn',
    'Japanese': 'jpn_Jpan',
    'Kabyle': 'kab_Latn',
    'Jingpho': 'kac_Latn',
    'Kamba': 'kam_Latn',
    'Kannada': 'kan_Knda',
    'Kashmiri (Arabic script)': 'kas_Arab',
    'Kashmiri (Devanagari script)': 'kas_Deva',
    'Georgian': 'kat_Geor',
    'Central Kanuri (Arabic script)': 'knc_Arab',
    'Central Kanuri (Latin script)': 'knc_Latn',
    'Kazakh': 'kaz_Cyrl',
    'Kabiyè': 'kbp_Latn',
    'Kabuverdianu': 'kea_Latn',
    'Khmer': 'khm_Khmr',
    'Kikuyu': 'kik_Latn',
    'Kinyarwanda': 'kin_Latn',
    'Kyrgyz': 'kir_Cyrl',
    'Kimbundu': 'kmb_Latn',
    'Northern Kurdish': 'kmr_Latn',
    'Kikongo': 'kon_Latn',
    'Korean': 'kor_Hang',
    'Lao': 'lao_Laoo',
    'Ligurian': 'lij_Latn',
    'Limburgish': 'lim_Latn',
    'Lingala': 'lin_Latn',
    'Lithuanian': 'lit_Latn',
    'Lombard': 'lmo_Latn',
    'Latgalian': 'ltg_Latn',
    'Luxembourgish': 'ltz_Latn',
    'Luba-Kasai': 'lua_Latn',
    'Ganda': 'lug_Latn',
    'Luo': 'luo_Latn',
    'Mizo': 'lus_Latn',
    'Standard Latvian': 'lvs_Latn',
    'Magahi': 'mag_Deva',
    'Maithili': 'mai_Deva',
    'Malayalam': 'mal_Mlym',
    'Marathi': 'mar_Deva',
    'Minangkabau (Arabic script)': 'min_Arab',
    'Minangkabau (Latin script)': 'min_Latn',
    'Macedonian': 'mkd_Cyrl',
    'Plateau Malagasy': 'plt_Latn',
    'Maltese': 'mlt_Latn',
    'Meitei (Bengali script)': 'mni_Beng',
    'Halh Mongolian': 'khk_Cyrl',
    'Mossi': 'mos_Latn',
    'Maori': 'mri_Latn',
    'Burmese': 'mya_Mymr',
    'Dutch': 'nld_Latn',
    'Norwegian Nynorsk': 'nno_Latn',
    'Norwegian Bokmål': 'nob_Latn',
    'Nepali': 'npi_Deva',
    'Northern Sotho': 'nso_Latn',
    'Nuer': 'nus_Latn',
    'Nyanja': 'nya_Latn',
    'Occitan': 'oci_Latn',
    'West Central Oromo': 'gaz_Latn',
    'Odia': 'ory_Orya',
    'Pangasinan': 'pag_Latn',
    'Eastern Panjabi': 'pan_Guru',
    'Papiamento': 'pap_Latn',
    'Western Persian': 'pes_Arab',
    'Polish': 'pol_Latn',
    'Portuguese': 'por_Latn',
    'Dari': 'prs_Arab',
    'Southern Pashto': 'pbt_Arab',
    'Ayacucho Quechua': 'quy_Latn',
    'Romanian': 'ron_Latn',
    'Rundi': 'run_Latn',
    'Russian': 'rus_Cyrl',
    'Sango': 'sag_Latn',
    'Sanskrit': 'san_Deva',
    'Santali': 'sat_Olck',
    'Sicilian': 'scn_Latn',
    'Shan': 'shn_Mymr',
    'Sinhala': 'sin_Sinh',
    'Slovak': 'slk_Latn',
    'Slovenian': 'slv_Latn',
    'Samoan': 'smo_Latn',
    'Shona': 'sna_Latn',
    'Sindhi': 'snd_Arab',
    'Somali': 'som_Latn',
    'Southern Sotho': 'sot_Latn',
    'Spanish': 'spa_Latn',
    'Tosk Albanian': 'als_Latn',
    'Sardinian': 'srd_Latn',
    'Serbian': 'srp_Cyrl',
    'Swati': 'ssw_Latn',
    'Sundanese': 'sun'
}

In [38]:
texto_esp_pt = traduzir_texto(texto_espanhol, codigos_linguagens['Spanish'], codigos_linguagens['Portuguese'])

Device set to use cpu


In [39]:
print(texto_esp_pt)

A regressão linear é um método estatístico usado para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. O objetivo é encontrar a melhor linha reta que se ajuste aos dados, para que se possa prever o valor da variável dependente a partir das variáveis independentes. 


In [41]:
texto_frances = """
La visualisation de données est un processus qui consiste à représenter 
graphiquement des informations et des données. En utilisant des éléments visuels 
tels que des graphiques, des cartes, des diagrammes et des tableaux, la 
visualisation de données permet aux individus de comprendre rapidement des 
tendances, des anomalies et des modèles dans les données. Elle est essentielle 
dans le domaine de l'analyse de données, car elle transforme des données 
complexes et volumineuses en représentations visuelles plus faciles à 
interpréter.
"""

In [42]:
texto_fr_pt = traduzir_texto(texto_frances, codigos_linguagens['French'], codigos_linguagens['Portuguese'])

Device set to use cpu


In [43]:
print(texto_fr_pt)

A visualização de dados é um processo que consiste em representar gráficamente informações e dados. Usando elementos visuais como gráficos, mapas, diagramas e tabelas, a visualização de dados permite que os indivíduos compreendam rapidamente tendências, anomalias e padrões nos dados. É essencial no campo da análise de dados, pois transforma dados complexos e volumosos em representações visuais mais fáceis de interpretar. 


### Unindo os modelos

In [45]:
def carregar_modelos_trad_resumo(modelo_resumo, modelo_trad, ling_origem, ling_final):
    resumidor = pipeline('summarization', model=modelo_resumo)
    tradutor = pipeline('translation', model=modelo_trad, src_lang=ling_origem, tgt_lang=ling_final)
    return resumidor, tradutor

In [46]:
def resumir_traduzir_texto_en_pt(texto: str):
    ling_origem = 'eng_Latn'
    ling_final = 'por_Latn'

    modelo_resumo = 'facebook/bart-large-cnn'
    modelo_trad = 'facebook/nllb-200-distilled-600M'

    resumidor, tradutor = carregar_modelos_trad_resumo(modelo_resumo, modelo_trad, ling_origem, ling_final)

    # Resumo
    resumo = resumidor(texto, max_length=200, min_length=100)
    resumo_texto = resumo[0]['summary_text']

    # Tradução
    traducao = tradutor(resumo_texto, max_length=400)
    return traducao[0]['translation_text']

In [47]:
texto_nlp_eng = """
Natural Language Processing (NLP) is a field of artificial intelligence that 
focuses on the interaction between computers and human language. It involves 
the development of algorithms and models that enable machines to understand, 
interpret, and generate human language. NLP combines concepts from computer science, 
linguistics, and machine learning to process and analyze large amounts of natural 
language data.

The ability to process and understand human language is crucial for many applications 
in today's digital world. NLP powers a wide range of technologies that we use daily, including:
Search Engines: Understanding and processing user queries to return relevant search results.
Voice Assistants: Enabling devices like Siri, Alexa, and Google Assistant to understand spoken 
commands and respond appropriately.
Translation Services: Providing accurate translations between different languages, as seen in 
tools like Google Translate.
Customer Support: Automating responses in chatbots and virtual assistants to handle customer 
inquiries efficiently.
Text Analysis: Analyzing sentiments, extracting key information, and summarizing documents for 
better insights.

NLP has a wide array of applications across various industries:
Healthcare: NLP is used to process and analyze medical records, extract relevant information, 
and assist in clinical decision-making.
Finance: Analyzing financial documents, news, and reports to provide insights and make informed decisions.
Marketing: Understanding customer sentiments and feedback to tailor marketing strategies and improve 
customer experience.
Legal: Automating the review of legal documents, contracts, and compliance reports to save time and 
reduce errors.
Education: Enhancing educational tools, grading systems, and providing personalized learning experiences.
"""

In [48]:
resultado = resumir_traduzir_texto_en_pt(texto_nlp_eng)

Device set to use cpu
Device set to use cpu


In [49]:
print(resultado)

Natural Language Processing (NLP) é um campo de inteligência artificial que se concentra na interação entre computadores e linguagem humana. NLP combina conceitos de ciência da computação, aprendizado de máquina e linguística para processar e analisar grandes quantidades de dados de linguagem natural. Ele alimenta uma ampla gama de tecnologias que usamos diariamente, incluindo Siri, Alexa e Google Translate. NLP tem uma ampla gama de aplicações em várias indústrias, incluindo saúde, finanças, marketing, educação, suporte ao cliente e jurídico.


## 04. Construindo a aplicação

### Conhecendo o Gradio

In [51]:
import gradio as gr

In [52]:
tradutor = pipeline('translation', model='facebook/nllb-200-distilled-600M', src_lang='en_Latn', tgt_lang='por_Latn')

Device set to use cpu


In [53]:
def traducao_eng_por(texto: str):
    texto_traduzido = tradutor(texto, max_length=400)
    return texto_traduzido[0]['translation_text']

In [55]:
app = gr.Interface(
    fn=traducao_eng_por,
    inputs=gr.Textbox(lines=5, label='Texto original'),
    outputs=gr.Textbox(lines=5, label='Texto traduzido'),
    title='Tradutor de texto',
    description='Envie o texto em inglês para traduzir para português'
)
app.launch()

* Running on local URL:  http://127.0.0.1:7860
* To create a public link, set `share=True` in `launch()`.




In [63]:
def traduzir_resumir_textos(texto: str, ling_origem: str, ling_final: str) -> str:
    nome_modelo_traducao = 'facebook/nllb-200-distilled-600M'
    nome_modelo_resumo = 'facebook/bart-large-cnn'

    idioma_origem = codigos_linguagens[ling_origem]
    idioma_final = codigos_linguagens[ling_final]

    resumidor = pipeline('summarization', model=nome_modelo_resumo)

    if idioma_origem == 'eng_Latn':
        resumo = resumidor(texto, max_length=200, min_length=100)[0]['translation_text']
    else:
        tradutor = pipeline('translation', model=nome_modelo_traducao, src_lang=idioma_origem, tgt_lang='eng_Latn')
        texto_traduzido = tradutor(texto, max_length=512)[0]['translation_text']
        resumo = resumidor(texto_traduzido, max_length=200, min_length=100)[0]['summary_text']

    tradutor = pipeline('translation', model=nome_modelo_traducao, src_lang='eng_Latn', tgt_lang=idioma_final)
    return tradutor(texto, max_length=512)[0]['translation_text']

### Construindo a aplicação

In [60]:
cod_idiomas = list(codigos_linguagens.keys())

In [61]:
entradas = [
    gr.Textbox(lines=5, label='Insira o texto'),
    gr.Dropdown(cod_idiomas, value='English', label='Texto original'),
    gr.Dropdown(cod_idiomas, value='Portuguese', label='Texto final')
]

In [62]:
saidas = gr.Textbox(lines=5, label='Texto final')

In [64]:
titulo = 'Tradução de Resumo'
descr = 'Esta aplicação resume e traduz o texto inserido. Modelo de tradução: facebook/nllb-200-distilled-600M. Modelo de sumarização: facebook/bart-large-cnn.'

In [65]:
aplicacao = gr.Interface(
    fn=traduzir_resumir_textos,
    inputs=entradas,
    outputs=saidas,
    title=titulo,
    description=descr
)

In [68]:
# aplicacao.launch()

## 05. Estilizando o Gradio

In [72]:
with gr.Blocks() as app:
    gr.Markdown('# Tradução e Resumo')
    gr.Markdown(descr)
    with gr.Row():
        with gr.Column():
            texto = gr.Textbox(lines=5, label='Insira o texto')
            origem = gr.Dropdown(cod_idiomas, value='English', label='Texto original')
            destino = gr.Dropdown(cod_idiomas, value='Portuguese', label='Texto final')
        with gr.Column():
            resumo = gr.Textbox(lines=5, label='Texto final')
    botao = gr.Button('Gerar resumo')
    botao.click(fn=traduzir_resumir_textos, inputs=[texto, origem, destino], outputs=resumo)
# app.launch()

* Running on local URL:  http://127.0.0.1:7861
* To create a public link, set `share=True` in `launch()`.




### Aplicando temas

In [73]:
# gr.themes.builder()

  chatbot = gr.Chatbot([("Hello", "Hi")], label="Chatbot")


* Running on local URL:  http://127.0.0.1:7862
* To create a public link, set `share=True` in `launch()`.




## Para ir mais a fundo

[Gradio Documentation](https://gradio.app/docs/)

[Gradio GitHub Repository](https://github.com/gradio-app/gradio)

[HuggingFace - NLP Course](https://huggingface.co/course/chapter1)