# Azure AI Foundry

<center><img src="../../images/Azure-AI-Foundry_1600x900.jpg" alt="Azure AI Foundry" width="600">

## Laboratório 2

Neste laboratório é explorar os serviços de AI presentes no Azure Foundry, este laboratório vai cobrir os seguintes serviços:
- Speech
- Language + Translator
- Vision + Document 
- Content Safety

Entendendo estes serviços podemos adicionar mais habilidades à nossas aplicações.

### Exercício 1 - Speech

O serviço Speech fornece recursos de conversão de fala para texto e texto para fala com um recurso Speech. Você pode transcrever fala para texto com alta precisão, produzir vozes naturais de texto para fala, traduzir áudio falado e usar reconhecimento de locutor durante conversas. Crie vozes personalizadas, adicione palavras específicas ao seu vocabulário base ou construa seus próprios modelos. Execute o Speech em qualquer lugar, na nuvem ou na borda em contêineres. É fácil habilitar fala em suas aplicações, ferramentas e dispositivos com a CLI do Speech, SDK do Speech e APIs REST.

Cenários comunis para uso do speech:

**Geração de legenda:** Aprenda como sincronizar legendas com seu áudio de entrada, aplicar filtros de palavrões, obter resultados parciais, aplicar personalizações e identificar idiomas falados para cenários multilíngues.

**Criação de Conteúdo de Áudio:** Você pode usar vozes neurais para tornar as interações com chatbots e assistentes de voz mais naturais e envolventes, converter textos digitais como e-books em audiolivros e aprimorar sistemas de navegação automotiva.

**Central de Atendimento:** Transcreva chamadas em tempo real ou processe um lote de chamadas, remova informações de identificação pessoal e extraia insights como análise de sentimento para auxiliar no seu caso de uso de central de atendimento.

**Aprendizado de Idiomas:** Forneça feedback de avaliação de pronúncia para estudantes de idiomas, ofereça suporte à transcrição em tempo real para conversas de aprendizado remoto e leia materiais didáticos em voz alta usando vozes neurais.

**Assistentes de Voz:** Crie interfaces conversacionais naturais e semelhantes às humanas para suas aplicações e experiências. O recurso de assistente de voz oferece interação rápida e confiável entre um dispositivo e uma implementação de assistente.

Para realizar este exercício verifique se no seu arquivo `.env` possui as seguintes variaveis preenchidas:
- SPEECH_ENDPOINT 
- SPEECH_KEY

Após verificar vamos iniciar carregando as bibliotecas necessárias, iniciando o cliente e realizando uma chamada para converter audio em texto:

In [1]:
import os
from dotenv import load_dotenv
import azure.cognitiveservices.speech as speechsdk

load_dotenv()

True

In [5]:
import os
import azure.cognitiveservices.speech as speechsdk

# Configurar o cliente Speech
speech_key = os.getenv('SPEECH_KEY')
speech_endpoint = os.getenv('SPEECH_ENDPOINT')
speech_region = os.getenv('SPEECH_REGION')

# Configurar o Speech SDK
speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=speech_region)
speech_config.speech_recognition_language = "pt-BR"

In [6]:
audio_config = speechsdk.audio.AudioConfig(filename="../../samples/audio001.mp3")

In [14]:
speech_recognizer = None

# Criar o SpeechRecognizer usando endpoint (solução para SPXERR_INVALID_HEADER)
speech_config_endpoint = speechsdk.SpeechConfig(endpoint=speech_endpoint, subscription=speech_key)
speech_config_endpoint.speech_recognition_language = "pt-BR"

speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config_endpoint, audio_config=audio_config)

print("Iniciando transcrição do áudio...")

result = speech_recognizer.recognize_once()

Iniciando transcrição do áudio...


In [15]:
if result.reason == speechsdk.ResultReason.RecognizedSpeech:
    print(f"Transcrição: {result.text}")
elif result.reason == speechsdk.ResultReason.NoMatch:
    print("Nenhuma fala foi detectada no áudio.")
elif result.reason == speechsdk.ResultReason.Canceled:
    cancellation_details = result.cancellation_details
    print(f"Reconhecimento cancelado: {cancellation_details.reason}")
    if cancellation_details.reason == speechsdk.CancellationReason.Error:
        print(f"Erro: {cancellation_details.error_details}")

Nenhuma fala foi detectada no áudio.


In [17]:
result.text

''

### Exercício 2 - Language + Translator

Integre linguagem natural em aplicativos, bots e dispositivos IoT. Por exemplo, este serviço pode remover dados sensíveis, segmentar reuniões longas em capítulos, analisar registros de saúde e orquestrar bots conversacionais com suas intenções personalizadas usando respostas factuais.

Este serviço de Linguagem unifica os seguintes serviços do Azure AI anteriormente disponíveis: Text Analytics, QnA Maker e LUIS.

O Azure AI Foundry permite que você use a maioria dos seguintes recursos de serviço sem precisar escrever código.

**Reconhecimento de Entidade Nomeada (NER)** - O reconhecimento de entidade nomeada identifica diferentes entradas no texto e as categoriza em tipos predefinidos.

**Detecção de informações pessoais e de saúde** - A detecção de PII identifica entidades em texto e conversas (chat ou transcrições) que estão associadas a indivíduos.

**Detecção de idioma** - A detecção de idioma avalia o texto e detecta uma ampla gama de idiomas e dialetos variantes.

**Análise de sentimento e mineração de opinião** - A análise de sentimento e mineração de opinião são recursos pré-configurados que ajudam você a entender a percepção pública da sua marca ou tópico. Esses recursos analisam o texto para identificar sentimentos positivos ou negativos e podem vinculá-los a elementos específicos dentro do texto.

**Sumarização** - A sumarização condensa informações para texto e conversas (chat e transcrições). A sumarização de texto gera um resumo, suportando duas abordagens: A sumarização extrativa cria um resumo selecionando frases-chave do documento e preservando suas posições originais. Em contraste, a sumarização abstrativa gera um resumo produzindo sentenças ou frases novas, concisas e coerentes que não são copiadas diretamente do documento original. A sumarização de conversa recapitula e segmenta reuniões longas em capítulos com marcação de tempo. A sumarização de call center resume problemas do cliente e suas resoluções.

**Extração de frases-chave** - A extração de frases-chave é um recurso pré-configurado que avalia e retorna os principais conceitos em texto não estruturado, retornando-os como uma lista.

**Vinculação de entidades** - A vinculação de entidades é um recurso pré-configurado que desambigua a identidade de entidades (palavras ou frases) encontradas em texto não estruturado e retorna links para a Wikipedia.

**Análise de texto para saúde** - A análise de texto para saúde extrai e rotula informações relevantes de saúde de texto não estruturado.

**Classificação de texto personalizada** - A classificação de texto personalizada permite que você construa modelos de IA personalizados para classificar documentos de texto não estruturado em classes personalizadas que você define.

**Reconhecimento de Entidade Nomeada Personalizada (NER Personalizado)** - O NER personalizado permite que você construa modelos de IA personalizados para extrair categorias de entidades personalizadas (rótulos para palavras ou frases), usando texto não estruturado que você fornece.

**Compreensão de linguagem conversacional** - A compreensão de linguagem conversacional (CLU) permite que os usuários construam modelos personalizados de compreensão de linguagem natural para prever a intenção geral de uma declaração recebida e extrair informações importantes dela.

**Fluxo de trabalho de orquestração** - O fluxo de trabalho de orquestração é um recurso personalizado que permite conectar aplicações de Compreensão de Linguagem Conversacional (CLU), resposta a perguntas e LUIS.

**Resposta a perguntas** - A resposta a perguntas é um recurso personalizado que identifica a resposta mais adequada para entradas do usuário. Este recurso é tipicamente utilizado para desenvolver aplicações cliente conversacionais, incluindo plataformas de mídia social, chat bots e aplicações desktop habilitadas por voz.

### Exercício 3 - Vision + Document

Dê aos seus aplicativos a capacidade de ler texto, analisar imagens, processar documentos e detectar rostos com tecnologias como reconhecimento óptico de caracteres (OCR) e aprendizado de máquina.

O serviço Azure AI Vision oferece acesso a algoritmos avançados que processam imagens e retornam informações baseadas nas características visuais de seu interesse. A tabela a seguir lista as principais categorias de produtos.

**Reconhecimento Óptico de Caracteres (OCR)** - O serviço de Reconhecimento Óptico de Caracteres (OCR) extrai texto de imagens. Você pode usar a API Read para extrair texto impresso e manuscrito de fotos e documentos. Ele utiliza modelos baseados em aprendizado profundo e funciona com texto em várias superfícies e fundos. Isso inclui documentos comerciais, faturas, recibos, cartazes, cartões de visita, cartas e quadros brancos. As APIs de OCR suportam a extração de texto impresso em vários idiomas.

**Análise de Imagem** - O serviço de Análise de Imagem extrai muitas características visuais de imagens, como objetos, rostos, conteúdo adulto e descrições de texto geradas automaticamente.

**Face** - O serviço Face fornece algoritmos de IA que detectam, reconhecem e analisam rostos humanos em imagens. O software de reconhecimento facial é importante em muitos cenários diferentes, como identificação, controle de acesso sem toque e desfoque facial para privacidade.

**Recuperação de Vídeo** - A Recuperação de Vídeo permite criar um índice de vídeos que você pode pesquisar com linguagem natural.

### Exercício 4 - Content Safety

A segurança de conteúdo do Azure AI detecta conteúdo prejudicial gerado por usuários e por IA em aplicativos e serviços. Este serviço disponibiliza vários tipos diferentes de análise.

**Escudos de Prompt** - Examina texto em busca de riscos de ataques de entrada do usuário em um Modelo de Linguagem Grande.

**Detecção de fundamentação (preview)** - Detecta se as respostas de texto de modelos de linguagem grandes (LLMs) estão fundamentadas nos materiais fonte fornecidos pelos usuários.

**Detecção de material protegido em texto** - Examina texto gerado por IA em busca de conteúdo de texto conhecido (por exemplo, letras de música, artigos, receitas, conteúdo web selecionado).

**API de categorias personalizadas (padrão) (preview)** - Permite criar e treinar suas próprias categorias de conteúdo personalizadas e examinar texto em busca de correspondências.

**API de categorias personalizadas (rápida) (preview)** - Permite definir padrões emergentes de conteúdo prejudicial e examinar texto e imagens em busca de correspondências.

**API de análise de texto** - Examina texto em busca de conteúdo sexual, violência, ódio e autolesão com múltiplos níveis de severidade.

**API de análise de imagem** - Examina imagens em busca de conteúdo sexual, violência, ódio e autolesão com múltiplos níveis de severidade.