# Relat√≥rio de Avalia√ß√£o de Modelos para Armazenamento de √Åudio em Bases de Dados Vetoriais (Milvus)

### Objetivo do Projeto

Este relat√≥rio tem como objetivo apresentar uma avalia√ß√£o comparativa (benchmark) de diferentes modelos de processamento de √°udio para armazenamento em bases de dados vetoriais, utilizando a tecnologia Milvus. Ao longo do notebook interativo, s√£o analisados os desempenhos dos distintos modelos e embeddings, com o intuito de identificar qual abordagem oferece melhores resultados para o nosso caso de uso. No final do processo, ser√° poss√≠vel selecionar o modelo ou embedding mais adequado com base em crit√©rios de efici√™ncia, fidelidade e compatibilidade com a estrutura vetorial da base de dados.



## Introdu√ß√£o

### Introdu√ß√£o

O presente trabalho tem como objetivo principal a realiza√ß√£o de um benchmark de diferentes modelos de extra√ß√£o de embeddings a partir de ficheiros de √°udio, com vista √† sua posterior indexa√ß√£o e recupera√ß√£o eficiente em bases de dados vetoriais, utilizando a plataforma Milvus.

Para isso, foi constru√≠do um pipeline modular e interativo, implementado em ambiente Jupyter Notebook, que permite:

- A leitura e pr√©-processamento de ficheiros de √°udio;
- A extra√ß√£o de embeddings atrav√©s de diferentes modelos de deep learning.
- A visualiza√ß√£o e an√°lise explorat√≥ria dos embeddings gerados utilizando t√©cnicas como **t-SNE**;
- O armazenamento e recupera√ß√£o vetorial atrav√©s da base de dados **Milvus**, com suporte √† consulta por similaridade;
- A apresenta√ß√£o dos resultados atrav√©s de um **dashboard interativo**, facilitando a compara√ß√£o visual e quantitativa entre diferentes abordagens.

O objetivo final √© determinar qual dos modelos testados oferece a melhor performance em termos de coer√™ncia sem√¢ntica dos embeddings, velocidade de processamento, compress√£o e desempenho na recupera√ß√£o de ficheiros semelhantes. Esta an√°lise permitir√° selecionar a arquitetura mais adequada √†s necessidades espec√≠ficas do projeto, garantindo efici√™ncia na representa√ß√£o vetorial de √°udio.



## Falar o que fizemos para fazer o benchmark

## Metodologia do Benchmark

Para realizar o benchmark entre diferentes modelos de extra√ß√£o de embeddings de √°udio, foi seguido um processo estruturado composto pelas seguintes etapas:

1. **Pr√©-processamento dos Ficheiros de √Åudio**  
   Os ficheiros de √°udio foram carregados e convertidos para um formato padronizado  para garantir compatibilidade com os modelos utilizados.

2. **Extra√ß√£o de Embeddings com M√∫ltiplos Modelos**  
   Foram utilizados diferentes modelos baseados na arquitetura **Wav2Vec2** (da Hugging Face) para gerar embeddings representativos do conte√∫do dos √°udios. Cada modelo processou os mesmos ficheiros, permitindo uma compara√ß√£o justa.

3. **Visualiza√ß√£o com Redu√ß√£o de Dimensionalidade**  
   Para an√°lise qualitativa dos embeddings, aplic√°mos o algoritmo **t-SNE** de redu√ß√£o de dimensionalidade. Com isto, foi poss√≠vel projetar os embeddings para um espa√ßo bidimensional, facilitando a inspe√ß√£o visual de agrupamentos e dispers√µes.

4. **Indexa√ß√£o Vetorial com Milvus**  
   Os embeddings gerados por cada modelo foram armazenados numa inst√¢ncia da base de dados vetorial **Milvus**, que permite consultas por similaridade (busca de √°udios semelhantes).

5. **Dashboard Interativo de Avalia√ß√£o**  
   Foi desenvolvido um dashboard em Jupyter Notebook para comparar os diferentes modelos, com base em m√©tricas de desempenho e visualiza√ß√µes interativas dos clusters gerados. O dashboard permite ao utilizador filtrar modelos, inspecionar os embeddings, ouvir os √°udios associados e observar o comportamento da busca vetorial.

Este fluxo de trabalho permitiu uma compara√ß√£o clara, interativa e reprodut√≠vel entre os diferentes modelos de embeddings, facilitando a escolha da abordagem mais eficaz para tarefas de recupera√ß√£o de √°udio baseada em conte√∫do.


## Fases do Projeto

O desenvolvimento deste projeto foi dividido em v√°rias fases, permitindo uma abordagem organizada e iterativa no processo de benchmark de modelos de √°udio. As etapas principais foram as seguintes:

1. **Defini√ß√£o do Objetivo e Sele√ß√£o de Ferramentas**  
   Come√ßou-se por definir o objetivo do projeto: comparar diferentes modelos de extra√ß√£o de embeddings de √°udio para armazenamento e consulta em bases de dados vetoriais. Foram selecionadas ferramentas como Python, Jupyter Notebook, `librosa`, `transformers`, `Milvus`, `scikit-learn`, `plotly`, entre outras.

2. **Aquisi√ß√£o e Pr√©-processamento de √Åudio**  
   Foram utilizados ficheiros de √°udio de diferentes categorias. Os ficheiros foram normalizados para formato mono com taxa de amostragem de 16 kHz, assegurando a uniformidade dos dados para entrada nos modelos.

3. **Implementa√ß√£o de V√°rios Modelos de Embeddings de √Åudio**  
   Foram testados diversos modelos de extra√ß√£o de embeddings, incluindo arquiteturas baseadas em **Wav2Vec2**, **Hubert**, **Whisper** e outras alternativas dispon√≠veis na biblioteca `transformers` e fontes externas. Cada modelo foi utilizado para gerar representa√ß√µes vetoriais a partir dos mesmos √°udios.

4. **Indexa√ß√£o em Base de Dados Vetorial (Milvus)**  
   Os embeddings obtidos foram armazenados e indexados numa inst√¢ncia do **Milvus**, permitindo a realiza√ß√£o de buscas por similaridade entre vetores de √°udio.

5. **Visualiza√ß√£o com Redu√ß√£o de Dimensionalidade**  
   Foi aplicada a t√©cnica **t-SNE** para reduzir a dimensionalidade dos embeddings, permitindo visualizar a distribui√ß√£o e agrupamento dos √°udios num espa√ßo bidimensional.

6. **Desenvolvimento de um Dashboard Interativo**  
   Criou-se um dashboard interativo em Jupyter com `plotly`, `ipywidgets` e outros recursos, permitindo a compara√ß√£o visual dos modelos, escuta dos √°udios originais e explora√ß√£o dos resultados de forma din√¢mica.

7. **Avalia√ß√£o e Conclus√£o**  
   Por fim, foram analisadas as caracter√≠sticas de cada modelo ‚Äî como separabilidade dos embeddings, fidelidade, robustez e comportamento na busca por similaridade ‚Äî com o objetivo de identificar a solu√ß√£o mais adequada ao contexto do projeto.



## Porque o Milvus?

A escolha do **Milvus** como base de dados vetorial para este projeto foi motivada por v√°rias raz√µes t√©cnicas e pr√°ticas que o tornam particularmente adequado para aplica√ß√µes que envolvem pesquisa por similaridade em grandes volumes de dados n√£o estruturados, como √°udio.

As principais raz√µes para a sua escolha foram:

- **Desempenho e Escalabilidade**  
  O Milvus √© otimizado para buscas vetoriais de alta performance, suportando milh√µes (ou at√© bilh√µes) de vetores com tempos de resposta muito baixos, gra√ßas √† sua integra√ß√£o com mecanismos de indexa√ß√£o como IVF, HNSW e PQ.

- **Compatibilidade com Workflows de Machine Learning**  
  Possui uma API moderna e integra√ß√£o nativa com ferramentas amplamente usadas em ci√™ncia de dados e IA, como `PyMilvus`, `FAISS` e `Docker`, o que facilita a sua incorpora√ß√£o em pipelines de machine learning.

- **Suporte a V√°rios Tipos de Dados**  
  Embora este projeto se foque em √°udio, o Milvus permite o armazenamento vetorial de outros tipos de dados n√£o estruturados, como imagens, v√≠deos e texto, o que abre possibilidades futuras de expans√£o multimodal.

- **Interface Flex√≠vel e Documenta√ß√£o Completa**  
  A API do Milvus √© bem documentada, com suporte a gRPC, REST e bibliotecas Python, o que simplifica o desenvolvimento e a integra√ß√£o em notebooks interativos como o utilizado neste projeto.

- **Open Source e Ativamente Mantido**  
  O projeto Milvus √© open-source e possui uma comunidade ativa, garantindo constante evolu√ß√£o da plataforma e liberdade tecnol√≥gica para adaptar solu√ß√µes a diferentes casos de uso.

Em resumo, o Milvus foi escolhido por ser uma solu√ß√£o robusta, escal√°vel e eficiente para realizar indexa√ß√£o e busca por similaridade em vetores de embeddings, representando uma escolha s√≥lida para este tipo de benchmark com dados de √°udio.


### Embeddings Escolhidos

Para este benchmark foram selecionados diferentes modelos de extra√ß√£o de embeddings de √°udio, com arquiteturas e caracter√≠sticas distintas. A diversidade dos modelos permite avaliar diferentes formas de representa√ß√£o vetorial do √°udio, desde caracter√≠sticas perceptivas at√© representa√ß√µes sem√¢nticas mais abstratas.

Os modelos utilizados foram os seguintes:

- **Wav2Vec2** (768 dimens√µes)  
  Um modelo auto-supervisionado da Meta AI, treinado para representa√ß√£o de fala. √â particularmente eficaz em tarefas relacionadas com transcri√ß√£o e compreens√£o sem√¢ntica do conte√∫do vocal.

- **VGGish** (128 dimens√µes)  
  Um modelo inspirado na arquitetura VGG da √°rea de vis√£o computacional, adaptado ao dom√≠nio √°udio. Foi treinado com dados do YouTube-8M, sendo adequado para tarefas de classifica√ß√£o sonora geral.

- **OpenL3** (512 dimens√µes)  
  Baseado em embeddings aprendidos de forma multimodal (√°udio + v√≠deo), o OpenL3 captura representa√ß√µes sem√¢nticas e perceptivas, mostrando-se eficaz em v√°rias tarefas, como identifica√ß√£o de sons ambientais e m√∫sica.

- **YAMNet** (1024 dimens√µes)  
  Modelo baseado em MobileNetV1, treinado no AudioSet da Google. Produz embeddings de alta dimensionalidade que capturam informa√ß√µes de classifica√ß√£o sonora com elevado detalhe.

- **CLAP** (512 dimens√µes)  
  Contrastive Language-Audio Pretraining ‚Äî um modelo semelhante ao CLIP, mas treinado para alinhar texto e √°udio. Permite gerar embeddings compat√≠veis com descri√ß√µes textuais, √∫til para tarefas multimodais e de recupera√ß√£o baseada em linguagem.

- **AST (Audio Spectrogram Transformer)** (768 dimens√µes)  
  Modelo baseado em transformadores aplicado diretamente sobre espectrogramas de √°udio. Alcan√ßa desempenho de topo em benchmarks como ESC-50 e AudioSet, com uma arquitetura inspirada no Vision Transformer (ViT).

Cada modelo foi integrado no pipeline de forma modular, permitindo a extra√ß√£o dos embeddings diretamente a partir dos ficheiros de √°udio. A escolha destes modelos visa abranger diferentes estrat√©gias de representa√ß√£o vetorial, de forma a identificar qual delas √© mais eficiente e semanticamente √∫til para armazenamento e recupera√ß√£o vetorial com Milvus.


### Script de Benchmark

O script `audio_benchmark.py` foi desenvolvido como n√∫cleo do processo de avalia√ß√£o dos modelos de embeddings de √°udio. Ele implementa um pipeline completo e automatizado para extra√ß√£o de embeddings, medi√ß√£o de desempenho, indexa√ß√£o vetorial e an√°lise dos resultados. A arquitetura modular e robusta do script garante flexibilidade, reprodutibilidade e resili√™ncia em diferentes ambientes de execu√ß√£o.

#### 1. Importa√ß√µes e Carregamento Inteligente de Modelos

O carregamento dos modelos ocorre uma √∫nica vez no in√≠cio do script, minimizando o uso de recursos e evitando redund√¢ncia. Foram usados modelos diversos, com diferentes origens (Hugging Face e TensorFlow Hub), e foram inclu√≠dos mecanismos de fallback (como modelos "dummy") para garantir a continuidade do processamento mesmo em caso de falhas.

#### 2. Extra√ß√£o de Embeddings

Cada modelo conta com a sua pr√≥pria fun√ß√£o de extra√ß√£o, adaptada √† sua interface espec√≠fica e requisitos (ex: taxa de amostragem). As fun√ß√µes s√£o projetadas para retornar embeddings de dimens√£o fixa, padronizados para indexa√ß√£o.

#### 3. Benchmarking e Medi√ß√£o de Recursos

A fun√ß√£o `benchmark_embeddings(...)` executa todo o ciclo de benchmarking:
- Carrega e normaliza os ficheiros de √°udio;
- Extrai embeddings com v√°rios modelos;
- Mede tempo de extra√ß√£o, inser√ß√£o, uso de CPU, RAM, GPU e mem√≥ria m√°xima (com `tracemalloc`);
- Insere os dados na base de dados vetorial **Milvus**, com metadados como dura√ß√£o, autores, sample rate, etc.

Todos os resultados s√£o armazenados numa estrutura de `DataFrame`, depois exportada como `.csv`.

#### 4. An√°lise e Visualiza√ß√£o

A fun√ß√£o `analisar_resultados(...)` gera gr√°ficos estat√≠sticos e visuais de compara√ß√£o entre os modelos, incluindo:
- Tempos m√©dios de extra√ß√£o e inser√ß√£o;
- Uso de mem√≥ria;
- Correla√ß√µes entre dura√ß√£o/tamanho dos ficheiros e tempo de processamento;
- Evolu√ß√£o de recursos (CPU, RAM, GPU);
- Boxplots e scatterplots tridimensionais.

Os gr√°ficos s√£o automaticamente guardados numa pasta espec√≠fica para o benchmark, garantindo documenta√ß√£o completa e organizada.

#### 5. Benchmark de Pesquisa Vetorial

A fun√ß√£o `testar_pesquisas(...)` permite avaliar a qualidade pr√°tica dos embeddings, realizando buscas por similaridade diretamente no Milvus. S√£o recuperados os resultados com maior score de semelhan√ßa e √© gerado um gr√°fico comparativo por modelo.

#### 6. Automa√ß√£o e Organiza√ß√£o

Al√©m da l√≥gica principal, o script oferece uma s√©rie de funcionalidades auxiliares que refor√ßam a qualidade t√©cnica do projeto:

- **Cria√ß√£o autom√°tica de diret√≥rios** para guardar os resultados de cada benchmark;
- **Gera√ß√£o de ficheiros `.csv`** com os dados brutos do benchmarking;
- **Logging estruturado** (`benchmark.log`) com mensagens detalhadas sobre o estado de execu√ß√£o, falhas, tempos e recursos utilizados.

#### 7. Destaques T√©cnicos do Script

- **Resili√™ncia**: Mesmo que um modelo falhe ao carregar, o script continua com alternativas seguras (`dummy models`);
- **Reprodutibilidade**: Todas as m√©tricas e resultados s√£o guardados em diret√≥rios organizados, permitindo comparar diferentes execu√ß√µes;
- **Extensibilidade**: √â simples adicionar novos modelos ou alterar par√¢metros sem comprometer a estrutura;
- **Efici√™ncia**: Os modelos s√£o carregados apenas uma vez; os recursos s√£o monitorizados de forma leve, e o uso de `tqdm` melhora a experi√™ncia de execu√ß√£o;
- **Completo**: O script cobre todas as fases do benchmark ‚Äî da extra√ß√£o √† an√°lise final, passando pela indexa√ß√£o e pesquisa vetorial.

#### 8. Controlo do Ambiente com Docker

Para garantir que todas as execu√ß√µes fossem realizadas sob **condi√ß√µes de hardware e software id√™nticas**, foi criado um **container Docker dedicado**. Esta abordagem garante:

- Isolamento total do ambiente de execu√ß√£o;
- Reprodutibilidade absoluta dos benchmarks;
- Neutraliza√ß√£o de varia√ß√µes externas (ex: depend√™ncias, drivers, bibliotecas);
- Facilidade de deployment em diferentes m√°quinas ou servidores.

O container inclui todas as depend√™ncias necess√°rias (Python, PyTorch, TensorFlow, Milvus client, etc.) e pode ser executado com um simples comando, tornando o sistema port√°vel e escal√°vel.

---

Este script, juntamente com o ambiente Dockerizado, representa uma infraestrutura profissional para benchmarking de embeddings de √°udio, e pode ser facilmente reutilizado ou adaptado para tarefas futuras envolvendo v√≠deo, texto, ou outras modalidades multimodais.


## An√°lise dos Resultados

Nesta sec√ß√£o, ser√£o apresentados e analisados os resultados obtidos a partir do benchmark realizado com os diferentes modelos de embeddings de √°udio. O objetivo √© comparar o desempenho de cada modelo com base em m√©tricas quantitativas e qualitativas, tais como:

- **Tempo m√©dio de extra√ß√£o dos embeddings**;
- **Tempo m√©dio de inser√ß√£o na base de dados vetorial (Milvus)**;
- **Pico de utiliza√ß√£o de mem√≥ria RAM durante a extra√ß√£o**;
- **Correla√ß√£o entre dura√ß√£o ou tamanho dos ficheiros e o tempo de processamento**;
- **Efici√™ncia da pesquisa vetorial (score dos resultados de similaridade)**;
- **Evolu√ß√£o do uso de CPU, RAM e GPU ao longo do processamento**.

Ser√£o tamb√©m apresentados gr√°ficos e visualiza√ß√µes interativas (scatterplots, boxplots, barras, 3D), permitindo observar tend√™ncias, outliers e padr√µes de comportamento entre os diferentes modelos.

O objetivo desta an√°lise √© identificar quais modelos apresentam melhor equil√≠brio entre desempenho computacional e qualidade dos embeddings, ajudando a fundamentar a escolha do modelo mais adequado ao nosso caso de uso.



## Instala√ß√£o de Depend√™ncias e Configura√ß√£o do Ambiente

Para executar o notebook ou o script de benchmark, √© necess√°rio instalar as depend√™ncias listadas no ficheiro `requirements_jupyter.txt`. Para isso, basta utilizar o seguinte comando:

```bash
pip install -r requirements_jupyter.txt


In [1]:
!pip install -r requirements_jupyter.txt



### 1. Importa√ß√µes e Prepara√ß√£o do Ambiente

Nesta primeira etapa, foram realizadas as importa√ß√µes das bibliotecas essenciais para o desenvolvimento do projeto. As bibliotecas englobam ferramentas para an√°lise e visualiza√ß√£o de dados (`pandas`, `numpy`, `matplotlib`, `seaborn`, `plotly`), redu√ß√£o de dimensionalidade (`sklearn.manifold.TSNE`), manipula√ß√£o de arquivos e objetos (`ast`, `io`, `soundfile`, `IPython.display`, `ipywidgets`), bem como processamento de √°udio e machine learning (`librosa`, `torch`, `transformers`, `MilvusClient`). Esta prepara√ß√£o permite a manipula√ß√£o eficiente de dados, visualiza√ß√µes interativas e a aplica√ß√£o de modelos de deep learning, nomeadamente com a arquitetura Wav2Vec2 para tarefas de processamento de √°udio.


In [2]:
# üì¶ Importa√ß√µes e leitura dos dados
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from sklearn.manifold import TSNE
import ast
from pymilvus import MilvusClient
import librosa
import torch
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import soundfile as sf
import io
from IPython.display import display
import ipywidgets as widgets




### 2¬∫ Carregamento dos Dados

Ap√≥s a execu√ß√£o do script de benchmark, os resultados s√£o guardados em ficheiros `.csv`, organizados em diret√≥rios espec√≠ficos dentro da pasta `benchmarks/`. Cada pasta representa uma execu√ß√£o independente, identificada pelo n√∫mero de ficheiros processados (ex: `benchmark_30`, `benchmark_250`, etc.).

Nesta fase, o notebook carrega os dados do ficheiro `resultados_benchmark.csv`, presente no diret√≥rio da execu√ß√£o. Os dados cont√™m m√©tricas detalhadas de performance para cada modelo de embeddings, al√©m dos pr√≥prios vetores (`embedding`), que s√£o convertidos de string para listas num√©ricas com `ast.literal_eval`.

Com o crescimento do projeto, ser√° necess√°rio comparar m√∫ltiplos benchmarks realizados em diferentes contextos (ex: com 30, 100, 250 ficheiros, ou com ficheiros de diferentes tipos de √°udio).  
A estrutura modular adotada permite facilmente carregar m√∫ltiplos datasets, bastando iterar sobre diferentes diret√≥rios do tipo `benchmarks/benchmark_X/`.

No futuro, ser√° poss√≠vel:

- **Unificar e comparar m√∫ltiplos benchmarks num √∫nico DataFrame**;
- **Aplicar filtros din√¢micos por modelo, dataset ou n√∫mero de ficheiros**;
- **Visualizar a evolu√ß√£o do desempenho com o aumento da escala de dados**;
- **Integrar esses benchmarks numa interface (ex: dashboard Streamlit)** que permita ao utilizador selecionar o conjunto de resultados a analisar.

Esta abordagem garante **escalabilidade horizontal**, permitindo expandir o sistema para novos testes e conjuntos de dados sem altera√ß√µes estruturais ao c√≥digo principal.


In [3]:
# üìÇ Leitura e limpeza dos dados
try:
    df = pd.read_csv('benchmarks/benchmark_250/resultados_benchmark.csv')
    df['embedding'] = df['embedding'].apply(ast.literal_eval)
    
    # Success message with dataset information
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"   - {len(df)} registros de embeddings carregados")
    print(f"   - Modelos dispon√≠veis: {', '.join(df['modelo'].unique())}")
    
except FileNotFoundError as e:
    print(f"‚ùå Erro ao carregar os arquivos de benchmark: {e}")
    print("   Verifique se os arquivos est√£o no diret√≥rio correto: benchmarks/benchmark_30/")
except Exception as e:
    print(f"‚ùå Erro ao processar os dados: {e}")
    print("   Verifique o formato dos arquivos CSV e tente novamente.")

‚úÖ Dados carregados com sucesso!
   - 1500 registros de embeddings carregados
   - Modelos dispon√≠veis: wav2vec2, vggish, openl3, yamnet, clap, ast


### Conex√£o com Milvus e Sele√ß√£o de Cole√ß√µes

Antes de realizar qualquer opera√ß√£o de pesquisa vetorial, √© necess√°rio estabelecer uma conex√£o com a inst√¢ncia do **Milvus**, que deve estar em execu√ß√£o localmente (por padr√£o, em `http://localhost:19530`).

O c√≥digo tenta criar um cliente `MilvusClient` apontando para o URI local. Em seguida, verifica se existem cole√ß√µes j√° criadas no servidor, listando-as e apresentando informa√ß√µes como:

- N√∫mero total de cole√ß√µes dispon√≠veis;
- Nomes das cole√ß√µes encontradas (ex: `audio_wav2vec2_30`, `audio_openl3_250`, etc.).

Caso a conex√£o falhe, s√£o apresentadas mensagens de erro espec√≠ficas, incluindo sugest√µes para resolver o problema ‚Äî por exemplo, iniciar o Milvus com `docker-compose up -d`. O tratamento de exce√ß√µes garante que o script n√£o falha abruptamente, e a vari√°vel `client` √© definida como `None` caso a conex√£o n√£o seja estabelecida com sucesso.

Esta etapa √© fundamental para confirmar que o ambiente est√° corretamente preparado para realizar pesquisas por similaridade, recuperar vetores ou executar benchmarks adicionais.


In [4]:
# üîÑ Conex√£o com Milvus e sele√ß√£o da cole√ß√£o
try:
    # Tentar conectar ao Milvus
    client = MilvusClient(uri='http://localhost:19530')
    
    # Obter cole√ß√µes dispon√≠veis
    colecoes_disponiveis = client.list_collections()
    
    if colecoes_disponiveis:
        print(f"‚úÖ Conex√£o com Milvus estabelecida com sucesso!")
        print(f"   - {len(colecoes_disponiveis)} cole√ß√µes dispon√≠veis")
        print(f"   - Cole√ß√µes: {', '.join(colecoes_disponiveis)}")
        
    else:
        print("‚ö†Ô∏è Conectado ao Milvus, mas nenhuma cole√ß√£o encontrada.")
        print("   Verifique se os dados foram carregados corretamente.")
        
except ConnectionError as e:
    print(f"‚ùå Erro de conex√£o com o Milvus: {e}")
    print("   Verifique se o servidor Milvus est√° em execu√ß√£o em http://localhost:19530")
    print("   Para iniciar o Milvus localmente com Docker, execute:")
    print("   docker-compose up -d")
    client = None
    
except Exception as e:
    print(f"‚ùå Erro ao conectar ao Milvus: {e}")
    print("   Verifique sua configura√ß√£o e tente novamente.")
    client = None

2025-05-25 22:21:18,921 [ERROR][_create_connection]: Failed to create new connection using: 8f974fdfeff541b186b233eb1a269103 (milvus_client.py:923)


‚ùå Erro ao conectar ao Milvus: <MilvusException: (code=2, message=Fail connecting to server on localhost:19530, illegal connection params or server unavailable)>
   Verifique sua configura√ß√£o e tente novamente.


### 4¬∫ An√°lise dos Resultados

Nesta fase do projeto, ser√° realizada uma an√°lise detalhada dos resultados obtidos durante o benchmark dos diferentes modelos de embeddings de √°udio. O objetivo √© avaliar e comparar o desempenho dos modelos com base em m√©tricas quantitativas, como tempo, consumo de mem√≥ria e efic√°cia na pesquisa vetorial.

A an√°lise ser√° conduzida utilizando **visualiza√ß√µes gr√°ficas** que permitem identificar padr√µes, comparar desempenhos e apoiar a tomada de decis√£o sobre o modelo mais adequado. Os principais gr√°ficos gerados s√£o:

- üìä **Gr√°ficos de Barras (Barplots)**  
  Utilizados para visualizar o tempo m√©dio de extra√ß√£o e inser√ß√£o de embeddings por modelo, assim como o pico de mem√≥ria RAM consumido durante a extra√ß√£o.

- üì¶ **Boxplots**  
  Representam a distribui√ß√£o dos tempos de extra√ß√£o por modelo, permitindo observar a variabilidade e identificar outliers no processamento.

- üß† **Scatterplots**  
  Avaliam a rela√ß√£o entre:
  - Dura√ß√£o do ficheiro de √°udio e o tempo de extra√ß√£o;
  - Tamanho do ficheiro e tempo de extra√ß√£o;
  Estes gr√°ficos ajudam a perceber como diferentes caracter√≠sticas dos dados influenciam a performance dos modelos.

- üìà **Gr√°ficos Temporais de Uso de Recursos**  
  Mostram a evolu√ß√£o do uso de CPU, RAM e GPU ao longo do processamento dos ficheiros. Isto permite identificar picos de utiliza√ß√£o e comparar a efici√™ncia dos modelos em tempo real.

- üìâ **Gr√°ficos de Score da Pesquisa Vetorial**  
  Ap√≥s a indexa√ß√£o no Milvus, √© feita uma pesquisa por similaridade e analisado o *score* do primeiro resultado obtido por modelo. Um gr√°fico de barras compara diretamente esses scores, indicando quais embeddings produzem buscas mais precisas.

- üß© **Scatterplot 3D (opcional)**  
  Em casos com variabilidade suficiente, √© poss√≠vel gerar uma visualiza√ß√£o tridimensional combinando tempo de extra√ß√£o, mem√≥ria usada e tamanho do ficheiro, permitindo uma an√°lise multivariada da efici√™ncia dos modelos.

Todas estas visualiza√ß√µes ser√£o geradas automaticamente e guardadas em ficheiros de imagem, organizadas numa pasta espec√≠fica (`benchmarks/benchmark_X/`). A an√°lise ser√° acompanhada por resumos estat√≠sticos (m√©dia, desvio padr√£o) e insights qualitativos que ajudar√£o a fundamentar a escolha do melhor modelo.



### Benchmarks Interativos

Foi desenvolvido um **dashboard interativo com recurso ao Streamlit**, que permite visualizar e explorar os resultados dos benchmarks realizados com diferentes volumes de dados (5, 25, 50, 100 e 250 ficheiros de √°udio). Esta interface facilita a an√°lise comparativa entre modelos, permitindo filtrar por modelo, m√©trica ou tamanho da base de dados de forma din√¢mica e intuitiva.

No entanto, para efeitos deste relat√≥rio, **optamos por focar a an√°lise nos resultados obtidos com a base de dados contendo 250 ficheiros**, uma vez que este cen√°rio oferece uma vis√£o mais robusta e representativa do desempenho real dos modelos. Esta abordagem permite avaliar o comportamento dos modelos em contexto de maior escala, destacando diferen√ßas de performance que n√£o seriam t√£o evidentes em conjuntos de menor dimens√£o.


Para executar o dashboard interativo, basta instalar o Streamlit com o seguinte comando:

```bash
pip install streamlit

Caso pretenda executar o dashboard, correr os comandos abaixo

In [None]:
#!pip install streamlit

In [None]:
#Caso pretenda correr o dashboard interativo
#streamlit run dashboard.py


### An√°lise dos Gr√°ficos Interativos por M√©trica

A interface interativa apresenta os resultados em diferentes **abas**, cada uma representando uma m√©trica espec√≠fica relacionada com o desempenho dos modelos de extra√ß√£o de embeddings de √°udio. Abaixo, detalhamos o objetivo de cada gr√°fico e as principais observa√ß√µes que podem ser extra√≠das.

---

#### 1Ô∏è‚É£ **Tempo de Extra√ß√£o por Modelo** (`fig1`)

**Tipo:** Gr√°fico de barras  
**M√©trica:** `tempo_extracao` (segundos)

Este gr√°fico apresenta o **tempo m√©dio necess√°rio por cada modelo para extrair embeddings de √°udio**.  
- ‚úÖ Modelos com barras mais baixas s√£o mais r√°pidos e eficientes.


---

#### 2Ô∏è‚É£ **Tempo de Inser√ß√£o no Milvus por Modelo** (`fig2`)

**Tipo:** Gr√°fico de barras  
**M√©trica:** `tempo_insercao` (segundos)

Este gr√°fico mostra o **tempo m√©dio necess√°rio para inserir os embeddings na base de dados Milvus**.  
- Diferen√ßas nesta m√©trica podem refletir a **dimens√£o do vetor** gerado por cada modelo (ex: YAMNet gera vetores com 1024 dimens√µes).
- Modelos com **dimens√µes maiores** tendem a demorar mais.

---

#### 3Ô∏è‚É£ **Boxplot do Tempo de Extra√ß√£o** (`fig3`)

**Tipo:** Boxplot  
**M√©trica:** `tempo_extracao` (distribui√ß√£o)

Este gr√°fico permite observar a **variabilidade** dos tempos de extra√ß√£o por modelo:  
- ‚úÖ Modelos com boxplots mais ‚Äúestreitos‚Äù s√£o mais **consistentes e previs√≠veis**.
- ‚ö†Ô∏è Modelos com muitos **outliers ou dispers√£o elevada** podem ter desempenho inst√°vel em diferentes tipos de √°udio.

---

#### 4Ô∏è‚É£ **Boxplot do Tempo de Inser√ß√£o** (`fig4`)

**Tipo:** Boxplot  
**M√©trica:** `tempo_insercao` (distribui√ß√£o)

Tal como o anterior, este gr√°fico permite verificar a **estabilidade** no tempo de inser√ß√£o dos vetores na base de dados.  
- Pode indicar se **certos ficheiros causam atrasos** em modelos espec√≠ficos.

---

#### 5Ô∏è‚É£ **Tamanho do √Åudio vs Tempo de Extra√ß√£o** (`fig5`)

**Tipo:** Gr√°fico de dispers√£o (scatter plot)  
**Eixos:** `tamanho_audio_mb` vs `tempo_extracao`

Este gr√°fico mostra a correla√ß√£o entre o **tamanho (em MB)** dos ficheiros de √°udio e o **tempo que cada modelo leva para extrair o embedding**.  
- Ideal para verificar **escalabilidade linear**.
- ‚úÖ Uma rela√ß√£o linear indica efici√™ncia previs√≠vel.
- ‚ö†Ô∏è Curvas ou dispers√µes irregulares podem indicar problemas de desempenho com ficheiros maiores.

---

#### 6Ô∏è‚É£ **Tamanho do √Åudio vs Tempo de Inser√ß√£o** (`fig6`)

**Tipo:** Gr√°fico de dispers√£o  
**Eixos:** `tamanho_audio_mb` vs `tempo_insercao`

An√°logo ao gr√°fico anterior, mas focado no tempo de inser√ß√£o dos dados no Milvus.  
- Pode ajudar a perceber se a **inser√ß√£o √© afetada pela complexidade ou dimens√£o dos vetores** oriundos de ficheiros maiores.

---

### Conclus√£o Geral

- Modelos como **VGGish** tendem a ser mais r√°pidos e est√°veis, mas podem sacrificar riqueza sem√¢ntica.
- Modelos como **YAMNet**, **CLAP** e **AST** oferecem mais detalhe nos embeddings, mas com **maior custo computacional**.
- **Boxplots** ajudam a detetar **instabilidades**, e os gr√°ficos de dispers√£o revelam **como os modelos escalam** com ficheiros maiores.
- A escolha ideal de modelo depender√° do **balan√ßo entre velocidade e qualidade** desejada para a aplica√ß√£o final (tempo real, precis√£o sem√¢ntica, consumo de recursos, etc.).



In [6]:
# üìä Gr√°ficos interativos por m√©trica em abas
tab_contents = ['Extra√ß√£o', 'Inser√ß√£o', 'Boxplot Extra√ß√£o', 'Boxplot Inser√ß√£o','Tamanho vs Extra√ß√£o','Tamanho vs Inser√ß√£o' ]
children = []

fig1 = px.bar(df, x='modelo', y='tempo_extracao', color='modelo', title='Tempo de Extra√ß√£o por Modelo')
fig2 = px.bar(df, x='modelo', y='tempo_insercao', color='modelo', title='Tempo de Inser√ß√£o por Modelo')
fig3 = px.box(df, x='modelo', y='tempo_extracao', color='modelo', title='Boxplot Tempo de Extra√ß√£o')
fig4 = px.box(df, x='modelo', y='tempo_insercao', color='modelo', title='Boxplot Tempo de Inser√ß√£o')
fig5 = px.scatter(df, x='tamanho_audio_mb', y='tempo_extracao', color='modelo', title='Tamanho vs Extra√ß√£o')
fig6 = px.scatter(df, x='tamanho_audio_mb', y='tempo_insercao', color='modelo', title='Tamanho vs Inser√ß√£o')

#ADICIONAR MAIS ? 

for fig in [fig1, fig2, fig3, fig4,fig5, fig6]:
    # Create a new tab for each figure
    out = widgets.Output()
    with out:
        display(fig)
    children.append(out)

tab = widgets.Tab(children=children)
for i in range(len(tab_contents)):
    tab.set_title(i, tab_contents[i])
display(tab)

Tab(children=(Output(), Output(), Output(), Output(), Output(), Output()), selected_index=0, titles=('Extra√ß√£o‚Ä¶

## üß™ Compara√ß√£o Final dos Modelos com Base nos Resultados dos Gr√°ficos

Com base na an√°lise visual dos gr√°ficos interativos, avaliamos o desempenho relativo de cada modelo de embeddings de √°udio nas principais m√©tricas: tempo de extra√ß√£o, tempo de inser√ß√£o, estabilidade e escalabilidade. Abaixo segue uma an√°lise detalhada por m√©trica, culminando na elei√ß√£o do melhor e do pior modelo do benchmark.

---

### üèÜ Melhor Modelo: **VGGish**

### ‚ùå Pior Modelo: **OpenL3**

---

### üìä An√°lise M√©trica a M√©trica

---

#### 1Ô∏è‚É£ Tempo de Extra√ß√£o por Modelo

- **VGGish**, **Wav2Vec2**, **YAMNet**, **CLAP** e **AST** apresentaram tempos de extra√ß√£o baixos e consistentes.
- **OpenL3** teve tempos de extra√ß√£o extremamente elevados (superiores a 10.000 segundos em muitos casos), indicando um desempenho muito ineficiente ou at√© disfuncional.

üìå **Conclus√£o:**  
‚úÖ Melhor: `VGGish`  
‚ùå Pior: `OpenL3`

---

#### 2Ô∏è‚É£ Tempo de Inser√ß√£o no Milvus

- **VGGish** e **YAMNet** foram os mais r√°pidos na inser√ß√£o.
- **OpenL3** e **AST** tiveram os maiores tempos de inser√ß√£o, possivelmente devido √† dimens√£o dos embeddings.

üìå **Conclus√£o:**  
‚úÖ Melhor: `VGGish`  
‚ùå Pior: `OpenL3` / `AST`

---

#### 3Ô∏è‚É£ Boxplot do Tempo de Extra√ß√£o

- O boxplot confirmou a **grande dispers√£o e presen√ßa de outliers extremos** no `OpenL3`.
- `VGGish` e `Wav2Vec2` apresentaram baixa vari√¢ncia, sendo est√°veis e previs√≠veis.

üìå **Conclus√£o:**  
‚úÖ Melhor: `VGGish`  
‚ùå Pior: `OpenL3`

---

#### 4Ô∏è‚É£ Boxplot do Tempo de Inser√ß√£o

- **OpenL3** teve v√°rios outliers e distribui√ß√£o mais espalhada.
- **VGGish**, **YAMNet** e **CLAP** mostraram estabilidade e baixa dispers√£o.

üìå **Conclus√£o:**  
‚úÖ Melhor: `YAMNet` / `VGGish`  
‚ùå Pior: `OpenL3`

---

#### 5Ô∏è‚É£ Tamanho do √Åudio vs Tempo de Extra√ß√£o

- **OpenL3** demonstrou valores fora da escala e sem correla√ß√£o aparente com o tamanho.
- Os restantes modelos escalaram bem ou n√£o foram fortemente afetados.

üìå **Conclus√£o:**  
‚úÖ Melhor: `VGGish`, `CLAP`, `AST`  
‚ùå Pior: `OpenL3`

---

#### 6Ô∏è‚É£ Tamanho do √Åudio vs Tempo de Inser√ß√£o

- **VGGish**, **Wav2Vec2**, **YAMNet** e **CLAP** apresentaram tempos consistentes.
- **OpenL3** teve picos dispersos, com comportamento err√°tico.

üìå **Conclus√£o:**  
‚úÖ Melhor: `VGGish` / `CLAP`  
‚ùå Pior: `OpenL3`

---

### üìà Tabela Comparativa Final

| M√©trica                         | ‚úÖ Melhor Modelo | ‚ùå Pior Modelo |
|--------------------------------|------------------|----------------|
| Tempo de Extra√ß√£o              | VGGish           | OpenL3         |
| Tempo de Inser√ß√£o              | VGGish           | OpenL3         |
| Estabilidade (Boxplots)        | VGGish           | OpenL3         |
| Escalabilidade (vs Tamanho)    | VGGish / CLAP    | OpenL3         |
| Consist√™ncia Geral             | VGGish           | OpenL3         |

---

### üß† Conclus√£o

- O modelo **VGGish** demonstrou ser o mais eficiente, r√°pido, est√°vel e previs√≠vel em todos os cen√°rios testados.
- O modelo **OpenL3**, embora poderoso em teoria por ser multimodal, revelou-se impratic√°vel para uso real em bases de dados vetoriais devido ao seu desempenho extremamente fraco, inst√°vel e com altos tempos de execu√ß√£o.

> Para aplica√ß√µes com requisitos de performance, tempo real ou execu√ß√£o em larga escala, **VGGish** √© a melhor escolha entre os modelos testados neste benchmark.


## üîç Interpreta√ß√£o Geral dos Resultados

Os resultados obtidos refletem as diferen√ßas nas arquiteturas e complexidade dos modelos de embeddings de √°udio utilizados.

---

### üèÜ VGGish ‚Äì Melhor desempenho geral

- **R√°pido, leve e est√°vel**.
- Usa espectrogramas log-Mel e redes convolucionais simples.
- Embeddings pequenos (128 dimens√µes), o que acelera a inser√ß√£o no Milvus.
- Ideal para aplica√ß√µes com muitos dados ou tempo real.

---

### ‚ùå OpenL3 ‚Äì Pior desempenho geral

- **Extremamente lento e inst√°vel**, com tempos de extra√ß√£o muito elevados.
- Arquitetura multimodal e pesada, com alto custo computacional.
- Embeddings grandes (512+ dimens√µes) e infer√™ncia demorada.
- Inadequado para aplica√ß√µes pr√°ticas com muitos ficheiros.

---

### Outros modelos:

- **YAMNet**: tamb√©m leve e est√°vel; boa alternativa ao VGGish.
- **CLAP** e **AST**: mais pesados, mas geram embeddings de qualidade ‚Äî bons para tarefas complexas.
- **Wav2Vec2**: equilibrado, mas mais orientado para voz.

---

### üìå Conclus√£o

- O desempenho observado est√° diretamente ligado √† **efici√™ncia da arquitetura**, **tamanho dos embeddings** e **n√≠vel de pr√©-processamento**.
- **VGGish** √© o modelo mais indicado para sistemas escal√°veis e r√°pidos.  
- **OpenL3** deve ser evitado neste tipo de tarefa, devido √† sua inefici√™ncia.

A escolha do modelo deve equilibrar **qualidade dos embeddings** com **performance computacional**, dependendo dos objetivos do projeto.


### Evolu√ß√£o dos Recursos Computacionais

Nesta sec√ß√£o analisamos a evolu√ß√£o dos recursos computacionais utilizados durante o processo de extra√ß√£o de embeddings e inser√ß√£o na base de dados vetorial. Monitorizamos duas m√©tricas principais:

- **`cpu_percent_after`**: percentagem de utiliza√ß√£o da CPU ap√≥s cada processamento;
- **`ram_percent_after`**: percentagem de mem√≥ria RAM utilizada no sistema ap√≥s cada itera√ß√£o.

---

### üìà O que estamos a medir

Para cada ficheiro de √°udio processado por cada modelo, medimos o uso dos recursos **imediatamente ap√≥s a execu√ß√£o da extra√ß√£o e inser√ß√£o**. Isto permite perceber:

- Se o modelo tem um consumo constante e previs√≠vel;
- Se h√° picos de uso ou varia√ß√µes inesperadas;
- Como o sistema se comporta ao longo do tempo (carga acumulada ou estabiliza√ß√£o).

---

### ‚úÖ Comportamentos esperados e considerados ‚Äúbons‚Äù

Um bom desempenho ao n√≠vel dos recursos apresenta as seguintes caracter√≠sticas:

- **Uso est√°vel e moderado da CPU** (idealmente abaixo de 70%, sem grandes flutua√ß√µes);
- **Consumo de RAM controlado**, sem crescimento cont√≠nuo (indicativo de vazamentos de mem√≥ria);
- **Curvas suaves** nos gr√°ficos de evolu√ß√£o, com poucas varia√ß√µes bruscas entre itera√ß√µes;
- Aus√™ncia de **picos isolados** ou comportamento err√°tico ao longo do tempo.

---

### üö© Sinais de alerta

Comportamentos considerados problem√°ticos incluem:

- **Picos s√∫bitos ou irregulares de CPU**, o que pode indicar modelos mal otimizados ou sobrecarga do sistema;
- **Crescimento progressivo da RAM** sem recupera√ß√£o (poss√≠vel memory leak);
- Modelos que, mesmo com ficheiros pequenos, causam **uso elevado e vari√°vel de recursos**, o que prejudica a escalabilidade.

---

### üìå Objetivo da an√°lise

Este tipo de an√°lise √© essencial para avaliar a **viabilidade pr√°tica** de um modelo em ambientes de produ√ß√£o, onde:

- A infraestrutura pode ter limita√ß√µes (ex: edge devices, servidores partilhados);
- A consist√™ncia do uso de recursos √© t√£o importante quanto a precis√£o dos embeddings;
- √â necess√°rio prever o custo computacional √† medida que a base de dados cresce.

---

No gr√°fico gerado com `plotly`, conseguimos observar estas tend√™ncias para cada modelo ao longo da itera√ß√£o dos ficheiros. Idealmente, os modelos mais leves (ex: VGGish, YAMNet) apresentam curvas mais suaves, enquanto modelos mais complexos (ex: CLAP, OpenL3, AST) podem gerar maior variabilidade ‚Äî o que deve ser ponderado na escolha final do modelo.


In [7]:
# üìà Evolu√ß√£o dos recursos (CPU, RAM)
recursos = ['cpu_percent_after', 'ram_percent_after']
for recurso in recursos:
    fig = go.Figure()
    for modelo in df['modelo'].unique():
        subset = df[df['modelo'] == modelo]
        fig.add_trace(go.Scatter(x=subset.index, y=subset[recurso], mode='lines+markers', name=modelo))
    fig.update_layout(title=f'Evolu√ß√£o de {recurso.upper()}', xaxis_title='Index', yaxis_title=recurso)
    fig.show()

## üìà An√°lise da Evolu√ß√£o dos Recursos Computacionais

Nesta sec√ß√£o analisamos a evolu√ß√£o do uso da **CPU** e da **mem√≥ria RAM** ao longo do tempo para cada modelo de embeddings de √°udio. Esta an√°lise √© essencial para entender a **efici√™ncia e estabilidade** dos modelos sob carga cont√≠nua.

---

### üîß CPU ‚Äì `cpu_percent_after`

![Evolu√ß√£o da CPU](attachment:file-X98q35Af81JiktppDzqbPa)

#### üü¶ `wav2vec2`
- Consumo de CPU entre 60% e 75%, com boa estabilidade.
- Oscila√ß√µes pequenas e comportamento relativamente previs√≠vel.
- Considerado eficiente e est√°vel.

#### üü• `vggish`
- Apresenta **picos constantes a 90‚Äì100%**, mas tamb√©m valores a 0%, o que indica **uso intermitente da CPU**.
- Esse padr√£o pode dever-se a espera por I/O ou gargalos no carregamento do modelo.
- Apesar de bom desempenho geral, o comportamento da CPU sugere **flutua√ß√£o intensa**.

#### üü© `openl3`
- Uso de CPU extremamente elevado, pr√≥ximo dos **100% em praticamente todas as itera√ß√µes**.
- Sem varia√ß√µes, mas com **custo computacional m√°ximo**.
- Comportamento esperado para um modelo muito pesado, mas **pouco eficiente**.

#### üü™ `yamnet`
- Consumo moderado entre 20% e 60%, com **oscila√ß√µes suaves**.
- Apresenta comportamento est√°vel e previs√≠vel.
- Um dos mais eficientes em termos de uso de CPU.

#### üüß `clap`
- Varia√ß√µes acentuadas, com CPU entre 0% e 95%.
- Oscila√ß√µes indicam altern√¢ncia entre carga de processamento e espera.
- Padr√£o semelhante ao VGGish, mas com picos mais frequentes.

#### üü¶ `ast`
- Uso cont√≠nuo da CPU, com m√©dia alta (acima de 70%) e flutua√ß√£o mais controlada.
- Est√°vel, mas com custo computacional significativo.

---

### üíæ RAM ‚Äì `ram_percent_after`

![Evolu√ß√£o da RAM](attachment:file-G8S7gsPCsCLvP6FZevbfLi)

#### üü¶ `wav2vec2`
- Consumo entre 81% e 84%, com varia√ß√£o suave.
- Comportamento previs√≠vel e eficiente.

#### üü• `vggish`
- Uso de RAM entre 84% e 86%, relativamente est√°vel.
- Levemente mais exigente que Wav2Vec2.

#### üü© `openl3`
- Maior variabilidade no uso da RAM, oscilando de 78% a 85%.
- Este comportamento pode indicar **inefici√™ncias na gest√£o de mem√≥ria** ou pr√©-processamento mais pesado.
- Prov√°vel aus√™ncia de liberta√ß√£o imediata da mem√≥ria.

#### üü™ `yamnet`
- Uso da RAM crescente ao longo da execu√ß√£o.
- Poss√≠vel **acumula√ß√£o de carga** sem liberta√ß√£o de mem√≥ria entre itera√ß√µes.
- Mesmo assim, ainda aceit√°vel em contextos com boa RAM dispon√≠vel.

#### üüß `clap`
- Consumo est√°vel, mas elevado (~86%), com tend√™ncia ascendente.
- Comportamento consistente com um modelo grande, mas n√£o ca√≥tico.

#### üü¶ `ast`
- Estabilidade razo√°vel no uso da RAM, mas com valores altos (~86%).
- Utiliza√ß√£o elevada, mas sem crescimento cont√≠nuo (o que √© positivo).

---

### ‚úÖ Conclus√µes

| Modelo    | CPU: Est√°vel | CPU: Alta | RAM: Est√°vel | RAM: Uso Elevado | Observa√ß√µes                          |
|-----------|--------------|-----------|---------------|------------------|--------------------------------------|
| VGGish    | ‚ùå           | ‚úÖ        | ‚úÖ            | ‚úÖ               | Uso intermitente, picos de CPU       |
| Wav2Vec2  | ‚úÖ           | ‚ö†Ô∏è        | ‚úÖ            | ‚úÖ               | Est√°vel e eficiente                  |
| OpenL3    | ‚úÖ           | ‚úÖ        | ‚ùå            | ‚úÖ               | Alt√≠ssimo custo de CPU e RAM         |
| YAMNet    | ‚úÖ           | ‚ùå        | ‚ö†Ô∏è            | ‚ö†Ô∏è               | Leve e eficiente, mas RAM crescente  |
| CLAP      | ‚ùå           | ‚úÖ        | ‚úÖ            | ‚úÖ               | Varia√ß√µes intensas, mas previs√≠vel   |
| AST       | ‚úÖ           | ‚úÖ        | ‚úÖ            | ‚úÖ               | Carga constante e alta, mas est√°vel  |

---

### üß† Considera√ß√µes Finais

- **Modelos como YAMNet e Wav2Vec2** mostram o melhor equil√≠brio entre performance e uso de recursos.
- **OpenL3** utiliza consistentemente **quase todos os recursos da m√°quina**, o que o torna **ineficiente para produ√ß√£o**.
- **CLAP e AST** s√£o pesados, mas mant√™m padr√µes est√°veis, o que pode ser aceit√°vel em contextos com infraestrutura robusta.

A escolha ideal depende dos requisitos da aplica√ß√£o:  
‚Üí Para **baixa carga e tempo real**, **YAMNet ou VGGish** s√£o os mais indicados.  
‚Üí Para **an√°lises profundas ou embeddings ricos**, **AST** pode ser preferido ‚Äî desde que haja recurso dispon√≠vel.


# Ranking Modelos

## Explica√ß√£o do Sistema de Ranking dos Modelos de Embeddings
O sistema de ranking implementado no notebook oferece uma vis√£o comparativa detalhada sobre o desempenho dos diferentes modelos de embeddings de √°udio. Vamos explicar o significado dos valores apresentados e como interpret√°-los:

Rankings Individuais por M√©trica:
- Tempo de Extra√ß√£o (s)
Representa quanto tempo cada modelo leva para processar o √°udio e gerar o embedding
Valores menores s√£o melhores (indicam processamento mais r√°pido)
Um modelo com tempo de extra√ß√£o baixo √© ideal para aplica√ß√µes em tempo real ou processamento em lote de grandes cole√ß√µes de √°udio
- Tempo de Inser√ß√£o (s)
Mede quanto tempo leva para armazenar o embedding na base de dados Milvus
Valores menores s√£o melhores
Geralmente menos cr√≠tico que o tempo de extra√ß√£o, mas importante para fluxos de ingest√£o de dados em grande escala
- Pico de Mem√≥ria (MB)
Indica a quantidade m√°xima de mem√≥ria RAM utilizada durante o processamento
Valores menores s√£o melhores (menos recursos consumidos)
Cr√≠tico para ambientes com recursos limitados ou aplica√ß√µes que precisam processar muitos arquivos simultaneamente
- Uso de CPU (%)
Porcentagem de utiliza√ß√£o da CPU durante o processamento
Valores menores s√£o melhores
Modelos com menor uso de CPU deixam mais recursos dispon√≠veis para outras tarefas
- Uso de RAM (%)
Percentual total de mem√≥ria do sistema utilizada
Valores menores s√£o melhores
Diferente do "Pico de Mem√≥ria" que √© espec√≠fico do processo
- Dimensionalidade
Tamanho do vetor de embedding gerado
N√£o √© classificado como "melhor" ou "pior" diretamente

Embeddings maiores (maior dimensionalidade) podem capturar mais informa√ß√µes, mas:
Consomem mais espa√ßo de armazenamento
Podem ser mais lentos para pesquisa
Podem exigir mais recursos computacionais
Ranking Geral
Pontua√ß√£o (0-100)
Representa uma avalia√ß√£o hol√≠stica do desempenho do modelo
Valores maiores s√£o melhores (mais pr√≥ximo de 100 = desempenho ideal)
Calculada usando uma m√©dia ponderada normalizada das m√©tricas principais
Pesos das M√©tricas no Ranking Geral
O ranking geral usa a seguinte distribui√ß√£o de pesos:

Tempo de extra√ß√£o: 35% (mais peso devido √† sua import√¢ncia cr√≠tica)
Pico de mem√≥ria: 25% (segundo mais importante)
Uso de CPU: 20% (impacto moderado)
Tempo de inser√ß√£o: 15% (menos cr√≠tico que a extra√ß√£o)
Uso de RAM total: 5% (menor peso pois depende de outros fatores do sistema)
Processo de Normaliza√ß√£o
Para criar um ranking justo, o sistema:

Normaliza cada m√©trica para uma escala de 0-1 (onde 0 √© o melhor valor)
Aplica os pesos definidos para cada m√©trica
Inverte a escala final para que valores maiores (pr√≥ximos de 100) sejam melhores
Interpreta√ß√£o dos Resultados
Primeiro lugar (ouro): Representa o modelo com melhor equil√≠brio entre velocidade, efici√™ncia de recursos e desempenho
Segundo lugar (prata): Bom desempenho geral, poss√≠vel alternativa ao primeiro colocado
Terceiro lugar (bronze): Desempenho aceit√°vel, pode ser √∫til em cen√°rios espec√≠ficos
Demais posi√ß√µes: Podem ser adequadas para casos de uso espec√≠ficos, dependendo da prioridade (velocidade vs. qualidade vs. recursos)
√â importante notar que o ranking geral oferece uma vis√£o equilibrada, mas a escolha do melhor modelo ainda depende das prioridades espec√≠ficas do seu projeto. Por exemplo, se voc√™ tem restri√ß√µes severas de mem√≥ria, pode preferir um modelo que n√£o est√° no topo do ranking geral, mas que tem excelente desempenho na m√©trica de consumo de mem√≥ria.

In [8]:
# üèÜ Ranking dos modelos por diferentes m√©tricas
def create_ranking_table(df, metric_column, metric_name, lower_is_better=True):
    """
    Cria uma tabela de classifica√ß√£o dos modelos baseada numa m√©trica espec√≠fica.
    
    Args:
        df: DataFrame com os resultados do benchmark
        metric_column: Nome da coluna da m√©trica a ser analisada
        metric_name: Nome amig√°vel da m√©trica para exibi√ß√£o
        lower_is_better: Se True, valores menores s√£o melhores (ex: tempo, mem√≥ria)
    
    Returns:
        DataFrame com o ranking dos modelos
    """
    # Calcular m√©dia e desvio padr√£o para cada modelo
    ranking = df.groupby('modelo')[metric_column].agg(['mean', 'std', 'min', 'max']).reset_index()
    
    # Renomear colunas
    ranking.columns = ['Modelo', f'M√©dia {metric_name}', f'Desvio Padr√£o', f'M√≠nimo', f'M√°ximo']
    
    # Ordenar resultados (crescente se lower_is_better=True, decrescente caso contr√°rio)
    ranking = ranking.sort_values(by=f'M√©dia {metric_name}', ascending=lower_is_better)
    
    # Adicionar coluna de ranking
    ranking.insert(0, 'Posi√ß√£o', range(1, len(ranking) + 1))
    
    return ranking

# Criar rankings para diferentes m√©tricas
try:
    print("üèÜ Rankings dos Modelos de Embeddings de √Åudio")
    
    # Definir as m√©tricas e seus nomes amig√°veis
    metrics = [
        ('tempo_extracao', 'Tempo de Extra√ß√£o (s)', True),
        ('tempo_insercao', 'Tempo de Inser√ß√£o (s)', True),
        ('memoria_peak_mb', 'Pico de Mem√≥ria (MB)', True),
        ('cpu_percent_after', 'Uso de CPU (%)', True),
        ('ram_percent_after', 'Uso de RAM (%)', True),
        ('gpu_usage', 'Uso de GPU (%)', True),
        ('dimensao', 'Dimensionalidade', None)  # None porque n√£o √© melhor nem pior
    ]
    
    # Criar abas para os diferentes rankings
    tab_contents = [m[1] for m in metrics]
    children = []
    
    for metric_col, metric_name, lower_is_better in metrics:
        if metric_col in df.columns:
            # Criar tabela de ranking
            if lower_is_better is None:  # Para dimensionalidade, s√≥ mostramos os valores sem julgar
                ranking = df.groupby('modelo')[metric_col].first().reset_index()
                ranking.columns = ['Modelo', metric_name]
                ranking = ranking.sort_values(by=metric_name)
                ranking.insert(0, 'Posi√ß√£o', range(1, len(ranking) + 1))
            else:
                ranking = create_ranking_table(df, metric_col, metric_name, lower_is_better)
            
            # Criar visualiza√ß√£o de tabela colorida com Plotly
            fig = go.Figure(data=[go.Table(
                header=dict(
                    values=list(ranking.columns),
                    fill_color='royalblue',
                    font=dict(color='white', size=12),
                    align='left'
                ),
                cells=dict(
                    values=[ranking[col] for col in ranking.columns],
                    fill_color=[['lightcyan' if i % 2 == 0 else 'white' for i in range(len(ranking))]],
                    align='left',
                    font_size=11,
                    height=25
                )
            )])
            
            fig.update_layout(
                title=f"Ranking por {metric_name}",
                height=400,
                margin=dict(l=20, r=20, t=40, b=20)
            )
            
            # Adicionar √† aba
            out = widgets.Output()
            with out:
                display(fig)
            children.append(out)
        else:
            # Se a m√©trica n√£o existe, mostrar mensagem
            out = widgets.Output()
            with out:
                print(f"‚ö†Ô∏è M√©trica '{metric_name}' n√£o dispon√≠vel nos dados do benchmark.")
            children.append(out)
    
    # Criar widget de abas para os rankings
    ranking_tab = widgets.Tab(children=children)
    for i in range(len(tab_contents)):
        ranking_tab.set_title(i, tab_contents[i])
    
    # Mostrar widget
    display(ranking_tab)
    
    # Criar um ranking geral (m√©dia ponderada das principais m√©tricas)
    print("\nüèÜ Ranking Geral dos Modelos")
    
    # Definir pesos para as m√©tricas principais (ajuste conforme necessidade do projeto)
    weights = {
        'tempo_extracao': 0.35,  # Tempo de extra√ß√£o √© muito importante
        'memoria_peak_mb': 0.25,  # Uso de mem√≥ria √© importante
        'cpu_percent_after': 0.20,  # Uso de CPU tem peso m√©dio
        'tempo_insercao': 0.15,  # Tempo de inser√ß√£o √© menos importante
        'ram_percent_after': 0.05  # RAM total tem menos peso
    }
    
    # Verificar quais m√©tricas est√£o dispon√≠veis
    available_metrics = [m for m in weights.keys() if m in df.columns]
    
    if len(available_metrics) >= 3:  # Exigir pelo menos 3 m√©tricas para um ranking geral adequado
        # Normalizar os pesos para as m√©tricas dispon√≠veis
        total_weight = sum(weights[m] for m in available_metrics)
        normalized_weights = {m: weights[m]/total_weight for m in available_metrics}
        
        # Calcular m√©dias para cada modelo e m√©trica
        model_metrics = {}
        for model in df['modelo'].unique():
            model_data = df[df['modelo'] == model]
            model_metrics[model] = {}
            
            for metric in available_metrics:
                model_metrics[model][metric] = model_data[metric].mean()
        
        # Normalizar valores entre 0-1 (onde 0 √© melhor, 1 √© pior)
        normalized_metrics = {}
        for metric in available_metrics:
            min_val = min(model_metrics[m][metric] for m in model_metrics)
            max_val = max(model_metrics[m][metric] for m in model_metrics)
            range_val = max_val - min_val
            
            if range_val > 0:  # Evitar divis√£o por zero
                for model in model_metrics:
                    if metric not in normalized_metrics:
                        normalized_metrics[metric] = {}
                    normalized_metrics[metric][model] = (model_metrics[model][metric] - min_val) / range_val
            else:
                # Se todos os valores forem iguais, atribuir 0.5 (neutro)
                for model in model_metrics:
                    if metric not in normalized_metrics:
                        normalized_metrics[metric] = {}
                    normalized_metrics[metric][model] = 0.5
        
        # Calcular pontua√ß√£o final (ponderada)
        final_scores = {}
        for model in model_metrics:
            score = 0
            for metric in available_metrics:
                score += normalized_metrics[metric][model] * normalized_weights[metric]
            final_scores[model] = score
        
        # Criar DataFrame com ranking final
        final_ranking = pd.DataFrame({
            'Modelo': list(final_scores.keys()),
            'Pontua√ß√£o Final': list(final_scores.values())
        })
        
        # Calcular pontua√ß√£o de 0-100 (inverter para que maior seja melhor)
        final_ranking['Pontua√ß√£o (0-100)'] = 100 * (1 - final_ranking['Pontua√ß√£o Final'])
        
        # Ordenar por pontua√ß√£o (maior √© melhor)
        final_ranking = final_ranking.sort_values('Pontua√ß√£o (0-100)', ascending=False)
        final_ranking.insert(0, 'Posi√ß√£o', range(1, len(final_ranking) + 1))
        
        # Criar visualiza√ß√£o de tabela colorida para o ranking final
        fig = go.Figure(data=[go.Table(
            header=dict(
                values=['Posi√ß√£o', 'Modelo', 'Pontua√ß√£o (0-100)'],
                fill_color='darkblue',
                font=dict(color='white', size=14),
                align='center'
            ),
            cells=dict(
                values=[
                    final_ranking['Posi√ß√£o'],
                    final_ranking['Modelo'],
                    final_ranking['Pontua√ß√£o (0-100)'].round(2)
                ],
                fill_color=[
                    ['gold' if pos == 1 else 'silver' if pos == 2 else 'lightcoral' if pos == 3 
                     else 'white' for pos in final_ranking['Posi√ß√£o']]
                ],
                align='center',
                font_size=13,
                height=30
            )
        )])
        
        fig.update_layout(
            title="üèÜ Ranking Geral dos Modelos de Embeddings de √Åudio",
            height=400,
            margin=dict(l=20, r=20, t=50, b=20)
        )
        
        display(fig)
        
        # Criar gr√°fico de barras para o ranking final
        bar_fig = px.bar(
            final_ranking, 
            x='Modelo', 
            y='Pontua√ß√£o (0-100)', 
            title='Compara√ß√£o Geral dos Modelos', 
            color='Pontua√ß√£o (0-100)',
            color_continuous_scale=px.colors.sequential.Viridis,
            text='Pontua√ß√£o (0-100)'
        )
        
        bar_fig.update_traces(texttemplate='%{text:.1f}', textposition='outside')
        bar_fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
        
        display(bar_fig)
        
    else:
        print("‚ö†Ô∏è Dados insuficientes para gerar um ranking geral significativo.")

except Exception as e:
    import traceback
    print(f"‚ùå Erro ao gerar ranking dos modelos: {e}")
    traceback.print_exc()

üèÜ Rankings dos Modelos de Embeddings de √Åudio


Tab(children=(Output(), Output(), Output(), Output(), Output(), Output(), Output()), selected_index=0, titles=‚Ä¶


üèÜ Ranking Geral dos Modelos


## üèÅ Conclus√£o Final: Por que o YAMNet foi o modelo vencedor

A escolha do **YAMNet** como o modelo com melhor desempenho geral neste benchmark justifica-se por um equil√≠brio not√°vel entre **efici√™ncia, estabilidade e qualidade t√©cnica**, tendo em conta os seguintes fatores:

---

### ‚úÖ 1. Desempenho t√©cnico consistente
- **Tempos de extra√ß√£o e inser√ß√£o baixos**, tornando-o adequado para cen√°rios em tempo real.
- Apresentou **boa estabilidade nos boxplots**, com dispers√£o controlada e poucos outliers.
- Embora n√£o tenha sido o mais r√°pido em todas as m√©tricas, demonstrou **regularidade superior** aos demais.

---

### üíæ 2. Uso eficiente dos recursos
- **Baixo uso de CPU**, mantendo-se geralmente entre os 20% e 60%, o que demonstra efici√™ncia energ√©tica.
- Apesar de uma **ligera tend√™ncia de crescimento no uso da RAM**, manteve-se dentro de limites aceit√°veis e n√£o indicou vazamentos de mem√≥ria graves.
- Comportamento previs√≠vel e controlado mesmo em execu√ß√£o prolongada.

---

### ‚öñÔ∏è 3. Excelente rela√ß√£o performance/custo
- Comparado com modelos mais pesados como **CLAP** ou **AST**, o YAMNet oferece um **√≥timo compromisso entre qualidade de embedding e custo computacional**.
- Produz embeddings ricos (1024 dimens√µes) com **menos impacto nos recursos do sistema**.

---

### üìà 4. Elevada pontua√ß√£o no ranking final
- Alcan√ßou a **pontua√ß√£o mais alta (97.96/100)** no ranking geral, que agregou m√∫ltiplas m√©tricas de desempenho, consumo e escalabilidade.
- Superou inclusive modelos como o **VGGish** (mais leve) e o **CLAP** (mais sem√¢ntico), mostrando-se mais robusto no conjunto.

---

### üß† 5. Adequa√ß√£o pr√°tica e versatilidade
- √â um modelo pronto para tarefas de classifica√ß√£o e similaridade sonora, treinado em larga escala com o **AudioSet**.
- Integra-se facilmente em pipelines de pr√©-processamento com frameworks como TensorFlow Hub.
- Ideal para **bases de dados vetoriais** onde se busca bom desempenho com escalabilidade.

---

### ü•á Conclus√£o

> O **YAMNet** foi escolhido como o melhor modelo de embeddings de √°udio neste benchmark n√£o por ser o mais r√°pido ou o mais leve, mas por oferecer **a melhor performance global**: est√°vel, eficiente e com baixo custo computacional ‚Äî uma escolha segura e vers√°til para aplica√ß√µes reais.


## üìà An√°lise de Escalabilidade dos Modelos

A escalabilidade √© um dos fatores mais importantes ao escolher um modelo de embeddings para grandes bases de dados. Um modelo eficiente n√£o deve apenas ter bom desempenho em cen√°rios pequenos, mas tamb√©m **manter a sua efici√™ncia relativa √† medida que o volume de dados cresce**.

---

### üîç Como foi feita a an√°lise

Foram realizados **v√°rios benchmarks independentes**, variando o n√∫mero de ficheiros processados:  
`[5, 25, 50, 100, 250]`

Para cada uma destas escalas, foram medidos os seguintes indicadores:

- **Tempo m√©dio de extra√ß√£o de embeddings**;
- **Tempo m√©dio de inser√ß√£o no Milvus**;
- **Pico m√©dio de uso de mem√≥ria (RAM)**;
- **Uso m√©dio de CPU (%)**;
- **Ranking geral baseado em desempenho e efici√™ncia combinados**.

---

### üß™ Estrat√©gia utilizada

1. **Carregamento autom√°tico dos benchmarks**: os dados foram estruturados para serem facilmente carregados e analisados por escala.
2. **Visualiza√ß√µes interativas**: foram criados gr√°ficos comparativos para observar o comportamento de cada modelo com o aumento do n√∫mero de ficheiros.
3. **C√°lculo da tend√™ncia de crescimento (slope)**: foi estimada a **taxa de crescimento do tempo de extra√ß√£o** para cada modelo, indicando se ele cresce linear, exponencial ou de forma controlada com o volume de dados.
4. **Estabilidade de ranking**: foi analisada a **posi√ß√£o relativa dos modelos em diferentes tamanhos de benchmark**, com um heatmap mostrando quais modelos mant√™m performance consistente.

---

### ‚úÖ Comportamento esperado para um modelo escal√°vel

Um modelo considerado **escal√°vel** deve:

- Ter uma **taxa de crescimento baixa** na extra√ß√£o de embeddings;
- Manter **uso de CPU e RAM est√°veis** mesmo com mais ficheiros;
- Preservar uma posi√ß√£o elevada no ranking √† medida que o volume aumenta;
- N√£o degradar significativamente o tempo de inser√ß√£o ou processamento.

---

### üìä Ferramentas utilizadas

- **Gr√°ficos de linha**: mostram como cada m√©trica varia com o n√∫mero de ficheiros.
- **Tabelas interativas e heatmaps**: revelam como os rankings se alteram com a escala.
- **C√°lculo de slope (taxa de crescimento)**: estima qual modelo √© mais sens√≠vel ao aumento de dados.

---

### üèÅ Conclus√£o da an√°lise de escalabilidade

Esta abordagem permite identificar **quais modelos s√£o apropriados para ambientes de produ√ß√£o com crescimento cont√≠nuo de dados**, ajudando a:

- Antecipar problemas de performance em larga escala;
- Escolher modelos que se comportem bem tanto em fase de prototipagem quanto em produ√ß√£o;
- Tomar decis√µes baseadas n√£o apenas no desempenho atual, mas tamb√©m na **proje√ß√£o futura do custo computacional**.

> ‚ö†Ô∏è Mesmo modelos r√°pidos com poucos ficheiros podem tornar-se **ineficientes ou invi√°veis** se n√£o escalarem bem. Esta an√°lise garante que essa escolha √© feita de forma informada.


In [9]:
# üìä Compara√ß√£o de benchmarks com diferentes quantidades de ficheiros
from IPython.display import display, clear_output

def carregar_multiplos_benchmarks():
    """Carrega todos os benchmarks dispon√≠veis em uma estrutura unificada"""
    tamanhos = [5, 25, 50, 100, 250]
    dataframes = {}
    
    for tamanho in tamanhos:
        try:
            caminho = f'benchmarks/benchmark_{tamanho}/resultados_benchmark.csv'
            df = pd.read_csv(caminho)
            df['embedding'] = df['embedding'].apply(ast.literal_eval)
            df['tamanho_benchmark'] = tamanho  # Adiciona coluna identificando o tamanho
            dataframes[tamanho] = df
            print(f"‚úÖ Benchmark com {tamanho} ficheiros carregado: {len(df)} registros")
        except FileNotFoundError:
            print(f"‚ö†Ô∏è Benchmark com {tamanho} ficheiros n√£o encontrado")
        except Exception as e:
            print(f"‚ùå Erro ao carregar benchmark com {tamanho} ficheiros: {e}")
    
    return dataframes

# Fun√ß√£o para exibir visualiza√ß√µes de um benchmark espec√≠fico
def display_benchmark(df):
    """Exibe visualiza√ß√µes para um benchmark espec√≠fico"""
    if df is None or df.empty:
        print("Sem dados para exibir")
        return
    
    # Limpar sa√≠da anterior
    clear_output(wait=True)
    
    # Mostrar informa√ß√µes b√°sicas
    print(f"## Benchmark com {df['tamanho_benchmark'].iloc[0]} ficheiros")
    print(f"- Total de registros: {len(df)}")
    print(f"- Modelos dispon√≠veis: {', '.join(df['modelo'].unique())}")
    
    # Visualiza√ß√µes principais
    fig1 = px.bar(df, x='modelo', y='tempo_extracao', color='modelo', 
                 title=f'Tempo de Extra√ß√£o por Modelo (Base: {df["tamanho_benchmark"].iloc[0]} ficheiros)')
    fig2 = px.bar(df, x='modelo', y='tempo_insercao', color='modelo', 
                 title=f'Tempo de Inser√ß√£o por Modelo (Base: {df["tamanho_benchmark"].iloc[0]} ficheiros)')
    
    display(fig1)
    display(fig2)
    
    # Mostrar estat√≠sticas
    stats = df.groupby('modelo')[['tempo_extracao', 'tempo_insercao']].agg(['mean', 'std']).reset_index()
    display(stats)

# Carregar todos os benchmarks
benchmarks = carregar_multiplos_benchmarks()

# Interface para sele√ß√£o do benchmark a visualizar
tamanhos_disponiveis = list(benchmarks.keys())
if tamanhos_disponiveis:
    # Definir a fun√ß√£o de atualiza√ß√£o de visualiza√ß√£o
    def atualizar_visualizacao(change):
        tamanho_selecionado = change['new']
        if tamanho_selecionado in benchmarks:
            display_benchmark(benchmarks[tamanho_selecionado])
    
    # Criar o seletor
    selector = widgets.Dropdown(
        options=tamanhos_disponiveis,
        description='Benchmark:',
        value=tamanhos_disponiveis[0]
    )
    
    selector.observe(atualizar_visualizacao, names='value')
    display(selector)
    
    # Mostrar o benchmark inicial
    display_benchmark(benchmarks[tamanhos_disponiveis[0]])
else:
    print("Nenhum benchmark encontrado.")

# An√°lise de escalabilidade
if len(benchmarks) >= 2:
    print("\n# An√°lise de Escalabilidade")
    print("Observe como cada modelo se comporta com o aumento do n√∫mero de ficheiros:")
    
    # 1. Gr√°fico de evolu√ß√£o de tempo de extra√ß√£o com o aumento do n√∫mero de arquivos
    metricas_escalabilidade = [
        ('tempo_extracao', 'Tempo M√©dio de Extra√ß√£o (s)'),
        ('tempo_insercao', 'Tempo M√©dio de Inser√ß√£o (s)'),
        ('memoria_peak_mb', 'Pico M√©dio de Mem√≥ria (MB)'),
        ('cpu_percent_after', 'Uso M√©dio de CPU (%)')
    ]
    
    tab_contents_escala = [m[1] for m in metricas_escalabilidade]
    children_escala = []
    
    for metrica, titulo in metricas_escalabilidade:
        # Criar figura
        fig_escala = go.Figure()
        
        # Verificar se a m√©trica existe em pelo menos um dataframe
        if not any(metrica in df.columns for df in benchmarks.values()):
            out = widgets.Output()
            with out:
                print(f"M√©trica '{titulo}' n√£o dispon√≠vel nos dados")
            children_escala.append(out)
            continue
        
        # Para cada modelo, coletar dados de todos os benchmarks
        all_models = set()
        for df in benchmarks.values():
            if not df.empty:
                all_models.update(df['modelo'].unique())
        
        for modelo in all_models:
            x_vals = []  # Tamanhos dos benchmarks
            y_vals = []  # Valores m√©dios da m√©trica
            
            for tamanho, df in benchmarks.items():
                if not df.empty and modelo in df['modelo'].unique() and metrica in df.columns:
                    x_vals.append(tamanho)
                    y_vals.append(df[df['modelo'] == modelo][metrica].mean())
            
            # Ordenar por tamanho (para garantir que a linha seja tra√ßada corretamente)
            pontos = sorted(zip(x_vals, y_vals))
            if pontos:
                x_vals, y_vals = zip(*pontos)
                fig_escala.add_trace(go.Scatter(
                    x=x_vals, 
                    y=y_vals, 
                    mode='lines+markers', 
                    name=modelo
                ))
        
        fig_escala.update_layout(
            title=f'Escalabilidade: {titulo} por Tamanho da Base',
            xaxis_title='N√∫mero de Ficheiros',
            yaxis_title=titulo,
            hovermode='closest'
        )
        
        # Adicionar √† aba
        out = widgets.Output()
        with out:
            display(fig_escala)
        children_escala.append(out)
    
    # Criar widget de abas para os gr√°ficos de escalabilidade
    escalabilidade_tab = widgets.Tab(children=children_escala)
    for i in range(len(tab_contents_escala)):
        escalabilidade_tab.set_title(i, tab_contents_escala[i])
    
    display(escalabilidade_tab)
    
    # 2. Compara√ß√£o de rankings entre benchmarks
    print("\n## Evolu√ß√£o dos Rankings com a Escala")
    
    # Extrair rankings para cada tamanho
    rankings_por_tamanho = {}
    for tamanho, df in benchmarks.items():
        if not df.empty:
            # Usar algoritmo de ranking simplificado
            rankings = {}
            for modelo in df['modelo'].unique():
                # C√°lculo do ranking (simplificado)
                metricas = {
                    'tempo_extracao': df[df['modelo'] == modelo]['tempo_extracao'].mean(),
                    'memoria_peak_mb': df[df['modelo'] == modelo]['memoria_peak_mb'].mean() if 'memoria_peak_mb' in df.columns else None,
                    'cpu_percent_after': df[df['modelo'] == modelo]['cpu_percent_after'].mean() if 'cpu_percent_after' in df.columns else None,
                    'tempo_insercao': df[df['modelo'] == modelo]['tempo_insercao'].mean() if 'tempo_insercao' in df.columns else None
                }
                # Pontua√ß√£o simples (quanto menor, melhor)
                pontuacao = sum(v for v in metricas.values() if v is not None) 
                rankings[modelo] = pontuacao
            
            # Ordenar do melhor para o pior
            rankings_ordenados = {k: v for k, v in sorted(rankings.items(), key=lambda item: item[1])}
            rankings_por_tamanho[tamanho] = rankings_ordenados
    
    # Visualizar como os rankings mudam
    # Visualizar como os rankings mudam
if rankings_por_tamanho:
    # Criar tabela de evolu√ß√£o de posi√ß√µes
    modelos = set()
    for r in rankings_por_tamanho.values():
        modelos.update(r.keys())
    
    # Convert set to list for pandas DataFrame index
    modelos = sorted(list(modelos))
    
    tabela_posicoes = pd.DataFrame(index=modelos)
    
    for tamanho, ranking in sorted(rankings_por_tamanho.items()):
        # Converte o ranking em posi√ß√µes (1¬∫, 2¬∫, 3¬∫...)
        posicoes = {modelo: pos+1 for pos, modelo in enumerate(ranking.keys())}
        tabela_posicoes[f'{tamanho} ficheiros'] = pd.Series(posicoes)
        
        # Mostrar tabela colorida
        fig_ranking = go.Figure(data=[go.Table(
            header=dict(
                values=['Modelo'] + [f'{t} ficheiros' for t in sorted(rankings_por_tamanho.keys())],
                fill_color='royalblue',
                font=dict(color='white', size=12),
                align='center'
            ),
            cells=dict(
                values=[tabela_posicoes.index] + [tabela_posicoes[col] for col in tabela_posicoes.columns],
                fill_color='lightcyan',
                align='center'
            )
        )])
        
        fig_ranking.update_layout(
            title="Evolu√ß√£o das Posi√ß√µes no Ranking por Escala",
            height=400,
            margin=dict(l=20, r=20, t=50, b=20)
        )
        
        display(fig_ranking)
        
        # Heatmap de estabilidade do ranking
        heatmap_data = tabela_posicoes.copy()
        
        # Normalizar valores para visualiza√ß√£o (posi√ß√£o 1 = melhor = 1.0, posi√ß√µes piores = valores menores)
        for col in heatmap_data.columns:
            max_pos = heatmap_data[col].max()
            if pd.notna(max_pos) and max_pos > 1:
                heatmap_data[col] = 1 - (heatmap_data[col] - 1) / max_pos
        
        fig_heatmap = px.imshow(
            heatmap_data,
            labels=dict(x="Tamanho do Benchmark", y="Modelo", color="Posi√ß√£o Relativa"),
            x=heatmap_data.columns,
            y=heatmap_data.index,
            color_continuous_scale='viridis',
            title="Estabilidade dos Rankings com Escala"
        )
        
        display(fig_heatmap)
        
        # An√°lise de efici√™ncia com escala
        print("\n## Efici√™ncia com Escala")
        print("Esta an√°lise mostra quais modelos mant√™m bom desempenho mesmo com grandes volumes de dados:")
        
        # Calcular a tend√™ncia de cada modelo em tempo de extra√ß√£o com aumento da escala
        slopes = {}
        for modelo in modelos:
            x_vals = []
            y_vals = []
            for tamanho, df in benchmarks.items():
                if not df.empty and modelo in df['modelo'].unique() and 'tempo_extracao' in df.columns:
                    x_vals.append(tamanho)
                    y_vals.append(df[df['modelo'] == modelo]['tempo_extracao'].mean())
            
            if len(x_vals) >= 2:
                # Calcular tend√™ncia (aproxima√ß√£o simples)
                if max(x_vals) > min(x_vals):
                    slope = (max(y_vals) - min(y_vals)) / (max(x_vals) - min(x_vals))
                    slopes[modelo] = slope
        
        if slopes:
            slopes_df = pd.DataFrame({
                'Modelo': list(slopes.keys()),
                'Taxa de Crescimento': list(slopes.values())
            })
            
            slopes_df = slopes_df.sort_values('Taxa de Crescimento')
            
            fig_slopes = px.bar(
                slopes_df, 
                x='Modelo', 
                y='Taxa de Crescimento',
                title='Taxa de Crescimento do Tempo com Aumento da Base',
                color='Taxa de Crescimento',
                color_continuous_scale='RdYlGn_r'  # Vermelho = pior, Verde = melhor
            )
            
            display(fig_slopes)
            
            print("\nModelos com menor taxa de crescimento s√£o mais escal√°veis, pois seu tempo de processamento")
            print("aumenta mais lentamente com o crescimento do volume de dados.")
            
            # Adicionar interpreta√ß√£o dos resultados
            melhor_modelo = slopes_df.iloc[0]['Modelo']
            pior_modelo = slopes_df.iloc[-1]['Modelo']
            
            print(f"\n### Interpreta√ß√£o dos Resultados de Escalabilidade")
            print(f"- **{melhor_modelo}** demonstra a melhor escalabilidade, com menor taxa de crescimento de tempo.")
            print(f"- **{pior_modelo}** apresenta a escalabilidade mais desafiadora, com maior aumento de tempo conforme o volume de dados cresce.")
            print("\nEscolha o modelo considerando n√£o apenas o desempenho atual, mas tamb√©m a proje√ß√£o futura do volume de dados.")

## Benchmark com 5 ficheiros
- Total de registros: 30
- Modelos dispon√≠veis: wav2vec2, vggish, openl3, yamnet, clap, ast


Unnamed: 0_level_0,modelo,tempo_extracao,tempo_extracao,tempo_insercao,tempo_insercao
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,mean,std
0,ast,0.83865,0.332128,0.158832,0.129398
1,clap,0.229738,0.202934,0.053357,0.012093
2,openl3,27.741236,2.404783,0.082798,0.04313
3,vggish,0.28577,0.154726,0.048521,0.019274
4,wav2vec2,1.871834,0.884459,0.184742,0.243238
5,yamnet,0.150472,0.124131,0.044936,0.005034



# An√°lise de Escalabilidade
Observe como cada modelo se comporta com o aumento do n√∫mero de ficheiros:


Tab(children=(Output(), Output(), Output(), Output()), selected_index=0, titles=('Tempo M√©dio de Extra√ß√£o (s)'‚Ä¶


## Evolu√ß√£o dos Rankings com a Escala



## Efici√™ncia com Escala
Esta an√°lise mostra quais modelos mant√™m bom desempenho mesmo com grandes volumes de dados:



Modelos com menor taxa de crescimento s√£o mais escal√°veis, pois seu tempo de processamento
aumenta mais lentamente com o crescimento do volume de dados.

### Interpreta√ß√£o dos Resultados de Escalabilidade
- **vggish** demonstra a melhor escalabilidade, com menor taxa de crescimento de tempo.
- **openl3** apresenta a escalabilidade mais desafiadora, com maior aumento de tempo conforme o volume de dados cresce.

Escolha o modelo considerando n√£o apenas o desempenho atual, mas tamb√©m a proje√ß√£o futura do volume de dados.



## Efici√™ncia com Escala
Esta an√°lise mostra quais modelos mant√™m bom desempenho mesmo com grandes volumes de dados:



Modelos com menor taxa de crescimento s√£o mais escal√°veis, pois seu tempo de processamento
aumenta mais lentamente com o crescimento do volume de dados.

### Interpreta√ß√£o dos Resultados de Escalabilidade
- **vggish** demonstra a melhor escalabilidade, com menor taxa de crescimento de tempo.
- **openl3** apresenta a escalabilidade mais desafiadora, com maior aumento de tempo conforme o volume de dados cresce.

Escolha o modelo considerando n√£o apenas o desempenho atual, mas tamb√©m a proje√ß√£o futura do volume de dados.



## Efici√™ncia com Escala
Esta an√°lise mostra quais modelos mant√™m bom desempenho mesmo com grandes volumes de dados:



Modelos com menor taxa de crescimento s√£o mais escal√°veis, pois seu tempo de processamento
aumenta mais lentamente com o crescimento do volume de dados.

### Interpreta√ß√£o dos Resultados de Escalabilidade
- **vggish** demonstra a melhor escalabilidade, com menor taxa de crescimento de tempo.
- **openl3** apresenta a escalabilidade mais desafiadora, com maior aumento de tempo conforme o volume de dados cresce.

Escolha o modelo considerando n√£o apenas o desempenho atual, mas tamb√©m a proje√ß√£o futura do volume de dados.



## Efici√™ncia com Escala
Esta an√°lise mostra quais modelos mant√™m bom desempenho mesmo com grandes volumes de dados:



Modelos com menor taxa de crescimento s√£o mais escal√°veis, pois seu tempo de processamento
aumenta mais lentamente com o crescimento do volume de dados.

### Interpreta√ß√£o dos Resultados de Escalabilidade
- **vggish** demonstra a melhor escalabilidade, com menor taxa de crescimento de tempo.
- **openl3** apresenta a escalabilidade mais desafiadora, com maior aumento de tempo conforme o volume de dados cresce.

Escolha o modelo considerando n√£o apenas o desempenho atual, mas tamb√©m a proje√ß√£o futura do volume de dados.



## Efici√™ncia com Escala
Esta an√°lise mostra quais modelos mant√™m bom desempenho mesmo com grandes volumes de dados:



Modelos com menor taxa de crescimento s√£o mais escal√°veis, pois seu tempo de processamento
aumenta mais lentamente com o crescimento do volume de dados.

### Interpreta√ß√£o dos Resultados de Escalabilidade
- **vggish** demonstra a melhor escalabilidade, com menor taxa de crescimento de tempo.
- **openl3** apresenta a escalabilidade mais desafiadora, com maior aumento de tempo conforme o volume de dados cresce.

Escolha o modelo considerando n√£o apenas o desempenho atual, mas tamb√©m a proje√ß√£o futura do volume de dados.


Benef√≠cios desta Abordagem
An√°lise de Escalabilidade: Mostra como cada modelo se comporta √† medida que o n√∫mero de arquivos aumenta

Evolu√ß√£o dos Rankings: Permite ver se os modelos que s√£o melhores em conjuntos pequenos mant√™m sua posi√ß√£o com conjuntos maiores

Estabilidade de Desempenho: O heatmap visualiza quais modelos s√£o mais consistentes em diferentes escalas

An√°lise de Efici√™ncia: Identifica quais modelos t√™m melhor "crescimento" de tempo/recursos, indicando escalabilidade

Interface Interativa: Permite alternar facilmente entre diferentes tamanhos de benchmark

Interpreta√ß√£o dos Resultados
Taxa de Crescimento: Modelos com menor taxa indicam melhor escalabilidade
Estabilidade do Ranking: Modelos que mant√™m cores consistentes no heatmap s√£o mais previs√≠veis em diferentes escalas
Evolu√ß√£o das M√©tricas: Os gr√°ficos de linha mostram se o crescimento √© linear, exponencial ou irregular
Esta an√°lise permitir√° determinar qual modelo √© mais adequado n√£o apenas para o tamanho atual da sua base, mas tamb√©m para o crescimento futuro, facilitando decis√µes estrat√©gicas sobre qual embedding adotar em produ√ß√£o.

## üìà An√°lise de Escalabilidade dos Modelos

Com base nas imagens dos gr√°ficos de escalabilidade, realizamos uma an√°lise detalhada do comportamento dos modelos face ao aumento do n√∫mero de ficheiros (5, 25, 50, 100, 250). As principais m√©tricas observadas foram: tempo m√©dio de extra√ß√£o, tempo m√©dio de inser√ß√£o, pico m√©dio de mem√≥ria e uso m√©dio de CPU.

---

### üîπ 1. Tempo M√©dio de Extra√ß√£o

- **openl3** apresenta claramente o pior desempenho nesta m√©trica, com tempo m√©dio de extra√ß√£o que cresce significativamente com o n√∫mero de ficheiros, atingindo mais de 45 segundos com 250 ficheiros.
- Todos os outros modelos mant√™m tempos baixos e relativamente est√°veis, com destaque para **yamnet**, que se mant√©m consistentemente abaixo de 1 segundo.
- **Conclus√£o**: *yamnet* e *vggish* demonstram excelente escalabilidade nesta m√©trica.

---

### üîπ 2. Tempo M√©dio de Inser√ß√£o

- A maior parte dos modelos tem curvas suaves e est√°veis, com tempos de inser√ß√£o abaixo de 0.2s.
- **openl3** volta a destacar-se negativamente, com um aumento not√°vel √† medida que a base cresce.
- **clap** e **yamnet** mant√™m tempos de inser√ß√£o baixos e consistentes ‚Äî ideal para bases vetoriais din√¢micas.

---

### üîπ 3. Pico M√©dio de Mem√≥ria RAM

- Todos os modelos mostram comportamento muito est√°vel em termos de uso de mem√≥ria, independentemente da escala.
- Mesmo **openl3**, que teve mau desempenho noutras m√©tricas, mant√©m uso de RAM relativamente constante.
- **yamnet** apresenta um dos menores picos m√©dios de mem√≥ria, o que refor√ßa sua efici√™ncia.

---

### üîπ 4. Uso M√©dio de CPU

- **openl3** mant√©m o uso de CPU consistentemente elevado (acima dos 90%), sugerindo uma alta carga de processamento.
- **yamnet**, por contraste, opera com uso de CPU bastante baixo e est√°vel (~25%), o que √© altamente desej√°vel em ambientes de produ√ß√£o.
- **clap** e **ast** apresentam varia√ß√µes suaves, indicando bom controlo da carga mesmo com bases maiores.

---

### üß† Padr√µes Observados

| Modelo     | Tempo Extra√ß√£o | Inser√ß√£o | RAM | CPU | Escalabilidade Geral |
|------------|----------------|----------|-----|-----|------------------------|
| **yamnet** | Excelente       | Muito boa | Baixa | Baix√≠ssima | ‚≠ê Melhor |
| clap       | Boa            | Boa       | Baixa | Moderada | Boa |
| vggish     | Boa            | Excelente | Baixa | Alta     | Boa |
| wav2vec2   | M√©dia          | M√©dia     | Baixa | Alta     | Razo√°vel |
| ast        | M√©dia          | M√©dia     | Baixa | M√©dia    | Razo√°vel |
| **openl3** | Fraca          | Fraca     | Constante mas alta | Alt√≠ssima | ‚ùå Fraca |

---

### ‚úÖ Conclus√£o

A partir da an√°lise de escalabilidade:

- **Yamnet** √© o modelo com melhor comportamento geral. Combina baixo tempo de extra√ß√£o, baixo uso de CPU, baixo uso de mem√≥ria e boa estabilidade com o aumento do volume de dados.
- **Openl3** mostra-se ineficiente e pouco escal√°vel: √© o √∫nico modelo que degrada visivelmente com a escala, sendo o menos recomendado.
- Outros modelos como **clap** e **vggish** apresentam desempenho s√≥lido, mas com maiores exig√™ncias de CPU ou menos estabilidade com crescimento da base.

> Esta an√°lise refor√ßa a import√¢ncia de n√£o apenas olhar para a performance bruta de um modelo, mas sim para o seu comportamento em larga escala ‚Äî fundamental em aplica√ß√µes reais com milhares de ficheiros de √°udio.


### Visualiza√ß√£o dos Embeddings no Espa√ßo

Para melhor compreender como os diferentes ficheiros de √°udio s√£o representados no espa√ßo vetorial por cada modelo, utiliz√°mos uma t√©cnica de redu√ß√£o de dimensionalidade chamada **t-SNE (t-Distributed Stochastic Neighbor Embedding)**. Esta t√©cnica permite transformar os embeddings de alta dimens√£o (por exemplo, 768 ou 1024 dimens√µes) em dois eixos principais, possibilitando a visualiza√ß√£o num gr√°fico 2D.

---

#### üß† O que significa a visualiza√ß√£o?

- **Pontos pr√≥ximos** no gr√°fico indicam que os ficheiros de √°udio correspondentes geraram embeddings semelhantes.
  - Isto pode significar que o modelo est√° a conseguir **captar padr√µes semelhantes** entre √°udios que partilham caracter√≠sticas comuns (por exemplo, o mesmo g√©nero musical, tipo de voz ou ambiente).
  
- **Pontos afastados** indicam que os ficheiros foram considerados diferentes pelo modelo, ou seja, os seus embeddings t√™m **baixa similaridade**.
  - Isso √© esperado entre ficheiros com conte√∫do muito distinto (ex: m√∫sica vs. fala).

---

#### üîç Como foi feito?

```python
modelo_tsne = 'wav2vec2'
subset = df[df['modelo'] == modelo_tsne]


In [10]:
# üß† Visualiza√ß√£o t-SNE com valida√ß√£o
modelo_tsne = 'wav2vec2'
subset = df[df['modelo'] == modelo_tsne]
if len(subset) >= 2:
    try:
        emb = np.stack(subset['embedding'].values)
        tsne = TSNE(n_components=2, random_state=42, perplexity=min(30, len(emb)-1))
        emb_2d = tsne.fit_transform(emb)
        fig = px.scatter(x=emb_2d[:,0], y=emb_2d[:,1], text=subset['ficheiro'], title=f't-SNE ({modelo_tsne})')
        fig.show()
    except Exception as e:
        print(f'Erro no t-SNE: {e}')
else:
    print('Dados insuficientes para gerar t-SNE.')

### 9Ô∏è‚É£ Pesquisa Vetorial Ad-hoc com Milvus

Neste Jupyter Notebook √© poss√≠vel realizar **pesquisas por similaridade** de √°udio utilizando embeddings gerados pelos modelos analisados. Esta funcionalidade permite procurar ficheiros semelhantes ao √°udio fornecido ‚Äî seja um ficheiro novo carregado pelo utilizador ou um ficheiro j√° presente na base de dados.

---

#### ‚öôÔ∏è Pr√©-requisitos

Para que a pesquisa funcione corretamente, √© necess√°rio que o **servidor Milvus esteja ativo**. Caso contr√°rio, o sistema n√£o conseguir√° aceder √†s cole√ß√µes de vetores armazenadas.

Para levantar o Milvus localmente, recomenda-se o seguinte comando Docker:

```bash
docker-compose up -d

Como funciona a pesquisa
Escolha do modelo: O utilizador seleciona qual modelo de embeddings deseja usar para gerar a representa√ß√£o vetorial do √°udio.

Entrada de √°udio:

Pode ser feito o upload de um ficheiro .wav, .mp3, .flac, etc.

Ou selecionado um ficheiro j√° existente no dataset.

Extra√ß√£o do embedding: Dependendo do modelo, o √°udio √© processado para gerar o vetor de caracter√≠sticas.

Pesquisa por similaridade: Esse vetor √© comparado com todos os vetores presentes na cole√ß√£o correspondente no Milvus, retornando os ficheiros mais semelhantes com base na dist√¢ncia vetorial.

Visualiza√ß√£o dos resultados: Os resultados da pesquisa s√£o apresentados numa tabela e num gr√°fico de barras com as dist√¢ncias de similaridade.

üìå Observa√ß√µes importantes
Por limita√ß√µes do Jupyter Notebook, os modelos yamnet e vggish podem n√£o funcionar corretamente aqui devido √† forma como carregam os m√≥dulos do TensorFlow Hub.

No entanto, estes modelos funcionam normalmente na aplica√ß√£o desenvolvida com Streamlit, que oferece maior compatibilidade e desempenho na extra√ß√£o e infer√™ncia.

‚úÖ Funcionalidades da Interface
Upload de ficheiro novo ou sele√ß√£o de ficheiro existente;

Escolha do modelo com lista suspensa interativa;

Sele√ß√£o da cole√ß√£o do Milvus ou uso autom√°tico da cole√ß√£o padr√£o por modelo;

Visualiza√ß√£o dos resultados com dist√¢ncias em gr√°fico interativo.

üìö Benef√≠cios desta abordagem
Permite testar a efic√°cia real dos embeddings, na pr√°tica, para pesquisa vetorial;

Ajuda a entender a capacidade de generaliza√ß√£o de cada modelo;

Facilita a constru√ß√£o de sistemas de recupera√ß√£o de informa√ß√£o por √°udio com base em embeddings sem√¢nticos.



In [11]:
# üì§ Pesquisa Ad-hoc (Upload ou Ficheiro da Base de Dados) e fun√ß√µes auxiliares
import tempfile
import librosa
import numpy as np
import torch
import pandas as pd
import plotly.express as px
import ast
import openl3
import io
import os

# Import transformers models
from transformers import (
    Wav2Vec2Processor, Wav2Vec2Model,
    ClapProcessor, ClapModel,
    ASTFeatureExtractor, ASTModel
)

import tensorflow as tf
import tensorflow_hub as hub

# Fun√ß√£o para extrair embedding de um √°udio
def extract_embedding(model_name, temp_path):
    audio, sr = librosa.load(temp_path, sr=None)
    
    if model_name == "wav2vec2":
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
        model = Wav2Vec2Model.from_pretrained("facebook/wav2vec2-base-960h")
        # Resample if needed
        if sr != 16000:
            audio = librosa.resample(audio, orig_sr=sr, target_sr=16000)
        inputs = processor(audio, sampling_rate=16000, return_tensors="pt")
        with torch.no_grad():
            outputs = model(**inputs)
        return outputs.last_hidden_state.mean(dim=1).numpy()[0]
    
    elif model_name == "clap":
        processor = ClapProcessor.from_pretrained("laion/clap-htsat-unfused")
        model = ClapModel.from_pretrained("laion/clap-htsat-unfused")
        # Resample if needed
        if sr != 48000:
            audio = librosa.resample(audio, orig_sr=sr, target_sr=48000)
        inputs = processor(audios=audio, sampling_rate=48000, return_tensors="pt")
        with torch.no_grad():
            embeddings = model.get_audio_features(**inputs)
        return embeddings[0].numpy()
    
    elif model_name == "ast":
        fe = ASTFeatureExtractor.from_pretrained("MIT/ast-finetuned-audioset-10-10-0.4593")
        model = ASTModel.from_pretrained("MIT/ast-finetuned-audioset-10-10-0.4593")
        # Resample if needed
        if sr != 16000:
            audio = librosa.resample(audio, orig_sr=sr, target_sr=16000)
        inputs = fe(audio, sampling_rate=16000, return_tensors="pt")
        with torch.no_grad():
            outputs = model(**inputs)
        return outputs.last_hidden_state.mean(dim=1).numpy()[0]
    
    elif model_name == "vggish":
        # Mesmo c√≥digo usado no Streamlit que funciona
        import tensorflow_hub as hub
        # Resample para 16kHz conforme exigido pelo VGGish
        if sr != 16000:
            audio = librosa.resample(audio, orig_sr=sr, target_sr=16000)
        # Converter para mono se for est√©reo
        if len(audio.shape) > 1:
            audio = np.mean(audio, axis=1)
        # Carregar modelo e obter embedding
        vggish_model = hub.load('https://tfhub.dev/google/vggish/1')
        embedding = vggish_model(audio).numpy()
        # Fazer m√©dia se tivermos m√∫ltiplos embeddings
        if embedding.ndim > 1:
            embedding = np.mean(embedding, axis=0)
        return embedding
    
    elif model_name == "yamnet":
        # Mesmo c√≥digo usado no Streamlit que funciona
        import tensorflow_hub as hub
        import tensorflow as tf
        # Resample para 16kHz conforme exigido pelo YAMNet
        if sr != 16000:
            audio = librosa.resample(audio, orig_sr=sr, target_sr=16000)
        # Converter para tensor do TensorFlow
        waveform = tf.convert_to_tensor(audio, dtype=tf.float32)
        # Carregar modelo e obter embedding
        yamnet_model = hub.load('https://tfhub.dev/google/yamnet/1')
        scores, embeddings, spectrogram = yamnet_model(waveform)
        # Fazer m√©dia dos embeddings se tivermos m√∫ltiplos
        embedding = np.mean(embeddings.numpy(), axis=0)
        return embedding
    
    elif model_name == "openl3":
        audio = np.mean(audio, axis=1) if audio.ndim > 1 else audio
        emb, _ = openl3.get_audio_embedding(audio, sr, content_type="music", embedding_size=512)
        return emb.mean(axis=0) if emb.ndim > 1 else emb.squeeze()
    
    else:
        raise ValueError("Modelo n√£o suportado")

# Fun√ß√£o para pesquisa real a partir do banco de dados
def real_search_from_db(df, client, modelo_milvus, collection_name, k):
    dimensoes_modelos = {
        "ast": 768, "clap": 512, "yamnet": 1024,
        "openl3": 512, "vggish": 128, "wav2vec": 768, "wav2vec2": 768,
    }
    dim_esperada = dimensoes_modelos.get(modelo_milvus)
    if not dim_esperada:
        raise ValueError(f"Dimens√£o desconhecida para modelo '{modelo_milvus}'")

    ficheiros = df[(df['modelo'] == modelo_milvus) & (df['embedding'].apply(lambda x: len(x) == dim_esperada))]['ficheiro'].tolist()
    if not ficheiros:
        raise ValueError(f"Sem ficheiros com dimens√£o {dim_esperada} para modelo '{modelo_milvus}'")

    row_query = df[(df['modelo'] == modelo_milvus) & (df['ficheiro'] == ficheiros[0])].iloc[0]
    embedding_query = row_query['embedding']

    result = client.search(
        collection_name=collection_name,
        data=[embedding_query],
        limit=k,
        output_fields=["id", "vector"]
    )
    hits = result[0] if result else []
    res_df = pd.DataFrame([{"id": h.get("id"), "distance": h.get("distance")} for h in hits])
    return res_df

# Interface de usu√°rio
upload_widget = widgets.FileUpload(accept='.wav,.mp3,.flac,.ogg', multiple=False)
modelo_options = ["wav2vec2", "clap", "ast", "vggish", "yamnet", "openl3"]
modelo_widget = widgets.Dropdown(options=modelo_options, description="Modelo")
usar_ficheiro_existente = widgets.Checkbox(value=False, description="Usar ficheiro do dataset")
ficheiro_select = widgets.Dropdown(description="Ficheiro", options=[])

# Widget para sele√ß√£o de cole√ß√£o
collection_widget = widgets.Dropdown(description="Cole√ß√£o", options=[])
usar_colecao_padrao = widgets.Checkbox(value=True, description="Usar cole√ß√£o padr√£o")

output = widgets.Output()

# Fun√ß√£o para atualizar op√ß√µes de cole√ß√£o
def update_collection_options(*args):
    try:
        collections = client.list_collections() if client else []
        if collections:
            collection_widget.options = collections
    except Exception as e:
        with output:
            print(f"Erro ao atualizar cole√ß√µes: {e}")

# Fun√ß√£o para atualizar op√ß√µes de arquivo
def update_file_options(*args):
    if usar_ficheiro_existente.value:
        ficheiro_select.options = df[df['modelo'] == modelo_widget.value]['ficheiro'].tolist()
        ficheiro_select.layout.display = 'block'
    else:
        ficheiro_select.layout.display = 'none'
        # Exibe aviso para VGGish e YAMNet quando esses modelos s√£o selecionados
        modelo_atual = modelo_widget.value

# Fun√ß√£o para atualizar visibilidade do seletor de cole√ß√£o
def update_collection_visibility(*args):
    if usar_colecao_padrao.value:
        collection_widget.layout.display = 'none'
    else:
        collection_widget.layout.display = 'block'
        # Atualize as op√ß√µes quando o widget ficar vis√≠vel
        update_collection_options()

def perform_search(b):
    with output:
        output.clear_output()
        try:
            query_id = None  # Initialize a variable to track query ID
            
            if usar_ficheiro_existente.value:
                if not ficheiro_select.value:
                    print("Por favor, selecione um ficheiro do dataset.")
                    return
                    
                # Usar ficheiro do dataset
                row = df[(df['modelo'] == modelo_widget.value) & (df['ficheiro'] == ficheiro_select.value)].iloc[0]
                embedding = np.array(row['embedding'])
                query_id = row.get('id')  # Get ID if available
                print(f"Usando embedding do ficheiro: {ficheiro_select.value}")
            
            else:
                # Este bloco estava dentro do if anterior, corrigindo a indenta√ß√£o
                if not upload_widget.value:
                    print("Por favor, carregue um ficheiro de √°udio.")
                    return
                
                # Usar ficheiro carregado
                file_content = upload_widget.value[0]['content']
                file_bytes = io.BytesIO(file_content)
                file_name = upload_widget.value[0]['name']
                
                with tempfile.NamedTemporaryFile(delete=False, suffix=f"_{file_name}") as f:
                    f.write(file_bytes.read())
                    temp_path = f.name
                
                print(f"Extraindo embedding com modelo {modelo_widget.value}...")
                embedding = extract_embedding(modelo_widget.value, temp_path)
                os.unlink(temp_path)  # Remove o arquivo tempor√°rio
            
            # Determinar qual cole√ß√£o usar
            if usar_colecao_padrao.value:
                collection_name = f"audio_{modelo_widget.value}"
            else:
                collection_name = collection_widget.value
                if not collection_name:
                    print("Por favor, selecione uma cole√ß√£o.")
                    return
            
            # Verificar se a cole√ß√£o existe
            if collection_name not in client.list_collections():
                print(f"Cole√ß√£o {collection_name} n√£o existe no Milvus!")
                return
                
            print(f"Pesquisando na cole√ß√£o {collection_name}...")
            if query_id is not None:
                expr = f"id != {query_id}"
                result = client.search(
                    collection_name=collection_name,
                    data=[embedding.tolist()],
                    limit=6,  # Request one more result than needed
                    filter=expr,
                    output_fields=['id', 'vector']
                )
            else:
                result = client.search(
                    collection_name=collection_name,
                    data=[embedding.tolist()],
                    limit=6,  # Request one more to account for possible self-match
                    output_fields=['id', 'vector']
                )
            
            hits = result[0] if result else []
            if not hits:
                print("Nenhum resultado encontrado.")
                return
                
            df_res = pd.DataFrame([{'id': h.get('id'), 'distance': h.get('distance')} for h in hits])
            display(df_res)
            
            # Visualiza√ß√£o dos resultados
            fig = px.bar(df_res, x='id', y='distance', title=f'Resultados da Pesquisa - Cole√ß√£o: {collection_name}')
            fig.show()
            
        except NotImplementedError as e:
            print(f"‚ö†Ô∏è {str(e)}")
        except Exception as e:
            import traceback
            print(f"Erro ao processar ou pesquisar: {str(e)}")
            traceback.print_exc()

# Configura√ß√£o da interface
search_button = widgets.Button(description="Pesquisar")
search_button.on_click(perform_search)
usar_ficheiro_existente.observe(update_file_options, names='value')
modelo_widget.observe(update_file_options, names='value')
usar_colecao_padrao.observe(update_collection_visibility, names='value')

# Inicializar visibilidade
ficheiro_select.layout.display = 'none'
collection_widget.layout.display = 'none'  # Esconde o seletor de cole√ß√£o inicialmente

# Atualizar cole√ß√µes dispon√≠veis no in√≠cio
update_collection_options()

# Exibir widgets
display(widgets.VBox([
    widgets.HBox([modelo_widget, usar_ficheiro_existente]),
    widgets.HBox([usar_colecao_padrao, collection_widget]),
    upload_widget,
    ficheiro_select,
    search_button,
    output
]))

# Inicializar op√ß√µes de ficheiros
update_file_options()

VBox(children=(HBox(children=(Dropdown(description='Modelo', options=('wav2vec2', 'clap', 'ast', 'vggish', 'ya‚Ä¶