RVC-Project · Tps-F · Jan 16, 2024 · Jan 14, 2024 · Jan 15, 2024 · Jan 15, 2024
diff --git a/docs/pt-BR/Changelog_pt-BR.md b/docs/pt-BR/Changelog_pt-BR.md
@@ -0,0 +1,105 @@
+### 2023-10-06
+- Criamos uma GUI para alteração de voz em tempo real: go-realtime-gui.bat/gui_v1.py (observe que você deve escolher o mesmo tipo de dispositivo de entrada e saída, por exemplo, MME e MME).
+- Treinamos um modelo RMVPE de extração de pitch melhor.
+- Otimizar o layout da GUI de inferência.
+
+### 2023-08-13
+1-Correção de bug regular
+- Alterar o número total mínimo de épocas para 1 e alterar o número total mínimo de epoch para 2
+- Correção de erros de treinamento por não usar modelos de pré-treinamento
+- Após a separação dos vocais de acompanhamento, limpe a memória dos gráficos
+- Alterar o caminho absoluto do faiss save para o caminho relativo
+- Suporte a caminhos com espaços (tanto o caminho do conjunto de treinamento quanto o nome do experimento são suportados, e os erros não serão mais relatados)
+- A lista de arquivos cancela a codificação utf8 obrigatória
+- Resolver o problema de consumo de CPU causado pela busca do faiss durante alterações de voz em tempo real
+
+Atualizações do 2-Key
+- Treine o modelo de extração de pitch vocal de código aberto mais forte do momento, o RMVPE, e use-o para treinamento de RVC, inferência off-line/em tempo real, com suporte a PyTorch/Onnx/DirectML
+- Suporte para placas gráficas AMD e Intel por meio do Pytorch_DML
+
+(1) Mudança de voz em tempo real (2) Inferência (3) Separação do acompanhamento vocal (4) Não há suporte para treinamento no momento, mudaremos para treinamento de CPU; há suporte para inferência RMVPE de gpu por Onnx_Dml
+
+
+### 2023-06-18
+- Novos modelos v2 pré-treinados: 32k e 48k
+- Correção de erros de inferência de modelo não-f0
+- Para conjuntos de treinamento que excedam 1 hora, faça minibatch-kmeans automáticos para reduzir a forma dos recursos, de modo que o treinamento, a adição e a pesquisa do Index sejam muito mais rápidos.
+- Fornecer um espaço de brinquedo vocal2guitar huggingface
+- Exclusão automática de áudios de conjunto de treinamento de atalhos discrepantes
+- Guia de exportação Onnx
+
+Experimentos com falha:
+- ~~Recuperação de recurso: adicionar recuperação de recurso temporal: não eficaz~~
+- ~~Recuperação de recursos: adicionar redução de dimensionalidade PCAR: a busca é ainda mais lenta~~
+- ~~Aumento de dados aleatórios durante o treinamento: não é eficaz~~
+
+Lista de tarefas：
+- ~~Vocos-RVC (vocoder minúsculo): não é eficaz~~
+- ~~Suporte de crepe para treinamento: substituído pelo RMVPE~~
+- ~~Inferência de crepe de meia precisão：substituída pelo RMVPE. E difícil de conseguir.~~
+- Suporte ao editor de F0
+
+### 2023-05-28
+- Adicionar notebook jupyter v2, changelog em coreano, corrigir alguns requisitos de ambiente
+- Adicionar consoante sem voz e modo de proteção de respiração
+- Suporte à detecção de pitch crepe-full
+- Separação vocal UVR5: suporte a modelos dereverb e modelos de-echo
+- Adicionar nome e versão do experimento no nome do Index
+- Suporte aos usuários para selecionar manualmente o formato de exportação dos áudios de saída durante o processamento de conversão de voz em lote e a separação vocal UVR5
+- Não há mais suporte para o treinamento do modelo v1 32k
+
+### 2023-05-13
+- Limpar os códigos redundantes na versão antiga do tempo de execução no pacote de um clique: lib.infer_pack e uvr5_pack
+- Correção do bug de pseudo multiprocessamento no pré-processamento do conjunto de treinamento
+- Adição do ajuste do raio de filtragem mediana para o algoritmo de reconhecimento de inclinação da extração
+- Suporte à reamostragem de pós-processamento para exportação de áudio
+- A configuração "n_cpu" de multiprocessamento para treinamento foi alterada de "extração de f0" para "pré-processamento de dados e extração de f0"
+- Detectar automaticamente os caminhos de Index na pasta de registros e fornecer uma função de lista suspensa
+- Adicionar "Perguntas e respostas frequentes" na página da guia (você também pode consultar o wiki do RVC no github)
+- Durante a inferência, o pitch da colheita é armazenado em cache quando se usa o mesmo caminho de áudio de entrada (finalidade: usando a extração do pitch da colheita, todo o pipeline passará por um processo longo e repetitivo de extração do pitch. Se o armazenamento em cache não for usado, os usuários que experimentarem diferentes configurações de raio de filtragem de timbre, Index e mediana de pitch terão um processo de espera muito doloroso após a primeira inferência)
+
+### 2023-05-14
+- Use o envelope de volume da entrada para misturar ou substituir o envelope de volume da saída (pode aliviar o problema de "muting de entrada e ruído de pequena amplitude de saída"). Se o ruído de fundo do áudio de entrada for alto, não é recomendável ativá-lo, e ele não é ativado por padrão (1 pode ser considerado como não ativado)
+- Suporte ao salvamento de modelos pequenos extraídos em uma frequência especificada (se você quiser ver o desempenho em épocas diferentes, mas não quiser salvar todos os pontos de verificação grandes e extrair manualmente modelos pequenos pelo processamento ckpt todas as vezes, esse recurso será muito prático)
+- Resolver o problema de "erros de conexão" causados pelo proxy global do servidor, definindo variáveis de ambiente
+- Oferece suporte a modelos v2 pré-treinados (atualmente, apenas as versões 40k estão disponíveis publicamente para teste e as outras duas taxas de amostragem ainda não foram totalmente treinadas)
+- Limita o volume excessivo que excede 1 antes da inferência
+- Ajustou ligeiramente as configurações do pré-processamento do conjunto de treinamento
+
+
+#######################
+
+Histórico de registros de alterações:
+
+### 2023-04-09
+- Parâmetros de treinamento corrigidos para melhorar a taxa de utilização da GPU: A100 aumentou de 25% para cerca de 90%, V100: 50% para cerca de 90%, 2060S: 60% para cerca de 85%, P40: 25% para cerca de 95%; melhorou significativamente a velocidade de treinamento
+- Parâmetro alterado: total batch_size agora é por GPU batch_size
+- Total_epoch alterado: limite máximo aumentado de 100 para 1000; padrão aumentado de 10 para 20
+- Corrigido o problema da extração de ckpt que reconhecia o pitch incorretamente, causando inferência anormal
+- Corrigido o problema do treinamento distribuído que salvava o ckpt para cada classificação
+- Aplicada a filtragem de recursos nan para extração de recursos
+- Corrigido o problema com a entrada/saída silenciosa que produzia consoantes aleatórias ou ruído (os modelos antigos precisavam ser treinados novamente com um novo conjunto de dados)
+
+### Atualização 2023-04-16
+- Adicionada uma mini-GUI de alteração de voz local em tempo real, iniciada com um clique duplo em go-realtime-gui.bat
+- Filtragem aplicada para bandas de frequência abaixo de 50 Hz durante o treinamento e a inferência
+- Diminuição da extração mínima de tom do pyworld do padrão 80 para 50 para treinamento e inferência, permitindo que vozes masculinas de tom baixo entre 50-80 Hz não sejam silenciadas
+- A WebUI suporta a alteração de idiomas de acordo com a localidade do sistema (atualmente suporta en_US, ja_JP, zh_CN, zh_HK, zh_SG, zh_TW; o padrão é en_US se não for suportado)
+- Correção do reconhecimento de algumas GPUs (por exemplo, falha no reconhecimento da V100-16G, falha no reconhecimento da P4)
+
+### Atualização de 2023-04-28
+- Atualizadas as configurações do Index faiss para maior velocidade e qualidade
+- Removida a dependência do total_npy; o futuro compartilhamento de modelos não exigirá a entrada do total_npy
+- Restrições desbloqueadas para as GPUs da série 16, fornecendo configurações de inferência de 4 GB para GPUs com VRAM de 4 GB
+- Corrigido o erro na separação do acompanhamento vocal do UVR5 para determinados formatos de áudio
+- A mini-GUI de alteração de voz em tempo real agora suporta modelos de pitch não 40k e que não são lentos
+
+### Planos futuros:
+Recursos:
+- Opção de adição: extrair modelos pequenos para cada epoch salvo
+- Adicionar opção: exportar mp3 adicional para o caminho especificado durante a inferência
+- Suporte à guia de treinamento para várias pessoas (até 4 pessoas)
+
+Modelo básico:
+- Coletar arquivos wav de respiração para adicionar ao conjunto de dados de treinamento para corrigir o problema de sons de respiração distorcidos
+- No momento, estamos treinando um modelo básico com um conjunto de dados de canto estendido, que será lançado no futuro
diff --git a/docs/pt-BR/README.pt-BR.md b/docs/pt-BR/README.pt-BR.md
@@ -0,0 +1,193 @@
+<div align="center">
+
+<h1>Retrieval-based-Voice-Conversion-WebUI</h1>
+Uma estrutura de conversão de voz fácil de usar baseada em VITS.<br><br>
+
+[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange
+)](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI)
+
+<img src="https://counter.seku.su/cmoe?name=rvc&theme=r34" /><br>
+
+[![Open In Colab](https://img.shields.io/badge/Colab-F9AB00?style=for-the-badge&logo=googlecolab&color=525252)](https://colab.research.google.com/github/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/Retrieval_based_Voice_Conversion_WebUI.ipynb)
+[![Licence](https://img.shields.io/github/license/RVC-Project/Retrieval-based-Voice-Conversion-WebUI?style=for-the-badge)](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/LICENSE)
+[![Huggingface](https://img.shields.io/badge/🤗%20-Spaces-yellow.svg?style=for-the-badge)](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/)
+
+[![Discord](https://img.shields.io/badge/RVC%20Developers-Discord-7289DA?style=for-the-badge&logo=discord&logoColor=white)](https://discord.gg/HcsmBBGyVk)
+
+</div>
+
+------
+[**Changelog**](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/Changelog_EN.md) | [**FAQ (Frequently Asked Questions)**](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/wiki/FAQ-(Frequently-Asked-Questions)) 
+
+[**English**](../en/README.en.md) | [**中文简体**](../../README.md) | [**日本語**](../jp/README.ja.md) | [**한국어**](../kr/README.ko.md) ([**韓國語**](../kr/README.ko.han.md)) | [**Türkçe**](../tr/README.tr.md)
+
+
+Confira nosso [Vídeo de demonstração](https://www.bilibili.com/video/BV1pm4y1z7Gm/) aqui!
+
+Treinamento/Inferência WebUI：go-web.bat
+![Traduzido](https://github.com/RafaelGodoyEbert/Retrieval-based-Voice-Conversion-WebUI/assets/78083427/0b894d87-565a-432c-8b5b-45e4a65d5d17)
+
+GUI de conversão de voz em tempo real：go-realtime-gui.bat
+![image](https://github.com/RafaelGodoyEbert/Retrieval-based-Voice-Conversion-WebUI/assets/78083427/d172e3e5-35f4-4876-9530-c28246919e9e)
+
+
+> O dataset para o modelo de pré-treinamento usa quase 50 horas de conjunto de dados de código aberto VCTK de alta qualidade.
+
+> Dataset de músicas licenciadas de alta qualidade serão adicionados ao conjunto de treinamento, um após o outro, para seu uso, sem se preocupar com violação de direitos autorais.
+
+> Aguarde o modelo básico pré-treinado do RVCv3, que possui parâmetros maiores, mais dados de treinamento, melhores resultados, velocidade de inferência inalterada e requer menos dados de treinamento para treinamento.
+
+## Resumo
+Este repositório possui os seguintes recursos:
++ Reduza o vazamento de tom substituindo o recurso de origem pelo recurso de conjunto de treinamento usando a recuperação top1;
++ Treinamento fácil e rápido, mesmo em placas gráficas relativamente ruins;
++ Treinar com uma pequena quantidade de dados também obtém resultados relativamente bons (>=10min de áudio com baixo ruído recomendado);
++ Suporta fusão de modelos para alterar timbres (usando guia de processamento ckpt-> mesclagem ckpt);
++ Interface Webui fácil de usar;
++ Use o modelo UVR5 para separar rapidamente vocais e instrumentos.
++ Use o mais poderoso algoritmo de extração de voz de alta frequência [InterSpeech2023-RMVPE](#Credits) para evitar o problema de som mudo. Fornece os melhores resultados (significativamente) e é mais rápido, com consumo de recursos ainda menor que o Crepe_full.
++ Suporta aceleração de placas gráficas AMD/Intel.
++ Aceleração de placas gráficas Intel ARC com suporte para IPEX.
+
+## Preparando o ambiente
+Os comandos a seguir precisam ser executados no ambiente Python versão 3.8 ou superior.
+
+(Windows/Linux)
+Primeiro instale as dependências principais através do pip:
+```bash
+# Instale as dependências principais relacionadas ao PyTorch, pule se instaladas
+# Referência: https://pytorch.org/get-started/locally/
+pip install torch torchvision torchaudio
+
+#Para arquitetura Windows + Nvidia Ampere (RTX30xx), você precisa especificar a versão cuda correspondente ao pytorch de acordo com a experiência de https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/issues/ 21
+#pip instalar tocha torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
+
+#Para placas Linux + AMD, você precisa usar as seguintes versões do pytorch:
+#pip instalar tocha torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.4.2
+```
+
+Então pode usar poesia para instalar as outras dependências:
+```bash
+# Instale a ferramenta de gerenciamento de dependências Poetry, pule se instalada
+# Referência: https://python-poetry.org/docs/#installation
+curl -sSL https://install.python-poetry.org | python3 -
+
+#Instale as dependências do projeto
+poetry install
+```
+
+Você também pode usar pip para instalá-los:
+```bash
+
+for Nvidia graphics cards
+  pip install -r requirements.txt
+
+for AMD/Intel graphics cards on Windows (DirectML)：
+  pip install -r requirements-dml.txt
+
+for Intel ARC graphics cards on Linux / WSL using Python 3.10: 
+  pip install -r requirements-ipex.txt
+
+for AMD graphics cards on Linux (ROCm):
+  pip install -r requirements-amd.txt
+```
+
+------
+Usuários de Mac podem instalar dependências via `run.sh`:
+```bash
+sh ./run.sh
+```
+
+## Preparação de outros Pré-modelos
+RVC requer outros pré-modelos para inferir e treinar.
+
+```bash
+#Baixe todos os modelos necessários em https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/
+python tools/download_models.py
+```
+
+Ou apenas baixe-os você mesmo em nosso [Huggingface space](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/).
+
+Aqui está uma lista de pré-modelos e outros arquivos que o RVC precisa:
+```bash
+./assets/hubert/hubert_base.pt
+
+./assets/pretrained 
+
+./assets/uvr5_weights
+
+Downloads adicionais são necessários se você quiser testar a versão v2 do modelo.
+
+./assets/pretrained_v2
+
+Se você deseja testar o modelo da versão v2 (o modelo da versão v2 alterou a entrada do recurso dimensional 256 do Hubert + final_proj de 9 camadas para o recurso dimensional 768 do Hubert de 12 camadas e adicionou 3 discriminadores de período), você precisará baixar recursos adicionais
+
+./assets/pretrained_v2
+
+#Se você estiver usando Windows, também pode precisar desses dois arquivos, pule se FFmpeg e FFprobe estiverem instalados
+ffmpeg.exe
+
+https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffmpeg.exe
+
+ffprobe.exe
+
+https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/ffprobe.exe
+
+Se quiser usar o algoritmo de extração de tom vocal SOTA RMVPE mais recente, você precisa baixar os pesos RMVPE e colocá-los no diretório raiz RVC
+
+https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/rmvpe.pt
+
+    Para usuários de placas gráficas AMD/Intel, você precisa baixar:
+
+    https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/rmvpe.onnx
+
+```
+
+Os usuários de placas gráficas Intel ARC precisam executar o comando `source /opt/intel/oneapi/setvars.sh` antes de iniciar o Webui.
+
+Em seguida, use este comando para iniciar o Webui:
+```bash
+python infer-web.py
+```
+
+Se estiver usando Windows ou macOS, você pode baixar e extrair `RVC-beta.7z` para usar RVC diretamente usando `go-web.bat` no Windows ou `sh ./run.sh` no macOS para iniciar o Webui.
+
+## Suporte ROCm para placas gráficas AMD (somente Linux)
+Para usar o ROCm no Linux, instale todos os drivers necessários conforme descrito [aqui](https://rocm.docs.amd.com/en/latest/deploy/linux/os-native/install.html).
+
+No Arch use pacman para instalar o driver:
+````
+pacman -S rocm-hip-sdk rocm-opencl-sdk
+````
+
+Talvez você também precise definir estas variáveis de ambiente (por exemplo, em um RX6700XT):
+````
+export ROCM_PATH=/opt/rocm
+export HSA_OVERRIDE_GFX_VERSION=10.3.0
+````
+Verifique também se seu usuário faz parte do grupo `render` e `video`:
+````
+sudo usermod -aG render $USERNAME
+sudo usermod -aG video $USERNAME
+````
+Depois disso, você pode executar o WebUI:
+```bash
+python infer-web.py
+```
+
+## Credits
++ [ContentVec](https://github.com/auspicious3000/contentvec/)
++ [VITS](https://github.com/jaywalnut310/vits)
++ [HIFIGAN](https://github.com/jik876/hifi-gan)
++ [Gradio](https://github.com/gradio-app/gradio)
++ [FFmpeg](https://github.com/FFmpeg/FFmpeg)
++ [Ultimate Vocal Remover](https://github.com/Anjok07/ultimatevocalremovergui)
++ [audio-slicer](https://github.com/openvpi/audio-slicer)
++ [Vocal pitch extraction:RMVPE](https://github.com/Dream-High/RMVPE)
+  + The pretrained model is trained and tested by [yxlllc](https://github.com/yxlllc/RMVPE) and [RVC-Boss](https://github.com/RVC-Boss).
+
+## Thanks to all contributors for their efforts
+<a href="https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/graphs/contributors" target="_blank">
+  <img src="https://contrib.rocks/image?repo=RVC-Project/Retrieval-based-Voice-Conversion-WebUI" />
+</a>
+