#Ferramenta de Transcri√ß√£o de √Åudios com Whisper
Este projeto utiliza o poderoso modelo Whisper da OpenAI para transcrever automaticamente uma pasta inteira de arquivos de √°udios curtos (como os do WhatsApp), organizando os resultados em uma tabela estruturada (.csv) pronta para an√°lise.

**Precisa saber o que foi dito em dezenas de mensagens de voz, mas n√£o tem tempo para ouvir todas?**

Esta ferramenta resolve esse problema, convertendo horas de √°udio em texto pesquis√°vel em quest√£o de minutos.

##Principais Funcionalidades:

*   ü§ñ **Transcri√ß√£o de Alta Precis√£o:** Utiliza os modelos de ponta da fam√≠lia Whisper da OpenAI, com a flexibilidade de escolher a vers√£o que melhor se adapta √†s suas necessidades de velocidade e precis√£o.
*   üßæ  **Prompt de contexto:** Voc√™ pode melhorar a performance do modelo adicionando o contexto dos √°udios atrav√©s de um prompt.
*   üìä **Sa√≠da Estruturada:** Organiza todas as transcri√ß√µes em uma √∫nica tabela .csv, contendo o nome do arquivo, sua dura√ß√£o em segundos e o texto transcrito, ideal para an√°lises futuras (como an√°lise de sentimentos).
*   üóëÔ∏è **Limpeza Inteligente de Duplicatas:** Antes de processar, o script verifica e oferece a op√ß√£o de remover arquivos duplicados com base em seu conte√∫do (usando hash MD5), economizando tempo e recursos.
*   ‚öôÔ∏è **Configura√ß√£o Interativa:** Permite que o usu√°rio defina par√¢metros importantes durante a execu√ß√£o, como a escolha do modelo e a inclus√£o de um "prompt" para melhorar a precis√£o de termos espec√≠ficos.

##Como Usar:


1.   **Configura√ß√£o da Pasta:** Crie uma pasta no seu Google Drive (ex: audios_para_transcrever) e coloque nela todos os arquivos de √°udio que deseja processar.
2.   **Execu√ß√£o do Notebook:** Abra o script no Google Colab, conecte-se ao seu Google Drive e execute cada c√©lula em ordem, seguindo as instru√ß√µes interativas.

Desenvolvido por: neidaniel6@gmail.com




##‚ö†Ô∏è Importante
A execu√ß√£o desta c√©lula far√° o download e a instala√ß√£o desses pacotes, o que pode levar de alguns segundos a um minuto.
√â fundamental aguardar a execu√ß√£o completa para ir para a pr√≥xima c√©lula.

In [None]:
# C√©lula 1: Instala√ß√£o das Bibliotecas

# Instalar a biblioteca Whisper da OpenAI
!pip install -U openai-whisper

# Instalar a pydub para manipula√ß√£o de √°udio
!pip install pydub

# Garantir que o FFmpeg (depend√™ncia da pydub) esteja instalado
!apt-get -y install ffmpeg

In [None]:
# C√©lula 2: Importa√ß√µes de bibliotecas
import whisper
import glob
import os
import hashlib
import pandas as pd
from pydub import AudioSegment
from google.colab import drive

##Conectar ao Google Drive
Caso esteja no Google Colab, esta c√©lula √© essencial para permitir que o script acesse seus arquivos de √°udio. Ao execut√°-la, uma janela de autoriza√ß√£o do Google aparecer√°. Siga as instru√ß√µes para permitir a conex√£o e dar ao notebook acesso √† sua pasta do Google Drive.

In [None]:
# Montar o Google Drive
drive.mount('/content/drive')

#C√©lula 3: Defini√ß√£o e Cria√ß√£o da Pasta de Trabalho
Esta c√©lula define e prepara a pasta principal que usaremos para este projeto. A ideia √© que voc√™ n√£o precise editar nenhuma linha de c√≥digo.

##Como Funciona:


1.   **Execute esta c√©lula primeiro.** Ela ir√° criar automaticamente uma pasta em seu Google Drive no seguinte caminho: MyDrive/audios_para_transcrever.

1.   **A√ß√£o Necess√°ria (Fora do Notebook):** Ap√≥s a c√©lula terminar de rodar, v√° at√© a sua pasta do Google Drive, encontre a pasta audios_para_transcrever que o script acabou de criar, e mova ou copie todos os seus arquivos de √°udio para dentro dela.
2.   **Pr√≥ximo Passo:** Somente ap√≥s seus arquivos estarem dentro desta pasta, voc√™ poder√° continuar e executar a c√©lula seguinte (C√©lula 3.5), que ir√° encontrar e listar esses arquivos.

A sa√≠da desta c√©lula ir√° apenas confirmar o nome e o local da pasta que foi criada para voc√™, garantindo que tudo est√° pronto para receber seus √°udios.





In [None]:
# C√©lula 3: Defini√ß√£o e Cria√ß√£o das Pastas de Trabalho

#---BIBLIOTECAS---
#os
#----------------

# 1. Defini√ß√£o da Pasta Principal
# Defina o caminho para a pasta onde seus √°udios do WhatsApp est√£o.
# Esta pasta ser√° usada tanto para a entrada dos √°udios quanto para a sa√≠da da tabela.
work_folder = "/content/drive/MyDrive/audios_para_transcrever"

# 2. Defini√ß√£o do Arquivo de Sa√≠da
# O arquivo .csv com as transcri√ß√µes ser√° salvo DENTRO da pasta de trabalho.
# Usamos os.path.join para construir o caminho de forma segura.
output_csv_path = os.path.join(work_folder, "transcricoes.csv")

# 3. Cria√ß√£o da Pasta
# Cria a pasta de trabalho, se ela ainda n√£o existir.
# Como a entrada e a sa√≠da est√£o na mesma pasta, uma √∫nica verifica√ß√£o √© suficiente.
os.makedirs(work_folder, exist_ok=True)

# 4. Confirma√ß√£o dos Caminhos Definidos
print("Configura√ß√£o de pastas conclu√≠da:")
print(f"  -> Pasta de Trabalho (Entrada e Sa√≠da): {work_folder}")
print(f"  -> O arquivo de resultados ser√° salvo em: {output_csv_path}")

##C√©lula 3.5: Listagem de Arquivos e Verifica√ß√£o de Duplicatas
Com a pasta de trabalho pronta e os √°udios dentro dela, esta c√©lula executa duas tarefas importantes: encontrar seus arquivos e realizar uma limpeza inteligente para otimizar o processo.

##O que esta c√©lula faz:

1.   **Listagem de Arquivos:** Primeiro, o script ir√° "olhar" dentro da pasta audios_para_transcrever e mostrar o n√∫mero total de arquivos que voc√™ colocou l√°.
1.   **Verifica√ß√£o de Duplicatas:** Em seguida, ele analisa o conte√∫do de cada arquivo para encontrar duplicatas exatas. Isso √© muito √∫til caso voc√™ tenha copiado o mesmo √°udio mais de uma vez, mesmo que os nomes dos arquivos sejam diferentes.
3.   **Limpeza Opcional:** Se duplicatas forem encontradas, o script ir√° parar e perguntar se voc√™ deseja apag√°-las. Esta √© a sua chance de fazer uma limpeza autom√°tica e evitar transcrever o mesmo √°udio v√°rias vezes.


## Sua A√ß√£o
A √∫nica intera√ß√£o necess√°ria aqui ser√° responder s (sim) ou n (n√£o) √† pergunta sobre apagar os arquivos, caso o script encontre alguma duplicata.

Ao final da execu√ß√£o, a sa√≠da confirmar√° o n√∫mero final de arquivos √∫nicos que ser√£o enviados para a transcri√ß√£o na pr√≥xima etapa.



In [None]:
# C√©lula 3.5: Listagem de Arquivos e Verifica√ß√£o de Duplicatas

#---BIBLIOTECAS---
#os
#glob
#hashlib
#----------------

# 1. Listagem dos Arquivos de √Åudio
print("--- Listando arquivos de √°udio ---")
# Lista todos os arquivos na pasta de trabalho definida na C√©lula 3
audio_files = glob.glob(os.path.join(work_folder, "*.*"))
print(f"Total de arquivos encontrados inicialmente: {len(audio_files)}")

# 2. Fun√ß√£o para Calcular Hash MD5
def calculate_md5(file_path):
    """Calcula o hash MD5 de um arquivo de forma eficiente."""
    md5_hash = hashlib.md5()
    with open(file_path, "rb") as f:
        # L√™ o arquivo em peda√ßos para n√£o sobrecarregar a mem√≥ria
        for byte_block in iter(lambda: f.read(4096), b""):
            md5_hash.update(byte_block)
    return md5_hash.hexdigest()

# 3. Verifica√ß√£o de Duplicatas
print("\n--- Iniciando verifica√ß√£o de arquivos duplicados (usando MD5) ---")
hashes = {}
duplicates = []

for audio_path in audio_files:
    # Ignorar subdiret√≥rios, verificar apenas arquivos
    if not os.path.isfile(audio_path):
        continue
    try:
        file_hash = calculate_md5(audio_path)
        if file_hash in hashes:
            duplicates.append(audio_path)
        else:
            hashes[file_hash] = audio_path
    except Exception as e:
        print(f"  -> ERRO ao calcular hash para {os.path.basename(audio_path)}: {e}")

if duplicates:
    print(f"\nForam encontrados {len(duplicates)} arquivos duplicados.")
    user_choice = input("Deseja apagar os arquivos duplicados? (s/n): ").lower()

    if user_choice == 's':
        deleted_count = 0
        for dup_path in duplicates:
            try:
                os.remove(dup_path)
                print(f"  - Apagado: {os.path.basename(dup_path)}")
                deleted_count += 1
            except Exception as e:
                print(f"  - ERRO ao apagar {os.path.basename(dup_path)}: {e}")
        print(f"\n{deleted_count} arquivos duplicados foram apagados.")
        # Atualiza a lista de arquivos para conter apenas os caminhos dos arquivos √∫nicos
        audio_files = list(hashes.values())
    else:
        print("\nNenhum arquivo duplicado foi apagado. A lista de arquivos pode conter duplicatas.")
else:
    print("Nenhum arquivo duplicado foi encontrado.")

# 4. Confirma√ß√£o Final
print("\n-------------------------------------------------------------")
print(f"Verifica√ß√£o de duplicatas conclu√≠da.")
print(f"N√∫mero final de arquivos a serem processados: {len(audio_files)}")
print("-------------------------------------------------------------")

# C√©lula 4: Escolha e Carregamento do Modelo de IA
Esta c√©lula carrega o modelo de IA Whisper. Ao execut√°-la, um menu interativo aparecer√° para voc√™ escolher a vers√£o do modelo, permitindo balancear velocidade e precis√£o.

## Guia R√°pido das Op√ß√µes:
*   Para Velocidade: Use tiny (1) ou base (2).
*   Para Equil√≠brio (Recomendado): Use small (3).
*   Para Precis√£o M√°xima: Use medium (4) ou large (5).

## ‚ö†Ô∏è Aviso Sobre Mem√≥ria e √Åudios Longos
Os modelos maiores (medium e large) consomem muita mem√≥ria e podem causar erros se usados para transcrever √°udios muito longos (ex: acima de 15 minutos). Para √°udios curtos, como os do WhatsApp, eles costumam funcionar bem.

Ap√≥s sua escolha, o modelo ser√° carregado. Isso pode levar alguns minutos na primeira vez.

In [None]:
# C√©lula 4: Carregar o Modelo Whisper (com sele√ß√£o interativa)

# Mapeia a escolha do usu√°rio para o nome do modelo
model_options = {
    '1': 'tiny',
    '2': 'base',
    '3': 'small',
    '4': 'medium',
    '5': 'large'
}

# Loop para garantir que o usu√°rio escolha uma op√ß√£o v√°lida
while True:
    print("--- Escolha o modelo do Whisper para carregar ---")
    print("Modelos menores s√£o mais r√°pidos, modelos maiores s√£o mais precisos.")
    print("Recomenda√ß√£o para Colab padr√£o: 'base' ou 'small'.\n")
    print("1: tiny (mais r√°pido, menor precis√£o, ideal para testes)")
    print("2: base (bom equil√≠brio entre velocidade e precis√£o)")
    print("3: small (mais preciso, um pouco mais lento)")
    print("4: medium (alta precis√£o, significativamente mais lento)")
    print("5: large (precis√£o m√°xima, MUITO lento, pode causar erro de mem√≥ria)")

    user_choice = input("\nDigite o n√∫mero do modelo desejado (1-5): ")

    if user_choice in model_options:
        model_size = model_options[user_choice]
        print(f"\nVoc√™ selecionou o modelo: '{model_size}'. Carregando, isso pode levar um tempo...")
        break  # Sai do loop, pois a escolha √© v√°lida
    else:
        print("\nOp√ß√£o inv√°lida! Por favor, escolha um n√∫mero de 1 a 5.\n")

# Carrega o modelo escolhido pelo usu√°rio
try:
    model = whisper.load_model(model_size)
    print(f"\n‚úÖ Modelo Whisper '{model_size}' carregado com sucesso!")
except Exception as e:
    print(f"\n‚ùå ERRO ao carregar o modelo: {e}")
    print("Se estiver usando os modelos 'medium' ou 'large', pode ser um erro de falta de mem√≥ria.")

# C√©lula 5: Executar a Transcri√ß√£o dos √Åudios
Esta √© a c√©lula principal, onde a m√°gica acontece. Ela ir√° percorrer cada um dos seus arquivos de √°udio e usar o modelo Whisper para convert√™-los em texto.

Ao executar, o script primeiro perguntar√° se voc√™ deseja usar um Prompt Inicial. Esta √© uma ferramenta opcional, mas poderosa, para melhorar a precis√£o da IA, especialmente na grafia de nomes, jarg√µes ou termos t√©cnicos.

## Dica Avan√ßada: Como Criar um Prompt Eficaz com IA
Se voc√™ n√£o tem certeza do que escrever no prompt, use esta t√©cnica para que uma IA crie o prompt para voc√™:

1.   **Fa√ßa uma Amostra:** Mova alguns poucos √°udios (3 a 5) que representem bem o seu conte√∫do para a pasta audios_para_transcrever.

2.   **Transcreva a Amostra:** Rode esta c√©lula e responda n (n√£o) √† pergunta sobre o prompt.
3.   **Pe√ßa Ajuda a uma LLM:** Copie as transcri√ß√µes geradas e cole em uma LLM de sua prefer√™ncia (Gemini, ChatGPT, etc.), usando um comando como:

*"Analise estas transcri√ß√µes e crie um prompt de contexto para o modelo Whisper, listando os principais nomes, jarg√µes ou locais que aparecem."*

4.   **Execute a Vers√£o Final:** Coloque todos os seus √°udios de volta na pasta. Rode a C√©lula 5 novamente, mas desta vez responda s (sim) e use o prompt que a LLM gerou para voc√™.

Ap√≥s a configura√ß√£o, o script iniciar√° o processo, mostrando o progresso a cada arquivo. Este processo pode levar tempo, dependendo da quantidade de √°udios e do modelo escolhido.

In [None]:
# C√©lula 5: Processar e Transcrever os √Åudios

# Lista para armazenar os resultados
transcription_data = []

# --- CONFIGURA√á√ïES DE TRANSCRI√á√ÉO ---

# 1. L√≥gica para o Prompt Interativo
prompt_inicial = "" # Inicializa como uma string vazia
while True:
    usar_prompt = input("Deseja inserir um prompt inicial para melhorar a precis√£o? (s/n): ").lower()
    if usar_prompt in ['s', 'n']:
        break
    else:
        print("Op√ß√£o inv√°lida. Por favor, digite 's' para sim ou 'n' para n√£o.")

if usar_prompt == 's':
    prompt_inicial = input("Digite o prompt (ex: nomes, lugares ou jarg√µes que podem aparecer nos √°udios):\n")

# 2. Outras configura√ß√µes
tamanho_do_beam = 10 # Padr√£o √© 5. Aumentar pode melhorar a precis√£o, mas torna mais lento.
# ------------------------------------

print("\nIniciando o processo de transcri√ß√£o com as configura√ß√µes definidas...")

# O loop usa a vari√°vel 'audio_files',
# que j√° foi definida e limpa de duplicatas na C√©lula 3.5.
for i, audio_path in enumerate(audio_files):
    file_name = os.path.basename(audio_path)
    print(f"Processando ({i+1}/{len(audio_files)}): {file_name}")

    try:
        # Obter a dura√ß√£o do √°udio
        audio = AudioSegment.from_file(audio_path)
        duration_seconds = len(audio) / 1000.0

        # Transcrever o √°udio com par√¢metros ajustados
        result = model.transcribe(
            audio_path,
            language='pt',
            initial_prompt=prompt_inicial,
            beam_size=tamanho_do_beam
        )
        transcription = result["text"]

        # Adicionar os dados √† nossa lista
        transcription_data.append({
            "Arquivo": file_name,
            "Dura√ß√£o (s)": duration_seconds,
            "Transcri√ß√£o": transcription
        })

        print(f"  -> Transcri√ß√£o: {transcription[:80]}...")

    except Exception as e:
        print(f"  -> ERRO ao processar o arquivo {file_name}: {e}")

print("\nProcesso de transcri√ß√£o conclu√≠do!")

# C√©lula 6: Criar, Formatar e Salvar a Tabela de Transcri√ß√µes
Esta √© a √∫ltima etapa do nosso pipeline. Ela pega todas as transcri√ß√µes geradas na c√©lula anterior e as organiza em um arquivo final, limpo e pronto para uso.

## O que esta c√©lula faz:

1.   Cria a Tabela: Organiza todas as informa√ß√µes coletadas (nome do arquivo, dura√ß√£o e texto) em uma tabela estruturada.
2.   Salva o Resultado: Grava a tabela completa em um arquivo chamado transcricoes.csv dentro da sua pasta de trabalho (**audios_para_transcrever**) no Google Drive.

## O Resultado Final
Ao executar, a sa√≠da da c√©lula mostrar√° as primeiras linhas da sua tabela final, permitindo que voc√™ visualize o resultado imediatamente.

**O arquivo transcricoes.csv estar√° na sua pasta**, pronto para ser baixado ou aberto diretamente no Excel ou no Planilhas Google, com toda a acentua√ß√£o e caracteres especiais preservados corretamente.

Parab√©ns, seu processo de transcri√ß√£o automatizada est√° conclu√≠do!

In [None]:
# C√©lula 6: Criar, Formatar e Salvar a Tabela de Transcri√ß√µes
#---BIBLIOTECAS---
#os
#pandas
#----------------
# 1. Criar um DataFrame do pandas com os dados coletados
df = pd.DataFrame(transcription_data)

# 2. Formatar a coluna de dura√ß√£o para segundos inteiros
if not df.empty and 'Dura√ß√£o (s)' in df.columns:
    df['Dura√ß√£o (s)'] = df['Dura√ß√£o (s)'].round().astype(int)

# --- Op√ß√£o de Salvamento ---
print("\n--- Salvando a Tabela de Resultados ---")
print("O arquivo ser√° salvo no formato .csv com a codifica√ß√£o 'utf-8-sig',")
print("que garante a m√°xima compatibilidade com acentua√ß√£o no Excel e Planilhas Google.")

# 3. Salvar o DataFrame final em um arquivo .csv
# A vari√°vel 'output_csv_path' foi definida na C√©lula 3.
df.to_csv(output_csv_path, index=False, encoding='utf-8-sig')

print(f"\n‚úÖ Tabela de transcri√ß√µes salva com sucesso em: {output_csv_path}")

# 4. Exibir as 10 primeiras linhas da tabela final para verifica√ß√£o
print("\nAmostra dos resultados finais:")
display(df.head(10))