# Utilizando OpenAi Whisper

Neste notebook, forneceremos o link de um vídeo do YouTube e demonstraremos como convertê-lo facilmente em áudio para transcrevê-lo para texto utilizando o Whisper da OpenAi.



### Instalando pacotes e importando bibliotecas:

- yt-dlp é um downloader de áudio/vídeo de linha de comando rico de recursos com suporte para milhares de sites .
- Whisper é um sistema de inteligência artificial criado para transformar fala em texto automaticamente.

In [1]:
!pip -q install yt_dlp
!pip -q install git+https://github.com/openai/whisper.git

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/171.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m171.9/171.9 kB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/3.2 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.2/3.2 MB[0m [31m7.3 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.9/3.2 MB[0m [31m13.4 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m3.2/3.2 MB[0m [31m37.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m29.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing meta

In [2]:
import whisper

### Baixando audio e convertendo para texto


In [3]:
#Passando o link do video do Youtube
link = 'https://www.youtube.com/watch?v=s-Ue8SdQy3I'

Para baixar um vídeo e convertê-lo para áudio, utilizamos a ferramenta `yt-dlp`. Para isso, configuramos a linha de comando com as opções desejadas. A sintaxe básica do comando é:

`yt-dlp [OPTIONS] [--] URL [URL...]`

Usaremos então as seguintes opções:

- `!yt-dlp` → O ! indica que esse comando está sendo executado dentro de um ambiente interativo, como um notebook Jupyter.

- `-x (ou --extract-audio)` → Extrai apenas o áudio do vídeo.

- `-f bestaudio` → Especifica o formato de download como bestaudio, ou seja, a melhor qualidade de áudio disponível no vídeo.

- `--audio-format mp3` → Converte o áudio extraído para MP3 após o download.

- `-o` → Define o nome do arquivo de saída:

- `"audio.%(ext)s"` → O nome do arquivo será "audio.mp3", pois %(ext)s será substituído pela extensão do formato de áudio escolhido (mp3).

- `$link` → Representa a variável contendo a URL do vídeo, que será fornecida no momento da execução.

In [4]:
#Utilizando yt-dlp para baixar o audio
!yt-dlp -x -f bestaudio --audio-format mp3 -o "audio.%(ext)s" $link

[youtube] Extracting URL: https://www.youtube.com/watch?v=s-Ue8SdQy3I
[youtube] s-Ue8SdQy3I: Downloading webpage
[youtube] s-Ue8SdQy3I: Downloading tv client config
[youtube] s-Ue8SdQy3I: Downloading player b191cf34
[youtube] s-Ue8SdQy3I: Downloading tv player API JSON
[youtube] s-Ue8SdQy3I: Downloading ios player API JSON
[youtube] s-Ue8SdQy3I: Downloading m3u8 information
[info] s-Ue8SdQy3I: Downloading 1 format(s): 251
[download] Destination: audio.webm
[K[download] 100% of   10.89MiB in [1;37m00:00:00[0m at [0;32m15.63MiB/s[0m
[ExtractAudio] Destination: audio.mp3
Deleting original file audio.webm (pass -k to keep)


Para transcrever um áudio com Whisper, é importante entender que ele possui seis tipos de modelos, cada um equilibrando velocidade e precisão. O desempenho e a qualidade da transcrição podem variar conforme o modelo escolhido. Para mais detalhes, consulte a documentação.  

- `whisper.load_model()`: Carrega o modelo escolhido para transcrição.  
- `transcribe()`: Lê todo o arquivo de áudio e o divide em trechos de 30 segundos, analisando cada parte separadamente para prever o que foi dito com base no contexto.

In [5]:
#carregando modelo
modelo = whisper.load_model("large")
#Realizando a transcrição
transcricao = modelo.transcribe('./audio.mp3')

100%|█████████████████████████████████████| 2.88G/2.88G [01:07<00:00, 45.7MiB/s]
  checkpoint = torch.load(fp, map_location=device)


In [6]:
transcricao['text']

' Fala impressionadores, tudo bem? No vídeo de hoje a gente vai falar sobre dois termos que estão cada vez mais importantes dentro da ciência de dados que são redes neurais e Deep Learning e eu vou explicar para vocês todos os principais conceitos teóricos seja para você explicar em uma entrevista, seja para você falar com o recrutador ou até implementar isso dentro da sua própria empresa e a gente também percebe que cada vez mais vagas estão pedindo por conhecimento de Deep Learning e por isso é tão importante vocês saberem desses conceitos mas antes da gente seguir eu vou pedir para vocês deixarem uma curtida nesse vídeo e baixar esse material que está aqui na descrição então, bora lá! Quando a gente fala do conceito de redes neurais a gente quer basicamente fazer com que as máquinas consigam reproduzir o comportamento do nosso cérebro o nosso cérebro atualmente é uma grande máquina de aprender com uma grande capacidade de aprender novas coisas desde pequeno a gente aprende como anda