# Aplikacja Generowanie Napisów

## Specyfikacja / Specs

* użytkownik ładuje wideo. 
* aplikacja wyodrębnia dźwięk z wideo. 
* wykorzystujemy model `speech-to-text` w celu wygenerowania napisów.
* wyświetlamy wideo razem z napisami.

## Architektura

![](28__app_subtitles_generator.excalidraw.png)

## Plan / Taski
* v1 - użytkownik może przesłać plik wideo i my go wyświetlamy
    * https://docs.streamlit.io/develop/api-reference/media/st.video
    * https://docs.streamlit.io/develop/api-reference/widgets/st.file_uploader

* v2 - wyodrębniamy dźwięk z wideo i również go wyświetlamy
    * https://docs.streamlit.io/develop/api-reference/media/st.audio

* v3 - wykorzystujemy model `speech-to-text` w celu wygenerowania napisów i je wyświetlamy
    * https://docs.streamlit.io/develop/api-reference/media/st.text_area (można je jeszcze edytować)

* v4 - napisy mogą być edytowane.

* v5 - poprawione napisy mogą być zapisane do pliku oraz pobrane
    * https://docs.streamlit.io/develop/api-reference/widgets/st.download_button

## Zależności
* `streamlit` - do budowy interfejsu użytkownika.
* `openai` i modelu `whisper-1` - do transkrypcji tekstu. 
* `dotenv` - do przechowywania klucza openai.
* `pydub` - do wyodrębniania dźwięku z wideo.

## Instalujemy wymagane biblioteki (conda wymagana)

- otwórz terminal
- uruchom `conda activate od_zera_do_ai`
- uruchom `conda config --append channels conda-forge`
- uruchom `conda install -y streamlit ffmpeg pydub openai==1.47.0 python-dotenv`

## Jak wyobrębniamy dźwięk z wideo?

In [11]:
from pydub import AudioSegment
from IPython.display import Audio
import os
import subprocess

In [12]:
# 🔧 Dodaj folder ffmpeg do PATH tymczasowo dla Pythona
ffmpeg_path = r"C:\ffmpeg\bin"
os.environ["PATH"] += os.pathsep + ffmpeg_path
os.environ["FFMPEG_BINARY"] = os.path.join(ffmpeg_path, "ffmpeg.exe")
os.environ["FFPROBE_BINARY"] = os.path.join(ffmpeg_path, "ffprobe.exe")

video_path = "czym_jest_eda.mp4"
audio = AudioSegment.from_file(video_path)
audio.export("czym_jest_eda.mp3", format="mp3")

<_io.BufferedRandom name='czym_jest_eda.mp3'>

In [13]:
Audio("czym_jest_eda.mp3")

## FAQ

### Co zrobić w sytuacji, gdy mam pytania odnośnie projektu?

Każdy projekt ma dedykowany kanał na discordzie, ten projekt ma kanał `#projekt-app_subtitles_generator`. W razie pytań, zapraszam do zadawania ich na kanale.

### Gdzie przesłać link do projektu?

Na kanał `#projekt-app_subtitles_generator` na discordzie proszę o wysłanie:
* Linku do aplikacji - aplikacja powinna być wdrożona i dostępna publicznie
* Linku do repozytorium z kodem źródłowym (github)

### Jakie są kryteria oceny projektu?

* Czy aplikacja działa?
* Czy aplikacja spełnia założenia projektu?
* Czy aplikacja jest wdrożona i publicznie dostępna?

### Jakie są terminy?

* nie ma, projekt jest otwarty i można go wykonać w dowolnym momencie
* możesz spokojnie zacząć projekt w tym module i pracować nad nim do końca kursu

### Czy mogę zmodyfikować założenia projektu?

Tak, możesz dodać dodatkowe funkcjonalności, które nie są opisane w specyfikacji projektu. Możesz również zmodyfikować istniejące funkcjonalności.
Jednak pamiętaj, że w takim przypadku jednoznacznie musisz to opisać w repozytorium projektu.
Dodaj plik `README.md` w którym opiszesz zmiany względem specyfikacji projektu.

### Czy mogę wykonać projekt w grupie?

Tak jest, wówczas proszę o przesłanie listy osób, które pracowały nad projektem.

### Czy mogę wykonać projekt w innej technologii?

Tak, możesz wykonać projekt w innej technologii, ale pamiętaj, że wówczas musisz dostarczyć dodatkowe informacje jak zainstalować i uruchomić projekt.

### Czy mogę pracować nad więcej niż jednym projektem?

TAK! Zachęcam do pracy nad wieloma projektami. Każdy projekt to nowe wyzwanie i nowe umiejętności, które zdobędziesz.
Po ukończeniu każdego z projektów twoim zadaniem będzie uzupełnienie Twojego portfolio o nowy projekt. Ale o tym dowiesz się w **Module 11**


## 