In [None]:
!pip install -q -r requirements.txt

In [None]:
%%writefile app.py

import os
import re
import streamlit as st
import transformers
from transformers import pipeline
from transformers import AutoTokenizer
import nltk
from PIL import Image
import torch
import ffmpeg
import speech_recognition as sr
from pytube import YouTube
import string
import whisper
from moviepy.editor import AudioFileClip
from langchain.text_splitter import CharacterTextSplitter
from langchain_core.messages import AIMessage, HumanMessage, SystemMessage
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chat_models import ChatOpenAI
from langchain.memory import ConversationBufferWindowMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.callbacks import get_openai_callback
from key import openai_api_key
from langchain import PromptTemplate
from langchain import LLMChain
import monkey_patch     # OBS: esse arquivo evita um bug frequente do pytube
from pytube import YouTube
os.environ['OPENAI_API_KEY'] = openai_api_key


  # Criando a fun√ß√£o que corta o texto em chunks:
def get_chunks(texto_transcrito):
    """Fun√ß√£o que recebe uma string (um texto transcrito) e devolve
    uma lista de strings, em que cada string ("chunk") cont√©m um
    tamanho espec√≠fico, com overlap entre os peda√ßos. """
    text_splitter=CharacterTextSplitter(separator='.', chunk_size=1000, chunk_overlap=100, length_function=len)
    chunks = text_splitter.split_text(texto_transcrito)
    return chunks

  # Criando a fun√ß√£o de vectorstore para transformar os chunks de texto em embeddings:
def get_vectorstore(chunks):
    """Fun√ß√£o que recebe uma lista de chunks de texto e
    os converte em embeddings (representa√ß√µes num√©ricas)
    usando um modelo de embeddings pr√©-treinado. """
    embeddings = OpenAIEmbeddings()
    vectorstore = FAISS.from_texts(texts=chunks, embedding=embeddings)
    return vectorstore


  # Criando a fun√ß√£o para converter o v√≠deo para o formato adequado:
@st.cache_data
def convert_mp3_to_wav(mp3_file, wav_file):
    """Fun√ß√£o que converte um arquivo de v√≠deo no formato MP3 para um arquivo de
    √°udio no formato WAV a partir das seguintes entradas: o caminho do arquivo
    de v√≠deo no formato MP3 que se deseja converter; o caminho onde o arquivo
    de √°udio WAV resultante ser√° salvo. Nenhuma sa√≠da expl√≠cita √© retornada."""
    video = AudioFileClip(mp3_file)
    video.write_audiofile(wav_file)

  # Criando a fun√ß√£o que gera a transcri√ß√£o:
@st.cache_data
def get_transcriptions(url):
    """ Fun√ß√£o que recebe um link de um v√≠deo no YouTube e
    devolve um dicion√°rio contendo o t√≠tulo do v√≠deo (key)
    e a transcri√ß√£o de seu √°udio (value). """
    dicionario = {}
      # Baixando o √°udio:
    youtube_content = YouTube(url)
    title = youtube_content.title
    title = re.sub('[^A-z0-9 -]', '', title).replace(" ", " ")
    audio_streams = youtube_content.streams.filter(only_audio=True)
    audio_streams[0].download(filename=f"{title}.mp3")
      # Convertendo para Wav:
    cwd = os.getcwd()
    mp3_file = os.path.join(cwd, f"{title}.mp3")
    wav_file = os.path.join(cwd, f"{title}.wav")
    convert_mp3_to_wav(mp3_file, wav_file)
      # Inicializando o reconhecedor de fala:
    r = sr.Recognizer()
      # Carregando o √°udio gravado pelo Whisper em um objeto de √°udio:
    with sr.AudioFile(wav_file) as source:
        audio = r.record(source)
      # Transcrevendo:
    texto_transcrito = r.recognize_whisper(audio)
      # Adicionando ao dicionario:
    dicionario[title] = texto_transcrito
    return dicionario


  # Criando a fun√ß√£o que carrega o sumarizador extrativo (para portugu√™s e ingl√™s) via HuggingFace:
@st.cache_resource
def load_extractive():
    """ Fun√ß√£o sem valores de entrada que carrega o modelo
     de sumariza√ß√£o extrativa via HuggingFace. """
    return pipeline("summarization", model="NotXia/longformer-bio-ext-summ", tokenizer=AutoTokenizer.from_pretrained("NotXia/longformer-bio-ext-summ"), trust_remote_code=True)

  # Criando a fun√ß√£o que gera a sumariza√ß√£o extrativa:
@st.cache_data
def get_summarization(_model_pipeline, full_text, ratio):
    """ Fun√ß√£o que recebe um texto completo a ser resumido, juntamente
    √† taxa desejada de sumariza√ß√£o e a pipeline do modelo que far√° o
    sum√°rio, e devolve a vers√£o resumida desse texto. """
    sentences = nltk.sent_tokenize(full_text)
    extractive_sentences = _model_pipeline({"sentences": sentences}, strategy="ratio", strategy_args=ratio)
    extractive_text = " ".join(extractive_sentences[0])
    return extractive_text


  # Criando a fun√ß√£o que gera a tradu√ß√£o do texto a partir do ChatGPT:
@st.cache_data
def get_translation(summarized_text):
    """ Fun√ß√£o que recebe um resumo a ser traduzido,
    juntamente √† pipeline do modelo que far√° a tradu√ß√£o,
    e devolve a vers√£o traduzida do texto. """
    LLM = ChatOpenAI(openai_api_key=openai_api_key, temperature=0.25, model_name="gpt-3.5-turbo")
    messages = [SystemMessage(content='Voc√™ √© um especialista em tradu√ß√µes de texto do ingl√™s para portugu√™s'), HumanMessage(content=summarized_text)]
    translation = LLM(messages)
    return translation.content


  # Criando a fun√ß√£o que corrige os erros de transcri√ß√£o do texto a partir do ChatGPT:
@st.cache_data
def get_correction(transcription):
    """ Fun√ß√£o que recebe a transcri√ß√£o (em PT-BR) e corrige eventuais
    erros do whisper - por exemplo, a troca de palavras que, embora
    semelhantes na pron√∫ncia, s√£o totalmente absurdas no contexto. """
    correction_prompt = PromptTemplate.from_template(template = 'Voc√™ √© um especialista em corre√ß√£o de textos. Voc√™ receber√° uma transcri√ß√£o de um √°udio e dever√° substituir as palavras transcritas erroneamente, considerando apenas a pron√∫ncia, por palavras adequadas que fa√ßam sentido no contexto do texto. Al√©m disso, corrija quest√µes gram√°ticais para facilitar a compreens√£o. Corrija a seguinte transcri√ß√£o: {transcription}')
    LLM = ChatOpenAI(openai_api_key=openai_api_key, temperature=0.1, model_name="gpt-3.5-turbo")
    corrector = LLMChain(prompt=correction_prompt, llm=LLM)
    with get_openai_callback() as cb:
        corrected_transcription = corrector.run({"transcription": transcription})
        total_t = cb.total_tokens
        prompt_t = cb.prompt_tokens
        completion_t = cb.completion_tokens
        total_cost = cb.total_cost
    return corrected_transcription


  # Criando o chatbot
def alan_videos(vectorstore):
    """ Fun√ß√£o que inicializa e configura um LLM da OpenAI
    e retorna um chatbot configurado pronto para uso. """
    memory = ConversationBufferWindowMemory(memory_key='chat_history', return_messages=True, k=3)
    LLM = ChatOpenAI(openai_api_key=openai_api_key, temperature=0.25, model_name="gpt-3.5-turbo")
    retriever=vectorstore.as_retriever()
    chatbot = ConversationalRetrievalChain.from_llm(llm=LLM, retriever=retriever, memory=memory)
    return chatbot

  # Criando um modelo de chat:
def chat(pergunta):
    """ Fun√ß√£o que processa uma pergunta utilizando o chatbot
    configurado (alan_videos) e retorna sua resposta. """
    with get_openai_callback() as cb:
        resposta = st.session_state.alanvideos.invoke({"question": pergunta})
        total_t = cb.total_tokens
        prompt_t = cb.prompt_tokens
        completion_t = cb.completion_tokens
        total_cost = cb.total_cost
    return resposta['answer']


  # Criando a fun√ß√£o para customiza√ß√£o com CSS:
def local_css(file_name):
    """ Fun√ß√£o que carrega um arquivo CSS local e aplica o estilo
    ao Streamlit app, personalizando a interface do usu√°rio. """
    with open(file_name, "r") as f:
        st.markdown(f"<style>{f.read()}</style>", unsafe_allow_html=True)

  # Configurando a aba do site:
icon = Image.open("Tra√ßado laranja #f1863d.png")
st.set_page_config(page_title="AlanVideos", page_icon=icon, layout="wide", initial_sidebar_state="auto")


  # Configurando o site:
def main():
    local_css("style.css")

    header = st.container()
    model = st.container()
    model_1 = st.container()
    model_2 = st.container()

      # Configurando a barra lateral:
    with st.sidebar:
        with st.form("data_collection"):
            link = st.text_area(label="Coloque o link do seu v√≠deo do YouTube:", height=25, placeholder="Digite seu link...")
            language = st.selectbox('Qual a linguagem do seu v√≠deo?', ('Portugu√™s (pt)', 'Ingl√™s (en)'))
            translate = st.selectbox('Voc√™ deseja que o seu v√≠deo seja traduzido para Portugu√™s?', ('N√£o', 'Sim'))
            compression_rate = st.slider(label="Selecione o percentual de sumariza√ß√£o:", min_value=0.05, max_value=0.50, value=0.25, step=0.05)
            submitted = st.form_submit_button("Enviar")

            # Verificando se o link do v√≠deo √© v√°lido:
            if link != '':
                if re.match((r'(https?://)?(www\.)?''(youtube|youtu|youtube-nocookie)\.(com|be)/''(watch\?v=|embed/|v/|.+\?v=)?([^&=%\?]{11})'), link):
                    st.success('Dados coletados!', icon="‚úÖ")
                else:
                    st.error('Link inv√°lido. Por favor, insira um link do YouTube.', icon="üö®")

    if "alanvideos" not in st.session_state:
        st.session_state.alanvideos = None

      # Configurando o cabe√ßalho:
    with header:
        st.title(":orange[Alan]Videos")
        st.subheader("Ol√°, usu√°rio! Este √© um projeto que utiliza t√©cnicas de intelig√™ncia artificial para simplificar e acelerar a compreens√£o de conte√∫do audiovisual. Por favor, preencha o formul√°rio ao lado para que possamos responder as suas d√∫vidas a respeito de um v√≠deo do YouTube!  :)", divider = "orange")

      # Configurando os modelos:
    with model:
        if submitted and re.match((r'(https?://)?(www\.)?''(youtube|youtu|youtube-nocookie)\.(com|be)/''(watch\?v=|embed/|v/|.+\?v=)?([^&=%\?]{11})'), link):
            with st.spinner("Carregando modelos..."):
                nltk.download("punkt")
                extractive = load_extractive()
            with st.spinner("Transcrevendo texto..."):
                transcription = get_transcriptions(link)
                texto_cru = ''.join(list(transcription.values()))
              # Preparando o modelo de sumariza√ß√£o ap√≥s o envio de um link:
            with model_1:
                st.header("Texto Sumarizado:")
                with st.spinner("Carregando sumariza√ß√£o..."):
                    summary = get_summarization(extractive, texto_cru, compression_rate)
                      # Usando o GPT para corrigir a transcri√ß√£o, caso o v√≠deo seja em PT-BR:
                    if language == 'Portugu√™s (pt)':
                        summary = get_correction(summary)
                      # Usando o GPT para traduzir a transcri√ß√£o para PT-BR, caso o usu√°rio prefira:
                    elif language == 'Ingl√™s (en)' and translate == 'Sim':
                        with st.spinner("Traduzindo sumariza√ß√£o..."):
                            summary = get_translation(summary)
                    st.session_state['summary'] = summary
              # Preparando o AlanVideos ap√≥s o envio de um link:
            with model_2:
                st.header("Resposta das perguntas:")
                with st.spinner("Preparando AlanVideos..."):
                      # Separando o texto em chunks:
                    chunks = get_chunks(texto_cru)
                      # Armazenando os peda√ßos de texto em embeddings:
                    vectorstore = get_vectorstore(chunks)
                      # Criando o chatbot:
                    st.session_state.alanvideos = alan_videos(vectorstore)

      # Apresentando os resultados:
    with model:
          # Resultado do modelo de sumariza√ß√£o:
        with model_1:
            if 'summary' in st.session_state:
                st.write(st.session_state['summary'])
      # Resultado do AlanVideos:
    if 'summary' in st.session_state:
        if "chat_history" not in st.session_state:
            st.session_state.chat_history = [AIMessage(content=f"Ol√°, meu nome √© Alan, e estou aqui para responder perguntas sobre o v√≠deo. Como posso ajudar?")]
        pergunta = st.chat_input('Fa√ßa uma pergunta sobre o v√≠deo: ')
        if pergunta is not None and pergunta != "":
            resposta = chat(pergunta)
            st.session_state.chat_history.append(HumanMessage(content=pergunta))
            st.session_state.chat_history.append(AIMessage(content=resposta))
        for message in st.session_state.chat_history:
            if isinstance(message, AIMessage):
                with st.chat_message("AI"):
                    st.write(message.content)
            elif isinstance(message, HumanMessage):
                with st.chat_message("Human"):
                    st.write(message.content)

main()

In [None]:
!wget -q -O - ipv4.icanhazip.com

In [None]:
!streamlit run app.py & npx localtunnel --port 8501