## Preguntas y Respuestas de Videos de YouTube

Code Done by 
- Developer: Oscar Yllan Garza
- GitHub: https://github.com/OscarYllanGDeveloper/langChain-Course
- LinkedIn: https://www.linkedin.com/in/oscaryllang/


In [1]:
!pip install langchain -q

In [2]:
!pip install openai -q

In [3]:
!pip install python-dotenv -q

In [4]:
import os
import openai
from dotenv import load_dotenv, find_dotenv

In [5]:
load_dotenv(find_dotenv())

True

In [6]:
openai.api_key = os.environ['OPENAI_API_KEY']

###  YouTube

In [7]:
!pip install pytube  -q

In [8]:
!pip install --upgrade pytube -q


In [9]:
!pip install youtube-transcript-api -q

In [10]:
!pip install langchain-community -q


In [11]:
from langchain_community.document_loaders import YoutubeLoader

In [12]:
from pytube import YouTube
from youtube_transcript_api import YouTubeTranscriptApi

def get_video_id(url):
    """Extrae el ID del video de YouTube usando Pytube."""
    try:
        yt = YouTube(url)
        return yt.video_id
    except Exception as e:
        print(f"Error al obtener el ID del video: {e}")
        return None

def get_transcript(video_url, language="es"):
    """Obtiene la transcripción en español de un video de YouTube usando su URL."""
    video_id = get_video_id(video_url)
    if not video_id:
        print("URL no válida o no se pudo obtener el ID del video.")
        return None
    
    try:
        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=[language])
        transcription_text = " ".join([entry["text"] for entry in transcript])
        return transcription_text
    except Exception as e:
        print(f"No se pudo obtener la transcripción en español: {e}")
        return None

# Ejemplo de uso
video_url = "https://www.youtube.com/watch?v=nubNmOQLgxQ"
transcription_text = get_transcript(video_url)

if transcription_text:
    print("Transcripción del video en español almacenada en la variable `transcription_text`.")
    print(transcription_text)
else:
    print("No se encontró transcripción en español para este video.")


Transcripción del video en español almacenada en la variable `transcription_text`.
sora ha llegado al mundo sorprendiendo a todos porque ahora de repente Es una posibilidad que una Inteligencia artificial pues sea capaz de generar vídeo a través de un único promt de texto logrando resultados como ningún otro modelo de la competencia ha sido capaz de demostrar acostumbrados a ver resultados de pocos segundos con muy poco dinamismo y bastante fallos de coherencia temporal con objetos mutando a cada fotograma que pasa que de repente llegue Open Ai y nos enseñe esto es una demostración de lo muy por delante de la competencia que van en este laboratorio por comparar el modelo más avanzado que teníamos hasta la fecha era el de Google lumier presentado hace un mes y que era bastante espectacular pero claro visto ahora pues ya no lo es Ya que donde uno podía generar clips de 5 segundos ahora hora lo eleva al minuto con una resolución impresionante y una consistencia y comprensión del mundo rea

## Paso 2: Configurar LangChain e Instalar las Bibliotecas Necesarias

In [13]:
pip install langchain openai faiss-cpu


Collecting faiss-cpu
  Downloading faiss_cpu-1.9.0-cp311-cp311-macosx_10_14_x86_64.whl.metadata (4.4 kB)
Collecting numpy<2,>=1 (from langchain)
  Using cached numpy-1.26.4-cp311-cp311-macosx_10_9_x86_64.whl.metadata (61 kB)
Downloading faiss_cpu-1.9.0-cp311-cp311-macosx_10_14_x86_64.whl (7.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.7/7.7 MB[0m [31m13.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hUsing cached numpy-1.26.4-cp311-cp311-macosx_10_9_x86_64.whl (20.6 MB)
Installing collected packages: numpy, faiss-cpu
  Attempting uninstall: numpy
    Found existing installation: numpy 1.24.4
    Uninstalling numpy-1.24.4:
      Successfully uninstalled numpy-1.24.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
pyfume 0.3.4 requires numpy==1.24.4, but you have numpy 1.26.4 which is incompatible.[0m[31m
[0mSuccessfully

In [17]:
import os
os.environ["OPENAI_API_KEY"] = openai.api_key


## Paso 3: Dividir la Transcripción en Fragmentos

In [18]:
from langchain.text_splitter import CharacterTextSplitter

# Dividir la transcripción en fragmentos de 1000 caracteres (ajustable)
text_splitter = CharacterTextSplitter(
    separator="\n",
    chunk_size=1000,
    chunk_overlap=100,
    length_function=len,
)

texts = text_splitter.split_text(transcription_text)


## Paso 4: Crear Embeddings e Indexar con FAISS

In [19]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# Crear embeddings de OpenAI
embeddings = OpenAIEmbeddings()

# Crear la base de datos FAISS con los textos divididos
docsearch = FAISS.from_texts(texts, embeddings)


## Paso 5: Hacer Preguntas a la Transcripción

In [22]:
from langchain.chat_models import ChatOpenAI
from langchain.chains.question_answering import load_qa_chain

# Configurar el modelo de chat con `ChatOpenAI`
llm = ChatOpenAI(model="gpt-3.5-turbo")  # o usa "gpt-4" si tienes acceso

# Crear una cadena de preguntas y respuestas
qa_chain = load_qa_chain(llm, chain_type="stuff")

# Hacer una pregunta
query = "¿De qué trata principalmente el video?"
docs = docsearch.similarity_search(query)

# Obtener la respuesta
answer = qa_chain.run(input_documents=docs, question=query)
print(answer)


  llm = ChatOpenAI(model="gpt-3.5-turbo")  # o usa "gpt-4" si tienes acceso


El video trata principalmente sobre el modelo de inteligencia artificial llamado "sora", desarrollado por Open Ai, que es capaz de generar vídeos realistas a partir de texto. Se discute cómo sora no solo es un generador de vídeo, sino un simulador del mundo real que ha aprendido a través de analizar una gran cantidad de vídeos. También se menciona la capacidad de sora para modelar el mundo y la importancia de la interactividad para evaluar su capacidad de generalización. Además, se discuten las implicaciones éticas y las oportunidades que esta tecnología presenta.
