In [1]:
import os
import openai
from dotenv import load_dotenv

load_dotenv()

openai_api_key = os.getenv("OPENAI_API_KEY")

# Loader de PDF

In [2]:
!pip install pypdf



In [3]:
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("Currículo para vaga de Analista ou Cientista de Dados.pdf")
pages = loader.load()

Cada página do PDF é um `Document`

Um `Documento` contem texto(`page_content`) e `metadata`

por exemplo:

In [4]:
pages

[Document(metadata={'source': 'Currículo para vaga de Analista ou Cientista de Dados.pdf', 'page': 0}, page_content='Diogo Dias\nEnsino\nUniversidade Federal da Paraíba , Bacharelado em Engenharia Química Agosto 2022 – Dezembro\n2026\n•Competências: Análise de Dados, Programação, Inteligência Artificial, Álgebra Linear, Estatística, Cálculo\nNumérico, Séries Temporais, Introdução a Ciência de Dados.\nUniversidade Cruzeiro do Sul Virtual , Tecnólogo em Ciência de Dados Agosto 2024 – Agosto 2026\n•Competências: Modelagem de Dados, Programação, Inteligência Artificial, Inferência Estatística, Probabilidade\ne Estatística, Machine Learning, Deep Learning.\nExperiências\nIniciação Científica , Universidade Federal da Paraíba Dezembro de 2023 – Até o\nMomento\n•Pesquisa de Algoritmos de Machine Learning para otimização do processo experimental em pirólise.\n•Pirólise de biomassas com a perspectiva de produzir biocombustíveis com baixa pegada de carbono.\n•Análise de dados experimentais.\nExp

In [5]:
# Número de páginas
len(pages)

1

In [6]:
# Se o doc tem várias páginas, é possível selecionar alguma em específico
page = pages[0]
page

Document(metadata={'source': 'Currículo para vaga de Analista ou Cientista de Dados.pdf', 'page': 0}, page_content='Diogo Dias\nEnsino\nUniversidade Federal da Paraíba , Bacharelado em Engenharia Química Agosto 2022 – Dezembro\n2026\n•Competências: Análise de Dados, Programação, Inteligência Artificial, Álgebra Linear, Estatística, Cálculo\nNumérico, Séries Temporais, Introdução a Ciência de Dados.\nUniversidade Cruzeiro do Sul Virtual , Tecnólogo em Ciência de Dados Agosto 2024 – Agosto 2026\n•Competências: Modelagem de Dados, Programação, Inteligência Artificial, Inferência Estatística, Probabilidade\ne Estatística, Machine Learning, Deep Learning.\nExperiências\nIniciação Científica , Universidade Federal da Paraíba Dezembro de 2023 – Até o\nMomento\n•Pesquisa de Algoritmos de Machine Learning para otimização do processo experimental em pirólise.\n•Pirólise de biomassas com a perspectiva de produzir biocombustíveis com baixa pegada de carbono.\n•Análise de dados experimentais.\nExpe

Aqui no caso, estou consultando da página selecionada lá em cima, o conteúdo do primeiro caractere até o 500. 

In [7]:
print(page.page_content[0:500])

Diogo Dias
Ensino
Universidade Federal da Paraíba , Bacharelado em Engenharia Química Agosto 2022 – Dezembro
2026
•Competências: Análise de Dados, Programação, Inteligência Artificial, Álgebra Linear, Estatística, Cálculo
Numérico, Séries Temporais, Introdução a Ciência de Dados.
Universidade Cruzeiro do Sul Virtual , Tecnólogo em Ciência de Dados Agosto 2024 – Agosto 2026
•Competências: Modelagem de Dados, Programação, Inteligência Artificial, Inferência Estatística, Probabilidade
e Estatística


Aqui estou observando todo o conteúdo da página

In [8]:
print(page.page_content)

Diogo Dias
Ensino
Universidade Federal da Paraíba , Bacharelado em Engenharia Química Agosto 2022 – Dezembro
2026
•Competências: Análise de Dados, Programação, Inteligência Artificial, Álgebra Linear, Estatística, Cálculo
Numérico, Séries Temporais, Introdução a Ciência de Dados.
Universidade Cruzeiro do Sul Virtual , Tecnólogo em Ciência de Dados Agosto 2024 – Agosto 2026
•Competências: Modelagem de Dados, Programação, Inteligência Artificial, Inferência Estatística, Probabilidade
e Estatística, Machine Learning, Deep Learning.
Experiências
Iniciação Científica , Universidade Federal da Paraíba Dezembro de 2023 – Até o
Momento
•Pesquisa de Algoritmos de Machine Learning para otimização do processo experimental em pirólise.
•Pirólise de biomassas com a perspectiva de produzir biocombustíveis com baixa pegada de carbono.
•Análise de dados experimentais.
Experiências Adicionais
Comunicador: Tenho dois projetos que visam compartilhar conhecimento de programação e ciência de dados de
forma

Aqui estou consultando o título do arquivo e a quantidade de página.
Ou seja, todo o metadata.

In [9]:
page.metadata

{'source': 'Currículo para vaga de Analista ou Cientista de Dados.pdf',
 'page': 0}

# Loader do Youtube

In [10]:
from langchain.document_loaders.generic import GenericLoader
from langchain.document_loaders.parsers import OpenAIWhisperParser
from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader

In [11]:
! pip install yt_dlp
! pip install pydub
! pip install ffmpeg
! pip install ffprobe



In [12]:
url = "https://www.youtube.com/watch?v=yoHS2T32Z5o&pp=ygUNaG9sZCBvbiBhZGVsZQ%3D%3D"
save_dir = "docs/youtube/"
loader =  GenericLoader(
    YoutubeAudioLoader([url], save_dir),
    OpenAIWhisperParser()
)
docs = loader.load()

[youtube] Extracting URL: https://www.youtube.com/watch?v=yoHS2T32Z5o&pp=ygUNaG9sZCBvbiBhZGVsZQ%3D%3D
[youtube] yoHS2T32Z5o: Downloading webpage
[youtube] yoHS2T32Z5o: Downloading ios player API JSON
[youtube] yoHS2T32Z5o: Downloading web creator player API JSON
[youtube] yoHS2T32Z5o: Downloading m3u8 information
[info] yoHS2T32Z5o: Downloading 1 format(s): 140
[download] docs\youtube\Adele - Hold On (Official Lyric Video).m4a has already been downloaded
[download] 100% of    5.66MiB
[ExtractAudio] Not converting audio docs\youtube\Adele - Hold On (Official Lyric Video).m4a; file is already in target format m4a
Transcribing part 1!


In [14]:
docs

[Document(metadata={'source': 'docs\\youtube\\Adele - Hold On (Official Lyric Video).m4a', 'chunk': 0}, page_content="Oh, you are still strong Love will soon come Just hold on Oh, what have I done yet again? Have I not learned anything? I don't want to live in chaos It's like a ride that I want to get off It's hard to hold on to who I am When I'm stumbling in the dark for a hand I am so tired of battling With myself and no chance to win Oh, let time be patient Let pain be gracious Just hold on I swear to God I am such a mess The harder that I try, I regress I'm my own worst enemy Right now I truly hate being me Every day feels like the road I'm on Might just open up and swallow me whole How do I feel so mighty small When I'm struggling to feel at all? Just hold on Let time be patient You are still strong Let pain be gracious Just hold on Sometimes loneliness is the only rest we get And the emptiness actually lets us forget Sometimes forgiveness is easiest in secret So just hold on Let 

In [24]:
docs[0].page_content

"Oh, you are still strong Love will soon come Just hold on Oh, what have I done yet again? Have I not learned anything? I don't want to live in chaos It's like a ride that I want to get off It's hard to hold on to who I am When I'm stumbling in the dark for a hand I am so tired of battling With myself and no chance to win Oh, let time be patient Let pain be gracious Just hold on I swear to God I am such a mess The harder that I try, I regress I'm my own worst enemy Right now I truly hate being me Every day feels like the road I'm on Might just open up and swallow me whole How do I feel so mighty small When I'm struggling to feel at all? Just hold on Let time be patient You are still strong Let pain be gracious Just hold on Sometimes loneliness is the only rest we get And the emptiness actually lets us forget Sometimes forgiveness is easiest in secret So just hold on Let time be patient You are still strong Let pain be gracious Listen girl, baby If you just hold on Hold on, hold on, hol

# URLs

In [9]:
from langchain.document_loaders import WebBaseLoader

# Essa é a url do livro Python Fluente
loader = WebBaseLoader("https://pythonfluente.com/")
docs = loader.load()

In [15]:
print(docs[0].page_content[0:500])









Python Fluente, Segunda Edição (2023)





Python Fluente, Segunda Edição (2023)

Luciano Ramalho


Sumário

Prefácio

Para quem é esse livro
Para quem esse livro não é
Como ler este livro
Abordagem "mão na massa"
Ponto de vista: minha perspectiva pessoal
Conteúdo na na Web
Convenções usadas no livro
Usando os exemplos de código
O’Reilly Online Learning
Como entrar em contato
Agradecimentos
Sobre esta tradução
Histórico das traduções


Parte I: Estruturas de dados

1. O modelo de dados d
