# DocumentLoaders

### Tipos de Document Loaders no Langchain

![Document loaders](arquivos/loaders.png)

## Carregando PDFs

In [1]:
from langchain_community.document_loaders.pdf import PyPDFLoader

caminho = 'arquivos/Explorando o Universo das IAs com Hugging Face.pdf'
loader = PyPDFLoader(caminho)
documentos = loader.load()

In [2]:
len(documentos)

89

In [3]:
print(documentos[3].page_content)

Explorando o Universo das IAs com Hugging Face
13. Utilizando IAs de resumo 56
Resumindo textos em português . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Resumindo um artigo da Wikipedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Resumindo uma notícia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Outros parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
14. Classificando textos com IAs 60
Classificação de texto (análise de sentimento) . . . . . . . . . . . . . . . . . . . . . . . . . 60
Classificando reviews de um produto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Outros exemplos de classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Classificando emoções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Classificando headlines de frases relacionadas a finanças . . . . . . . . . . . . . . . . 62
Classificando ironi

In [4]:
documentos[3].metadata

{'source': 'arquivos/Explorando o Universo das IAs com Hugging Face.pdf',
 'page': 3}

### Fazendo perguntas para o arquivo

In [5]:
from langchain.chains.question_answering import load_qa_chain
from langchain_openai.chat_models import ChatOpenAI

chat = ChatOpenAI(model='gpt-3.5-turbo-0125')

chain = load_qa_chain(llm=chat, chain_type='stuff', verbose=True)

stuff: https://python.langchain.com/docs/versions/migrating_chains/stuff_docs_chain
map_reduce: https://python.langchain.com/docs/versions/migrating_chains/map_reduce_chain
refine: https://python.langchain.com/docs/versions/migrating_chains/refine_chain
map_rerank: https://python.langchain.com/docs/versions/migrating_chains/map_rerank_docs_chain

See also guides on retrieval and question-answering here: https://python.langchain.com/docs/how_to/#qa-with-rag
  chain = load_qa_chain(llm=chat, chain_type='stuff', verbose=True)


In [6]:
pergunta = 'Quais assuntos são tratados no documento?'

chain.run(input_documents=documentos[:10], question=pergunta)

  chain.run(input_documents=documentos[:10], question=pergunta)




[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Use the following pieces of context to answer the user's question. 
If you don't know the answer, just say that you don't know, don't try to make up an answer.
----------------
Explorando o Universo das IAs com
Hugging Face
Asimov Academy

Explorando o Universo das IAs com Hugging Face
Conteúdo
01. O que é Hugging Face? 5
Afinal, o que é Hugging Face? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
É tudo aberto mesmo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Como usaremos o Hugging Face? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
02. A plataforma Hugging Face 7
Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Página de um modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Datasets . . . . .

'O documento trata sobre a plataforma Hugging Face, incluindo informações sobre o que é a empresa, a estrutura da plataforma (modelos, Spaces e Datasets), como usar a plataforma, detalhes sobre modelos de IA, como acessar e visualizar modelos, e informações sobre a comunidade do Hugging Face. Além disso, aborda tópicos como testar e comparar modelos, utilizar a biblioteca transformers, criar chatbots, acessar modelos através da Inference API, conversar com chatbots pela Inference API, modelos restritos, entre outros temas relacionados ao universo das IAs com Hugging Face.'

## Carregando csv

In [7]:
from langchain_community.document_loaders.csv_loader import CSVLoader

caminho = 'arquivos/Top 1000 IMDB movies.csv'
loader = CSVLoader(caminho)
documentos = loader.load()

In [8]:
len(documentos)

1000

In [9]:
print(documentos[2].page_content)

: 2
Movie Name: The Dark Knight
Year of Release: (2008)
Watch Time: 152 min
Movie Rating: 9.0
Meatscore of movie: 84
Votes: 34,709
Gross: $534.86M
Description: When the menace known as the Joker wreaks havoc and chaos on the people of Gotham, Batman must accept one of the greatest psychological and physical tests of his ability to fight injustice.


In [10]:
documentos[2].metadata

{'source': 'arquivos/Top 1000 IMDB movies.csv', 'row': 2}

In [11]:
from langchain.chains.question_answering import load_qa_chain
from langchain_openai.chat_models import ChatOpenAI

chat = ChatOpenAI(model='gpt-3.5-turbo-0125')

chain = load_qa_chain(llm=chat, chain_type='stuff', verbose=True)

In [12]:
pergunta = 'Qual é o filme com maior metascore?'
chain.run(input_documents=documentos[:10], question=pergunta)



[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Use the following pieces of context to answer the user's question. 
If you don't know the answer, just say that you don't know, don't try to make up an answer.
----------------
: 0
Movie Name: The Shawshank Redemption
Year of Release: (1994)
Watch Time: 142 min
Movie Rating: 9.3
Meatscore of movie: 81
Votes: 34,709
Gross: $28.34M
Description: Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.

: 1
Movie Name: The Godfather
Year of Release: (1972)
Watch Time: 175 min
Movie Rating: 9.2
Meatscore of movie: 100
Votes: 34,709
Gross: $134.97M
Description: The aging patriarch of an organized crime dynasty in postwar New York City transfers control of his clandestine empire to his reluctant youngest son.

: 2
Movie Name: The Dark Knight
Year of Release: (2008)
Watch Time: 152 min
Movie 

'O filme com o maior Meatscore é "The Godfather" com uma pontuação de 100.'

## Carregando da Internet

### Youtube

In [13]:
from langchain_community.document_loaders.generic import GenericLoader
from langchain_community.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader
from langchain.document_loaders.parsers import OpenAIWhisperParser

In [14]:
url = 'https://www.youtube.com/watch?v=rOjusRRO1EI'
save_dir='docs/youtube/'
loader = GenericLoader(
    YoutubeAudioLoader([url], save_dir),
    OpenAIWhisperParser()
)
docs = loader.load()

[youtube] Extracting URL: https://www.youtube.com/watch?v=rOjusRRO1EI
[youtube] rOjusRRO1EI: Downloading webpage
[youtube] rOjusRRO1EI: Downloading tv player API JSON
[youtube] rOjusRRO1EI: Downloading ios player API JSON
[youtube] rOjusRRO1EI: Downloading m3u8 information
[info] rOjusRRO1EI: Downloading 1 format(s): 140
[download] docs/youtube//Como usar o GPT com seus próprios dados？.m4a has already been downloaded
[download] 100% of   25.62MiB
[ExtractAudio] Not converting audio docs/youtube//Como usar o GPT com seus próprios dados？.m4a; file is already in target format m4a
Transcribing part 1!


In [15]:
len(docs)

2

In [17]:
print(docs[0].page_content[:500])

Esse simples sistema aqui, essa telinha feia, com esse formulário aqui quase ridículo, é o tipo de projeto mais poderoso que vocês podem construir hoje em dia utilizando inteligência artificial. E o que isso aqui tem de tão especial? Esse sistema especificamente é capaz de responder perguntas sobre o funcionamento da Asimov porque ele foi treinado em uma base de conhecimentos que o nosso time está alimentando sobre como a empresa funciona. Então, nesse caso em específico, ele é capaz de responde


In [18]:
docs[1].metadata

{'source': 'docs/youtube/Como usar o GPT com seus próprios dados？.m4a',
 'chunk': 1}

### URLs

In [19]:
from langchain_community.document_loaders.web_base import WebBaseLoader

url = 'https://hub.asimov.academy/blog/listas-em-python/'
loader = WebBaseLoader(url)
documentos = loader.load()

USER_AGENT environment variable not set, consider setting it to identify your requests.


In [20]:
len(documentos)

1

In [21]:
print(documentos[0].page_content[1000:2000])

ão em Python.
A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?
Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!


      Curso Gratuito    

 

Seu primeiro projeto Python – curso grátis com certificado!
Vá do zero ao primeiro projeto em apenas 2 horas com o curso Python para Iniciantes.
Comece agora


O que é uma lista em Python?
Uma lista em Python é uma estrutura de dados que armazena uma sequência de valores. As listas e

## Carregando do Notion

In [25]:
from langchain_community.document_loaders.notion import NotionDirectoryLoader
caminho = 'arquivos/notion_db'
loader = NotionDirectoryLoader(caminho)
documentos = loader.load()

In [None]:
len(documentos)

In [None]:
print(documentos[0].page_content)

In [19]:
documentos[2].metadata

{'source': 'arquivos\\notion_db\\Wiki da Asimov 9d5b5c18267b4db2af0e216e8d418745\\Arrumar dados do Database 98cb8cde71cc489e8be9ba405bf19596.md'}