# Document Loaders

In [2]:
from langchain_community.document_loaders.pdf import PyPDFLoader

In [3]:
path = "samples/sample_pdf.pdf"

loader = PyPDFLoader(path)
download = loader.load()

In [4]:
len(download)

1

In [5]:
download[0].page_content

'D E C L A R A Ç Ã O\n             Declaramos, para os fins a que se fizerem necessários, que LUCAS\nGABRIEL DE OLIVEIRA LIMA é aluno(a) vinculado(a) a esta universidade, sob o\nnúmero 231003406, no curso de CIÊNCIA DA COMPUTAÇÃO/CIC -\nBACHARELADO - DIURNO.\n             Brasília, 02 de Junho de 2025.\nCódigo de verificação:\n 17588dd20d\nPara verificar a autenticidade deste documento acesse https://sig.unb.br/sigaa/documentos/,\ninformando a matrícula, data de emissão do documento e o código de verificação.\nUNIVERSIDADE DE BRASÍLIA\nSAA - SECRETARIA DE ADMINISTRAÇÃO ACADÊMICA\n CNPJ: 00.038.174/0001-43\nCampus Darcy Ribeiro -Centro de Vivência, Térreo- Asa Norte - CEP 70910-900\nTel.: (61) 3107-6417 / E-mail: deg@unb.br'

## Trabalhando com documentos

In [6]:
from langchain.chains.question_answering import load_qa_chain
from langchain_ollama.chat_models import ChatOllama

chat = ChatOllama(model='llama2')

chain = load_qa_chain(llm=chat, chain_type='stuff', verbose=True)

stuff: https://python.langchain.com/docs/versions/migrating_chains/stuff_docs_chain
map_reduce: https://python.langchain.com/docs/versions/migrating_chains/map_reduce_chain
refine: https://python.langchain.com/docs/versions/migrating_chains/refine_chain
map_rerank: https://python.langchain.com/docs/versions/migrating_chains/map_rerank_docs_chain

See also guides on retrieval and question-answering here: https://python.langchain.com/docs/how_to/#qa-with-rag
  chain = load_qa_chain(llm=chat, chain_type='stuff', verbose=True)


In [9]:
pergunta = 'Quais assuntos são tratados no documento?'

chain.run(input_documents=download, question=pergunta)

  chain.run(input_documents=download, question=pergunta)




[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Use the following pieces of context to answer the user's question. 
If you don't know the answer, just say that you don't know, don't try to make up an answer.
----------------
D E C L A R A Ç Ã O
             Declaramos, para os fins a que se fizerem necessários, que LUCAS
GABRIEL DE OLIVEIRA LIMA é aluno(a) vinculado(a) a esta universidade, sob o
número 231003406, no curso de CIÊNCIA DA COMPUTAÇÃO/CIC -
BACHARELADO - DIURNO.
             Brasília, 02 de Junho de 2025.
Código de verificação:
 17588dd20d
Para verificar a autenticidade deste documento acesse https://sig.unb.br/sigaa/documentos/,
informando a matrícula, data de emissão do documento e o código de verificação.
UNIVERSIDADE DE BRASÍLIA
SAA - SECRETARIA DE ADMINISTRAÇÃO ACADÊMICA
 CNPJ: 00.038.174/0001-43
Campus Darcy Ribeiro -Centro de Vivência, Térreo- Asa Norte - CEP 70910-900
Tel.

"Based on the provided context, the following are the main subjects treated in the document:\n\n1. Identity of the student: The document declares that Lucas Gabriel de Oliveira Lima is a student attached to the University of Brasilia, with student number 231003406, enrolled in the Computer Science/Bachelor's degree program.\n2. Date and place of issuance: The document specifies the date (June 2, 2025) and location (Brasília) where it was issued.\n3. Verification code: The document includes a verification code (17588dd20d) that can be used to verify its authenticity through the university's website.\n4. University information: The document provides the name of the university (Universidade de Brasilia), its SAA (Secretaria de Administração Acadêmica) department, and its CNPJ (Company Taxpayer Registration Number).\n5. Campus location: The document specifies the campus location (Darcy Ribeiro - Centro de Vivencia) and its CEP (Postal Code) address."

### Download da internet

In [10]:
from langchain_community.document_loaders.web_base import WebBaseLoader

url = 'https://hub.asimov.academy/blog/listas-em-python/'
loader = WebBaseLoader(url)
documentos = loader.load()

In [11]:
documentos[0].page_content

'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nLista em Python: o que são e como funcionam | Asimov Academy\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nTamanho de fonte\n\nA\nA\nA\nA\n\n\n\nAlto contraste\n\nLigado\nDesligado\n\n\n\nAltura de linha\n\n1\n1.3\n1.5\n1.7\n2.0\n\n\n\n \n\n\n\nPesquisar na plataforma\n\n\n\n\n\nEntrar\nCadastrar\n\n\n\n\n\nBlog\n\n\nArtigos\n\n\nTutoriais\n\n\nMateriais Extras\n\n\nEscreva para nós!\n200xp \n\n\n\n\n\n\n\n\n\n\n            Home          \n\n\n\n\n            Blog          \n\n\n\n\n            Programação Python          \n\n\n\nLista em Python: o que são e como funcionam\n\n\nRenata Lopes\n\n\n\n\n\n              16 minutos de leitura\n            \n\n\n              12/04/2024 • Atualizado 7 meses atrás \n5xp \n\n\n\n\n\n\n\n\n\n\n\nJá conhece a lista em Python? Quer entender como manipular listas e quais são suas pri