## Definição:
Os carregadores de documentos são componentes do LangChain que facilitam o carregamentos de arquivos/documentos para que eles possam interagir  com outros componentes de LangChain.
Eles não são utilizados diretamente dentro das cadeias (chains), mas são peças fundamentais no pré processamento dos dados para que você possa adicionar informações à sua chain (mais especifico nos prompts) ou indexar informações em bancos vetoriais.

Os carregadores de documentos são projetados para carregar objetos de documentos. O LangChain tem centenas de integrações com várias fontes de dados para carregar dados de: Slack, Notion, Google Drive, etc. ([link](https://python.langchain.com/docs/integrations/document_loaders/))

Cada Document Loader tem seus próprios parâmetros específicos, mas todos eles podem ser invocados da mesma maneira com o método `.load`(método padrão de carregamento) ou `.lazy_load` (usado para trabalhar com grandes conjuntos de dados).
[Documentação](https://python.langchain.com/docs/how_to/#document-loaders)

### Tipos

##### Carregadores de PDF:

[link](https://python.langchain.com/docs/how_to/document_loader_pdf/)
#### Simples Carregamento de texto:

Para fazer a leitura de texto presente em PDFs, podemos usar a biblioteca pypdf.
 


- Versão assíncrona:

In [1]:
%run ../helpers/00-llm.ipynb

In [2]:
# Importa conectando com o cliente OpenAI
from helpers.llm import initialize_llm, logger, pretty_print_docs

# Parte 1 - Importando os componentes do LangChain
llm, _, _ = initialize_llm()

INFO:helpers.llm:Using AzureOpenAI.


In [3]:
from langchain_community.document_loaders import PyPDFLoader  
import asyncio  # Import necessário para gerenciar o loop de eventos  
  
  
# Define uma função assíncrona para realizar a tarefa  
async def process_pdf():  
    loader = PyPDFLoader(r"data/DENGUE.pdf")
    pages_asinc = []  
  
    # Para leitura assíncrona  
    async for page in loader.alazy_load():  
        pages_asinc.append(page)  
  
    # Imprime o resultado  
    pretty_print_docs(pages_asinc)  
  
  
# Executa a função assíncrona  
await process_pdf()
# if __name__ == "__main__":  
#     await asyncio.gather(process_pdf())

Document 1:

DENGUE 
Introdução 
A dengue faz parte de um grupo de doenças denominadas arboviroses, que se caracterizam 
por serem causadas por vírus transmitidos por vetores artrópodes. No Brasil, o vetor da 
dengue é a fêmea do mosquito Aedes aegypti (significa "odioso do Egito"). Os vírus dengue 
(DENV) estão classificados cientificamente na família Flaviviridae e no gênero Flavivirus. 
Até o momento são conhecidos quatro sorotipos – DENV-1, DENV-2, DENV-3 e DENV-4 –, 
que apresentam distintos materiais genéticos (genótipos) e linhagens. 
As evidências apontam que o mosquito tenha vindo nos navios que partiam da África com 
escravos. No Brasil, a primeira epidemia documentada clínica e laboratorialmente ocorreu 
em 1981-1982, em Boa Vista (RR), causada pelos sorotipos 1 e 4. Após quatro anos,  em 
1986, ocorreram epidemias atingindo o estado do Rio de Janeiro e algumas capitais da 
região Nordeste. Desde então, a dengue vem ocorrendo de forma continuada (endêmica), 
intercalando-se 

- Versão síncrona:


In [4]:
from langchain_community.document_loaders import PyPDFLoader  
  
loader = PyPDFLoader(r"data/DENGUE.pdf")  
pages_sinc = loader.load()  
  
# Aqui verificaremos que pages_sinc é uma lista de 'Document':  
print("\n------ Imprimindo o resultado ------\n")  
print(pages_sinc)  
  
print("\n------ Imprimindo o resultado ------\n")  

pages = []
# Acessando os valores carregados:  
for elemento in pages_sinc:  
    print("----- Página Inicio -----")  
    print(f"Conteúdo: {elemento.page_content}\n")  
    print(f"Metadado: {elemento.metadata}")  
    print("----- Página Fim    -----")


# async for page in loader.alazy_load():
#     pages.append(page)     

# print(f"-> {pages[0].metadata}\n")
# print(pages[0].page_content)     


------ Imprimindo o resultado ------

[Document(metadata={'producer': 'Microsoft® Word para Microsoft 365', 'creator': 'Microsoft® Word para Microsoft 365', 'creationdate': '2025-01-30T19:50:06-03:00', 'author': 'Gustavo Sacchi', 'moddate': '2025-01-30T19:50:06-03:00', 'source': 'data/DENGUE.pdf', 'total_pages': 4, 'page': 0, 'page_label': '1'}, page_content='DENGUE \nIntrodução \nA dengue faz parte de um grupo de doenças denominadas arboviroses, que se caracterizam \npor serem causadas por vírus transmitidos por vetores artrópodes. No Brasil, o vetor da \ndengue é a fêmea do mosquito Aedes aegypti (significa "odioso do Egito"). Os vírus dengue \n(DENV) estão classificados cientificamente na família Flaviviridae e no gênero Flavivirus. \nAté o momento são conhecidos quatro sorotipos – DENV-1, DENV-2, DENV-3 e DENV-4 –, \nque apresentam distintos materiais genéticos (genótipos) e linhagens. \nAs evidências apontam que o mosquito tenha vindo nos navios que partiam da África com \nescrav

Para PDFs não estruturados, com imagens ou tabelas, é necessário extratores mais complexos e robustos, então convido você a acessar a documentação do LangChain onde há vários exemplos.

## Carregador de Texto

In [7]:
from langchain_community.document_loaders import TextLoader  
  
loader = TextLoader(r"data/exemplo_arquivo.txt")  
pages_sinc = loader.load()  
  
# Aqui verificaremos que pages_sinc é uma lista de 'Document':  
print("\n------ Imprimindo o resultado ------\n")  
pretty_print_docs(pages_sinc)  



------ Imprimindo o resultado ------

Document 1:

A 2015 paper, “Neural Machine Translation by Jointly Learning to Align and Translate”,
introduced a new approach to addressing this bottleneck. Rather than having
the encoder supply a single thought vector, it preserved all the hidden state vectors
generated for each token encountered in the encoding process and then allowed
the decoder to “soft search” over all of the vectors. As a demonstration, the paper
showed that using soft search with an English-to-French translation model increased
translation quality significantly. This soft search technique soon came to be known as
the attention mechanism.
The attention mechanism soon gained a good deal of attention of its own in the
AI community, culminating in the 2017 Google Research paper “Attention Is All
You Need”, which introduced the transformer architecture shown in Figure 1-4. The
transformer retained the high-level structure of its predecessor—consisting of an
encoder that receive

## Carregador de Página Web
[link](https://python.langchain.com/docs/how_to/document_loader_web/)

Para fazer a leitura de páginas da web no formato LangChain, podemos utilizar a biblioteca `beautifulsoup4` ou `langchain-unstructured`.

Importações:

In [None]:
%pip install langchain-community langchain-unstructured unstructured beautifulsoup4 

### Para uma análise simples:


In [8]:
from langchain_community.document_loaders import WebBaseLoader  
  
page_url = "https://python.langchain.com/docs/introduction/"  
  
loader = WebBaseLoader(web_paths=[page_url])  
resultado = loader.load()  
  
  
# Aqui verificaremos que pages_sinc é uma lista de 'Document':  
print("\n------ Imprimindo o resultado ------\n")  
print(resultado)  
  
print("\n------ Imprimindo o resultado ------\n")  
# Acessando os valores carregados:  
for elemento in resultado:  
    print("----- Página Inicio -----")  
    print(f"Conteúdo: {elemento.page_content}\n")  
    print(f"Metadado: {elemento.metadata}")  
    print("----- Página Fim    -----")




------ Imprimindo o resultado ------

[Document(metadata={'source': 'https://python.langchain.com/docs/introduction/', 'title': 'Introduction | 🦜️🔗 LangChain', 'description': 'LangChain is a framework for developing applications powered by large language models (LLMs).', 'language': 'en'}, page_content='\n\n\n\n\nIntroduction | 🦜️🔗 LangChain\n\n\n\n\n\n\n\n\nSkip to main contentOur Building Ambient Agents with LangGraph course is now available on LangChain Academy!IntegrationsAPI ReferenceMoreContributingPeopleError referenceLangSmithLangGraphLangChain HubLangChain JS/TSv0.3v0.3v0.2v0.1💬SearchIntroductionTutorialsBuild a Question Answering application over a Graph DatabaseTutorialsBuild a simple LLM application with chat models and prompt templatesBuild a ChatbotBuild a Retrieval Augmented Generation (RAG) App: Part 2Build an Extraction ChainBuild an AgentTaggingBuild a Retrieval Augmented Generation (RAG) App: Part 1Build a semantic search engineBuild a Question/Answering system over

### Para uma análise avançada:

Este método é apropriado se quisermos um controle ou processamento mais granular do conteúdo da página. Abaixo, em vez de gerar um `Document`por página e controlar seu conteúdo via BeautifulSoup, geramos vários `Document`objetos representando estruturas distintas em uma página. Essas estruturas podem incluir títulos de seção e seus textos de corpo correspondentes, listas ou enumerações, tabelas e muito mais.

In [None]:
from langchain_unstructured import UnstructuredLoader  
  
page_url = "https://python.langchain.com/docs/how_to/chatbots_memory/"  
loader = UnstructuredLoader(web_url=page_url)  
  
resultado = loader.load()  
  
  
# Aqui verificaremos que pages_sinc é uma lista de 'Document':  
print("\n------ Imprimindo o resultado ------\n")  
print(resultado)  
  
print("\n------ Imprimindo o resultado ------\n")  
# Acessando os valores carregados:  
for elemento in resultado:  
    print("----- Página Inicio -----")  
    print(f"Conteúdo: {elemento.page_content}\n")  
    print(f"Metadado: {elemento.metadata}")  
    print("----- Página Fim    -----")

## Carregadores de CSVs
[link](https://python.langchain.com/docs/how_to/document_loader_csv/)

In [9]:
from langchain_community.document_loaders.csv_loader import CSVLoader  
  
file_path = r"data/exemplo_arquivo.csv"  
  
loader = CSVLoader(file_path=file_path)  
data = loader.load()  
  
linha = 0  
for record in data:  
    print(f"Imprimindo linha: {linha}")  
    print(f"-----------")  
    print(record)  
    print(f"-----------")  
    linha+=1  
print("---- Imprimindo de forma estruturada ----")  
for record in data:  
    print(f"Imprimindo linha: {linha}")  
    print(f"Conteúdo: {record.page_content}\n")  
    print(f"-----------")  
    linha+=1

Imprimindo linha: 0
-----------
page_content='Coluna 1;Coluna 2: A;1' metadata={'source': 'data/exemplo_arquivo.csv', 'row': 0}
-----------
Imprimindo linha: 1
-----------
page_content='Coluna 1;Coluna 2: B;2' metadata={'source': 'data/exemplo_arquivo.csv', 'row': 1}
-----------
Imprimindo linha: 2
-----------
page_content='Coluna 1;Coluna 2: C;3' metadata={'source': 'data/exemplo_arquivo.csv', 'row': 2}
-----------
Imprimindo linha: 3
-----------
page_content='Coluna 1;Coluna 2: D;4' metadata={'source': 'data/exemplo_arquivo.csv', 'row': 3}
-----------
---- Imprimindo de forma estruturada ----
Imprimindo linha: 4
Conteúdo: Coluna 1;Coluna 2: A;1

-----------
Imprimindo linha: 5
Conteúdo: Coluna 1;Coluna 2: B;2

-----------
Imprimindo linha: 6
Conteúdo: Coluna 1;Coluna 2: C;3

-----------
Imprimindo linha: 7
Conteúdo: Coluna 1;Coluna 2: D;4

-----------


## Carregadores de JSON
[link](https://python.langchain.com/docs/how_to/document_loader_json/)

In [None]:
%pip install jq

In [11]:
from langchain_community.document_loaders import JSONLoader


loader = JSONLoader(
    file_path='data/exemplo_arquivo.json',
    jq_schema='.messages[].sender_name',
    text_content=False)

data = loader.load()

for record in data:  
    print(f"Conteúdo: {record.page_content}\n")  
    print(f"-----------")  
    

Conteúdo: User 2

-----------
Conteúdo: User 1

-----------
Conteúdo: User 2

-----------
Conteúdo: User 1

-----------
Conteúdo: User 1

-----------
Conteúdo: User 2

-----------
Conteúdo: User 2

-----------
Conteúdo: User 2

-----------
Conteúdo: User 1

-----------
Conteúdo: User 2

-----------
Conteúdo: User 1

-----------


## Carregadores de Markdown
[link](https://python.langchain.com/docs/how_to/document_loader_markdown/)

In [None]:
%pip install markdown

In [16]:
from langchain_community.document_loaders import UnstructuredMarkdownLoader
from langchain_core.documents import Document
markdown_path = "../00-course-setup/SETUP.md"
loader = UnstructuredMarkdownLoader(markdown_path)

data = loader.load()
assert len(data) == 1
assert isinstance(data[0], Document)
readme_content = data[0].page_content
print(readme_content[:250])


Ambiente de desenvolvimento

Visual Studio Code

PyCharm Community Edition

Python for windows

Começando

Crie uma pasta onde você deseja baixar o clone do repositório do nosso curso.

Via terminal, acesse a pasta que você criou.

git clone https://
