# DocumentLoaders

In [1]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_core.vectorstores import InMemoryVectorStore

file_path = 'victor_cv_pt.pdf'

loader = PyPDFLoader(file_path=file_path)
pages = []

async for page in loader.alazy_load():
    pages.append(page)

In [2]:
print(f'Metadata: {pages[0].metadata}\n')
print(f'Content:\n {pages[0].page_content}\n')

Metadata: {'producer': 'Skia/PDF m140 Google Docs Renderer', 'creator': 'PyPDF', 'creationdate': '', 'title': 'victor_cv_pt', 'source': 'victor_cv_pt.pdf', 'total_pages': 2, 'page': 0, 'page_label': '1'}

Content:
 Victor  Dantas  CONTATO  Email:  victorr.dantas@gmail.com  
Telefone:  (92)  99309-9714  
Localização:  Manaus  -  AM  
GitHub:  victordantas1  
Portfólio:  victordantas  
Linkedin:  victor-dantas  
OBJETIVO  Busco  uma  posição  como  Cientista  de  Dados  para  utilizar  análise  de  dados  e  machine  
learning
 
na
 
otimização
 
de
 
processos
 
e
 
na
 
criação
 
de
 
soluções
 
inovadoras
 
que
 
impulsionem
 
o
 
valor
 
do
 
negócio.
 
EXPERIÊNCIA  Estagiário  de  Ciência  de  Dados  SIDIA  Instituto  de  Ciência  e  Tecnologia  Fev  2024  -  
Presente
 
●  Análise  Exploratória  de  Dados  (EDA):  Realizei  análises  em  diversas  fontes  de  
dados
 
para
 
identificar
 
padrões,
 
tendências
 
e
 
anomalias,
 
gerando
 
insights
 
e
 
visualizações
 
que
 
apoiar

In [3]:
len(pages[0].page_content) + len(pages[1].page_content)

2185

## Split Documents

In [10]:
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n",
    encoding_name="cl100k_base",
    chunk_size=100,
    chunk_overlap=0
)
texts = text_splitter.split_text(pages[0].page_content)

In [11]:
texts

['Victor  Dantas  CONTATO  Email:  victorr.dantas@gmail.com  \nTelefone:  (92)  99309-9714  \nLocalização:  Manaus  -  AM  \nGitHub:  victordantas1  \nPortfólio:  victordantas  \nLinkedin:  victor-dantas',
 'OBJETIVO  Busco  uma  posição  como  Cientista  de  Dados  para  utilizar  análise  de  dados  e  machine  \nlearning\n \nna\n \notimização\n \nde\n \nprocessos\n \ne\n \nna\n \ncriação\n \nde\n \nsoluções\n \ninovadoras\n \nque\n \nimpulsionem',
 'o\n \nvalor\n \ndo\n \nnegócio.\n \nEXPERIÊNCIA  Estagiário  de  Ciência  de  Dados  SIDIA  Instituto  de  Ciência  e  Tecnologia  Fev  2024  -  \nPresente',
 '●  Análise  Exploratória  de  Dados  (EDA):  Realizei  análises  em  diversas  fontes  de  \ndados\n \npara\n \nidentificar\n \npadrões,\n \ntendências\n \ne\n \nanomalias,\n \ngerando\n \ninsights\n \ne\n \nvisualizações\n \nque',
 'apoiaram\n \no\n \ndesenvolvimento\n \nde\n \nsoluções.\n ●  Modelagem  e  PLN:  Participei  de  pesquisas  e  experimentos  com  Modelos  de  \nLing

## Vector Search over PDFs

In [11]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from dotenv import load_dotenv
load_dotenv()

embeddings = GoogleGenerativeAIEmbeddings(model="models/gemini-embedding-001")

In [14]:
from langchain_core.vectorstores import InMemoryVectorStore

vector_store = InMemoryVectorStore.from_documents(pages, embeddings)

In [20]:
doc = vector_store.similarity_search("Quais sao as skills do individuo?", k=1)
print(f"Page {doc[0].metadata['page']}: {doc[0].page_content[:500]}\n")

Page 1: (UFAM)  Previsão  de  Conclusão:  2027  (Cursando  o  5º  semestre)  
HABILIDADES  
Categoria  Habilidades  
Linguagens  Python,  Java,  SQL,  Javascript,  HTML,  CSS  
Frameworks  Spring  Boot,  FastAPI,  Flask,  PyTorch,  Scikit-Learn  
Dados  Pandas,  PySpark,  Polars,  Matplotlib  
Bancos  de  Dados  MySQL,  MongoDB  
Ferramentas  &  DevOps  Git,  Github,  Docker,  Linux,  MLOps,  OAuth2.0  
Conceitos  Machine  Learning,  API  Restful  
IDIOMAS  
●  Português:  Nativo  ●  Inglês:  Intermediá

