# RAG - LLM - Parsing

Parsing is the process of extract raw text from documents such as PDFs, .docx files, youtube videos and so on. It depends on the type of data you want to parse.

For this LLM, only .docx and pdfs will be parsed

In [1]:
import pymupdf
import sys

sys.path.append("..")

from gcp_utils.gcs import upload_file, get_file
from rag_llm_energy_expert.config import GCP_CONFIG

In [2]:
config = GCP_CONFIG()

## Parsing PDFs

There are tons of libraries to extract data from PDFs, nevertheless, [*PyMuPDF*](https://pypi.org/project/pymupdf4llm/) is one of the best libraries because:

- Detects standard text and tables
- Header lines are identified via de font size and appropiately prefixed with one or more '#' tags.
- Bold, italic, mono-spaced text and code blocks are detected and formatted accordingly.
- By default, all document pages are processed.
- Support for pages with multiple text columns.
- Support image or vector graphic on the page and they're stored as an image.
- ***Support for page chunks***. Instead of returning one large string for the whole document, a list of dictionaries can be generated. One for each page.

*All the data parsed here comes from GCP*

Reading into memory is faster than download the pdf into a file system, and then read the file from there. Moreover, it's useful when you do not have a persistent memory or you want to work directly with the file.

In [5]:
pdf_bytes = get_file("documents/summaries/resumen_reforma_energetica.pdf")

# Creates a Document object, it can be constructed from a file or from memory
# pymupdf.Document() method is exactly the same as pymupdf.open()
doc = pymupdf.Document(stream = pdf_bytes)

# To get all the info 
all_doc = ''.join([page.get_text() for page in doc])

In [7]:
print(all_doc)

 Resumen Ejecutivo
3
I. Introducción
La Reforma Energética es un paso decidido rumbo a la modernización del sector energético de 
nuestro país, sin privatizar las empresas públicas dedicadas a la producción y al aprovechamien-
to de los hidrocarburos y de la electricidad. La Reforma Energética, tanto constitucional como a 
nivel legistlación secundarias, surge del estudio y valoración de las distintas iniciativas presenta-
das por los partidos políticos representados en el Congreso.
La Reforma Energética tiene los siguientes objetivos y premisas fundamentales:
1.	
Mantener la propiedad de la Nación sobre los hidrocarburos que se encuentran en el sub-
suelo.
2.	
Modernizar y fortalecer, sin privatizar, a Petróleos Mexicanos (Pemex) y a la Comisión Fe-
deral de Electricidad (CFE) como Empresas Productivas del Estado, 100% públicas y 100% 
mexicanas.
3.	
Reducir la exposición del país a los riesgos financieros, geológicos y ambientales en las ac-
tividades de exploración y extracción de p

## Parse docx files