# SimpleDirectoryReader. ¿Cómo cargar datos de archivos locales con LlamaIndex?

https://docs.llamaindex.ai/en/stable/module_guides/loading/simpledirectoryreader/

SimpleDirectoryReader es la manera más sencilla de cargar datos de archivos locales en LlamaIndex. Para casos de uso en producción la documentación recomienda utilizar uno de los Readers disponibles en LlamaHub, pero SimpleDirectoryReader es una buena manera de empezar.

Este módulo soporta diferentes tipos de archivos, aunque los tratará todos como texto, así: .csv (comma-separated values), .docx - Microsoft Word, .epub - EPUB ebook format, .hwp - Hangul Word Processor, .ipynb - Jupyter Notebook, .jpeg, .jpg - JPEG image, .mbox - MBOX email archive, .md - Markdown, .mp3, .mp4 - audio and video, .pdf - Portable Document Format, .png - Portable Network Graphics, .ppt, .pptm, .pptx - Microsoft PowerPoint

El uso más directo es pasarle un input_dir y este cargará todos los archivos soportados del directorio:

In [7]:
from llama_index.core import SimpleDirectoryReader

reader = SimpleDirectoryReader(input_dir="data/")

documents = reader.load_data()
documents

[Document(id_='0651527c-2758-405a-ba02-e384efa41560', embedding=None, metadata={'file_path': 'c:\\Users\\Usuario\\Downloads\\codigo-llm\\loading\\data\\Bilingual disadvantages are systematically compensated by bilingual advantages across tasks and populations.txt', 'file_name': 'Bilingual disadvantages are systematically compensated by bilingual advantages across tasks and populations.txt', 'file_type': 'text/plain', 'file_size': 5831, 'creation_date': '2024-06-16', 'last_modified_date': '2024-06-16'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, text='18 Vol.1234567890 Scientific Reports 2024 142107 httpsdoi.org10.1038s41598024524175 www.nature.comscientificreports 58. Pelham, S. D. Abrams, L. Cognitive advantages and disadvantages in early and late biling

Los Documents también se pueden procesar en paralelo, si hay muchos archivos en el directorio.

In [9]:
documents = reader.load_data(num_workers=4)

Puedes usar otras maneras de cargar los datos, por ejemplo, leyendo la información  de subdirectorios, iterando cada archivo, o restringiendo la carga de alguno de los archivos, etc. Todos los casos de uso los tienes en la documentación oficial: https://docs.llamaindex.ai/en/stable/module_guides/loading/simpledirectoryreader/

Hay una opción de extender la funcionalidad de SimpleDirectoryReader especificando una función para que cuando lea cada archivo también extraiga la metadata y la añada a cada objeto Documento resultante utilizando el parámetro file_metadata.

In [12]:
def get_meta(file_path):
    return {"category": "paper", "file_path": file_path}


reader = SimpleDirectoryReader(input_dir="data/", file_metadata=get_meta)

documents = reader.load_data()
documents

[Document(id_='d5b9c06e-e8b4-4a1e-b41e-7e506d885709', embedding=None, metadata={'category': 'paper', 'file_path': 'c:\\Users\\Usuario\\Downloads\\codigo-llm\\loading\\data\\Bilingual disadvantages are systematically compensated by bilingual advantages across tasks and populations.txt'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, text='18 Vol.1234567890 Scientific Reports 2024 142107 httpsdoi.org10.1038s41598024524175 www.nature.comscientificreports 58. Pelham, S. D. Abrams, L. Cognitive advantages and disadvantages in early and late bilinguals. J. Exp. Psychol. 402, 313325 2014. 59. Folke, T., Ouzia, J., Bright, P ., De Martino, B. Filippi, R. A bilingual disadvantage in metacognitive processing. Cognition 150, 119132 2016. 60. Desjardins, J. L., Barraza,

Lee estos artículos relacionados con la extracción de metadatos de los documentos:

- Metadata, ¿cómo se personaliza un objeto Document en LlamaIndex?
https://www.codigollm.es/metadata-como-se-personaliza-un-objeto-document-en-llamaindex/

- AVANZADO. Extracción de Metadata para una mejor indexación y comprensión de un objeto Document en LlamaIndex
https://www.codigollm.es/avanzado-extraccion-metadata-indexacion-y-comprension-objeto-document-llamaindex/