# BibTeX

> BibTeX is a file format and reference management system commonly used in conjunction with LaTeX typesetting. It serves as a way to organize and store bibliographic information for academic and research documents.

BibTeX files have a .bib extension and consist of plain text entries representing references to various publications, such as books, articles, conference papers, theses, and more. Each BibTeX entry follows a specific structure and contains fields for different bibliographic details like author names, publication title, journal or book title, year of publication, page numbers, and more.

Bibtex files can also store the path to documents, such as `.pdf` files that can be retrieved.

## Installation

First, you need to install `bibtexparser` python package.

In [None]:
#!pip install bibtexparser

Second, you need to install `PyMuPDF` python package which transform local PDF files referenced in the bibtex entries into the text format.

In [None]:
#!pip install pymupdf

## Examples

`BibtexLoader` has these arguments:
- `file_path`: the path the the `.bib` bibtex file
- optional `load_max_docs`: default=-1, i.e. not limit. Use it to limit number of recovered documents.
- optional `load_all_additional_meta`: default=False. By default only the most important fields from the bibtex entries: `Published` (publication year), `Title`, `Authors`, `Summary`, `Journal`, `Keywords`, and `URL`. If True, it will also try to load return `entry_id`, `note`, `doi`, and `links` fields. 
- optional `pdf_pattern`. Regex pattern to find `pdf` files in the `file` entry. Default pattern `r'[^:]+\.pdf'` supports `Zotero` flavour bibtex style and bare file path.

In [1]:
from langchain.document_loaders import BibtexLoader

In [None]:
with open("./biblio.bib") as file:
    docs = BibtexLoader().load(file)
    len(docs)

In [2]:
from io import StringIO
bibtex_file = StringIO(
    """
    @article{einstein1915,
        title={Die Feldgleichungen der Gravitation},
        abstract={Die Grundgleichungen der Gravitation, die ich hier entwickeln werde, wurden von mir in einer Abhandlung: ,,Die formale Grundlage der allgemeinen Relativit{\"a}tstheorie`` in den Sitzungsberichten der Preu{\ss}ischen Akademie der Wissenschaften 1915 ver{\"o}ffentlicht.},
        author={Einstein, Albert},
        journal={Sitzungsberichte der K{\"o}niglich Preu{\ss}ischen Akademie der Wissenschaften},
        volume={1915},
        number={1},
        pages={844--847},
        year={1915},
        doi={10.1002/andp.19163540702},
        link={https://onlinelibrary.wiley.com/doi/abs/10.1002/andp.19163540702},
        file={./einstein1915.pdf}
    }

    @article{einstein1905,
        title={Zur Elektrodynamik bewegter K{\"o}rper},
        author={Einstein, Albert},
        journal={Annalen der Physik},
        volume={322},
        number={10},
        pages={891--921},
        year={1905},
        doi={10.1002/andp.19053221004},
        link={https://onlinelibrary.wiley.com/doi/abs/10.1002/andp.19053221004},
        file={./einstein1905.pdf}
    }
    """
)
docs = BibtexLoader(bibtex_file).load()
len(docs)


Running bibtexparser wrapper LOADER


2

In [3]:
docs[0].metadata  # meta-information of the bibtex entry

{'Published': '1915',
 'Title': 'Die Feldgleichungen der Gravitation',
 'Authors': 'Einstein, Albert',
 'Journal': 'Sitzungsberichte der K{"o}niglich Preu{\\ss}ischen Akademie der Wissenschaften',
 'Summary': 'Die Grundgleichungen der Gravitation, die ich hier entwickeln werde, wurden von mir in einer Abhandlung: ,,Die formale Grundlage der allgemeinen Relativit{"a}tstheorie`` in den Sitzungsberichten der Preu{\\ss}ischen Akademie der Wissenschaften 1915 ver{"o}ffentlicht.',
 'Keywords': '',
 'URL': 'https://doi.org/10.1002/andp.19163540702',
 'entry_id': 'einstein1915',
 'note': '',
 'doi': '10.1002/andp.19163540702'}

In [4]:
docs[0].page_content[:400]  # all pages of the pdf content


"1916. \nANNALEN DER PHYSIK. x 7. \nVIERTE FOME. BAND49. \n.- \n1. Die GrurtdZage \ndsr allgerndnm ReZat4&t&t8theor&; \nvon A. EinsteBn. \nDie im nachfolgenden dargelegte Theorie bildet die denk- \nbar weitgehenclste Verallgemeherung der heute allgemein als \n. ,Rela tivi ta ts t heorie ' ' bezeichne ten Theorie ; die le tztere nenne \nich im folgenden zur Unterscheidnng von der ersteren ,,spezielle \nRelativ"