Textasaurus

A simple library for extracting text from any PDF in Python x AWS.

Getting Started

1. Install Textasaurus

pip install textasaurus

2. Get API Key

Get an API key from the textasaurus API

TEXTASAURUS_API_KEY=Your_API_KEY

3. Run Textasaurus

Run single file

textasaurus your_file.pdf

Run file directory

textasaurus your_files/

Import in Python

from textasaurus import Textasaurus
dino = Textasaurus('YOUR_API_KEY') 
dino.analyze('my_file.pdf')

from textasaurus import Textasaurus
dino = Textasaurus('YOUR_API_KEY') 
dino.analyze('my_files/')

Use Cases

1. Batch PDF Text Extraction

Extract raw text from your PDFs for data analysis or machine learning model training

2. Skip the frusturation

Skip the frusturation of dealing with the current Python libraries for working with PDFs in Python.

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.github/workflows		.github/workflows
docs		docs
textasaurus		textasaurus
.gitignore		.gitignore
.travis.yml		.travis.yml
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Textasaurus

Getting Started

1. Install Textasaurus

2. Get API Key

3. Run Textasaurus

Use Cases

1. Batch PDF Text Extraction

2. Skip the frusturation

About

Releases

Packages

Languages

License

meads2/textasaurus

Folders and files

Latest commit

History

Repository files navigation

Textasaurus

Getting Started

1. Install Textasaurus

2. Get API Key

3. Run Textasaurus

Use Cases

1. Batch PDF Text Extraction

2. Skip the frusturation

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages