PdfSharpTextExtractor

Simple Pdf text extractor based on PDFSharp for NET Standard.
Supports both single and two-byte fonts, ToUnicode maps, Encodings.
Doesn't support (yet) precise symbol positioning on page so text order can differ from the original.

Install

Install via nuget: PdfSharpTextExtractor package

dotnet add package PdfSharpTextExtractor

Install via git:

git clone https://github.com/alexarchen/PdfSharpTextExtractor

Use

As static full text extarctor

string text = PdfSharpTextExtractor.PdfToText(file)

Or as page-by-page extractor:

using (doc  = PdfReader.Open(file, PdfDocumentOpenMode.ReadOnly))
{
   StringBuilder ta = new StringBuilder();
   using (PdfSharpTextExtractor.Extractor extractor = new PdfSharpTextExtractor.Extractor(doc))
    {
       foreach (PdfPage page in doc.Pages)
        {
           extractor.ExtractText(page, ta);
        }

     }
}

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.gitignore		.gitignore
EncodingTables.cs		EncodingTables.cs
LICENSE		LICENSE
PdfSharpTextExtractor.cs		PdfSharpTextExtractor.cs
PdfSharpTextExtractor.csproj		PdfSharpTextExtractor.csproj
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PdfSharpTextExtractor

Install

Use

About

Releases

Packages

Languages

License

alexarchen/PdfSharpTextExtractor

Folders and files

Latest commit

History

Repository files navigation

PdfSharpTextExtractor

Install

Use

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages