In [1]:
import json
import deepsearch as ds

## Authentication

In this example, we initialize the Deep Search client from the credentials
contained in the file `cps-auth.json`.

In [2]:
auth_filename = "cps-auth.json" # this file should be populated with the credentials
auth_data = json.load(open(auth_filename))

auth = ds.DeepSearchKeyAuth(
    username=auth_data["email"],
    api_key=auth_data["api_key"],
)

config = ds.DeepSearchConfig(
    # the host of the Deep Search instance you are using
    host="https://deepsearch-experience.res.ibm.com",

    # if needed, the validation of the SSL certificate can be avoided
    #verify_ssl=True, 

    # auth credentials
    auth=auth,
)

client = ds.CpsApiClient(config)
api = ds.CpsApi(client)

## Convert your first file


In the next block we convert our first document. As an input, we use a URL to a PDF file.


In [3]:
PROJ_KEY="1234567890abcdefghijklmnopqrstvwyz123456"
documents = ds.convert_documents(api=api, proj_key=PROJ_KEY, url="https://arxiv.org/pdf/2206.00785.pdf")

Submitting input:   : 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.29s/it]
Converting input:   : 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:24<00:00, 24.55s/it]
Downloading result: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.55s/it]


Total online documents:            0001
Successfully converted documents:  0001(100%)
Run time:                          28.20 seconds





In [4]:
# TODO: Do something with documents


## More convert options

The Deep Search toolkit provides helper functions which can convert documents from different type of inputs.

- From a single url
- From a list of urls. In this case, the toolkit will launch a batch processing with all tasks.
- From a local PDF file
- From a local zip archive containing PDF files.
- From a local local folder containing PDF files. In this case, the toolkit is packaging the files into batches and creates multiple zip archives.


In [5]:
# Process multiple urls

PROJ_KEY="1234567890abcdefghijklmnopqrstvwyz123456"
documents = ds.convert_documents(api=api, proj_key=PROJ_KEY, url=["https://arxiv.org/pdf/2206.00785.pdf", "https://arxiv.org/pdf/2206.01062.pdf"])

Submitting input:   : 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.11it/s]
Converting input:   : 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:52<00:00, 26.30s/it]
Downloading result: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:03<00:00,  1.53s/it]


Total online documents:            0002
Successfully converted documents:  0002(100%)
Run time:                          58.49 seconds





In [6]:
# Process local file

PROJ_KEY="1234567890abcdefghijklmnopqrstvwyz123456"
documents = ds.convert_documents(api=api, proj_key=PROJ_KEY, local_file="/Users/dol/Downloads/redbooks-xsmall/redp5004.pdf")

Processing input:   : 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 258.46it/s]
Submitting input:   : 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.46s/it]
Converting input:   : 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:55<00:00, 55.90s/it]
Downloading result: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.37s/it]


Total files (pdf+zip):             0001
Total batches:                     0001
Successfully converted batches:    0001(100%)
Run time:                          1.02 minutes





In [7]:
# Process folder of files

PROJ_KEY="1234567890abcdefghijklmnopqrstvwyz123456"
documents = ds.convert_documents(api=api, proj_key=PROJ_KEY, local_file="/Users/dol/Downloads/redbooks-xsmall")

Processing input:   : 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 349.58it/s]
Submitting input:   : 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.58s/it]
Converting input:   : 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [01:09<00:00, 69.69s/it]
Downloading result: : 2it [00:03,  1.59s/it]                                                                                                                                                                                       


Total files (pdf+zip):             0002
Total batches:                     0001
Successfully converted batches:    0001(100%)
Run time:                          1.29 minutes



