# Searching data

Quick details to check searching of the object store once this has been populated.

Depending on if we have a dummy object store available for testing these could be used as a basis for unit tests of this function.

In [1]:
import os
os.environ["OPENGHG_PATH"] = "/work/chxmr/objectStore"

In [7]:
from openghg.processing import search

def search_and_print(**kwargs):
    
    search_output = search(**kwargs)
    
    print(f"Number of outputs: {len(search_output.values())}")
    all_inputs_match = True
    for value in search_output.values():
        metadata = value["metadata"]
        print(value["metadata"])
        for key, value in kwargs.items():
            if metadata[key].lower() != value.lower():
                all_inputs_match = False
    print(f"All inputs match: {all_inputs_match}")

In [8]:
# Checking one species input
search_and_print(species="ch4")

Number of outputs: 18
{'instrument': 'gcmd', 'site': 'rpb', 'network': 'agage', 'species': 'ch4', 'units': 'ppb', 'scale': 'tu1987', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'ch4', 'units': 'ppb', 'scale': 'tu1987', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'ch4', 'units': 'ppb', 'scale': 'tu1987', 'inlet': '70m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'mhd', 'network': 'agage', 'species': 'ch4', 'units': 'ppb', 'scale': 'tu1987', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'smo', 'network': 'agage', 'species': 'ch4', 'units': 'ppb', 'scale': 'tu1987', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'thd', 'network': 'agage', 'species': 'ch4', 'units': 'ppb', 'scale': 'tu1987', 'inlet': '10m', 'data_type': 'timeseries'}
{'site': 'rpb', 'instrument': 'picarro', 'time_resolut

In [9]:
# Checking a different species input
search_and_print(species="cfc11")

Number of outputs: 13
{'instrument': 'gcmd', 'site': 'mhd', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '70m', 'data_type': 'timeseries'}
{'instrument': 'medusa', 'site': 'gsn', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'thd', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'rpb', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'smo', 'n

In [10]:
# Checking species and site
search_and_print(species="cfc11", site="cgo")

Number of outputs: 2
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '70m', 'data_type': 'timeseries'}
All inputs match: True


In [11]:
# Checking if we can get an unique entry by specifying the inlet
search_and_print(species="cfc11", site="cgo", inlet="70m")

Number of outputs: 1
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '70m', 'data_type': 'timeseries'}
All inputs match: True


In [12]:
# Checking the other inlet
search_and_print(species="cfc11", site="cgo", inlet="10m")

Number of outputs: 1
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
All inputs match: True


In [13]:
# Checking capital letter site codes (common syntax)
search_and_print(site="CGO")

Number of outputs: 131
{'instrument': 'medusa', 'site': 'cgo', 'network': 'agage', 'species': 'cf4', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'medusa', 'site': 'cgo', 'network': 'agage', 'species': 'pfc116', 'units': 'ppt', 'scale': 'sio-07', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'medusa', 'site': 'cgo', 'network': 'agage', 'species': 'pfc218', 'units': 'ppt', 'scale': 'sio-07', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'medusa', 'site': 'cgo', 'network': 'agage', 'species': 'so2f2', 'units': 'ppt', 'scale': 'sio-07', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'medusa', 'site': 'cgo', 'network': 'agage', 'species': 'hfc32', 'units': 'ppt', 'scale': 'sio-07', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcms', 'site': 'cgo', 'network': 'agage', 'species': 'hfc125', 'units': 'ppt', 'scale': 'sio-14', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcms', 'site':

In [14]:
# Checking instrument input
search_and_print(site="cgo", instrument="gcmd")

Number of outputs: 22
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc12', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc113', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'ccl4', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '10m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc11', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '70m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'network': 'agage', 'species': 'cfc12', 'units': 'ppt', 'scale': 'sio-05', 'inlet': '70m', 'data_type': 'timeseries'}
{'instrument': 'gcmd', 'site': 'cgo', 'net

In [15]:
# Checking lots of combined inputs (and a different instrument)
# to get a unique entry
search_and_print(site="tac", instrument="picarro", inlet="185m",
                species="co2")

Number of outputs: 1
{'site': 'tac', 'instrument': 'picarro', 'time_resolution': '1_minute', 'inlet': '185m', 'port': '10', 'type': 'air', 'network': 'decc', 'species': 'co2', 'scale': 'wmo-x2007', 'data_type': 'timeseries'}
All inputs match: True
