In [1]:
pip install simplejson

Note: you may need to restart the kernel to use updated packages.


### Solr

Es posible hacer consultas a Solr mediante HTTP a partir de Python sin requerir la instalación de un cliente adicional.

Para construir un query es necesario especificar: 

* Request-Handler: para definir si queremos hacer una consulta o una actualización de documentos 

* q: query string o parámetro q. Syntax: name:canon  | field:value format. Los resultados aparecen por relevancia

* fq: filtrado del query. 

* sort: definimos la variable y si el órden es asc o desc

* start, rows: definimos el número de resultados mostrados por página

* fl: aquí se define qué campos regresa la búsqueda 

* df: campo de búsqueda por default  

* wt: definimos el formato de la respuesta, por default json. Puede ser json, xml, python, ruby, php o csv 

Hay atributos de búsqueda más avanzados como el faceting y hl highlighting.


In [8]:
import urllib
import simplejson
import pprint
import sys

from urllib.request import urlopen

Definimos el url y la colección de documents, después el query a realizar. 

#### Filtrar archivos por nodo

In [31]:
host       = "alfresco.sipecam.conabio.gob.mx"
port       = "8983" 
collection = "alfresco" #Nombre del core
qt         = "select"
url        = 'http://' + host + ':' + port + '/solr/' + collection + '/' + qt + '?' #creación de url
q          = "q=sipecam_CumulusName:95"
fl         = "fl=sipecam_EcosystemsName,id,[cached]&indent=on"
wt         = "wt=json"
params     = [fl, q, wt] 
p          = "&".join(params)

In [32]:
print(url+p)

http://alfresco.sipecam.conabio.gob.mx:8983/solr/alfresco/select?fl=sipecam_EcosystemsName,id,[cached]&indent=on&q=sipecam_CumulusName:95&wt=json


In [34]:
html = urlopen(url+p)
print(html)
connection = html
if wt == "wt=json":
  response   = simplejson.load(connection) 
else:
  response   = eval(connection.read())

<http.client.HTTPResponse object at 0x7fc1a69c0550>


Número de resultados de la búsqueda.

In [35]:
print("Number of hits: " + str(response['response']['numFound']))

Number of hits: 64390


In [36]:
pprint.pprint(response['response']['docs'])

[{'id': '_DEFAULT_!800000000007c6c1',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007b56c',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!8000000000078e33',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007a9ba',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007b6b6',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007ae25',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!8000000000079a30',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007891d',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007b6ec',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!8000000000079a45',
  'sipecam_EcosystemsName': 'Bosques templados'}]


#### Filtrar archivos por cúmulo con tipo de ecosistema

In [41]:
q          = "q=sipecam_CumulusName:95%20AND%20sipecam_EcosystemsName:Bosques%20templados"
fl         = "fl=sipecam_EcosystemsName,id,[cached]&indent=on"
wt         = "wt=json"
params     = [fl, q, wt] 
p          = "&".join(params)

In [43]:
html = urlopen(url+p)
print(html)
connection = html
if wt == "wt=json":
  response   = simplejson.load(connection) 
else:
  response   = eval(connection.read())

<http.client.HTTPResponse object at 0x7fc1a69c02b0>


In [44]:
print("Number of hits: " + str(response['response']['numFound']))

Number of hits: 64390


In [45]:
pprint.pprint(response['response']['docs'])

[{'id': '_DEFAULT_!800000000007c6c1',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007b56c',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!8000000000078e33',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007a9ba',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007b6b6',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007ae25',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!8000000000079a30',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007891d',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!800000000007b6ec',
  'sipecam_EcosystemsName': 'Bosques templados'},
 {'id': '_DEFAULT_!8000000000079a45',
  'sipecam_EcosystemsName': 'Bosques templados'}]


## Para pipelines de audio y video

### Producto: Soundscapes

#### Audio: Filtrar archivos por cúmulo y sample rate (de a 48,000 Hz). Para los cúmulos 92, 95, 32, y 13

In [46]:
'http://alfresco.sipecam.conabio.gob.mx:8983/solr/alfresco/select?fl=PATH,PROPERTIES,[cached]&indent=on&q=TYPE:{sipecam}audio%20AND%20sipecam_SampleRate:48000%20AND%20sipecam_CumulusName:92&wt=json'

'http://alfresco.sipecam.conabio.gob.mx:8983/solr/alfresco/select?fl=PATH,PROPERTIES,[cached]&indent=on&q=TYPE:{sipecam}audio%20AND%20sipecam_SampleRate:48000%20AND%20sipecam_CumulusName:92&wt=json'

In [47]:
host       = "alfresco.sipecam.conabio.gob.mx"
port       = "8983" 
collection = "alfresco" #Nombre del core
qt         = "select"
url        = 'http://' + host + ':' + port + '/solr/' + collection + '/' + qt + '?' #creación de url
q          = "q=TYPE:{sipecam}audio%20AND%20sipecam_SampleRate:48000%20AND%20sipecam_CumulusName:92"
fl         = "fl=PATH,PROPERTIES,[cached]&indent=on"
wt         = "wt=json"
params     = [fl, q, wt] 
p          = "&".join(params)

In [48]:
html = urlopen(url+p)
print(html)
connection = html
if wt == "wt=json":
  response   = simplejson.load(connection) 
else:
  response   = eval(connection.read())

<http.client.HTTPResponse object at 0x7fc1a6c88370>


In [49]:
print("Number of hits: " + str(response['response']['numFound']))

Number of hits: 34670


In [50]:
pprint.pprint(response['response']['docs'])

[{'PATH': ['/{http://www.alfresco.org/model/application/1.0}company_home/{http://www.alfresco.org/model/site/1.0}sites/{http://www.alfresco.org/model/content/1.0}sipecam/{http://www.alfresco.org/model/content/1.0}documentLibrary/{http://www.alfresco.org/model/content/1.0}_x0039_2/{http://www.alfresco.org/model/content/1.0}_x0033__92_1_1338/{http://www.alfresco.org/model/content/1.0}_x0032_453AC025DAEB645/{http://www.alfresco.org/model/content/1.0}_x0032_021-07-28/{http://www.alfresco.org/model/content/1.0}audios/{http://www.alfresco.org/model/content/1.0}Audible/{http://www.alfresco.org/model/content/1.0}dd921fb7a980995e8b7febb35de09631.WAV'],
  'PROPERTIES': ['{sipecam}BitsPerSample',
                 'Timezone',
                 'CumulusName',
                 '{http://www.alfresco.org/model/content/1.0}creator',
                 'DateDeployment',
                 '{sipecam}Encoding',
                 'modifier',
                 '{http://www.alfresco.org/model/content/1.0}initialVer

### Detección y classificación de Murcielagos

#### Filtrar archivos por cúmulo y sample rate (mayor a 100,000 Hz). Para los cúmulos 92, 95, 32, y 13

In [52]:
q          = "q=sipecam_CumulusName:13%20OR%20sipecam_CumulusName:32%20OR%20sipecam_CumulusName:92%20OR%20sipecam_CumulusName:95%20AND%20TYPE:{sipecam}audio%20AND%20audio_sampleRate:%20[0%20TO%2048000]"
fl         = "fl=PATH,PROPERTIES,[cached]&indent=on"
wt         = "wt=json"
params     = [fl, q, wt] 
p          = "&".join(params)

In [53]:
html = urlopen(url+p)
print(html)
connection = html
if wt == "wt=json":
  response   = simplejson.load(connection) 
else:
  response   = eval(connection.read())

<http.client.HTTPResponse object at 0x7fc1a69c02b0>


In [54]:
print("Number of hits: " + str(response['response']['numFound']))

Number of hits: 154861


In [55]:
pprint.pprint(response['response']['docs'])

[{'PATH': ['/{http://www.alfresco.org/model/application/1.0}company_home/{http://www.alfresco.org/model/site/1.0}sites/{http://www.alfresco.org/model/content/1.0}sipecam/{http://www.alfresco.org/model/content/1.0}documentLibrary/{http://www.alfresco.org/model/content/1.0}_x0039_5/{http://www.alfresco.org/model/content/1.0}_x0031__95_0_1348/{http://www.alfresco.org/model/content/1.0}_x0032_48C7D075B1FB916/{http://www.alfresco.org/model/content/1.0}_x0032_021-08-04/{http://www.alfresco.org/model/content/1.0}audios/{http://www.alfresco.org/model/content/1.0}Audible/{http://www.alfresco.org/model/content/1.0}_x0031_2f920cd8625390b19908062274f9876.WAV'],
  'PROPERTIES': ['{sipecam}BitsPerSample',
                 'Timezone',
                 'CumulusName',
                 '{http://www.alfresco.org/model/content/1.0}creator',
                 'DateDeployment',
                 '{sipecam}Encoding',
                 'modifier',
                 '{http://www.alfresco.org/model/content/1.0}init

### Video

Al finalizar el pipeline de procesamiento de video se debe asociar a cada imagen obtenida (dado que en el pipeline de video se segmenta en frames el video, son 2 imágenes como máximo que se obtienen por decisión con el equipo de ciencia) con su metadata. Por ejemplo, qué día se tomó el video, en qué coordenadas, etc.

In [56]:
'http://alfresco.sipecam.conabio.gob.mx:8983/solr/alfresco/select?fl=PATH,PROPERTIES,[cached]&indent=on&q=cm:name:0d05d10d2939c0351a837b6bb2c53f1d_0528.mp4&wt=json'

'http://alfresco.sipecam.conabio.gob.mx:8983/solr/alfresco/select?fl=PATH,PROPERTIES,[cached]&indent=on&q=cm:name:0d05d10d2939c0351a837b6bb2c53f1d_0528.mp4&wt=json'

In [57]:
q          = "q=cm:name:0d05d10d2939c0351a837b6bb2c53f1d_0528.mp4"
fl         = "PATH,PROPERTIES,[cached]&indent=on"
wt         = "wt=json"
params     = [fl, q, wt] 
p          = "&".join(params)

In [58]:
html = urlopen(url+p)
print(html)
connection = html
if wt == "wt=json":
  response   = simplejson.load(connection) 
else:
  response   = eval(connection.read())

<http.client.HTTPResponse object at 0x7fc1a6abcb20>


In [59]:
print("Number of hits: " + str(response['response']['numFound']))

Number of hits: 1


In [60]:
pprint.pprint(response['response']['docs'])

[{'DBID': 568368,
  '_version_': 1735927708032958464,
  'id': '_DEFAULT_!800000000008ac30'}]


[SOLR client APIs, Capillas C.](https://www.zylk.net/en/web-2-0/blog/-/blogs/solr-client-apis)