# üîç Pesquisa - B√°sico

Este notebook tem como objetivo apresentar **consultas b√°sicas no Elasticsearch**.

Vamos explorar como realizar pesquisas simples utilizando a API de busca da ferramenta, com exemplos pr√°ticos e objetivos.

A ideia √© mostrar como localizar documentos com base em seus campos, utilizando filtros e par√¢metros comuns do dia a dia.

Para maiores, informa√ß√µes, acessar o [link](https://www.elastic.co/docs/solutions/search/full-text)

Para ilustrar como fazer pesquisa, importaremos os dados de algumas m√∫sicas extraidos do site [vagalume](https://www.vagalume.com.br/).

Criando o conector e o indice para salvar as m√∫sicas

In [1]:
import json
from pathlib import Path

In [2]:
#Carregando as m√∫sicas de diferentes artistas a partir de arquivos JSON
emicidade_musicas = None
emicidade_path = Path('emicida.json')
with emicidade_path.open('r', encoding='utf-8') as f:
    emicidade_musicas = json.load(f)

charlie_musicas = None
charlie_path = Path('charlie.json')
with charlie_path.open('r', encoding='utf-8') as f:
    charlie_musicas = json.load(f)

Cada objeto dentro da lista possui as seguintes chaves

letra: Letra da m√∫sica

titulo: Nome da m√∫sica

Autor: Autores da m√∫sica

Compositor: Compositores da m√∫sica

Editor: Editores da m√∫sica

URL: link dentro do site vagalume

Administra√ß√£o: Administra√ß√£o da m√∫sica

Ano: Ano da publica√ß√£o

Extracao: Dia que os dados foram extraidos

In [3]:
emicidade_musicas[0]

{'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
 'autor': 'Emicida',
 'letra': "L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n    \n  O cheiro doce da arruda  \n  Penso em Buda calmo  \n  Tenso eu busco uma ajuda √†s vezes me vem o Salmo  \n  Tira a vis√£o que iluda, √© tipo um oftalmo'  \n  E eu, que vejo al√©m de um palmo  \n  Por mim, t√¥ Ubuntu, √≥, uau  \n  Se for pra crer num terreno  \n  S√≥ no que n√≥is t√° vendo memo'  \n  Resumo do plano √© baixo, pequeno e mundano  \n  Sujo, inferno e veneno  \n  Frio, inverno e sereno  \n  Repress√£o e regress√£o  \n  Ang√∫stia √© eu ter calma e a vida escada  \n  Junto ler almas pra al√©m da press√£o  \n  As voz em declive na m√£o desse Barrab√°s  \n  Onde o milagre jaz  \n  S√≥ prova a urg√™ncia de livros  \n  perante o estrago que um s√°bio faz  \n  O mestre em d√≠vidas avidas  \n  Sem no√ß√£o do que s√£o d√°divas  \n  No tempo on

In [None]:
# Criando o conector com elasticsearch
# Modificar a vari√°vel PASSWORD para a senha configurado no .env
from elasticsearch import Elasticsearch

HOST = 'http://localhost:9200'
USERNAME = 'elastic'
PASSWORD = 'test123'

client = Elasticsearch(
    HOST,
    basic_auth=(USERNAME,PASSWORD)
)


In [11]:
#Verificando a conex√£o com o Elasticsearch
client.info()

ObjectApiResponse({'name': '73348a783ff1', 'cluster_name': 'docker-cluster', 'cluster_uuid': 'dTLY6PORQHSoQ3_mIDx4VA', 'version': {'number': '8.5.3', 'build_flavor': 'default', 'build_type': 'docker', 'build_hash': '4ed5ee9afac63de92ec98f404ccbed7d3ba9584e', 'build_date': '2022-12-05T18:22:22.226119656Z', 'build_snapshot': False, 'lucene_version': '9.4.2', 'minimum_wire_compatibility_version': '7.17.0', 'minimum_index_compatibility_version': '7.0.0'}, 'tagline': 'You Know, for Search'})

In [14]:
#Criando o √≠ndice para as m√∫sicas
INDEX_MUSICAS = 'musicas_pesquisa'

if client.indices.exists(index=INDEX_MUSICAS):
    client.indices.delete(index=INDEX_MUSICAS)
client.indices.create(index=INDEX_MUSICAS)


ObjectApiResponse({'acknowledged': True, 'shards_acknowledged': True, 'index': 'musicas_pesquisa'})

In [15]:
#Salvando as m√∫sicas do Emicida no Elasticsearch
for musica in emicidade_musicas:
    client.index(
        index=INDEX_MUSICAS,
        body=musica
    )

for musica in charlie_musicas:
    client.index(
        index=INDEX_MUSICAS,
        body=musica
    )

### Pesquisa b√°sica de texto

Inicialmente, faremos algumas pesquisas b√°sicas e entender como elastisearch retorna 
A linguagem de pesquisa chama DSL, segue o [link](https://www.elastic.co/docs/reference/query-languages/)


In [16]:
#Pesquisando pela a palavra "Emicida" no campo "autor"

response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match":{
            "autor":"Emicida"
        }
    }
)

In [18]:
response.body

{'took': 69,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 25, 'relation': 'eq'},
  'max_score': 0.8713851,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'l35WN5cBiMBQPnh-BvRO',
    '_score': 0.8713851,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
     'autor': 'Emicida',
     'letra': "L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n    \n  O cheiro doce da arruda  \n  Penso em Buda calmo  \n  Tenso eu busco uma ajuda √†s vezes me vem o Salmo  \n  Tira a vis√£o que iluda, √© tipo um oftalmo'  \n  E eu, que vejo al√©m de um palmo  \n  Por mim, t√¥ Ubuntu, √≥, uau  \n  Se for pra crer num terreno  \n  S√≥ no que n√≥is t√° vendo memo'  \n  Resumo do plano √© baixo, pequeno e mundano  \n  Sujo, inferno e veneno  \n  Frio, inverno e sereno  \n  Repress√

O Elasticsearch retorna os seguintes campos

1. 'took':  Quanto tempo para fazer a pesquisa (em milesegundos)
2. 'timed_out': Se teve timeout
3. '_shards': Se teve sucesso (1 = True) ou n√£o
4. 'hits': Um objeto com as seguintes chaves

    4.1 total: Quantos objetos satisfazem a pesquisa (neste caso, s√£o 25 objetos)
    
    4.2' max_score': Qual √© a maior pontua√ß√£o. O elastisearch informa uma pontua√ß√£o para indicar a relev√¢ncia do objeto perante a pesquisa. Quanto maior a pontua√ß√£o, mais relevante √© o documento. Para verificar o c√°lculo, acesse o [link](https://www.elastic.co/blog/practical-bm25-part-2-the-bm25-algorithm-and-its-variables)

    4.3 hits: Lista dos 10 primeiros objetos e suas pontua√ß√µes e id (c√≥digo √∫nico) 


In [19]:
#Pesquisando pela a palavra "Manuel" no campo "autor". N√£o existe m√∫sica com esse autor
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match":{
            "autor":"Manuel"
        }
    }
)

In [21]:
response.body

{'took': 9,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 0, 'relation': 'eq'},
  'max_score': None,
  'hits': []}}

### Should, Must e Filter


A linguagem DSL possui 3 componentes/palavras chaves importantes: Should,Must e Filter. Cada um destes desempenha um papel fundamental para pesquisar e alterar a pontua√ß√£o da pesquisa

In [None]:
# O termo Must indica que todos os crit√©rios devem ser atendidos
# Pesquisando pela a palavra Emicida na chave "autor"  e a palavra "Amor" na chave  "letra"
# Podemos 
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "bool":{
            "must":[
                {
                    "match":{
                        "autor":"Emicida"
                    }
                },
                {
                    "match":{
                        "letra":"Amor"
                    }
                }
            ]
        }
    }
)



In [24]:
response.body

{'took': 42,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 7, 'relation': 'eq'},
  'max_score': 2.7495031,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'l35WN5cBiMBQPnh-BvRO',
    '_score': 2.7495031,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
     'autor': 'Emicida',
     'letra': "L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n    \n  O cheiro doce da arruda  \n  Penso em Buda calmo  \n  Tenso eu busco uma ajuda √†s vezes me vem o Salmo  \n  Tira a vis√£o que iluda, √© tipo um oftalmo'  \n  E eu, que vejo al√©m de um palmo  \n  Por mim, t√¥ Ubuntu, √≥, uau  \n  Se for pra crer num terreno  \n  S√≥ no que n√≥is t√° vendo memo'  \n  Resumo do plano √© baixo, pequeno e mundano  \n  Sujo, inferno e veneno  \n  Frio, inverno e sereno  \n  Repress√£

In [25]:
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "bool":{
            "must":[
                {
                    "match":{
                        "autor":"Charlie"
                    }
                },
                {
                    "match":{
                        "letra":"Amor"
                    }
                }
            ]
        }
    }
)

In [26]:
response.body

{'took': 8,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 10, 'relation': 'eq'},
  'max_score': 2.5110602,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'sH5WN5cBiMBQPnh-CfSf',
    '_score': 2.5110602,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Meu Novo Mundo',
     'autor': 'Charlie Brown Jr',
     'letra': 'Como se o sil√™ncio dissesse tudo  \n  Um sentimento bom que me leva pra outro mundo  \n  A vontade de te ver j√° √© maior que tudo  \n  N√£o existem dist√¢ncias no meu novo mundo  \n    \n  Tipo coisas da s√©tima arte  \n  Aconteceu sem que eu imaginasse  \n    \n  Sonho de consumo cantar na sua festa  \n  Vem dan√ßar comigo  \n  Aproveita e me sequestra  \n  Amor vagabundo, intenso ou muita pressa  \n  N√£o sei como termina mas sei como come√ßa  \n    \n  Fiz essa can√ß√£o pra dizer algumas coisas  \n  Cuidado com o destino  \n  Ele brinca com as pessoas  \n  Tipo uma foto com sor

In [27]:
# O termo Should indica que pelo menos um dos crit√©rios deve ser atendido. Isso altera a relev√¢ncia do objeto
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "bool":{
            "should":[
                {
                    "match":{
                        "autor":"Emicida"
                    }
                }
            ]
        }
    }
)

In [28]:
response.body

{'took': 26,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 25, 'relation': 'eq'},
  'max_score': 0.8713851,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'l35WN5cBiMBQPnh-BvRO',
    '_score': 0.8713851,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
     'autor': 'Emicida',
     'letra': "L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n    \n  O cheiro doce da arruda  \n  Penso em Buda calmo  \n  Tenso eu busco uma ajuda √†s vezes me vem o Salmo  \n  Tira a vis√£o que iluda, √© tipo um oftalmo'  \n  E eu, que vejo al√©m de um palmo  \n  Por mim, t√¥ Ubuntu, √≥, uau  \n  Se for pra crer num terreno  \n  S√≥ no que n√≥is t√° vendo memo'  \n  Resumo do plano √© baixo, pequeno e mundano  \n  Sujo, inferno e veneno  \n  Frio, inverno e sereno  \n  Repress√

Observe que retornou 25 documentos, ou seja, todas as m√∫sicas do Emicida e do Charlie, por√©m 
o objeto com maior pontua√ß√£o √© o objeto com Emicida pois satisfaz o filter 

In [29]:
#Fazendo uma combina√ß√£o de termos Must e Should
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "bool":{
            "must":[
                {
                    "match":{
                        "letra":"Amor"
                    }
                }
            ],
            "should":[
                {
                    "match":{
                        "autor":"Emicida"
                    }
                }
            ]
        }
    }
)

In [31]:
response.body

{'took': 15,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 17, 'relation': 'eq'},
  'max_score': 2.7495031,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'l35WN5cBiMBQPnh-BvRO',
    '_score': 2.7495031,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
     'autor': 'Emicida',
     'letra': "L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n    \n  O cheiro doce da arruda  \n  Penso em Buda calmo  \n  Tenso eu busco uma ajuda √†s vezes me vem o Salmo  \n  Tira a vis√£o que iluda, √© tipo um oftalmo'  \n  E eu, que vejo al√©m de um palmo  \n  Por mim, t√¥ Ubuntu, √≥, uau  \n  Se for pra crer num terreno  \n  S√≥ no que n√≥is t√° vendo memo'  \n  Resumo do plano √© baixo, pequeno e mundano  \n  Sujo, inferno e veneno  \n  Frio, inverno e sereno  \n  Repress√

Temos todas as m√∫sicas com a palavra "Amor" na letra, por√©m os mais relevantes s√£o as m√∫sicas do Emicida, devido ao filter

In [32]:
# O termo Filter indica que o crit√©rio deve ser atendido, mas n√£o influencia na relev√¢ncia do objeto
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "bool":{
            "filter":[
                {
                    "match":{
                        "autor":"Emicida"
                    }
                }
            ]
        }
    }
)

In [33]:
response.body

{'took': 16,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 25, 'relation': 'eq'},
  'max_score': 0.0,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'l35WN5cBiMBQPnh-BvRO',
    '_score': 0.0,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
     'autor': 'Emicida',
     'letra': "L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n    \n  O cheiro doce da arruda  \n  Penso em Buda calmo  \n  Tenso eu busco uma ajuda √†s vezes me vem o Salmo  \n  Tira a vis√£o que iluda, √© tipo um oftalmo'  \n  E eu, que vejo al√©m de um palmo  \n  Por mim, t√¥ Ubuntu, √≥, uau  \n  Se for pra crer num terreno  \n  S√≥ no que n√≥is t√° vendo memo'  \n  Resumo do plano √© baixo, pequeno e mundano  \n  Sujo, inferno e veneno  \n  Frio, inverno e sereno  \n  Repress√£o e regress

Observe que o max_score √© zero porque o filter n√£o altera o score

In [34]:
#Fazendo uma pesquisa combianando os termos Filter e Should
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "bool":{
            "filter":[
                {
                    "match":{
                        "autor":"Emicida"
                    }
                }
            ],
            "should":[
                {
                    "match":{
                        "letra":"Amor"
                    }
                }
            ]
        }
    }
)

In [35]:
response.body

{'took': 18,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 25, 'relation': 'eq'},
  'max_score': 1.878118,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'l35WN5cBiMBQPnh-BvRO',
    '_score': 1.878118,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
     'autor': 'Emicida',
     'letra': "L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n    \n  O cheiro doce da arruda  \n  Penso em Buda calmo  \n  Tenso eu busco uma ajuda √†s vezes me vem o Salmo  \n  Tira a vis√£o que iluda, √© tipo um oftalmo'  \n  E eu, que vejo al√©m de um palmo  \n  Por mim, t√¥ Ubuntu, √≥, uau  \n  Se for pra crer num terreno  \n  S√≥ no que n√≥is t√° vendo memo'  \n  Resumo do plano √© baixo, pequeno e mundano  \n  Sujo, inferno e veneno  \n  Frio, inverno e sereno  \n  Repress√£o

Neste caso, somente o termo "Amor" √© relevante para o calculo da relev√¢ncia.

### Pesquisa por ano ou data

In [38]:
# Pesquisando por m√∫sica publicado em 2015
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match":{
            "ano":2015
        }
    }
)

In [39]:
response.body

{'took': 12,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 8, 'relation': 'eq'},
  'max_score': 1.0,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'mH5WN5cBiMBQPnh-B_RI',
    '_score': 1.0,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Passarinhos (Part. Vanessa da Mata)',
     'autor': 'Emicida',
     'letra': 'Despencados de voos cansativos  \n  Complicados e pensativos  \n  Machucados ap√≥s tantos crivos  \n  Blindados com nossos motivos  \n  Amuados, reflexivos  \n  E d√°-lhe anti-depressivos  \n  Acanhados entre discos e livros  \n  Inofensivos  \n    \n  Ser√° que o sol sai pra um voo melhor  \n  Eu vou esperar, talvez na primavera  \n  O c√©u clareia e vem calor v√™ s√≥  \n  O que sobrou de n√≥s e o que j√° era  \n  Em colapso o planeta gira, tanta mentira  \n  Aumenta a ira de quem sofre mudo  \n  A p√°gina vira, o s√£o delira, ent√£o a gente pira  \n  E no meio disso tudo  \n  Tamo

In [42]:
#Pesquisando por m√∫sica publicado em 2015 ou 2016. Como ano √© um campo num√©rico, podemos usar o termo Range
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "range":{
            "ano":{
                "gte":2015,
                "lte":2016
            }
        }
    }
)

In [43]:
response.body

{'took': 6,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 8, 'relation': 'eq'},
  'max_score': 1.0,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'mH5WN5cBiMBQPnh-B_RI',
    '_score': 1.0,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Passarinhos (Part. Vanessa da Mata)',
     'autor': 'Emicida',
     'letra': 'Despencados de voos cansativos  \n  Complicados e pensativos  \n  Machucados ap√≥s tantos crivos  \n  Blindados com nossos motivos  \n  Amuados, reflexivos  \n  E d√°-lhe anti-depressivos  \n  Acanhados entre discos e livros  \n  Inofensivos  \n    \n  Ser√° que o sol sai pra um voo melhor  \n  Eu vou esperar, talvez na primavera  \n  O c√©u clareia e vem calor v√™ s√≥  \n  O que sobrou de n√≥s e o que j√° era  \n  Em colapso o planeta gira, tanta mentira  \n  Aumenta a ira de quem sofre mudo  \n  A p√°gina vira, o s√£o delira, ent√£o a gente pira  \n  E no meio disso tudo  \n  Tamo 

In [40]:
#Pesquisando por m√∫sica publicado em 2015 ou 2016 e com a palavra "Amor" na letra
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "bool":{
            "filter":[
                {
                    "range":{
                        "ano":{
                            "gte":2015,
                            "lte":2016
                        }
                    }
                }
            ],
            "should":[
                {
                    "match":{
                        "letra":"Amor"
                    }
                }
            ]
        }
    }
)

In [41]:
response.body

{'took': 9,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 8, 'relation': 'eq'},
  'max_score': 1.4900708,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'pH5WN5cBiMBQPnh-CPRz',
    '_score': 1.4900708,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Casa',
     'autor': 'Emicida',
     'letra': 'L√° fora √© selva, a s√≥s entre luz e trevas  \n  Noiz presos nessas fases de guerra, medo e monstros  \n  Tipo "Jogos Vorazes"  \n    \n  √â pau, √© pedra, √© m√≠ssil  \n  E crer √© cada vez mais dif√≠cil  \n  Entende um neg√≥cio, nunca foi f√°cil  \n  Solo n√£o d√≥cil, esperan√ßa f√≥ssil  \n    \n  O samba deu conselhos, ou√ßa  \n  Jacar√© que dorme vira bolsa  \n  Amor, eu disse no come√ßo  \n  √â quem tem valor versus quem tem pre√ßo  \n    \n  Segue teu instinto  \n  Que ainda √© Deus e o Diabo na terra do Sol  \n  Onde a felicidade se pisca, √© isca  \n  E a realidade trisca, anzol  \n  Corre!  \

### Ajustando param√™tros de pesquisa

A busca possui outros par√¢metros al√©m do campo query:

O par√¢metro size define a quantidade de objetos a serem retornados em hits.

O par√¢metro from determina a partir de qual objeto os resultados devem come√ßar a ser exibidos (utilizado para pagina√ß√£o).

O par√¢metro _source especifica quais chaves dos objetos devem ser inclu√≠das na resposta.

O par√¢metro sort define a ordem de exibi√ß√£o dos resultados, desconsiderando o c√°lculo de relev√¢ncia.

In [49]:
# Retornando os primeiros 15 objetos

response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match_all":{}
    },
    size=15
)

In [50]:
response.body

{'took': 22,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 50, 'relation': 'eq'},
  'max_score': 1.0,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'l35WN5cBiMBQPnh-BvRO',
    '_score': 1.0,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
     'autor': 'Emicida',
     'letra': "L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n  L√°-ia, l√°-ia, l√°-ia  \n    \n  O cheiro doce da arruda  \n  Penso em Buda calmo  \n  Tenso eu busco uma ajuda √†s vezes me vem o Salmo  \n  Tira a vis√£o que iluda, √© tipo um oftalmo'  \n  E eu, que vejo al√©m de um palmo  \n  Por mim, t√¥ Ubuntu, √≥, uau  \n  Se for pra crer num terreno  \n  S√≥ no que n√≥is t√° vendo memo'  \n  Resumo do plano √© baixo, pequeno e mundano  \n  Sujo, inferno e veneno  \n  Frio, inverno e sereno  \n  Repress√£o e regress

In [51]:
# Retornando os proximos 15 objetos, ou seja, os objetos 16 a 30
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match_all":{}
    },
    size=15,
    from_=15
)

In [52]:
response.body

{'took': 25,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 50, 'relation': 'eq'},
  'max_score': 1.0,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'pn5WN5cBiMBQPnh-CPSm',
    '_score': 1.0,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Hoje Cedo (Part. Pitty)',
     'autor': 'Emicida',
     'letra': 'Hoje cedo  \n  Quando eu acordei e n√£o te vi  \n  Eu pensei em tanta coisa  \n  Tive medo  \n  Ah, como eu chorei  \n  Eu sofri  \n  Em segredo  \n  Tudo isso  \n  Hoje cedo  \n    \n  Holofotes fortes, purpurina  \n  E os sorrisos dessas "mina" s√≥ me lembram coca√≠na  \n  Em cinco abrem-se cortinas  \n  Est√°ticas retinas brilham, garoa fina.  \n    \n  Que fita  \n  Meus poema me trouxe  \n  Onde eles n√£o habita.  \n    \n  A fama irrita, grana dita, c√™ desacredita  \n  Fantoches, pique Celso Pitta mentem  \n  Mortos tipo meu pai, nem eu me sinto presente.  \n    \n  A√≠, √© rima que "c√

In [None]:
#Retornado somente o campo "autor". Reduzindo o tamanho de dados carregados 
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match_all":{}
    },
    size=3,
    _source=["autor"]
)

In [48]:
response.body

{'took': 118,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 50, 'relation': 'eq'},
  'max_score': 1.0,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'l35WN5cBiMBQPnh-BvRO',
    '_score': 1.0,
    '_ignored': ['letra.keyword'],
    '_source': {'autor': 'Emicida'}},
   {'_index': 'musicas_pesquisa',
    '_id': 'mH5WN5cBiMBQPnh-B_RI',
    '_score': 1.0,
    '_ignored': ['letra.keyword'],
    '_source': {'autor': 'Emicida'}},
   {'_index': 'musicas_pesquisa',
    '_id': 'mX5WN5cBiMBQPnh-B_R4',
    '_score': 1.0,
    '_ignored': ['letra.keyword'],
    '_source': {'autor': 'Emicida'}}]}}

In [53]:
# Ordernando pelo o ano
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match_all":{}
    },
    size=5,
    sort=[
        {"ano": {"order": "asc"}}
    ]
)

In [54]:
response.body

{'took': 307,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 50, 'relation': 'eq'},
  'max_score': None,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'v35WN5cBiMBQPnh-CvS0',
    '_score': None,
    '_ignored': ['letra.keyword'],
    '_source': {'titulo': 'Aquela Paz',
     'autor': 'Charlie Brown Jr',
     'letra': 'A vida √© feita de atitudes nem sempre decentes  \n  N√£o lhe julgam pela raz√£o, mas pelos seus antecedentes  \n  √â quando eu volto a me lembrar do que eu pensava nem ter feito  \n  Vem, me traz aquela paz  \n  Voc√™ procura a perfei√ß√£o, eu tenho andado sobre efeito  \n  Mas posso te dizer que j√° n√£o aguento mais  \n  Desencana, n√£o vou mudar por sua causa, n√£o tem jeito  \n  Quem √© que decide o que √© melhor pra minha vida agora?  \n    \n  Ouvi dizer que s√≥ era triste quem queria  \n  Ouvi dizer que s√≥ era triste quem queria  \n  Ouvi dizer que s√≥ era triste quem queria  \n  Ouvi 

In [61]:
#Retornando todas as musicas atrav√©s da p√°ginando usando from
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match_all":{}
    },
    size=5,
    from_=0,
    _source=["autor", "ano","titulo"]
)

total = response['hits']['total']['value']
musicas = [i['_source'] for i in response['hits']['hits']]

while len(musicas) < total:
    response = client.search(
        index=INDEX_MUSICAS,
        query={
            "match_all":{}
        },
        size=5,
        from_=len(musicas),
        _source=["autor", "ano","titulo"]
    )
    
    musicas.extend([i['_source'] for i in response['hits']['hits']])

In [62]:
musicas

[{'ano': 2019,
  'titulo': 'Principia (Part. Pastor Henrique Vieira, Fabiana Cozza & Pastoras do Ros√°rio)',
  'autor': 'Emicida'},
 {'ano': 2015,
  'titulo': 'Passarinhos (Part. Vanessa da Mata)',
  'autor': 'Emicida'},
 {'ano': 2015,
  'titulo': 'Levanta e Anda (Part. Rael da Rima)',
  'autor': 'Emicida'},
 {'ano': 2019,
  'titulo': 'Pequenas Alegrias da Vida Adulta',
  'autor': 'Emicida'},
 {'ano': 2019,
  'titulo': 'Quem Tem Um Amigo (Tem Tudo) (Part. Tokyo Ska Paradise Orchestra e Os Prettos & Zeca Pagodinho)',
  'autor': 'Emicida'},
 {'ano': 2019,
  'titulo': 'Ism√°lia (Part. Larissa Luz & Fernanda Montenegro)',
  'autor': 'Emicida'},
 {'ano': 2015, 'titulo': 'Triunfo', 'autor': 'Emicida'},
 {'ano': 2018,
  'titulo': 'M√£e (Part. Dona Jacira e Anna Tr√©a)',
  'autor': 'Emicida'},
 {'ano': 2011, 'titulo': 'Velhos Amigos', 'autor': 'Emicida'},
 {'ano': 2019,
  'titulo': 'A Ordem Natural das Coisas (Part. MC Tha)',
  'autor': 'Emicida'},
 {'ano': 2018, 'titulo': 'O√°sis (feat. Migue

In [63]:
len(musicas)

50

In [64]:
len(musicas) == total

True

### Pagina√ß√£o

O elastisearch possui a funcionalidade de scroll infinito

In [73]:
#Fazendo scroll infinito
response = client.search(
    index=INDEX_MUSICAS,
    query={
        "match_all":{}
    },
    size=3,
    scroll='2h', # Tempo de vida do scroll. Neste caso fica por 2 horas. Acesse o link https://www.elastic.co/guide/en/elasticsearch/reference/8.18/api-conventions.html#time-units
    _source=["autor", "ano","titulo"],
    sort=[
        {"ano": {"order": "asc"}}
    ]
)

In [74]:
response.body

{'_scroll_id': 'FGluY2x1ZGVfY29udGV4dF91dWlkDXF1ZXJ5QW5kRmV0Y2gBFmFjZ1RPWG9HU2dteVpWbVRtZ1g3VXcAAAAAAAAAPxZNRHZVQzdhdFNscVlLWVg1cEMtNmxR',
 'took': 18,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 50, 'relation': 'eq'},
  'max_score': None,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'v35WN5cBiMBQPnh-CvS0',
    '_score': None,
    '_ignored': ['letra.keyword'],
    '_source': {'ano': 1997,
     'titulo': 'Aquela Paz',
     'autor': 'Charlie Brown Jr'},
    'sort': [1997]},
   {'_index': 'musicas_pesquisa',
    '_id': 'uH5WN5cBiMBQPnh-CvQ0',
    '_score': None,
    '_ignored': ['letra.keyword'],
    '_source': {'ano': 2004,
     'titulo': 'V√≠cios e Virtudes',
     'autor': 'Charlie Brown Jr'},
    'sort': [2004]},
   {'_index': 'musicas_pesquisa',
    '_id': 'w35WN5cBiMBQPnh-C_QF',
    '_score': None,
    '_ignored': ['letra.keyword'],
    '_source': {'ano': 2004,
     'titulo': 'S√≥ Por Uma Noite',
   

A resposta possui um campo novo

1._scroll_id : Id do scroll. Para obt√©r a proxima p√°gina, √© necess√°rio o id do scroll

In [75]:
#Pegando o proximo scroll
scroll_id = response['_scroll_id']  
response = client.scroll(
    scroll_id=scroll_id,
    scroll='2h' # Tempo de vida do scroll. Neste caso fica por 2 horas. Acesse o link https://www.elastic.co/guide/en/elasticsearch/reference/8.18/api-conventions.html#time-units
)

In [76]:
response.body

{'_scroll_id': 'FGluY2x1ZGVfY29udGV4dF91dWlkDXF1ZXJ5QW5kRmV0Y2gBFmFjZ1RPWG9HU2dteVpWbVRtZ1g3VXcAAAAAAAAAPxZNRHZVQzdhdFNscVlLWVg1cEMtNmxR',
 'took': 12,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 50, 'relation': 'eq'},
  'max_score': None,
  'hits': [{'_index': 'musicas_pesquisa',
    '_id': 'vn5WN5cBiMBQPnh-CvSi',
    '_score': None,
    '_ignored': ['letra.keyword'],
    '_source': {'ano': 2005,
     'titulo': 'I Feel So Good Today',
     'autor': 'Charlie Brown Jr'},
    'sort': [2005]},
   {'_index': 'musicas_pesquisa',
    '_id': 'wH5WN5cBiMBQPnh-CvTH',
    '_score': None,
    '_ignored': ['letra.keyword'],
    '_source': {'ano': 2005,
     'titulo': 'Tamo A√≠ Na Atividade',
     'autor': 'Charlie Brown Jr'},
    'sort': [2005]},
   {'_index': 'musicas_pesquisa',
    '_id': 'n35WN5cBiMBQPnh-CPQH',
    '_score': None,
    '_ignored': ['letra.keyword'],
    '_source': {'ano': 2011, 'titulo': 'Velhos Amigos',