## Workshop de Elasticsearch

In [1]:
from elasticsearch import Elasticsearch
import requests

In [3]:
es_client = Elasticsearch("localhost:9200")

In [4]:
es_client.info()

{'name': '03586b8f9d76',
 'cluster_name': 'docker-cluster',
 'cluster_uuid': 'kYalZn1VR7OtDlTeeQfF-Q',
 'version': {'number': '7.9.2',
  'build_flavor': 'default',
  'build_type': 'docker',
  'build_hash': 'd34da0ea4a966c4e49417f2da2f244e3e97b4e6e',
  'build_date': '2020-09-23T00:45:33.626720Z',
  'build_snapshot': False,
  'lucene_version': '8.6.2',
  'minimum_wire_compatibility_version': '6.8.0',
  'minimum_index_compatibility_version': '6.0.0-beta1'},
 'tagline': 'You Know, for Search'}

## Conhecendo nossa base de dados

In [5]:
index = "auxilio-emergencial"

In [9]:
# Mapeamento do index
es_client.indices.get_mapping(index)

{'auxilio-emergencial': {'mappings': {'properties': {'codigo_municipio_ibge': {'type': 'keyword'},
    'cpf_beneficiario': {'type': 'keyword'},
    'cpf_responsavel': {'type': 'keyword'},
    'enquadramento': {'type': 'keyword'},
    'mes_disponibilizacao': {'type': 'keyword'},
    'nis_beneficiario': {'type': 'keyword'},
    'nis_responsavel': {'type': 'keyword'},
    'nome_beneficiario': {'type': 'keyword'},
    'nome_municipio': {'type': 'keyword'},
    'nome_responsavel': {'type': 'keyword'},
    'observacao': {'type': 'keyword'},
    'parcela': {'type': 'keyword'},
    'uf': {'type': 'keyword'},
    'valor_beneficio': {'type': 'keyword'}}}}}

In [10]:
# Configurações do index
es_client.indices.get_settings(index)

{'auxilio-emergencial': {'settings': {'index': {'creation_date': '1604267663525',
    'number_of_shards': '1',
    'number_of_replicas': '1',
    'uuid': 'Cs08EwQUTwWr8LTPrtqJGg',
    'version': {'created': '7090299'},
    'provided_name': 'auxilio-emergencial'}}}}

In [11]:
# Estatísticas do index
es_client.indices.stats(index)

{'_shards': {'total': 2, 'successful': 1, 'failed': 0},
 '_all': {'primaries': {'docs': {'count': 8844290, 'deleted': 0},
   'store': {'size_in_bytes': 1339383188, 'reserved_in_bytes': 0},
   'indexing': {'index_total': 8844290,
    'index_time_in_millis': 423024,
    'index_current': 0,
    'index_failed': 0,
    'delete_total': 0,
    'delete_time_in_millis': 0,
    'delete_current': 0,
    'noop_update_total': 0,
    'is_throttled': False,
    'throttle_time_in_millis': 0},
   'get': {'total': 0,
    'time_in_millis': 0,
    'exists_total': 0,
    'exists_time_in_millis': 0,
    'missing_total': 0,
    'missing_time_in_millis': 0,
    'current': 0},
   'search': {'open_contexts': 0,
    'query_total': 67,
    'query_time_in_millis': 69,
    'query_current': 0,
    'fetch_total': 67,
    'fetch_time_in_millis': 143,
    'fetch_current': 0,
    'scroll_total': 0,
    'scroll_time_in_millis': 0,
    'scroll_current': 0,
    'suggest_total': 0,
    'suggest_time_in_millis': 0,
    'sugg

## Fazendo consultas na base de dados

In [23]:
body = {
  "query": {
    "match_all": {}
  }
}

In [25]:
result = es_client.search(index=index, body=body)

print("Total de registros ", len(result["hits"]["hits"]))
result

Total de registros  10


{'took': 1,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 10000, 'relation': 'gte'},
  'max_score': 1.0,
  'hits': [{'_index': 'auxilio-emergencial',
    '_type': '_doc',
    '_id': 'GpfOhXUB0pJdUuAdVmBG',
    '_score': 1.0,
    '_source': {'mes_disponibilizacao': 202004,
     'uf': 'PE',
     'codigo_municipio_ibge': 2611903.0,
     'nome_municipio': 'RIO FORMOSO',
     'nis_beneficiario': 0,
     'cpf_beneficiario': '***.500.374-**',
     'nome_beneficiario': 'RIVALDO SANTOS TIBURCIO',
     'nis_responsavel': -2,
     'cpf_responsavel': None,
     'nome_responsavel': 'Não se aplica',
     'enquadramento': 'EXTRA CADUN',
     'parcela': '1ª',
     'observacao': 'Não há',
     'valor_beneficio': '600,00'}},
   {'_index': 'auxilio-emergencial',
    '_type': '_doc',
    '_id': 'G5fOhXUB0pJdUuAdVmBG',
    '_score': 1.0,
    '_source': {'mes_disponibilizacao': 202004,
     'uf': 'PE',
     'codigo_municipio_ibge': 26

### Por padrão do elasticsearch, as consultas comuns só retornam 10 documentos. Para aumentar o total de registros, é utilizado o parâmetro <i> size <i/>

In [30]:
body = {
  "query": {
    "match_all": {}
  },
  "size": "20"
}

In [31]:
result = es_client.search(index=index, body=body)

print("Total de registros ", len(result["hits"]["hits"]))
result

Total de registros  20


{'took': 4,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 10000, 'relation': 'gte'},
  'max_score': 1.0,
  'hits': [{'_index': 'auxilio-emergencial',
    '_type': '_doc',
    '_id': 'GpfOhXUB0pJdUuAdVmBG',
    '_score': 1.0,
    '_source': {'mes_disponibilizacao': 202004,
     'uf': 'PE',
     'codigo_municipio_ibge': 2611903.0,
     'nome_municipio': 'RIO FORMOSO',
     'nis_beneficiario': 0,
     'cpf_beneficiario': '***.500.374-**',
     'nome_beneficiario': 'RIVALDO SANTOS TIBURCIO',
     'nis_responsavel': -2,
     'cpf_responsavel': None,
     'nome_responsavel': 'Não se aplica',
     'enquadramento': 'EXTRA CADUN',
     'parcela': '1ª',
     'observacao': 'Não há',
     'valor_beneficio': '600,00'}},
   {'_index': 'auxilio-emergencial',
    '_type': '_doc',
    '_id': 'G5fOhXUB0pJdUuAdVmBG',
    '_score': 1.0,
    '_source': {'mes_disponibilizacao': 202004,
     'uf': 'PE',
     'codigo_municipio_ibge': 26

In [42]:
body = {
  "query": {
    "match": {
      "nome_municipio": "MANAUS"
    }
  }
}

In [43]:
result = es_client.search(index=index, body=body)

print("Total de registros ", len(result["hits"]["hits"]))
result

Total de registros  10


{'took': 4,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 10000, 'relation': 'gte'},
  'max_score': 2.5222366e-06,
  'hits': [{'_index': 'auxilio-emergencial',
    '_type': '_doc',
    '_id': 'NRxuhnUB0pJdUuAdK-x-',
    '_score': 2.5222366e-06,
    '_source': {'mes_disponibilizacao': 202004,
     'uf': 'AM',
     'codigo_municipio_ibge': 1302603.0,
     'nome_municipio': 'MANAUS',
     'nis_beneficiario': 0,
     'cpf_beneficiario': '***.221.122-**',
     'nome_beneficiario': 'IRLIS DE SOUZA SAMPAIO',
     'nis_responsavel': -2,
     'cpf_responsavel': None,
     'nome_responsavel': 'Não se aplica',
     'enquadramento': 'EXTRA CADUN',
     'parcela': '1ª',
     'observacao': 'Não há',
     'valor_beneficio': '600,00'}},
   {'_index': 'auxilio-emergencial',
    '_type': '_doc',
    '_id': 'NhxuhnUB0pJdUuAdK-x-',
    '_score': 2.5222366e-06,
    '_source': {'mes_disponibilizacao': 202004,
     'uf': 'AM',
     'co

### Consultas com valores combinados

In [51]:
body = {
  "query": {
    "bool": {
        "must": [
            {"match": {"nome_municipio": "MANAUS"}},
            {"match": {"nome_beneficiario": "Maria"}}
        ]
    }
  }
}

In [52]:
result = es_client.search(index=index, body=body)

print("Total de registros ", len(result["hits"]["hits"]))
result

Total de registros  10


{'took': 25,
 'timed_out': False,
 '_shards': {'total': 1, 'successful': 1, 'skipped': 0, 'failed': 0},
 'hits': {'total': {'value': 10000, 'relation': 'gte'},
  'max_score': 2.3627918,
  'hits': [{'_index': 'auxilio-emergencial',
    '_type': '_doc',
    '_id': 'vh1uhnUB0pJdUuAdUqio',
    '_score': 2.3627918,
    '_source': {'mes_disponibilizacao': 202004,
     'uf': 'AM',
     'codigo_municipio_ibge': 1302603.0,
     'nome_municipio': 'MANAUS',
     'nis_beneficiario': 0,
     'cpf_beneficiario': '***.833.562-**',
     'nome_beneficiario': 'JOSE MARIA',
     'nis_responsavel': -2,
     'cpf_responsavel': None,
     'nome_responsavel': 'Não se aplica',
     'enquadramento': 'EXTRA CADUN',
     'parcela': '1ª',
     'observacao': 'Não há',
     'valor_beneficio': '600,00'}},
   {'_index': 'auxilio-emergencial',
    '_type': '_doc',
    '_id': 'yB5uhnUB0pJdUuAdn-0V',
    '_score': 2.3627918,
    '_source': {'mes_disponibilizacao': 202004,
     'uf': 'AM',
     'codigo_municipio_ibge': 1