<a href="https://colab.research.google.com/github/gacerioni/redis-workshop-json-search-vs/blob/master/redis-workshop-json-search.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Workshop - Redis JSON, Search and Query, e Vector Search (soon)

![Redis](https://redis.io/wp-content/uploads/2024/04/Logotype.svg?auto=webp&quality=85,75&width=120)


Bem-vind[ao]s ao Workshop! Vamos ter uma experi√™ncia hands-on sobre alguns temas centrais do Redis, bem al√©m do Caching.


Para uma experi√™ncia premium, como a que eu quero que voc√™s tenham, recomendo MUITO utilizar o Redis Insight (App ou Web) pra apoiar na visualiza√ß√£o dos dados.

https://redis.com/redis-enterprise/redis-insight/

## Objetivos do Workshop

Este notebook ir√° fazer uma breve introdu√ß√£o ao **Hash** e o **JSON** (data types nativos) para o **Redis**.\
Feito isso, vamos entender as diferen√ßas entre **buscas de texto** VS **buscas sem√¢nticas**, e o conceito de **Vector Databases**.

Entretanto, o foco deste workshop permanece no `JSON + Search and Query`, e como voc√™s podem utilizar o Redis como Banco de Dados de Documentos, prim√°rio, com toda a durabilidade e confiabilidade que esperam de um Banco de Dados Enterprise.
`

Espero que gostem! üññ

## Setup R√°pido - e testes pra ver se t√° tudo redondo antes de iniciar o lab

In [None]:
# Vamos instalar a lib do redis escolhida para o teste
!pip install -q redis

# E instalar a CLI, via redis-tools, que inclui a famosa redis-cli
!apt-get update
!apt-get install -y redis-tools

[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m252.0/252.0 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
Get:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
Hit:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:3 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:4 http://security.ubuntu.com/ubuntu jammy-security InRelease [110 kB]
Get:5 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [119 kB]
Get:6 http://security.ubuntu.com/ubuntu jammy-security/universe amd64 Packages [1,083 kB]
Get:7 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [109 kB]
Get:8 http://archive.ubuntu.com/ubuntu jammy-updates/main amd64 Packages [2,125 kB]
Hit:9 https://ppa.launchpadcontent.net/c2d4u.team/c2d4u4.0+/ubuntu jammy InRelease
Get:10 http://security.ubuntu.com/ubuntu jammy-security/main amd64 Packages [1,853 kB]
Hi

#### Configurando e testando a conex√£o com o seu Redis Cloud

Coloque o endpoint host, port, e as credenciais pertinentes ao seu setup.

Vou deixar o meu DB mesmo aqui, como refer√™ncia.

In [12]:
# Testando a redis-cli
import os

# Coloque aqui os dados do seu DB do Redis Cloud
REDIS_HOST="redis-18884.c98.us-east-1-4.ec2.redns.redis-cloud.com"
REDIS_PORT=18884
REDIS_PASSWORD="lgZgS90vZJpnS4F2Y5EJ97YJTFGUUdvF"

# Caso o SSL esteja ativo pro endpoint, adicione --tls
# Recomendo n√£o misturar l√© com cr√© aqui, visto que n√£o vamos ter nenhuma informa√ß√£o sens√≠vel passando pelo fio.
if REDIS_PASSWORD!="":
  os.environ["REDIS_CONN"]=f"-h {REDIS_HOST} -p {REDIS_PORT} -a {REDIS_PASSWORD} --no-auth-warning"
else:
  os.environ["REDIS_CONN"]=f"-h {REDIS_HOST} -p {REDIS_PORT}"

# Caso o SSL esteja ativo pro endpoint, use rediss:// como o URL prefix
REDIS_URL = f"redis://:{REDIS_PASSWORD}@{REDIS_HOST}:{REDIS_PORT}"
INDEX_NAME = f"qna:idx"

# Test a Redis connection
!redis-cli $REDIS_CONN PING

# DANGER ZONE - CASO QUEIRA DAR UM REFRESH GERAL
# este comando abaixo ficar√° comentado, pois ele deleta todos os dados da sua base do Redis Cloud
!redis-cli $REDIS_CONN FLUSHDB

PONG
OK


In [13]:
# Testando via Python (redis-py)
import redis
r = redis.Redis(
  host=REDIS_HOST,
  port=REDIS_PORT,
  password=REDIS_PASSWORD)
r.ping()

True

# Hashes e JSON - Dois velhos amigos

**No Redis, Hashes e JSON s√£o tipos de dados nativamente suportados que oferecem estruturas eficientes para armazenar e manipular informa√ß√µes complexas.**

Um `Hash` no Redis √© uma cole√ß√£o de pares de campo-valor, semelhante a uma tabela de hash em outras linguagens de programa√ß√£o. Eu imagino ele como um mini redis, ou como um "JSON FLAT".\
Ideal para representar objetos com v√°rios atributos, como um usu√°rio com campos como nome, email e idade, Hashes s√£o otimizados para opera√ß√µes r√°pidas de leitura e escrita, permitindo que cada campo dentro do hash seja acessado e modificado individualmente sem a necessidade de alterar toda a estrutura.

O `JSON` tamb√©m √© um data type nativo para o Redis. Nele, a utiliza√ß√£o do tipo de dado JSON permite armazenar objetos completos e realizar consultas complexas diretamente na estrutura JSON armazenada. Isso √© especialmente √∫til para aplica√ß√µes que lidam com dados hier√°rquicos ou aninhados, como configura√ß√µes de aplicativos, documentos ou dados de resposta de APIs, proporcionando uma maneira natural e flex√≠vel de gerenciar dados complexos dentro do Redis.\
Naturalmente, voc√™ pode manipular partes espec√≠ficas do JSON, como vamos ver durante o Workshop.

**Importante:** Ambos data types suportam Indexa√ß√£o, habilitando eles para servirem de schema/model, e tamb√©m para **Search and Query**.


## Redis Hash

No Redis, `Hashes` s√£o cole√ß√µes de pares de campo-valor, semelhantes a um `dicion√°rio` em Python ou um `Map` em Java.

Eles s√£o ideais para representar objetos com v√°rios atributos, como um usu√°rio com campos como nome, email e idade. Hashes s√£o otimizados para opera√ß√µes r√°pidas de leitura e escrita, permitindo que cada campo dentro do hash seja acessado e modificado individualmente sem a necessidade de alterar toda a estrutura.

### Hands-on: Exerc√≠cios com Hashes no Redis

Vamos come√ßar com alguns exemplos e comandos para praticar o uso de Hashes no Redis. Voc√™ pode executar esses comandos tanto no notebook quanto no Redis Insight.

#### Criar e manipular um Hash

**HSET:** Salva vari√°veis como campos em um hash no Redis.


```
# Execute no Redis Insights
HSET mvp:1 name "Ayrton" last_name "Senna" email "senninha@f1.io" age 34
```




In [14]:
# Crie outro MVP utilizando o redis-cli por aqui mesmo:
!redis-cli $REDIS_CONN HSET mvp:2 name "Edson" last_name "Arantes do Nascimento" apelido "Pel√©" email "pele@santosfc.com" age 82

(integer) 5


#### Recuperar m√∫ltiplos valores de um hash

**HMGET:** Recupera m√∫ltiplos valores de um hash. Vamos pegar apenas alguns campos espec√≠ficos, como nome, apelido e idade.

```
# Execute no Redis Insights
HMGET mvp:2 name apelido age
```

Vamos fazer o mesmo por aqui. Desta vez com o Python, nativamente.

In [11]:
import redis

# Conectar ao Redis
r = redis.Redis(
  host=REDIS_HOST,
  port=REDIS_PORT,
  password=REDIS_PASSWORD,
  encoding="utf-8",
  decode_responses=True
  )

# HMGET: Recuperar m√∫ltiplos valores
valores = r.hmget("mvp:2", "name", "apelido", "age")
print(valores)

['Edson', 'Pel√©', '82']


#### Incrementar o valor de um campo num√©rico

Vamos usar o comando HINCRBY para incrementar o valor do campo age no hash.

**HINCRBY:** Incrementa o valor de um campo num√©rico. Um inteiro, neste caso.

Neste exemplo, Pel√© j√° vai sair com 1000 gols.
Note que este campo `gol` nem existia antes no Hash `mvp:2`. N√£o √© necess√°rio um round-trip para definir este campo.

```
# Execute no Redis Insights, um por vez.
# Se quiser executar m√∫ltiplos, de uma vez, v√° para a aba `Workbench` no Redis Insights.
HINCRBY mvp:2 gols 999
HINCRBY mvp:2 gols 2
HINCRBY mvp:2 gols -1

# E um get lazy mesmo, pra gente ver como est√° o nosso amigo Pel√©:
HGETALL mvp:2
```

#### Deletar um campo de um hash

Como o Pel√© ainda est√° fazendo gols no c√©u, acho dif√≠cil a gente tentar controlar isso aqui no Redis. Vamos resolver isso.

Vamos usar o comando `HDEL` para deletar o campo gols do hash `mvp:2`.

**HDEL:** Deleta um campo de um hash.


In [15]:
import redis

# Conectar ao Redis
r = redis.Redis(
  host=REDIS_HOST,
  port=REDIS_PORT,
  password=REDIS_PASSWORD,
  decode_responses=True,
  )

# HDEL: Deletar o campo 'gols' do hash 'mvp:2'
r.hdel("mvp:2", "gols")

# Verificar todos os campos do hash 'mvp:2' para confirmar a dele√ß√£o
pelezinho = r.hgetall("mvp:2")
print("Hash mvp:2 = ", pelezinho)

# Notem que o Python j√° est√° parseando a saida como um dict, e os bytes como string
print(type(pelezinho))
print(type(pelezinho['apelido']))


Hash mvp:2 =  {'name': 'Edson', 'last_name': 'Arantes do Nascimento', 'apelido': 'Pel√©', 'email': 'pele@santosfc.com', 'age': '82'}
<class 'dict'>
<class 'str'>


#### Deletar um hash completamente

Para deletar o hash `mvp:2` completamente, voc√™ pode usar o comando `DEL` via redis-cli, por exemplo.

**DEL:** Deleta a chave especificada e todos os seus campos.

Execute o comando abaixo no **redis-cli** para deletar o hash `mvp:2`:

In [16]:
!redis-cli $REDIS_CONN DEL mvp:2

(integer) 1


## RedisJSON

**RedisJSON** adiciona o tipo de dado **JSON** ao Redis para que voc√™ possa trabalhar com dados JSON **nativamente** no Redis, sem tratar o JSON inteiro como uma grande string e constantemente serializar/desserializar JSON no cliente.

Isso tamb√©m significa que eu estou criando um **modelo/schema**. Os campos do JSON s√£o tipados e possuem metacaracter√≠sticas que v√£o ajudar muito voc√™s na hora de buscar dados no Redis. Buscas multi-facetadas, de vetor, de geolocaliza√ß√£o, com filtros e transforma√ß√µes que ocorrer√£o do lado do Redis, evitando multiplos round trips para o backend.

*Em outras palavras, voc√™ tira o que quer do Redis indo s√≥ uma vez at√© ele, inclusive filtrando exatamente o que voc√™ quer que passe pelo fio at√© sua aplica√ß√£o.*


-----


Com uma biblioteca cliente como Python, voc√™ pode usar comandos como `redis.json().get()` e `redis.json().set()`, e no Redis CLI, JSON.GET, JSON.SET entre outros.

Eu, particularmente, prefiro usar as bibliotecas de Object Mapping, como a [REDISOM](https://redis.io/docs/latest/integrate/redisom-for-python/).

-----

Veja a lista completa de comandos do RedisJSON aqui: https://redis.io/commands/?group=json

Documenta√ß√£o Python: https://redis-py.readthedocs.io/en/stable/redismodules.html#redisjson-commands


### Hands-on: Exerc√≠cios com Hashes no Redis

#### Criar um Objeto JSON

Vamos come√ßar com um exemplo de um col√©gio em Curitiba e salvar esse objeto JSON no Redis.



In [17]:
import redis
from redis.commands.json.path import Path

# Conectar ao Redis
r = redis.Redis(
  host=REDIS_HOST,
  port=REDIS_PORT,
  password=REDIS_PASSWORD,
  decode_responses=True)

# JSON.SET: Criar um objeto JSON para um col√©gio em Curitiba
colegio = {
    "name": "Col√©gio Positivo",
    "description": "Localizado em Curitiba, o Col√©gio Positivo √© conhecido por seu curr√≠culo abrangente e inovador, com foco em tecnologia e excel√™ncia acad√™mica.",
    "class": "particular",
    "type": ["moderno"],
    "address": {"city": "Curitiba", "street": "Rua Prof. Pedro Viriato Parigot de Souza"},
    "students": 1500,
    "location": "-49.275437,-25.428356",
    "status_log": ["novo", "em opera√ß√£o"],
    "teachers": [
        {
            "name": "Maria Oliveira",
            "subjects": ["Biologia", "Qu√≠mica"]
        },
        {
            "name": "Jo√£o Lima",
            "subjects": ["Matem√°tica", "F√≠sica"]
        }
    ],
    "tags": "excel√™ncia acad√™mica, inova√ß√£o, tecnologia"
}

# Salvar o objeto JSON no Redis com a chave 'colegio:42'
r.json().set("colegio:42", '$', colegio)

# Verificar se o objeto foi salvo corretamente
colegio_salvo = r.json().get("colegio:42")
print(colegio_salvo)


{'name': 'Col√©gio Positivo', 'description': 'Localizado em Curitiba, o Col√©gio Positivo √© conhecido por seu curr√≠culo abrangente e inovador, com foco em tecnologia e excel√™ncia acad√™mica.', 'class': 'particular', 'type': ['moderno'], 'address': {'city': 'Curitiba', 'street': 'Rua Prof. Pedro Viriato Parigot de Souza'}, 'students': 1500, 'location': '-49.275437,-25.428356', 'status_log': ['novo', 'em opera√ß√£o'], 'teachers': [{'name': 'Maria Oliveira', 'subjects': ['Biologia', 'Qu√≠mica']}, {'name': 'Jo√£o Lima', 'subjects': ['Matem√°tica', 'F√≠sica']}], 'tags': 'excel√™ncia acad√™mica, inova√ß√£o, tecnologia'}


#### Read: Exemplos de Leitura de JSON no Redis

Neste bloco, vamos usar comandos via redis-cli, por aqui mesmo. Poder√≠amos estar usando o Python, a API, etc.

Vamos usar o objeto JSON do "Col√©gio Positivo" em Curitiba que criamos anteriormente. Execute os seguintes comandos no redis-cli para ler de diversas maneiras interessantes.


In [18]:
# 1. Pegar o JSON inteiro
# Este comando retorna todo o objeto JSON armazenado na chave 'colegio:42'
!redis-cli $REDIS_CONN JSON.GET colegio:42

# 2. Pegar propriedades espec√≠ficas
# Aqui, pegamos apenas as propriedades 'name' e 'address.city' do objeto JSON
!redis-cli $REDIS_CONN JSON.GET colegio:42 $.name $.address.city

# 3. Pegar uma propriedade aninhada
# Este comando retorna o nome do primeiro professor na lista de professores
!redis-cli $REDIS_CONN JSON.GET colegio:42 $.teachers[0].name

# 4. Pegar o primeiro elemento de um array
# Este comando retorna o primeiro status do log de status
!redis-cli $REDIS_CONN JSON.GET colegio:42 $.status_log[0]

"{\"name\":\"Col\xc3\xa9gio Positivo\",\"description\":\"Localizado em Curitiba, o Col\xc3\xa9gio Positivo \xc3\xa9 conhecido por seu curr\xc3\xadculo abrangente e inovador, com foco em tecnologia e excel\xc3\xaancia acad\xc3\xaamica.\",\"class\":\"particular\",\"type\":[\"moderno\"],\"address\":{\"city\":\"Curitiba\",\"street\":\"Rua Prof. Pedro Viriato Parigot de Souza\"},\"students\":1500,\"location\":\"-49.275437,-25.428356\",\"status_log\":[\"novo\",\"em opera\xc3\xa7\xc3\xa3o\"],\"teachers\":[{\"name\":\"Maria Oliveira\",\"subjects\":[\"Biologia\",\"Qu\xc3\xadmica\"]},{\"name\":\"Jo\xc3\xa3o Lima\",\"subjects\":[\"Matem\xc3\xa1tica\",\"F\xc3\xadsica\"]}],\"tags\":\"excel\xc3\xaancia acad\xc3\xaamica, inova\xc3\xa7\xc3\xa3o, tecnologia\"}"
"{\"$.name\":[\"Col\xc3\xa9gio Positivo\"],\"$.address.city\":[\"Curitiba\"]}"
"[\"Maria Oliveira\"]"
"[\"novo\"]"


#### Write: Exemplos de Escrita de JSON no Redis

Vamos mostrar como interagir com campos espec√≠ficos do seu JSON. Olha que interessante (vamos de Python dessa vez):



In [19]:
import redis
from redis.commands.json.path import Path

# Conectar ao Redis (usando vari√°veis de ambiente configuradas)
r = redis.Redis(
  host=REDIS_HOST,
  port=REDIS_PORT,
  password=REDIS_PASSWORD,
  decode_responses=True
)

# Imprimir o estado inicial do array status_log e do campo students
status_inicial = r.json().get("colegio:42", Path("$.status_log"))
alunos_iniciais = r.json().get("colegio:42", Path("$.students"))
print("Status inicial:", status_inicial)
print("N√∫mero de alunos inicial:", alunos_iniciais)

print("----------------------------------------------------------------")

# 6. Adicionar um novo status ao array status_log
r.json().arrappend("colegio:42", Path("$.status_log"), "em expans√£o")
status_atualizado = r.json().get("colegio:42", Path("$.status_log"))
print("Status atualizado:", status_atualizado)

# 7. Incrementar o n√∫mero de alunos em 10
r.json().numincrby("colegio:42", Path("$.students"), 10)
alunos_atualizados = r.json().get("colegio:42", Path("$.students"))
print("N√∫mero de alunos atualizado:", alunos_atualizados)

Status inicial: [['novo', 'em opera√ß√£o']]
N√∫mero de alunos inicial: [1500]
----------------------------------------------------------------
Status atualizado: [['novo', 'em opera√ß√£o', 'em expans√£o']]
N√∫mero de alunos atualizado: [1510]


# Search and Query: vamos come√ßar a navegar pelo mundo das consultas avan√ßadas

Vamos iniciar carregando alguns outros Col√©gios conhecidos por n√≥s, Brasileiros.

Basta executar o pr√≥ximo bloco, e vamos em frente.

In [20]:
schools = [
    {
        "name": "Col√©gio Bandeirantes",
        "description": "Abrangendo 10 estados, o curr√≠culo premiado desta escola inclui um sistema de leitura abrangente (do reconhecimento de letras e fon√©tica √† leitura de livros completos), al√©m de matem√°tica, ci√™ncias, estudos sociais e at√© filosofia.",
        "class": "independente",
        "type": ["tradicional"],
        "address": {"city": "S√£o Paulo", "street": "Rua Estela"},
        "students": 342,
        "location": "-46.633308,-23.550520",
        "status_log": ["novo", "em opera√ß√£o"],
        "teachers": [
            {
                "name": "Ana Silva",
                "subjects": ["Matem√°tica", "F√≠sica"]
            },
            {
                "name": "Carlos Souza",
                "subjects": ["Hist√≥ria", "Geografia"]
            }
        ],
        "tags": "excel√™ncia acad√™mica, tecnologia, inova√ß√£o, java"
    },
    {
        "name": "Escola Maria Imaculada",
        "description": "A Garden School √© uma nova e inovadora experi√™ncia de ensino e aprendizado ao ar livre, oferecendo atividades ricas e variadas em um ambiente natural para crian√ßas e fam√≠lias.",
        "class": "estadual",
        "type": ["floresta", "montessori"],
        "address": {"city": "S√£o Paulo", "street": "Avenida Vicente Rao"},
        "students": 1452,
        "location": "-46.699687,-23.621993",
        "status_log": ["novo", "em opera√ß√£o"],
        "teachers": [
            {
                "name": "Mariana Costa",
                "subjects": ["Biologia", "Qu√≠mica"]
            },
            {
                "name": "Rafael Lima",
                "subjects": ["Portugu√™s", "Literatura"]
            }
        ],
        "tags": "educa√ß√£o ao ar livre, inova√ß√£o, sustentabilidade"
    },
    {
        "name": "Col√©gio S√£o Lu√≠s",
        "description": "A Gillford School √© um centro de aprendizado inclusivo que acolhe pessoas de todos os estilos de vida, convidando-as a assumir seu papel como agentes regenerativos, criando novos caminhos para o futuro e incitando um movimento internacional de transforma√ß√£o cultural, territorial e social.",
        "class": "privada",
        "type": ["democr√°tica", "waldorf"],
        "address": {"city": "Rio de Janeiro", "street": "Rua Haddock Lobo"},
        "students": 721,
        "location": "-46.660213,-23.558704",
        "status_log": ["novo", "em opera√ß√£o", "fechada"],
        "teachers": [
            {
                "name": "Beatriz Mendes",
                "subjects": ["Filosofia", "Sociologia"]
            },
            {
                "name": "Fernando Almeida",
                "subjects": ["Artes", "Educa√ß√£o F√≠sica"]
            }
        ],
        "tags": "inclus√£o, transforma√ß√£o social, interdisciplinaridade"
    },
    {
        "name": "Escola Sesc de Ensino",
        "description": "A filosofia por tr√°s da Forest School baseia-se no desejo de proporcionar √†s crian√ßas pequenas uma educa√ß√£o que incentive a aprecia√ß√£o do mundo amplo na natureza, enquanto alcan√ßam independ√™ncia, confian√ßa e alta autoestima.",
        "class": "independente",
        "type": ["floresta", "montessori", "democr√°tica"],
        "address": {"city": "Rio de Janeiro", "street": "Rua Jacarepagu√°"},
        "students": 1000,
        "location": "-43.375162,-22.972250",
        "status_log": ["novo", "em opera√ß√£o"],
        "teachers": [
            {
                "name": "Luciana Oliveira",
                "subjects": ["Ci√™ncias", "Matem√°tica"]
            },
            {
                "name": "Paulo Santos",
                "subjects": ["Hist√≥ria", "Geografia"]
            }
        ],
        "tags": "natureza, independ√™ncia, confian√ßa"
    },
    {
        "name": "Col√©gio M√≥bile - Perfeito",
        "description": "A Escola M√≥bile oferece um programa acad√™mico rigoroso combinado com foco em pensamento cr√≠tico e criatividade, preparando os alunos para o ensino superior e al√©m.",
        "class": "privada",
        "type": ["tradicional"],
        "address": {"city": "Curitiba", "street": "Rua Cotovia"},
        "students": 600,
        "location": "-46.676201,-23.592920",
        "status_log": ["novo", "em opera√ß√£o"],
        "teachers": [
            {
                "name": "Juliana Pereira",
                "subjects": ["Qu√≠mica", "Biologia"]
            },
            {
                "name": "Ricardo Fernandes",
                "subjects": ["Portugu√™s", "Ingl√™s"]
            }
        ],
        "tags": "rigor acad√™mico, pensamento cr√≠tico, criatividade"
    },
    {
        "name": "Col√©gio Santa Cruz",
        "description": "O Col√©gio Santa Cruz √© conhecido por seu forte desempenho acad√™mico e compromisso com a responsabilidade social, promovendo um senso de comunidade entre os alunos.",
        "class": "privada",
        "type": ["tradicional", "religiosa"],
        "address": {"city": "Belo Horizonte", "street": "Rua Orob√≥"},
        "students": 300,
        "location": "-46.712750,-23.547680",
        "status_log": ["novo", "em opera√ß√£o"],
        "teachers": [
            {
                "name": "Gabriela Rocha",
                "subjects": ["Religi√£o", "Filosofia"]
            },
            {
                "name": "Eduardo Matos",
                "subjects": ["Educa√ß√£o F√≠sica", "Ci√™ncias"]
            }
        ],
        "tags": "desempenho acad√™mico, responsabilidade social, comunidade"
    },
    {
        "name": "Col√©gio Rio Branco",
        "description": "O Col√©gio Rio Branco oferece um curr√≠culo diversificado com forte √™nfase em l√≠nguas, artes e ci√™ncias, preparando os alunos para a cidadania global.",
        "class": "privada",
        "type": ["internacional"],
        "address": {"city": "S√£o Paulo", "street": "Rua Alves Guimar√£es"},
        "students": 50,
        "location": "-46.670912,-23.555451",
        "status_log": ["novo", "em opera√ß√£o"],
        "teachers": [
            {
                "name": "Marcelo Andrade",
                "subjects": ["Ingl√™s", "Espanhol"]
            },
            {
                "name": "Sofia Ribeiro",
                "subjects": ["Artes", "Hist√≥ria"]
            }
        ],
        "tags": "l√≠nguas, artes, cidadania global, java"
    }
]



# carregar os dados do Redis... algumas escolas do Brasilz√£o
for id, school in enumerate(schools):
    #print(school)
    r.json().set(f"school_json:{id}", '.', school)

Execute estes dois comandos abaixo:

In [23]:
# Pegar um JSON inteiro, via JSON.GET, da raiz $
!redis-cli $REDIS_CONN JSON.GET school_json:1 $
# Listar as keys do schema school_json que criamos juntos no python acima
!redis-cli $REDIS_CONN keys 'school_json:*'

"[{\"name\":\"Escola Maria Imaculada\",\"description\":\"A Garden School \xc3\xa9 uma nova e inovadora experi\xc3\xaancia de ensino e aprendizado ao ar livre, oferecendo atividades ricas e variadas em um ambiente natural para crian\xc3\xa7as e fam\xc3\xadlias.\",\"class\":\"estadual\",\"type\":[\"floresta\",\"montessori\"],\"address\":{\"city\":\"S\xc3\xa3o Paulo\",\"street\":\"Avenida Vicente Rao\"},\"students\":1452,\"location\":\"-46.699687,-23.621993\",\"status_log\":[\"novo\",\"em opera\xc3\xa7\xc3\xa3o\"],\"teachers\":[{\"name\":\"Mariana Costa\",\"subjects\":[\"Biologia\",\"Qu\xc3\xadmica\"]},{\"name\":\"Rafael Lima\",\"subjects\":[\"Portugu\xc3\xaas\",\"Literatura\"]}],\"tags\":\"educa\xc3\xa7\xc3\xa3o ao ar livre, inova\xc3\xa7\xc3\xa3o, sustentabilidade\"}]"
1) "school_json:0"
2) "school_json:2"
3) "school_json:5"
4) "school_json:3"
5) "school_json:1"
6) "school_json:4"
7) "school_json:6"


Agora algo equivalente, mas com Python! Bem simples, n√©?

In [24]:
# Agora com Python!
# Pegue um JSON direto, desde a raiz com $
res=r.json().get('school_json:0','$')
print(res)


[{'name': 'Col√©gio Bandeirantes', 'description': 'Abrangendo 10 estados, o curr√≠culo premiado desta escola inclui um sistema de leitura abrangente (do reconhecimento de letras e fon√©tica √† leitura de livros completos), al√©m de matem√°tica, ci√™ncias, estudos sociais e at√© filosofia.', 'class': 'independente', 'type': ['tradicional'], 'address': {'city': 'S√£o Paulo', 'street': 'Rua Estela'}, 'students': 342, 'location': '-46.633308,-23.550520', 'status_log': ['novo', 'em opera√ß√£o'], 'teachers': [{'name': 'Ana Silva', 'subjects': ['Matem√°tica', 'F√≠sica']}, {'name': 'Carlos Souza', 'subjects': ['Hist√≥ria', 'Geografia']}], 'tags': 'excel√™ncia acad√™mica, tecnologia, inova√ß√£o, java'}]


Seguindo com Python, mas com alguns exemplos mais legais

In [25]:
# Retorne apenas a propriedade nome
res=r.json().get('school_json:0','$.name')
print(res)

# Embedded object ($.address) - Um Address pertence a uma Escola - 1:1
res=r.json().get('school_json:0','$.address')
print(res)

# E agora um elemento de um array - o primeiro elemento
res=r.json().get('school_json:0','$.status_log[0]')
print(res)

['Col√©gio Bandeirantes']
[{'city': 'S√£o Paulo', 'street': 'Rua Estela'}]
['novo']


In [26]:
# Ler a quantidade de students de uma escola X. Neste caso, a primeira!
students=r.json().get('school_json:0','$.students')
print(students)

# Mudar pra 350 alunos e refazer o mesmo comando.
# sempre atomico, sempre O(1).
r.json().set('school_json:0','$.students',350)
r.json().get('school_json:0','$.students')

[342]


[350]

In [27]:
# Incremento atomico do numero de estudandes da escola-alvo... sempre O(1)
# Pode clicar algumas vezes! O numincrby vai retornar o novo numero de Estudantes da Escola, assim como na CLI/API.
r.json().numincrby('school_json:0','$.students',1)

[351]

## RediSearch - Dando mais poderes para o que j√° √© brabo

**RediSearch** adiciona a capacidade de consultar dados nas suas estruturas de dados **HASH** ou **JSON**, **essencialmente transformando o Redis em um banco de dados de documentos.** Sim.

Com o RediSearch, voc√™ declara √≠ndices uma vez e, em seguida, cada objeto de banco de dados que corresponder ao prefixo definido no √≠ndice ser√° automaticamente e em tempo real adicionado ao √≠ndice.

Naturalmente, o que j√° estiver no Redis ser√° indexado tamb√©m, a n√£o ser que voc√™ n√£o queira. Existem v√°rios designs diferentes para esse tema, incluindo indices pequenos de com curto lifespan. Alguns clientes usam esse modelo para tornar a experiencia de um cliente mais fluida e com menor percep√ß√£o de lat√™ncia.\
*Por exemplo, voc√™ cria um determinado indice que s√≥ vai servir durante a jornada de um cliente logado, at√© o checkout, e depois vc manda o √≠ndice pro belel√©u.*


-----

Para a lista completa de comandos do RediSearch, veja: https://redis.io/commands/?group=search

Documenta√ß√£o Python: https://redis-py.readthedocs.io/en/stable/redismodules.html#redisearch-commands

### Configurando o √çndice no Redis (com tudo, incluindo Geolocation)

Vamos criar um **Index** no Redis. Vamos mostrar como configurar o Redis para tratar JSONs como objetos, considerando seus diferentes atributos e propriedades.

Aqui, al√©m de configurar campos de texto, tags e num√©ricos, vamos tamb√©m configurar o campo de geolocaliza√ß√£o.

Vamos come√ßar excluindo qualquer √≠ndice existente para evitar conflitos. Em seguida, criaremos um novo √≠ndice com um esquema completinho.

---
**Disclaimers:**

Sobre o Geolocation, que veremos apenas l√° no fim: Este campo permitir√° consultas baseadas em coordenadas geogr√°ficas, como buscar escolas dentro de um determinado raio a partir de um ponto espec√≠fico.

*Este exemplo n√£o inclui campos de vetor (Redis como um VectorDB) ainda, para manter o foco. Vamos explorar vetores em exerc√≠cios futuros.*

---

Ent√£o, vamos l√°!

In [28]:
# Aqui eu quero trazer a sua atencao para o schema.
# Notem como eu explico para o Redis como tratar o JSON como um objeto mesmo, considerando seus atributos/propriedades.
# estamos apenas comecando! esse indice nem vetor (ainda, rsrs, vamos ver juntos em breve)
# POR√âM, AQUI, eu j√° vou parsear o campo de GEOLOCATION, como uma tupla de (longitude,latitude)

from redis.commands.search.field import (
    NumericField,
    TagField,
    TextField,
    VectorField,
    GeoField,

)
from redis.commands.search.indexDefinition import IndexDefinition, IndexType
from redis.commands.search.query import Query

# Excluir o √≠ndice se ele j√° existir
try:
    r.ft("idx:schools_json").dropindex(delete_documents=False)
except:
    pass

# E aqui criamos o index pra valer. Nem vou colocar vector e geoloc agora, pra gente nao confundir.
schema = (
    TextField("$.name", as_name="name"),
    TextField("$.description", as_name="description"),
    TagField("$.address.city", as_name="city"),
    NumericField("$.students", as_name="students"),
    TagField("$.tags", as_name="tags", separator=","),
    GeoField("$.location", as_name="location")
    )
r.ft("idx:schools_json").create_index(schema,
                    definition=IndexDefinition(prefix=["school_json:"],
                    index_type=IndexType.JSON)
                    )

'OK'

### Testando o Setup com uma Full-Text search

N√£o quero te confundir agora, mas os casos de uso v√£o do b√°sico at√© avan√ßad√≠ssimos, como voc√™ pode ver [aqui](https://redis.io/docs/latest/develop/interact/search-and-query/advanced-concepts/).

No exemplo a seguir, vamos realizar uma Full-Text Search buscando pelo termo `rigoroso`.

Como o campo `Description` do nosso schema `School` est√° sendo indexado como **TextField**, vamos enctontrar o Col√©gio que possui esse termo l√°.


In [29]:
import pandas as pd
# Retorne o Documento inteiro! Aqui fizemos uma Full-Text Search por rigoroso.
res=r.ft("idx:schools_json").search("rigoroso")
res_df = pd.DataFrame([t.__dict__ for t in res.docs ])
res_df

Unnamed: 0,id,payload,json
0,school_json:4,,"{""name"":""Col√©gio M√≥bile - Perfeito"",""descripti..."


In [None]:
# Retorne apenas alguns campos, para evitar passar coisas e metadados desnecess√°rios pelo fio, do Redis para sua App.
query=Query("rigoroso") \
   .return_field("$.address.city", as_field="city") \
   .return_field("$.name", as_field="name")
res=r.ft("idx:schools_json").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs ])
res_df

Unnamed: 0,id,payload,city,name
0,school_json:4,,Curitiba,Col√©gio M√≥bile - Perfeito


Vamos fazer uma busca um pouco mais interessante.

Quero encontrar escolas em S√£o Paulo (TAG), que possua de 300 a 2000 alunos.
Neste exemplo, a TAG foi um exact match, at√¥mico.

Por conta deste campo, eu tenho um alias que ignora os aninhamentos, onde a cidade (City) pertence ao endere√ßo (Address) da entidade-pai (School).

```
# Durante a cria√ß√£o do Index, falamos pro Redis que Cidade √© uma TAG.
<...>
TagField("$.address.city", as_name="city")
<...>
```

In [None]:
# Busca Multi-Field, um pouquinho mais complexa
# Notem o uso de {} para exact match de tags
# Notem tambem que estamos vendo que o Redis eh binary-safe...
# A Cidade, sendo uma tag, casa certinho, considerando o '√£' de S√£o Paulo
query=Query('@city:{S√£o Paulo} @students:[300, 2000]') \
   .return_field("$.address.city", as_field="city") \
   .return_field("$.name", as_field="name") \
   .return_field("$.students", as_field="students")
res=r.ft("idx:schools_json").search(query)
#print(res)
res_df = pd.DataFrame([t.__dict__ for t in res.docs ])
res_df


Unnamed: 0,id,payload,city,name,students
0,school_json:0,,S√£o Paulo,Col√©gio Bandeirantes,351
1,school_json:1,,S√£o Paulo,Escola Maria Imaculada,1452


# Casos de uso poderosos e mais avan√ßados
(n√£o s√£o complexos, √© tranquilo entender)

## Busca por Tags - Encontrando escolas com caracter√≠sticas espec√≠ficas

Nesta se√ß√£o, vamos realizar buscas utilizando tags.

Tags permitem buscas exatas em campos espec√≠ficos. Mas isso n√£o quer dizer que voc√™ n√£o pode usar wildcards.

In [None]:
# Busca por tags (mesmo que tenham wildcard) - binary safe - usando o melhor idioma do PLANETA: PT-BR
query = Query('@tags:{inova√ß√£*}') \
    .return_field("$.address.city", as_field="city") \
    .return_field("$.name", as_field="name")
res = r.ft("idx:schools_json").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs])
print(res_df)

              id payload       city                    name
0  school_json:0    None  S√£o Paulo    Col√©gio Bandeirantes
1  school_json:1    None  S√£o Paulo  Escola Maria Imaculada


## Busca por Intervalo - Quantos alunos est√£o matriculados?

Busca por intervalo √© o que voc√™ vai encontrar na doc oficial como "Range queries"

Para realizar buscas por intervalos em campos num√©ricos, como a quantidade de alunos em uma escola, podemos utilizar essas consultas de intervalo.

**N√£o se assustem com `inf+` e `inf-`!**\
Esses termos s√£o utilizados para representar o intervalo m√°ximo e m√≠nimo, respectivamente. inf+ significa infinito positivo (o valor mais alto poss√≠vel) e inf- significa infinito negativo (o valor mais baixo poss√≠vel). Eles s√£o √∫teis quando voc√™ quer incluir todos os valores acima ou abaixo de um determinado limite.

In [None]:
# Aqui, vamos realizar buscas baseadas em intervalos num√©ricos. Neste caso, a quantidade de alunos.
# TODO - Colocar mais ranges e mudar as cidades

# Busca por escolas com entre 300 e 1000 alunos (inclusivo)
search = '@students:[300 1000]'
query = Query(search) \
    .return_field("$.address.city", as_field="city") \
    .return_field("$.name", as_field="name") \
    .return_field("$.students", as_field="students")
res = r.ft("idx:schools_json").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs])
print("--------------------------------------------------------------------")
print("Escolas que t√™m entre 300 e 1000 estudantes (inclusive)")
print("Search: {0}".format(search))
print("")
print(res_df)
print("--------------------------------------------------------------------")

# Busca por escolas com mais de 1000 alunos (exclusivo)
# Note que o Escola Sesc de Ensino n√£o vai aparecer, pois tem exatos 1000 alunos
search = '@students:[(1000 +inf]'
query = Query(search) \
    .return_field("$.address.city", as_field="city") \
    .return_field("$.name", as_field="name") \
    .return_field("$.students", as_field="students")
res = r.ft("idx:schools_json").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs])
print("--------------------------------------------------------------------")
print("Escolas que t√™m mais de 1000 estudantes (exclusive)")
print("Search: {0}".format(search))
print("Comment: Note que a Escola Sesc de Ensino n√£o vai aparecer, pois tem exatos 1000 alunos")
print("")
print(res_df)
print("--------------------------------------------------------------------")


# Busca por escolas com menos de 300 alunos (inclusivo)
search = '@students:[-inf 300]'
query = Query(search) \
    .return_field("$.address.city", as_field="city") \
    .return_field("$.name", as_field="name") \
    .return_field("$.students", as_field="students")
res = r.ft("idx:schools_json").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs])
print("--------------------------------------------------------------------")
print("Escolas que t√™m menos de 300 estudantes (inclusive)")
print("Search: {0}".format(search))
print("")
print(res_df)
print("--------------------------------------------------------------------")


# Busca por escolas com menos de 300 alunos (exclusivo)
search = '@students:[0 (300]'
query = Query(search) \
    .return_field("$.address.city", as_field="city") \
    .return_field("$.name", as_field="name") \
    .return_field("$.students", as_field="students")
res = r.ft("idx:schools_json").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs])
print("--------------------------------------------------------------------")
print("Escolas que t√™m menos de 300 estudantes (exclusive)")
print("Search: {0}".format(search))
print("Comment: Note que o Col√©gio Santa Cruz n√£o vai aparecer, pois tem exatos 300 alunos")
print("")
print(res_df)
print("--------------------------------------------------------------------")



--------------------------------------------------------------------
Escolas que t√™m entre 300 e 1000 estudantes (inclusive)
Search: @students:[300 1000]

              id payload            city                       name students
0  school_json:5    None  Belo Horizonte         Col√©gio Santa Cruz      300
1  school_json:3    None  Rio de Janeiro      Escola Sesc de Ensino     1000
2  school_json:4    None        Curitiba  Col√©gio M√≥bile - Perfeito      600
3  school_json:0    None       S√£o Paulo       Col√©gio Bandeirantes      351
4  school_json:2    None  Rio de Janeiro           Col√©gio S√£o Lu√≠s      721
--------------------------------------------------------------------
--------------------------------------------------------------------
Escolas que t√™m mais de 1000 estudantes (exclusive)
Search: @students:[(1000 +inf]
Comment: Note que a Escola Sesc de Ensino n√£o vai aparecer, pois tem exatos 1000 alunos

              id payload       city                    name st

## Fuzzy Match - "Serasse" eu sei escrever essa palavra?

Pra fechar, apenas um exemplo leve de comunica√ß√£o realista: podemos estar buscando sem saber escrever direito o termo. Esse √© apenas um das dezenas de exemplos que voc√™s v√£o ter acesso na doc do Redis. Tem de redu√ß√£o de radicais, levando em considera√ß√£o o contexto e cultura de uma determinada L√≠ngua, etc.

Aqui, vamos apenas fazer uma full-text search procurando por alguma coisa meio esquisita, e vamos ver se o Redis consegue ajudar.

In [None]:
# Fuzzy matching!
# %algumacoisa% significa todos os termos com dist√¢ncia de Levenshtein de 1 em rela√ß√£o a ele.
# Use m√∫ltiplos pares de % para aumentar a dist√¢ncia de Levenshtein.

query=Query('%%Bondeirants%%') \
   .return_field("$.address.city", as_field="city") \
   .return_field("$.name", as_field="name") \
   .return_field("$.students", as_field="students")
res=r.ft("idx:schools_json").search(query)
#print(res)
res_df = pd.DataFrame([t.__dict__ for t in res.docs ])
res_df

Unnamed: 0,id,payload,city,name,students
0,school_json:0,,S√£o Paulo,Col√©gio Bandeirantes,351


### Suporte a Sin√¥nimos

O Redis Stack suporta a busca por palavras sin√¥nimas definidas pela estrutura de dados de sin√¥nimos. Isso permite que, ao buscar por uma palavra, documentos contendo suas sin√¥nimas tamb√©m sejam retornados.

A estrutura de dados de sin√¥nimos √© um conjunto de grupos, cada um contendo termos sin√¥nimos. Por exemplo, o seguinte conjunto de sin√¥nimos cont√©m tr√™s grupos, e cada grupo cont√©m tr√™s termos sin√¥nimos:

- {menino, crian√ßa, beb√™}
- {menina, crian√ßa, beb√™, girl}
- {mulher, pessoa, adulto}

**Pensando nestes tr√™s `Sets`, podemos afirmar que:**

Quando esses grupos est√£o na estrutura de dados de sin√¥nimos, √© poss√≠vel buscar por "crian√ßa" e receber documentos contendo "menino", "menina", "girl", "crian√ßa" e "beb√™".

In [None]:
# Busca com Sin√¥nimos - Procurando por termos relacionados entre si
# Vamos utilizar um set aqui, bem simples.
# E vamos usar um exemplo nada a ver, justamente para refor√ßar que nenhum modelo de MachineLearning precisou ser usado para aproximar os termos.
# Essa parte mais doida, vamos ver nos exerc√≠cios de Vector Search (vector similarity, cosine, etc)

# Configurando grupo de sin√¥nimos com termos fora do contexto escolar
# Aqui √© apenas uma brincadeira, com coisas bem desconexas mesmo
r.ft("idx:schools_json").synupdate("synonym_maluco_1", False, "Perfeito", "CristianoRonaldo", "CR7")

# Finalmente, a busca utilizando este sin√¥nimo curioso
search = 'CristianoRonaldo'
query = Query(search) \
    .return_field("$.address.city", as_field="city") \
    .return_field("$.name", as_field="name") \
    .return_field("$.description", as_field="description")
res = r.ft("idx:schools_json").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs])
print("--------------------------------------------------------------------")
print("Busca por 'Cristiano Ronaldo' usando sin√¥nimos (inclui 'Perfeito' e 'CR7')")
print("Search: {0}".format(search))
print(res_df)
print("--------------------------------------------------------------------")


--------------------------------------------------------------------
Busca por 'Cristiano Ronaldo' usando sin√¥nimos (inclui 'Perfeito' e 'CR7')
Search: CristianoRonaldo
              id payload      city                       name  \
0  school_json:4    None  Curitiba  Col√©gio M√≥bile - Perfeito   

                                         description  
0  A Escola M√≥bile oferece um programa acad√™mico ...  
--------------------------------------------------------------------


## Suporte a Stemming - uma forma bonita de dizer que vamos buscar pelo radical da palavra

O **Redis Stack** suporta **Stemming**, permitindo a adi√ß√£o da forma base de uma palavra ao √≠ndice (radical). Isso possibilita que uma busca por "contratando" tamb√©m retorne resultados para "contratar" e "contratado".

O suporte atual a Stemming √© baseado na biblioteca **Snowball Stemmer**, que suporta a maioria das l√≠nguas europeias, bem como √°rabe e outras.

Para definir qual idioma o Stemmer deve aplicar ao construir o √≠ndice, voc√™ precisa especificar o par√¢metro LANGUAGE ao criar o √≠ndice ou para um campo espec√≠fico.

**Neste caso, vou usar um exemplo comum do Ingl√™s.**

Vamos buscar pelo termo `hiring`.\
Vamos ver o que ele traz de stemming, considerando o verbo "to `hire`".



In [None]:
### Suporte a Stemming

# Cria√ß√£o do √≠ndice com suporte a Stemming em ingl√™s
# Para criar um √≠ndice com suporte a stemming, definimos os campos TextField apropriados.
from redis.commands.search.field import TextField, TagField, NumericField
from redis.commands.search.indexDefinition import IndexDefinition, IndexType
from redis.commands.search.query import Query
import pandas as pd

# Agora, pessoal, vou criar um outro √≠ndice. Mas √© apenas pra gente n√£o confundir as paradas.
# Na verdade, voc√™s podem criar e destruir √≠ndices ao longo da opera√ß√£o em Prod... isso √© normal
# Temos clientes que criam √≠ndices de curta-vida, durando apenas enquanto um determinado usu√°rio est√° logado e interagindo com o sistema.
# Excluir o √≠ndice se ele j√° existir
try:
    r.ft("idx:schools_stemming").dropindex(delete_documents=False)
except:
    pass

# Cria√ß√£o do √≠ndice com suporte a stemming
schema = (
    TextField("$.name", as_name="name"),
    TextField("$.description", as_name="description")
)

# Usando o conceito de Index Definition dessa lib do Python, pra injetar e explicar pro Redis que falamos ingl√™s por aqui
r.ft("idx:schools_stemming").create_index(schema, definition=IndexDefinition(prefix=["school_json:"], index_type=IndexType.JSON, language='english'))

# Adicionar documentos com varia√ß√µes da palavra "hire"
r.json().set('school_json:10', '$', {"name": "School Hiring", "description": "just to avoid confusion"})
r.json().set('school_json:11', '$', {"name": "College Hire", "description": "just to avoid confusion"})
r.json().set('school_json:12', '$', {"name": "Academy of Hired", "description": "just to avoid confusion"})

# Listar todos os documentos no √≠ndice
print("--------------------------------------------------------------------")
print("Listando todos os documentos no √≠ndice")
print("--------------------------------------------------------------------")
search = '*'
query = Query(search).return_field("$.name", as_field="name")
res = r.ft("idx:schools_stemming").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs])
print(res_df)

# Busca com Stemming para "hiring"
search = '@name:(hiring)'

query_params = {
  "LANGUAGE": "english"  # Gabs: parece estar sendo ignorado - abrir uma issue rapidola
}

query = Query(search) \
    .return_field("$.name", as_field="name") \
    .return_field("$.description", as_field="description")

res = r.ft("idx:schools_stemming").search(query, query_params)

res_df = pd.DataFrame([t.__dict__ for t in res.docs])
print("--------------------------------------------------------------------")
print("Busca por 'hiring' com suporte a Stemming")
print("Search: {0}".format(search))
print(res_df)
print("--------------------------------------------------------------------")


--------------------------------------------------------------------
Listando todos os documentos no √≠ndice
--------------------------------------------------------------------
               id payload                       name
0  school_json:10    None              School Hiring
1  school_json:11    None               College Hire
2  school_json:12    None           Academy of Hired
3   school_json:5    None         Col√©gio Santa Cruz
4   school_json:3    None      Escola Sesc de Ensino
5   school_json:4    None  Col√©gio M√≥bile - Perfeito
6   school_json:6    None         Col√©gio Rio Branco
7   school_json:0    None       Col√©gio Bandeirantes
8   school_json:2    None           Col√©gio S√£o Lu√≠s
9   school_json:1    None     Escola Maria Imaculada
--------------------------------------------------------------------
Busca por 'hiring' com suporte a Stemming
Search: @name:(hiring)
               id payload              name              description
0  school_json:10    None   

## Suporte a Correspond√™ncia Fon√©tica

A correspond√™ncia fon√©tica permite que voc√™ encontre termos baseados na sua pron√∫ncia. Isso √© particularmente √∫til ao buscar nomes de pessoas, onde varia√ß√µes na escrita podem ocorrer, mas a pron√∫ncia permanece semelhante.

O **Redis Stack** suporta a correspond√™ncia fon√©tica usando o algoritmo **Double Metaphone (DM)**, que √© eficaz para v√°rias l√≠nguas latinas, incluindo ingl√™s, franc√™s, portugu√™s e espanhol. Ao definir um campo de texto com a op√ß√£o PHONETIC, os termos nesse campo ser√£o indexados tanto pelo seu valor textual quanto pela sua representa√ß√£o fon√©tica.

Vamos parar de usar Python agora, pra fechar com chave de ouro.\
Podem seguir fazendo por aqui, visto que temos um `redis-cli` dispon√≠vel.

Entretanto, minha recomenda√ß√£o √© fazer esse √∫ltimo aqui direto no **Redis Insights (GUI)**

Vamos l√°!\
*Ah, e parab√©ns por ter chegado at√© aqui. Gostei muito de preparar esse material pra voc√™s.*


### Configura√ß√£o do √çndice com Correspond√™ncia Fon√©tica

Comando para criar o √≠ndice:

In [None]:
!redis-cli $REDIS_CONN FT.DROPINDEX idx:schools_phonetic || true
!redis-cli $REDIS_CONN FT.CREATE idx:schools_phonetic ON JSON PREFIX 1 school_json: LANGUAGE portuguese SCHEMA $.name AS name TEXT PHONETIC dm:pt $.description AS description TEXT

(error) Unknown Index name
OK


### Adicionar Documentos

Comandos para adicionar documentos:

In [None]:
!redis-cli $REDIS_CONN JSON.SET school_json:30 $ "{\"name\": \"Escola Jo√£o\", \"description\": \"Um √≥timo lugar para aprender\"}"
!redis-cli $REDIS_CONN JSON.SET school_json:31 $ "{\"name\": \"Escola J√£o\", \"description\": \"Uma excelente institui√ß√£o educacional\"}"
!redis-cli $REDIS_CONN JSON.SET school_json:32 $ "{\"name\": \"Escola Jo√£ozinho\", \"description\": \"Educa√ß√£o de primeira qualidade\"}"

OK
OK
OK


### Executar Consultas Fon√©ticas

Comandos para executar consultas fon√©ticas, e com `SORT DESC BY name` (s√≥ pra ficar mais legal):

In [None]:
!echo "##############################################################################################################"
# Buscar por "Jo√£o" que deve retornar documentos com "Jo√£o" e "J√£o", em ordem decrescente
!redis-cli $REDIS_CONN FT.SEARCH idx:schools_phonetic "Jo√£o" LANGUAGE portuguese SORTBY name DESC RETURN 1 name
!echo "##############################################################################################################"
!echo ""
!echo "##############################################################################################################"
# Buscar por "J√£o" que deve retornar documentos com "J√£o" e "Jo√£o" tamb√©m, mas em ordem crescente agora
!redis-cli $REDIS_CONN FT.SEARCH idx:schools_phonetic "J√£o" LANGUAGE portuguese SORTBY name ASC RETURN 1 name
!echo "##############################################################################################################"
!echo ""
!echo "##############################################################################################################"
# Buscar por "Jo√£ozinho" que deve retornar documentos com "Jo√£ozinho". Neste caso, s√≥ tem um.
!redis-cli $REDIS_CONN FT.SEARCH idx:schools_phonetic "Jo√£ozinho" LANGUAGE portuguese SORTBY name DESC
!echo "##############################################################################################################"


##############################################################################################################
1) (integer) 2
2) "school_json:31"
3) 1) "name"
   2) "Escola J\xc3\xa3o"
4) "school_json:30"
5) 1) "name"
   2) "Escola Jo\xc3\xa3o"
##############################################################################################################

##############################################################################################################
1) (integer) 2
2) "school_json:30"
3) 1) "name"
   2) "Escola Jo\xc3\xa3o"
4) "school_json:31"
5) 1) "name"
   2) "Escola J\xc3\xa3o"
##############################################################################################################

##############################################################################################################
1) (integer) 1
2) "school_json:32"
3) 1) "name"
   2) "Escola Jo\xc3\xa3ozinho"
   3) "$"
   4) "{\"name\":\"Escola Jo\xc3\xa3ozinho\",\"description\":\"Educa\xc3\xa7\xc3\xa3o

# Busca Complexa no Redis: O Grand Finale

Nesta √∫ltima parte do nosso workshop, vamos utilizar o Redis para realizar uma busca complexa combinando v√°rias funcionalidades avan√ßadas de busca que aprendemos. Vamos explorar:

    Fuzzy Search: Para encontrar termos que s√£o similares, mas n√£o exatamente iguais, ao termo de busca.
    Full Text Search: Para buscar termos em campos de texto.
    Tag Search: Para encontrar correspond√™ncias exatas em campos de tags.
    Geolocation Search: Para buscar documentos dentro de um determinado raio de uma localiza√ß√£o espec√≠fica.
    Range Search: Para buscar documentos com valores num√©ricos dentro de um intervalo espec√≠fico.
    Sorting: Para ordenar os resultados por um campo num√©rico.
    # e, no pr√≥ximo notebook... vamos partir pro Vector e entrar no mundo de LLM e Machine Learning.

Nosso objetivo ser√° encontrar escolas com base em uma combina√ß√£o desses crit√©rios e retornar apenas o nome e a quantidade de alunos, ordenados pelo n√∫mero de alunos (do maior pro menor).

### Olha que legal:

In [None]:
# Busca complexa
search = '%%Colejio%% (@name:Col√©gio|Banana) @city:{S√£o Paulo} @tags:{tecnologia|ambiental|java} @location:[-46.633308 -23.550520 100000 km] @students:[25 400]'
query = Query(search) \
    .return_field("$.name", as_field="name") \
    .return_field("$.students", as_field="students") \
    .sort_by("students", asc=False)
res = r.ft("idx:schools_json").search(query)
res_df = pd.DataFrame([t.__dict__ for t in res.docs])

print("--------------------------------------------------------------------")
print("Busca Complexa: Fuzzy, Full Text, Tag, Geoloc, Range e Sort")
print("Search: {0}".format(search))
print(res_df)
print("--------------------------------------------------------------------")

--------------------------------------------------------------------
Busca Complexa: Fuzzy, Full Text, Tag, Geoloc, Range e Sort
Search: %%Colejio%% (@name:Col√©gio|Banana) @city:{S√£o Paulo} @tags:{tecnologia|ambiental|java} @location:[-46.633308 -23.550520 100000 km] @students:[25 400]
              id payload students                  name
0  school_json:0    None      351  Col√©gio Bandeirantes
1  school_json:6    None       50    Col√©gio Rio Branco
--------------------------------------------------------------------


# Aggregations - como usar o FT.AGGREGATE

As agrega√ß√µes s√£o uma maneira de processar os resultados de uma consulta de pesquisa, agrupar, ordenar e transform√°-los - e extrair insights anal√≠ticos deles. Assim como consultas de agrega√ß√£o em outros bancos de dados e motores de busca, elas podem ser usadas para criar relat√≥rios anal√≠ticos ou realizar consultas no estilo de Pesquisa Facetada.

Por exemplo, podemos agrupar escolas por cidade e contar escolas por grupo, nos dando o n√∫mero de escolas por cidade. Ou poder√≠amos agrupar por classe escolar (particular/estatal) e ver o n√∫mero m√©dio de alunos por grupo.





In [None]:
from redis.commands.search.aggregation import AggregateRequest
from redis.commands.search.indexDefinition import IndexDefinition, IndexType
from redis.commands.search.query import Query
from redis.commands.search.aggregation import AggregateRequest
from redis.commands.search import reducers

# helper function para mostrar os resultados do redis.ft().search() como um dataframe, pra quem curte pandas lib
def display_ft(res):
  if res.total==0:
    print("No matches found")
  else:
    res_df = pd.DataFrame([t.__dict__ for t in res.docs ]).drop(columns=["payload"])
    display(res_df)

# helper function para traduzir o resultado do FT.AGGREGATE para um dataframe e entao mostrar o resultado
def display_ft_agg(res):
  data = res.rows
  data = [[item for item in sublist] for sublist in data]
  column_dict = {}
  for sublist in data:
      for i in range(0, len(sublist), 2):
          column_name = sublist[i]
          column_value = sublist[i + 1]
          column_dict.setdefault(column_name, []).append(column_value)
  df = pd.DataFrame(column_dict)
  display(df)


# Execute uma agregacao por cidade, e conte o numero de escolas por cidade (parecido com um SQL da vida).
request = AggregateRequest(f'*').group_by('@city', reducers.count().alias('count'))
res = r.ft("idx:schools_json").aggregate(request)
#print(res.rows)
display_ft_agg(res)


# Execute uma agregacao por cidade, e conte o numero de estudantes por cidade
# Note que agora estamos mandando um SUM, apra somar os students, e nao mais um COUNT
request = AggregateRequest(f'*').group_by('@city', reducers.sum('@students').alias('students_count'))
res = r.ft("idx:schools_json").aggregate(request)
display_ft_agg(res)


Unnamed: 0,city,count
0,Belo Horizonte,1
1,S√£o Paulo,3
2,,6
3,Curitiba,1
4,Rio de Janeiro,2


Unnamed: 0,city,students_count
0,Belo Horizonte,300
1,S√£o Paulo,1853
2,,0
3,Curitiba,600
4,Rio de Janeiro,1721


## Bonus!!! Verifica√ß√£o Ortogr√°fica com Redis e FT.SEARCH (doideira)

O comando `FT.SPELLCHECK` realiza a corre√ß√£o ortogr√°fica em uma consulta, retornando sugest√µes para termos incorretos. Podemos especificar a dist√¢ncia m√°xima de **Levenshtein** para sugest√µes de ortografia e usar **dicion√°rios personalizados** para incluir ou excluir termos.

Eu ainda n√£o montei um dicion√°rio personalizado, mas vou assim que tiver tempo.\
Quero fazer algo com regionalismo e dialetos.

Enfim, foco aqui!

Vamos criar um √≠ndice simples e adicionar alguns documentos para simular a corre√ß√£o ortogr√°fica. Em seguida, usaremos o comando `FT.SPELLCHECK` para verificar a ortografia da palavra "Redis".

### Passo 1: Cria√ß√£o do √çndice

Aqui vale lembrar que n√£o precisamos ter v√°rios √≠ndices. Eu estou criando mais s√≥ pro exerc√≠cio ficar mais "at√¥mico", rsrs.

In [None]:
!redis-cli $REDIS_CONN FT.DROPINDEX idx:spellcheck || true
!redis-cli $REDIS_CONN FT.CREATE idx:spellcheck ON JSON PREFIX 1 doc: SCHEMA $.content AS content TEXT

(error) Unknown Index name
OK


### Passo 2: Adi√ß√£o de Documentos


In [None]:
!redis-cli $REDIS_CONN JSON.SET doc:1 $ "{\"content\": \"Redis is an in-memory data structure store.\"}"
!redis-cli $REDIS_CONN JSON.SET doc:2 $ "{\"content\": \"Redis provides high availability through Redis Sentinel.\"}"
!redis-cli $REDIS_CONN JSON.SET doc:3 $ "{\"content\": \"Redis is used for caching, real-time analytics, and message brokering.\"}"

OK
OK
OK


### Passo 3: Execu√ß√£o do Comando FT.SPELLCHECK

In [None]:
# Verifica√ß√£o ortogr√°fica para a palavra incorreta "Redsi"
!echo "##############################################################################################################"
!redis-cli $REDIS_CONN FT.SPELLCHECK idx:spellcheck Redsi DISTANCE 1
!echo "##############################################################################################################"

!echo ""

# Verifica√ß√£o ortogr√°fica para a palavra incorreta "R√©diz" - com Levenshtein DISTANCE de 1
!echo "##############################################################################################################"
!redis-cli $REDIS_CONN FT.SPELLCHECK idx:spellcheck R√©diz DISTANCE 1
!echo "##############################################################################################################"

!echo ""

# Verifica√ß√£o ortogr√°fica para a palavra incorreta "R√©diz" - com Levenshtein DISTANCE de 2 - agora vai rsrs
!echo "##############################################################################################################"
!redis-cli $REDIS_CONN FT.SPELLCHECK idx:spellcheck R√©diz DISTANCE 2
!echo "##############################################################################################################"

##############################################################################################################
1) 1) TERM
   2) "redsi"
   3) 1) 1) "1"
         2) "redis"
##############################################################################################################

##############################################################################################################
1) 1) TERM
   2) "r\xc3\xa9diz"
   3) (empty array)
##############################################################################################################

##############################################################################################################
1) 1) TERM
   2) "r\xc3\xa9diz"
   3) 1) 1) "1"
         2) "redis"
##############################################################################################################
