# Combinando as estratégias field-centric e term-centric

![title](img/yin2.png)

Estratégias para balancear as forças das duas técnicas para criar soluções de relevância que atendem às expectativas do usuário

A maneira como usamos as duas estratégias juntas depende inteiramente de fazer os compromissos certos para os dados e usuários. A luta para obter o equilíbrio correto é uma grande parte do nosso trabalho contínuo de ajuste como desenvolvedores.

## Inicialização

In [1]:
!pip install ipynb



You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [2]:
from ipynb.fs.full.functions import reindex_solr, search_solr, explain_solr
from ipynb.fs.full.functions import reindex_elastic, search_elastic, explain_elastic
from ipynb.fs.full.functions import extract, SOLR_ADDR, headers

## 1. Juntar campos similares

Se a query do usuário só pode dar match em um único campo, então não há problemas em relação à consulta centrada no campo. Os problemas de elefante albino ou discordância de signals não ocorrem se os termos de pesquisa sempre encontram o seu campo ideal.

Mas se isso não é verdade, campos podem ser unidos em um único campo com efeito centrado no termo. Este é o nosso trabalho de modelagem de signals que precisamos fazer para que o problema do elefante albino e discordância de signals tenham pouco efeito na solução final.

Essa estratégia nem sempre funciona pois termos aparecem onde menos esperamos. Por exemplo, na nossa coleção, nomes de atores aparecem no overview dos filmes. A ideia de que termos de pesquisa sempre irão aparecer no bucket A ou B muitas vezes não funciona nos nossos dados não estruturados.

## 2. Combinar uma pesquisa abrangente com amplificadores conservadores

Uma outra estratégia é criar uma fundação centrada no termo. Utilizando essa baseline, podemos criar signals mais espertos para amplificar os documentos de maneiras específicas. 

Assim, nessa estratégia um documento ideal tem:
* todos os termos de busca dão match em um campo que contém a união de todos os campos pesquisáveis
* um campo específico para cada signal

O primeiro serve como um score básico do superset. É uma consulta "gulosa". Já o segundo ponto é muito menos "guloso", é altamente discriminativo e somente pesquisa em um subconjunto dos campos para especificar os signals.

Aspectos importantes:
* qualquer documento que dá match na cláusula mais discriminativa também deu match na cláusula gulosa. Assim, todo documento tem um score base.
* As cláusulas discriminativas (não gulosas) devem ser signals de alta qualidade e conservadoras para evitar substituir a pontuação base por uma correspondência inesperada.

In [60]:
usersSearch = 'jornada nas estrelas patrick stewart william shatner'
query = {
    'query': {
        'bool': { 
             'should': [
                    {'multi_match': { 
                        'query': usersSearch ,
                        'fields': ['directors.name.bigramed', 'cast.name.bigramed'],
                        'type':'cross_fields',
                    }
                    },
                    {'multi_match': { 
                        'query': usersSearch ,
                        'fields': ['overview', 'title', 'directors.name', 'cast.name'],
                        'type':'cross_fields',
                    }
                    }
             ],
         }
    },
    'size': '30'
}



df = search_elastic(usersSearch, query)
df_resumido = df[['Relevance Score', 'Movie Title']]
df_resumido.head(15)

Elasticsearch results


Unnamed: 0,Relevance Score,Movie Title
0,37.208645,Jornada nas Estrelas: Generations
1,23.789509,Jornada nas Estrelas: O Filme
2,23.506878,Jornada nas Estrelas V: A Última Fronteira
3,22.302319,Jornada nas Estrelas II: A Ira de Khan
4,20.552275,Jornada nas Estrelas IV: A Volta para Casa
5,20.464106,Jornada nas Estrelas: Nêmesis
6,20.433537,Jornada nas Estrelas VI: A Terra Desconhecida
7,20.344606,Jornada nas Estrelas III: A procura de Spock
8,20.089102,Jornada nas Estrelas: Primeiro Contato
9,19.19812,Jornada nas Estrelas: Insurreição


Temos resultados mais interessantes aqui! 

Você pode ainda melhorar o signal, melhorando como ele mede a associação de uma pessoa no campo. Um exemplo de como fazer isso é desligando as frequências de termos neste campo (usando um score constante).

Uma consulta "gulosa" fornece uma revocação alta. A adição de signals centrados no campo melhora a precisão dos resultados da pesquisa: promove candidatos cada vez mais promissores para a primeira página somente quando determinados critérios exatos são atendidos.

O bom nesta estratégia é que  padrão da seção anterior é que ele permite controlar quanto impacto centrado no termo ou quão centrado no campo você gostaria de ter. Se o match preciso for mais importante, é possível ajustar essas correspondências específicas com boosts, permitindo que essas pontuações aumentem mais facilmente. Se isso for menos importante, aumentar os signals centrados no campo importa muito menos do que focar na revocação.

## 3. Boosting, filtering e reranking

### Boosting

#### Boosting aditivo

Sabendo que o usuário é fã de Jornada nas Estrelas, podemos dar um boost nos filmes que contenham essa expressão no título. Esse boost será somado ao score do documento:

     {'match_phrase': { 
         'title':{
           'query':'jornada nas estrelas',          
         }
     }

In [61]:
#Exemplo de additive boosting
usersSearch = 'patrick stewart william shatner'
query = {
    'query': {
        'bool': { 
             'should': [{
                'multi_match': { 
                    'query': usersSearch ,
                    'fields': ['overview', 'title', 'directors.name', 'cast.name'],
                    'type':'cross_fields'
                }},
                {'match_phrase': { 
                    'title':{
                        'query':'jornada nas estrelas',
                        
                    }
                }
            }
         ]
    }
},
'size': '30'
}


df = search_elastic(usersSearch, query)
df_resumido = df[['Relevance Score', 'Movie Title']]
df_resumido.head(20)

Elasticsearch results


Unnamed: 0,Relevance Score,Movie Title
0,26.079668,Jornada nas Estrelas: Generations
1,19.631214,Jornada nas Estrelas: O Filme
2,19.151787,Jornada nas Estrelas V: A Última Fronteira
3,17.227531,Jornada nas Estrelas II: A Ira de Khan
4,17.055216,Jornada nas Estrelas: Insurreição
5,16.761562,Jornada nas Estrelas: Nêmesis
6,16.288609,Jornada nas Estrelas IV: A Volta para Casa
7,16.169868,Jornada nas Estrelas VI: A Terra Desconhecida
8,16.169868,Jornada nas Estrelas III: A procura de Spock
9,15.671906,Jornada nas Estrelas: Primeiro Contato


#### Boosting multiplicativo

Usando boosting multiplicativo, vamos priorizar os filmes para os fãs de Jornada nas Estrelas.

In [70]:
#Exemplo de multiplicative boosting
usersSearch = 'patrick stewart william shatner'
query = {
   "query":{
      "function_score":{
         "query":{
            "multi_match":{
               "query":usersSearch,
               "fields":[
                  "overview",
                  "title",
                  "directors.name",
                  "cast.name"
               ],
               "type":"cross_fields"
            }
         },
         "functions":[
            {
               "weight":2.5,
               "filter":{
                  'match_phrase': { 
                    'title':{
                        'query':'jornada nas estrelas',       
                    }
                  }
               }
            }
         ]
      }
   },
   "size":"30"
}


df = search_elastic(usersSearch, query)
df_resumido = df[['Relevance Score', 'Movie Title']]
df_resumido.head(20)

Elasticsearch results


Unnamed: 0,Relevance Score,Movie Title
0,38.9771,Jornada nas Estrelas: Generations
1,27.851791,Jornada nas Estrelas V: A Última Fronteira
2,23.041151,Jornada nas Estrelas II: A Ira de Khan
3,22.855968,Jornada nas Estrelas: O Filme
4,20.693846,Jornada nas Estrelas IV: A Volta para Casa
5,20.396997,Jornada nas Estrelas VI: A Terra Desconhecida
6,20.396997,Jornada nas Estrelas III: A procura de Spock
7,16.46971,Jornada nas Estrelas: Primeiro Contato
8,16.415972,Jornada nas Estrelas: Insurreição
9,15.681837,Jornada nas Estrelas: Nêmesis


Outros: 
    Modificação dos critérios de classificação para não se basear estritamente na pontuação de relevância, mas em outros valores - como data, popularidade, distância ou valores calculados
Impulso negativo, que reduz um conjunto de resultados de pesquisa (em contraste com o impulso positivo padrão)
Recuperando ou classificando novamente, adicionando um segundo estágio à classificação para ajustar a ordem dos N principais conjuntos de resultados com sinais adicionais
Script da pontuação por meio de uma consulta de pontuação personalizada, que permite que você use um script para controlar completamente a pontuação de um conjunto básico de resultados de pesquisa