# Prevendo o imprevisível: agregação de pesquisas eleitorais em 2022

Se você estiver lendo a versão interativa desta apresentação no binder, pressione `espaço` para mover para o próximo slide.

# Para aqueles executando localmente
Remova todos headers %%capture para obter as imagens dos resultados

In [1]:
import matplotlib.pyplot as plt
from scipy import stats, optimize
import numpy as np
import pandas as pd
import jotaviz
from jotaviz import styles
from datetime import date, datetime, timedelta
np.set_printoptions(precision=2, floatmode="fixed")

In [2]:
def hide_code_in_slideshow():   
    from IPython import display
    import binascii
    import os
    uid = binascii.hexlify(os.urandom(8)).decode()    
    html = """<div id="%s"></div>
    <script type="text/javascript">
        $(function(){
            var p = $("#%s");
            if (p.length==0) return;
            while (!p.hasClass("cell")) {
                p=p.parent();
                if (p.prop("tagName") =="body") return;
            }
            var cell = p;
            cell.find(".input").addClass("hide-in-slideshow")
        });
    </script>""" % (uid, uid)
    display.display_html(html, raw=True)

## Apresentação

Esta apresentação será apresentada de uma forma que não exigirá conhecimento profundo de nenhum dos tópicos técnicos, quero apenas mostrar a intuição, problemas, agregação e modelos de projeção.

### Introdução
   * Por que as pesquisas variam tanto?
   * Data is now everywhere is well
   * Data informed decisions not so much

### Decisions from summary analysis
   * This is what most businesses do using Excel or Tableau
        *Nothing wrong with this approach. Its quick and reliable and most folks have the skillset
   * While data focused the approach leads itself to human bias
   *  Leaves information on the table
   * Not very reproducible
   * Doesn't scale to many dimensions
   * We can do better

### Loss/Cost/Reward/Utility Functions

    * Taking an idea from Game Theory different versions of the future will have different goodness
    * This lets us determine how much reward we'll get for different actions

### Quantifying Uncertainty

   * Bayesian Methods let us predict the future, not just summarize the past
   * Not just one future though but all futures
   * Particularly well suited to explaining why its predictions are the way they are

### Optimizing over all possible futures

    * Given a distribution of possible futures and a cost function we can optimize to pick an action that will most likely result in the best outcome
    * Open Source code makes it really easy these days!


Technical Summary of talk
I'll be presenting most likely using Jupyter slides. The analysis will cover a little bit of supply chain theory in math form, and then a whole bunch of simulated supply chain theory in using scipy.stats.(random) methods, PyMC3 or Stan for parameter estimation, more scipy for optimization methods, matplotlib for plotting. Of course numpy and pandas will likely be in there somewhere as well.

# Quem sou eu?
* Daniel Marcelino
* Analista de dados no JOTA em Brasília
* Twitter e github: dmarcelinobr
* E-mail: daniel.marcelino@jota.info


<right><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/template-colunistas-pro-21.png?raw=true" alt="Crédito: Raoni Arruda" style="height: 300px;"/> </right>

# As pesquisas eleitorais...
## Para as consultorias e institutos de opinião as pesquisas funcionam assim:


<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/target-with-dart-flat.jpg?raw=true" alt="" style="height: 300px;"/> </center>

# As pesquisas eleitorais...
## Mas na prática... bem, elas funcionam mais ou menos assim:


<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/archery-target-ring.png?raw=true" alt="" style="height: 400px;"/> </center>

# Teoria vs. prática

### René Descartes: toda explicação científica se deve expressar em termos de quantidades precisas e matematicamente definidas (dúvida cartesiana).

### Carl Hempel: as ciências são modelos da realidade, explanatórios e preditivos, em aproximações sucessivas da realidade estudada. 

### Thomas Kuhn: a ciência se desenvolve através de paradigmas que se sucedem na explicação dos fatos.

### É por isso que a Mecânica Newtoniana é suficiente para o lançamento de satélites e previsão da órbita dos planetas (exceto Mercúrio).

# Teoria vs. prática

### As pesquisas eleitorais refletem uma dada opinião em um certo momento. 

### O Pai-Nosso das consultorias diz que: **é como uma fotografia do momento**. 

### Por se tratar de opinião, matéria-prima bastante volátil, o grau de variação entre um momento e outro também está envolto em um quadro móvel de circunstâncias. É o caos!

### Qualquer informação nova pode alterar ou não esse quadro.


# Pesquisas são incertas por natureza

### Todo modelo científico se **respalda na explicação dos resultados** e na **previsão** do que possa vir a ocorrer. Assim é na física, na química e na biologia, dentre alguns graus possíveis de previsibilidade.

### Na estatística, e consequentemente nas pesquisas eleitorais, os modelos são de **menor previsibilidade do que nas ciências físicas**, devido à **margem de erro** ou de variação aleatória inerente ao método amostral e à mutação contínua das opiniões e intenção de voto. 

### Lembre-se: as pesquisas baseiam-se na teoria estatística da **representatividade** de uma amostra, dentro de um universo. Então o que ocorre quando podemos ter várias representações dessa realidade?

# Pesquisas são incertas por natureza

### Mas é importante observar outros aspectos, inclusive linguísticos contidos na expressão **margem de erro**. Em português, o termo **erro** é carregado de conotação negativa. Já em inglês, o termo **error**, utilizado na expressão **margin of error**, difere do termo **mistake**, que traz a conotação negativa na língua inglesa. 

### A **margem de erro**, ou **margin of error**, deve ser entendida como **margem de variação técnica** antecipadamente prevista em uma amostra, e não como **erro** ocorrido após uma medição.

# O mundo real é mais complexo
### Parece difícil medir intenção de votos para Lula

<right><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/voto_espontaneo_lula.png?raw=true" alt="Daniel" style="height: 400px;"/> </right>

# O mundo real é mais complexo
### Parece difícil medir a intenção de votos para Bolsonaro também 

<right><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/voto_espontaneo_bolsonaro.png?raw=true" alt="Daniel" style="height: 400px;"/> </right>

# A teoria funciona, mas... 

### Eleitores não são como bolas coloridas usadas para descrever experimentos de probabilidade nos livros didáticos de estatística. As bolas azuis e vermelhas nunca mundam de cor nesses experimentos.

### No mundo real eleitoras e eleitores podem ou não mudar de opinião, de acordo com estímulos que recebem. As campanhas estão aí pra isso! 

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/porcentagem.gif?raw=true" alt="mutatis mutandis" style="height: 300px;"/> </center>

## Mas afinal, é possível prever a próxima eleição?
<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/tela_agregadores.png?raw=true" alt="mutatis mutandis" style="height: 600px;"/> </center>

# Sim, mas é preciso modelar os dados

### Na minha experiência, modelos bayesianos são particularmente poderosos em caracterizar a incerteza, mesmo em situações com uma pequena quantidade de dados. 

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/auxilio_brasil_model_1T-VT.png?raw=true" alt="mutatis mutandis" style="height: 350px;"/> </center>

# Exemplo de dados 

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/dados_agregadores.png?raw=true" alt="mutatis mutandis" style="height: 450px;"/> </center>

# O que a experiência me ensionou 

### Um modelo de previsão eleitoral deve ser probabilístico, não determinístico.

### Um modelo deve ser empírico.

### Um modelo deve ser sensível às mudanças nos resultados das pesquisas.

### Um modelo deve ser sensível às mudanças no tempo certo.

# As simulações usam cadeias de Markov

### Uma cadeia de Markov é uma sequência de eventos onde a probabilidade de FUTURO apenas depende do PRESENTE

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/mcmc_lula.png?raw=true" alt="mutatis mutandis" style="height: 300px;"/> </center>

Se uma pesquisa encontrou que Lula tem 40% numa determinada semana, na próxima Lula terá essa mesma taxa com 70% de probabilidade ou uma taxa maior/menor com probabilidade de 30%.

## Pesquisas eleitorais são simplesmente realizações de uma distribuição Binomial ou Multinomial

###  Para cada sondagem, um número **n** de eleitores são entrevistados, e muitos deles (**y**) dizem que preferem um candidato à outro(s).

### Então, tecnicamente temos: **y∼Binomial(n, p)**, onde **p** é a parcela de eleitores que preferem um candidato entre os demais.

### Usamos generalizações desse modelo para eleições com mais de dois candidatos. 

<right><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/primeiro_turno_model.png?raw=true" alt="Primeiro turno" style="height: 300px;"/> </right>

## Transformamos essa visão em linhas de código

#### O modelo é essencialmente um programa de computador:

In [None]:
with pm.Model() as primeiro_turno_model:

phi = pm.Beta('phi', alpha=alpha, beta=beta)

kappa_log = pm.HalfNormal('kappa_log', sigma=10)
kappa = pm.Deterministic('kappa', tt.exp(kappa_log))

theta = pm.Beta(
    'p', 
    alpha=phi*kappa, 
    beta=(1.0-phi)*kappa, 
    shape=len(bolsonaro_polls_empresas)
)

polls = pm.Binomial(
    'y', 
    n=bolsonaro_polls_empresas['amostra'], 
    p=theta, 
    observed=bolsonaro_polls_empresas['votos']
)

'Anisha makes $70 in profit'

# Mas eu ainda não contei o que acontece por debaixo dos panos

## Os resultados encontrados pelas pesquisas são (re)calibrados com base em três fatores:

### 1- Há quanto **tempo** a pesquisa foi conduzida.
### 2- A **quantidade** de pessoas entrevistadas pela pesquisa  (tamanho da amostra).
### 3- A **avaliação** das empresas com base na **precisão** dos resultados da eleição anterior.

### Há quanto tempo a pesquisa foi conduzida

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/recencia.png?raw=true" alt="" style="height: 300px;"/> </center>

- A penalidade se torna mais rígida. Isto é, mais ênfase é colocada na recência quanto mais nos aproximamos da eleição.

- Por outro lado, na minha experiência em acompanhar esse tipo informação eu acredito que a mídia de notícias dá muita ênfase à recência do que deveria. É muito melhor olhar para uma gama mais ampla de pesquisas do que focar apenas no último dado publicado.

# Como isso funciona na prática

### Ex: pesquisa Atlas Intel realizada entre os dias 27 a 29 de novembro com 4.401 entrevistados:  

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/recencia_pond.png?raw=true" alt="" style="height: 300px;"/> </center>

# Tamanho da amostra utilizada na pesquisa

### Tamanho importa! As pesquisas que ouvem mais eleitores devem receber algum crédito por isso, não acha?

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/tamanho_importa.png?raw=true" alt="" style="height: 300px;"/> </center>

# Tamanho da amostra utilizada na pesquisa

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/tamanho_amostra.png?raw=true" alt="" style="height: 300px;"/> </center>

# Tamanho da amostra utilizada na pesquisa
### ...mas os retornos precisam ser decrescentes

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/peso_pesquisa.png?raw=true" alt="" style="height: 300px;"/> </center>

O ajuste é um pouco assimétrico: as sondagens com amostras muito grandes não recebem tanto crédito extra pelo modelo, e aquelas com amostras especialmente pequenas são 'punidas'

# Como isso funciona na prática

### Ex: pesquisa Ipespe realizada entre os dias 22 a 24 de novembro com 1.000 entrevistados:    

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/ex_Ipespe.png?raw=true" alt="" style="height: 300px;"/> </center>

## Avaliação da precisão da empresa

### É preciso dar crédito extra para quem se esforça em produzir estimativas de qualidade, responsabilidade e transparência.

* Se algum instituto acertou o resultado dentro da margem de erro?

* A tendência global das pesquisa estava certa?

* A performance da média do mercado?

* Se o último ano foi pior ou melhor do que os anos anteriores?


# Como isso funciona na prática

### Ex: pesquisa Ipespe realizada entre os dias 22 a 24 de novembro com 1.000 entrevistados, tem nota 0,950:   

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/exp_precisao_ipesep.png?raw=true" alt="" style="height: 300px;"/> </center>

# Como isso funciona na prática

### Ex: pesquisa Brasmarket realizada entre os dias 05 a 07 de dezembro com 4.600 entrevistados, nota 0,150:  

<center><img src="https://github.com/dmarcelinobr/pollbase/blob/master/presentation/img/exp_precisao_basmarket.png?raw=true" alt="" style="height: 300px;"/> </center>

# Simulations!

In [17]:
simulations = 100
mean, std = [], []

for _ in range(simulations):
    true_mean,true_std = 40, 20
    values = stats.norm(40, 20).rvs(5)
    mean.append(values.mean())
    std.append(values.std())

<center><img src="img/Uncertainty2.jpg" alt="Drawing"/> </center>

# Muito obrigado pela presença!

In [18]:
# Set seed back to zero for rest of notebook
ELECTION_DATE = datetime.datetime(year=2022, month=10, day=2)
TODAY = date.today().isoformat()

countdown = ELECTION_DATE - datetime.datetime.now()

print(f"Countdown to Election BR 2022: {countdown}")

In [18]:
Countdown to Election BR 2022: 128 days