# Dicas para acertar na Mega Sena

A maioria das pessoas que já ouviram falar sobre os prêmios da mega sena, com certeza já desejaram ganhar pelos um. Não é fácil, uma vez que deve-se apostar exatamente nos seis números sorteadoss de 01 a 60. Porém, ao termino desta pesquisa, você com certeza irá mudar a sua forma de jogar. 

Com base nas informações de todos os sorteios de 1996 a 2018, esse trabalho irá responder aos seguintes questionamentos:
- É interessante realizar uma aposta com alguns números consecutivos?
- E apostar em números na mesma linha vertical ou horizontal?
- Quais as dezenas mais e menos sorteados?

In [78]:
# Importando o pandas, matplotlib e lendo a base de dados.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = pd.read_excel('basedados.xlsx')
data.head()

Unnamed: 0,Concurso,Data Sorteio,Dezena1,Dezena2,Dezena3,Dezena4,Dezena5,Dezena6,Arrecadacao_Total,Ganhadores_Sena,Rateio_Sena,Ganhadores_Quina,Rateio_Quina,Ganhadores_Quadra,Rateio_Quadra,Acumulado,Valor_Acumulado,Estimativa_Prêmio
0,1,1996-03-11,41,5,4,52,30,33,0.0,0,0.0,17,39158.92,2016,330.21,SIM,1714650.23,0
1,2,1996-03-18,9,39,37,49,43,41,0.0,1,2307162.23,65,14424.02,4488,208.91,NÃO,0.0,0
2,3,1996-03-25,36,30,10,11,29,47,0.0,2,391192.51,62,10515.93,4261,153.01,NÃO,0.0,0
3,4,1996-04-01,6,59,42,27,1,5,0.0,0,0.0,39,15322.24,3311,180.48,SIM,717080.75,0
4,5,1996-04-08,1,19,46,6,16,2,0.0,0,0.0,98,5318.1,5399,96.53,SIM,1342488.85,0


### 1. Verificações e atualizações na base de dados
As informações contidas na base de dados disponibilizada pela caixa econômica federal, não têm as indicações se os sorteios possuem números consecutivos, pertencentes a uma mesma linha vertical ou horizontal. Com base nisso, é preciso verificar através de alguns algorítmos se há ou não um ou mais desses casos em cada sorteio.

In [64]:
#Percorre linha a linha e verificar se têm pelo menos dois números consecutivos, 
#pertencentes a uma mesma linha horizontal ou vertical
def verificacoes(rows):
    #O sorted ordena as núereros para facilitar a verificação.
    dezenas = sorted(rows[['Dezena1', 'Dezena2', 'Dezena3', 'Dezena4', 'Dezena5', 'Dezena6']])
    rows['Consecutivos'] = False
    rows['MesmaLinhaHorizontal'] = False
    rows['MesmaLinhaVertical'] = False
    
    for index,dezena in enumerate(dezenas[0:-1]):
        #Verifica se a dezena atual está dentro da mesma linha da dezena seguinte.
        #i representa a primeira coluna do jogo, variando de 10 em 10 começando do 1. 
        # Como se fosse "for i in [1,11,21,31,41,51]:"
        for i in range(1,60,10):
            #Para melhorar o processamento, não verificar caso já tenha sido confirmado que sorteio atual,
            #possui números pertencentes a uma mesma linha horizontal
            if(rows['MesmaLinhaVertical'] == False and \
               dezena <= i+9 and dezena >= i and dezenas[index+1] >= i and dezenas[index+1] <= i+9):
                rows['MesmaLinhaHorizontal'] = True
                
        for i in dezenas[0:-1]:
            if(rows['MesmaLinhaVertical'] == False and dezena != i and str(dezena)[-1] == str(i)[-1]):
                rows['MesmaLinhaVertical'] = True
                
        #se o número seguinte menos o atual for igual a 1 é por que são consecutivos. 
        if dezenas[index+1]-dezena == 1:
            rows['Consecutivos'] = True

    return rows

In [65]:
#Configurando dataframe
data = data.apply(verificacoes, axis=1)

## 2. Números consecutivos
Após a aplicação das verificações e alterações na base de dados, é possível saber a porcentagem dos sorteios com números consecutivos ou não. Considerando P(c) como a porcentagem, T(c) como o total de sorteios com números consecutivos e T(s) como o total de sorteios, tem-se a seguinte fórmula:

$$ P(c) = \frac{T(c) \times 100}{T(s)} $$

Assim, pode-se realizar o cálculo com o algorítmo abaixo.

In [66]:
#Aplicando a fórmula do P(c).
consecutivos = len(data.Consecutivos[data.Consecutivos == True])*100/len(data)
naoConsecutivos = 100-consecutivos;

#Imprimindo os resultados
print("Total de sorteios: {0}".format(len(data)))
print("Porcentagem com números não consecutivos: {0:.2f}%".format(consecutivos))
print("Porcentagem sem números não consecutivos: {0:.2f}%".format(naoConsecutivos))

Total de sorteios: 2025
Porcentagem com números não consecutivos: 42.02%
Porcentagem sem números não consecutivos: 57.98%


## 3. Números pertencentes a uma mesma linha na horizontal
Tomando T(h) como o número total e P(h) como a porcentagem dos sorteios com números pertencente a uma mesma linha na horizontal, tem-se a seguinte expressão: 

$$ P(h) = \frac{T(h) \times 100}{T(s)} $$

Com isso, tem-se o seguinte algorítmo:

In [67]:
#Aplicando a fórmula de P(h).
mesmaLinhaHorizontal = len(data.MesmaLinhaHorizontal[data.MesmaLinhaHorizontal == True])*100/len(data)
naoMesmaLinhaHorizontal = 100-mesmaLinhaHorizontal;

#Imprimindo os resultados
print("Total de sorteios: {0}".format(len(data)))
print("Porcentagem com números na mesma linha: {0:.2f}%".format(mesmaLinhaHorizontal))
print("Porcentagem sem números na mesma linha: {0:.2f}%".format(naoMesmaLinhaHorizontal))

Total de sorteios: 2025
Porcentagem com números na mesma linha: 69.78%
Porcentagem sem números na mesma linha: 30.22%


## 4. Números pertencentes a uma mesma linha na vertical
Considerando T(v) como o número total e P(v) como a porcentagem dos sorteios com números pertencente a uma mesma linha na vertical, tem-se a seguinte expressão: 

$$ P(v) = \frac{T(v) \times 100}{T(s)} $$

Com isso, tem-se o mesmo algorítmo do capítulo anterior, com apenas as variáveis  diferentes:

In [68]:
#Aplicando a fórmula de P(v).
mesmaLinhaVertical = len(data.MesmaLinhaVertical[data.MesmaLinhaVertical == True])*100/len(data)
naoMesmaLinhaVertical = 100-mesmaLinhaVertical;

#Imprimindo os resultados
print("Total de sorteios: {0}".format(len(data)))
print("Porcentagem com números na mesma linha: {0:.2f}%".format(mesmaLinhaVertical))
print("Porcentagem sem números na mesma linha: {0:.2f}%".format(naoMesmaLinhaVertical))

Total de sorteios: 2025
Porcentagem com números na mesma linha: 62.77%
Porcentagem sem números na mesma linha: 37.23%


## 5. Dezenas que mais e menos sorteadas

In [112]:
colunas_dezenas = ["Dezena1", "Dezena2", "Dezena3", "Dezena4", "Dezena5", "Dezena6"]
contagem_dezenas = data[colunas].unstack().value_counts()

#mais sorteadads
print("Mais Sorteadas: \n{}".format(contagem_dezenas[0:6]))

#Menos sorteadads
print("Mais Sorteadas: \n{}".format(contagem_dezenas[0:6]))