# Curiosidades e dicas  para acertar na Mega Sena

A maioria das pessoas que já ouviram falar sobre os prêmios da mega sena, com certeza já desejaram ganhar pelos um. Não é fácil, uma vez que deve-se apostar exatamente nos seis números sorteadoss de 01 a 60. Porém, ao termino desta pesquisa, você com certeza irá mudar sua forma de jogar. 

Com base nas informações de todos os sorteios de 1996 a 2018, ao termino deste trabalho você obterar as respostas para os seguintes questionanamentos:
- É interessante realizar uma aposta com alguns números consecutivos?
- E apostar em números na mesma linha vertical ou horizontal?
- Quais foram as dezenas mais e menos sorteados?
- E quais os últimos dígitos mais e menos presentes nas dezenas?

O capítulo 2 irá responder a 1ª e a 2ª pergunta, voltado mais para as dicas do que deve ou não ser feito em um jogo. Já o capítulo 3 responderá a 3ª pergunta, mais voltado para uma curiosidade, mas que também pode lhe servir como ajuda. capítulo 4 irá responder a última pergunta, voltado para curiosidades e dicas. E o último é a conclusão do trabalho.

## Sumário

- ###  [1. Preparando ambiente](#preparandoAmbiente)
- ### [2. Análise das dezenas](#analiseDezenas)
    - #### [2.1 Números Consecutivos](#numerosConsecutivos)
    - #### [2.2 Números pertencentes a uma mesma linha na horizontal](#linhaHorizontal)
    - #### [2.3 Números pertencentes a uma mesma linha na vertical](#linhaVertical)
- ### [3. Dezenas mais e menos sorteadas](#dezenasSorteadas)
- ### [4. Últimos dígitos mais e menos sorteadas](#digitosSorteadas)
- ### [5. Conclusão](#conclusao)

## <span id="preparandoAmbiente"> 1. Preparando ambiente </span>

In [212]:
# Importando o pandas, matplotlib e lendo a base de dados.
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_excel('basedados.xlsx')
data.head()

Unnamed: 0,Concurso,Data Sorteio,Dezena1,Dezena2,Dezena3,Dezena4,Dezena5,Dezena6,Arrecadacao_Total,Ganhadores_Sena,Rateio_Sena,Ganhadores_Quina,Rateio_Quina,Ganhadores_Quadra,Rateio_Quadra,Acumulado,Valor_Acumulado,Estimativa_Prêmio
0,1,1996-03-11,41,5,4,52,30,33,0.0,0,0.0,17,39158.92,2016,330.21,SIM,1714650.23,0
1,2,1996-03-18,9,39,37,49,43,41,0.0,1,2307162.23,65,14424.02,4488,208.91,NÃO,0.0,0
2,3,1996-03-25,36,30,10,11,29,47,0.0,2,391192.51,62,10515.93,4261,153.01,NÃO,0.0,0
3,4,1996-04-01,6,59,42,27,1,5,0.0,0,0.0,39,15322.24,3311,180.48,SIM,717080.75,0
4,5,1996-04-08,1,19,46,6,16,2,0.0,0,0.0,98,5318.1,5399,96.53,SIM,1342488.85,0


## <span id="analiseDezenas"> 2. Análise das dezenas </span>
As informações contidas na base de dados disponibilizada pela caixa econômica federal, não têm as indicações se os sorteios possuem números consecutivos, pertencentes a uma mesma linha vertical ou horizontal. Com base nisso, é preciso verificar através de alguns algorítmos se há ou não um ou mais desses casos em cada sorteio.

In [213]:
#Percorre linha a linha e verificar se têm pelo menos dois números consecutivos, 
#pertencentes a uma mesma linha horizontal ou vertical.
def verificacoes(rows):
    #O sorted ordena as dezenas para facilitar a verificação.
    dezenas = sorted(rows[['Dezena1', 'Dezena2', 'Dezena3', 'Dezena4', 'Dezena5', 'Dezena6']])
    rows['Consecutivos'] = False
    rows['MesmaLinhaHorizontal'] = False
    rows['MesmaLinhaVertical'] = False
    
    for index,dezena in enumerate(dezenas[0:-1]):
        #Verifica se a dezena atual está dentro da mesma linha de uma das outras dezena.
        #i representa a primeira coluna do jogo([1,11,21,31,41,51]), variando de 10 em 10 começando do 1. 
        for i in range(1,60,10):
            #Para melhorar o processamento, não verificar caso já tenha sido confirmado que sorteio atual
            #possui números pertencentes a uma mesma linha horizontal.
            #i+9 representa os valores da última coluna [10,20,30,40,50,60].
            if(rows['MesmaLinhaHorizontal'] == False and \
               dezena <= i+9 and dezena >= i and dezenas[index+1] >= i and dezenas[index+1] <= i+9):
                rows['MesmaLinhaHorizontal'] = True
        
        for numero in dezenas[0:-1]:
            #Ocorre o mesmo que na verificação das linhas horizontais.
            if(rows['MesmaLinhaVertical'] == False and dezena != numero and dezena%10 == numero%10):
                rows['MesmaLinhaVertical'] = True
                
        #se o número seguinte menos o atual for igual a 1 é por que são consecutivos. 
        if dezenas[index+1]-dezena == 1:
            rows['Consecutivos'] = True

    return rows

In [214]:
#Configurando dataframe
data = data.apply(verificacoes, axis=1)

###  <span id="numerosConsecutivos"> 2.1. Números consecutivos </span>
Após a aplicação das verificações e alterações na base de dados, é possível saber a porcentagem dos sorteios com números consecutivos ou não. Considerando P(c) como a porcentagem, T(c) como o total de sorteios com números consecutivos e T(s) como o total de sorteios, tem-se a seguinte fórmula:

$$ P(c) = \frac{T(c) \times 100}{T(s)} $$

Assim, pode-se realizar o cálculo com o algorítmo abaixo.

In [215]:
#Aplicando a fórmula do P(c).
consecutivos = len(data.Consecutivos[data.Consecutivos == True])*100/len(data)
naoConsecutivos = 100-consecutivos;

#Imprimindo os resultados
print("Total de sorteios: {0}".format(len(data)))
print("Porcentagem dos sorteios com números consecutivos: {0:.2f}%".format(consecutivos))
print("Porcentagem dos sorteios sem números consecutivos: {0:.2f}%".format(naoConsecutivos))

Total de sorteios: 2025
Porcentagem dos sorteios com números consecutivos: 42.02%
Porcentagem dos sorteios sem números consecutivos: 57.98%


Com base nos resultados acima, percebe-se que não apostar com números consecutivos é levemente mais propensos a darem certo. Contudo, a diferença entre as ocorrencias não é tão expressiva, chegando próximo de um meio a meio.

### <span id="linhaHorizontal"> 2.2. Números pertencentes a uma mesma linha na horizontal </span>
Tomando T(h) como o número total e P(h) como a porcentagem dos sorteios com números pertencente a uma mesma linha na horizontal, tem-se a seguinte expressão: 

$$ P(h) = \frac{T(h) \times 100}{T(s)} $$

Com isso, tem-se abaixo o algorítmo aconpanhado dos resultados.

In [216]:
#Aplicando a fórmula de P(h).
mesmaLinhaHorizontal = len(data.MesmaLinhaHorizontal[data.MesmaLinhaHorizontal == True])*100/len(data)
#Calculando a porcentagem dos sorteios sem números de uma mesma linha na horizontal.
naoMesmaLinhaHorizontal = 100-mesmaLinhaHorizontal;

In [217]:
#Imprimindo os resultados
print("Porcentagem com números na mesma linha: {0:.2f}%".format(mesmaLinhaHorizontal))
print("Porcentagem sem números na mesma linha: {0:.2f}%".format(naoMesmaLinhaHorizontal))
print("Total de sorteios: {0}".format(len(data)))

Porcentagem com números na mesma linha: 97.93%
Porcentagem sem números na mesma linha: 2.07%
Total de sorteios: 2025


Diferentemente do caso dos números consecutivos, neste caso há uma grande diferença, o que leva a crer que apostar em pelo menos dois números pertencentes a uma mesma linha, têm mais chances. 

### <span id="linhaVertical"> 2.3 Números pertencentes a uma mesma linha na vertical </span>
Considerando T(v) como o número total e P(v) como a porcentagem dos sorteios com números pertencente a uma mesma linha na vertical, tem-se a seguinte expressão: 

$$ P(v) = \frac{T(v) \times 100}{T(s)} $$

Com isso, tem-se o mesmo algorítmo do capítulo anterior, com apenas as variáveis  diferentes:

In [218]:
#Aplicando a fórmula de P(v).
mesmaLinhaVertical = len(data.MesmaLinhaVertical[data.MesmaLinhaVertical == True])*100/len(data)
#Calculando a porcentagem dos sorteios sem números de uma mesma linha na vertical.
naoMesmaLinhaVertical = 100-mesmaLinhaVertical;

In [219]:
#Imprimindo os resultados
print("Porcentagem com números na mesma linha: {0:.2f}%".format(mesmaLinhaVertical))
print("Porcentagem sem números na mesma linha: {0:.2f}%".format(naoMesmaLinhaVertical))
print("Total de sorteios: {0}".format(len(data)))

Porcentagem com números na mesma linha: 62.77%
Porcentagem sem números na mesma linha: 37.23%
Total de sorteios: 2025


Neste caso, há uma certa diferença, mas não chega a ser tão grande quanto ao das linhas horizontais. Contudo, apostar em números que estejam dentro de uma mesma linha vertical não é ruim.

## <span id="dezenasSorteadas"> 3. Dezenas mais e menos sorteadas </span>

Para que os resultados indiquem se apostar em determinadas dezenas é interessante, é preciso prestar atenção na diferença do número total de repetições das mais e menos sorteadas. Apostar apenas nas mais sorteadas muito provavelmente não lhe dará o grande prêmio por apenas ser as que mais saem, senão muitos já teriam feito isso e ganhado várias vezes. 

In [220]:
#Colunas das dezenas sorteadas
colunas_dezenas = ["Dezena1", "Dezena2", "Dezena3", "Dezena4", "Dezena5", "Dezena6"]

#A função unstack() quebra os valores das colunas das dezenas para uma "lista", 
#possibilitando a chamada da função value_counts() que conta todos as repetições de cada valor,
#retornando uma nova lista com os valores e o total de suas repetições. 
contagem_dezenas = data[colunas_dezenas].unstack().value_counts()

In [221]:
#Total de sorteios vezes o número de dezenas sorteadas em cada um (seis).
print("Total de dezenas sorteadas: {}\n".format(len(data)*6))

#O value_counts() já retorna a lista ordenada dos mais à menos repetidos.
#Assim, os seis primeiros elemetos são os que mais foram sorteados.
print("Mais Sorteadas: \n{}".format(contagem_dezenas[0:6]))

#E os seis últimos elemetos são os que menos foram sorteados.
print("\nMenos Sorteadas: \n{}".format(contagem_dezenas[-7:-1]))

Total de dezenas sorteadas: 12150

Mais Sorteadas: 
5     233
53    230
10    227
23    224
4     224
54    221
dtype: int64

Menos Sorteadas: 
25    184
9     183
15    183
21    178
22    177
55    174
dtype: int64


Com base nestes resultados, percebe-se que a diferença entre os mais e menos sorteados não é tão grande, o que confirma a ideia expressada acima, não ajudando muito na hora de apostar.

## <span id="digitosSorteadas"> 4 Últimos dígitos mais e menos sorteadas </span>

É interessante verificar se apostar em dezenas que terminam com determinados dígitos é uma boa ideia ou não, depois de saber quais as dezenas mais sorteadas.

In [222]:
# Calcula o resto da divisão por 10 de todas as dezenas, ou seja, apenas o último dígito de cada uma.
contagem_digitos =  data[colunas_dezenas]%10

#Aplica o unstack e o value_counts, explicado anteriormente.
contagem_digitos.unstack().value_counts()

3    1285
4    1269
2    1233
0    1225
7    1210
8    1202
1    1199
6    1187
5    1175
9    1165
dtype: int64

Semelhante ao caso das dezenas, a diferença entre a quantidade dos últimos dígitos de cada dezena não é tão grande, ao ponto de fazer uma sugestão interessante. Mas não custa nada tentar.

## <span id="conclusao"> 5. Conclusão </span>

Os resultados apresentados por esta pesquisa mostram que mesmo com ajuda da matemática e da programação, não é possível afirmar com certeza quais serão os próximos números da mega sena, apenas supor quais casos são mais prováveis de ocorrerem. Mesmo assim, essas dicas e/ou curiosidades são interessantes, pois se baseiam em resultados anteriores, valendo apena pensar nelas no momento em que for jogar.