# Análise Estatística e Simulações na Mega-Sena
Este projeto é um exercício didático que aborda conceitos de matemática (probabilidade, estatística, dispersão) e de programação em Python (bibliotecas como `pandas`, `numpy`, e `requests`).

## Objetivos:
- Fazer o download de dados históricos da Mega-Sena.
- Realizar análises estatísticas sobre os números sorteados.
- Simular apostas considerando diferentes estratégias.
- Preparar o ambiente para executar o projeto no Visual Studio Code.
- Aprender a manipular e explorar dados com Python.

## Requisitos do Ambiente
Certifique-se de ter as seguintes ferramentas instaladas:
- **Python 3.8+**
- **Visual Studio Code** com as extensões para Python.


### Bibliotecas Python Necessárias
Instale as bibliotecas necessárias com o comando:
```bash
pip install pandas numpy requests jupyter
```

In [6]:
!pip install pandas numpy requests openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Collecting et-xmlfile
  Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5


You should consider upgrading via the 'C:\Users\flavio.lopes\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.


## Download dos Dados Brutos
Os dados históricos da Mega-Sena podem ser baixados automaticamente utilizando a biblioteca `requests`. Eles estão disponíveis no formato Excel através do site https://asloterias.com.br/download-todos-resultados-mega-sena.

Na pagina existe o link com nome 'Download Todos resultados da Mega Sena em Excel por ordem de sorteio'. Esse link faz um post para uma script PHP que baixa o arquivo 'mega_sena_dados_brutos.xlsx'

Obrigado time do As Loterias!! 

In [4]:
import requests

# URL do arquivo Excel com os dados brutos
# Pagina original https://asloterias.com.br/download-todos-resultados-mega-sena#google_vignette
url = "https://asloterias.com.br/download_excel.php" 
output_file = "mega_sena_dados_brutos.xlsx"

# Define the headers and data for the POST request
headers = {
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
  "Accept-Language": "en-US,en;q=0.9,pt;q=0.8,pt-BR;q=0.7",
  "Cache-Control": "max-age=0",
  "Connection": "keep-alive",
  "Content-Type": "application/x-www-form-urlencoded",
  "Origin": "https://asloterias.com.br",
  "Referer": "https://asloterias.com.br/download-todos-resultados-mega-sena",
  "Sec-Fetch-Dest": "document",
  "Sec-Fetch-Mode": "navigate",
  "Sec-Fetch-Site": "same-origin",
  "Sec-Fetch-User": "?1",
  "Upgrade-Insecure-Requests": "1",
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36",
  'sec-ch-ua': '"Google Chrome";v="131", "Chromium";v="131", "Not_A Brand";v="24"',
  'sec-ch-ua-mobile': '?0',
  'sec-ch-ua-platform': '"Windows"'
}

data = {
  "l": "ms",
  "t": "t",
  "o": "s",
  "f1": "",
  "f2": ""
}

# Make the POST request to download the file
response = requests.post(url, headers=headers, data=data)

# Save the content to a file
with open(output_file, "wb") as file:
  file.write(response.content)

print(f"Arquivo salvo como: {output_file}")

Arquivo salvo como: mega_sena_dados_brutos.xlsx


## Carregando e Explorando os Dados
Usaremos o `pandas` para carregar os dados e inspecionar a estrutura do arquivo Excel.

## O que é a Biblioteca Pandas?

A biblioteca `pandas` é uma das ferramentas mais populares e poderosas para análise de dados em Python. Ela fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para tornar o trabalho com dados "relacionais" ou "rotulados" fácil e intuitivo. 

### Principais Funcionalidades do Pandas:
- **Estruturas de Dados**: `pandas` oferece duas estruturas de dados principais: `Series` (para dados unidimensionais) e `DataFrame` (para dados bidimensionais, como tabelas).
- **Leitura e Escrita de Dados**: Suporte para leitura e escrita de dados em vários formatos, incluindo CSV, Excel, SQL, JSON, e mais.
- **Manipulação de Dados**: Ferramentas para seleção, filtragem, agregação, e transformação de dados.
- **Análise Estatística**: Funções para cálculos estatísticos e operações matemáticas.
- **Visualização de Dados**: Integração com bibliotecas de visualização como Matplotlib e Seaborn para criar gráficos e visualizações.

In [14]:
import pandas as pd

# Carregar o arquivo Excel
excel_data = pd.ExcelFile(output_file)
print("Folhas disponíveis no Excel:", excel_data.sheet_names)

# Carregar a folha principal
sheet_name = excel_data.sheet_names[0]
data = excel_data.parse(sheet_name)

# Por ser um Excel os dados brutos contem linhas de texto que vamos remover mais a frente
# seja com estratégia de remover as linhas com valores em branco NaN (não numericos), 
# seja removendo as linhas como um array com drop([elemento x, elemento y])
data.head(20)

Folhas disponíveis no Excel: ['mega_sena_www.asloterias.com.br']


Unnamed: 0,As Loterias - www.asloterias.com.br - Todos Resultados da Mega Sena,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7
0,Este arquivo foi baixado no site www.asloteria...,,,,,,,
1,Visite o site para baixar a versão mais atuali...,,,,,,,
2,,,,,,,,
3,TODOS RESULTADOS DA MEGA SENA POR ORDEM DE SOR...,,,,,,,
4,,,,,,,,
5,Concurso,Data,bola 1,bola 2,bola 3,bola 4,bola 5,bola 6
6,2809,17/12/2024,4,39,2,34,28,15
7,2808,14/12/2024,10,46,41,35,24,33
8,2807,12/12/2024,8,55,25,52,56,49
9,2806,10/12/2024,33,46,45,13,5,11


## Limpeza e Preparação dos Dados
Pularemos linhas desnecessárias e renomearemos as colunas para facilitar a manipulação.

In [None]:
# Limpeza inicial: pular as linhas de cabeçalho
data = pd.read_excel(output_file, sheet_name=sheet_name, skiprows=5)

# Define o nome das colunas. Observe que no trecho anterior elas estão como Unnamed
data.columns = [
    "Concurso", "Data", "Bola 1", "Bola 2", "Bola 3", "Bola 4", "Bola 5", "Bola 6"
]

# Remover valores NaN para Remover as linhas de texto
data_cleaned = data.dropna()
data_cleaned.head()

# Remover as duas primeiras linhas que contem os cabeçalhos em duplicidade
data = data.drop([0, 1]).reset_index(drop=True)
data.head()



Unnamed: 0,Concurso,Data,Bola 1,Bola 2,Bola 3,Bola 4,Bola 5,Bola 6
0,2808,14/12/2024,10,46,41,35,24,33
1,2807,12/12/2024,8,55,25,52,56,49
2,2806,10/12/2024,33,46,45,13,5,11
3,2805,07/12/2024,58,24,1,55,47,6
4,2804,05/12/2024,60,33,24,14,31,25


## Análise Estatística
Calcularemos a frequência dos números mais sorteados e analisaremos a dispersão entre diferentes grupos.

# Explicação do Código

## Análise da frequência dos números sorteados

1. **Selecionar as colunas dos números sorteados:**
   ```python
   drawn_numbers = data_cleaned[["Bola 1", "Bola 2", "Bola 3", "Bola 4", "Bola 5", "Bola 6"]]
   ```

   Este trecho seleciona as colunas correspondentes aos números sorteados de um DataFrame data_cleaned.

2. **Achatar os valores em uma única lista:**

   ```python
   numbers_flattened = drawn_numbers.values.flatten()
   ```

3. **Contar a frequência de cada número:**

   ```python
   number_counts = pd.Series(numbers_flattened).value_counts().sort_values(ascending=False)
   ```

   Este trecho cria uma série pandas a partir do array achatado e conta a frequência de cada número, ordenando os resultados em ordem decrescente de frequência.

## Criar DataFrame de Ranking

4. **Criar um DataFrame com o ranking dos números:**

   ```python
   numbers_ranked = pd.DataFrame({
      "Número": number_counts.index.astype(int),
      "Frequência": number_counts.values
   }).reset_index(drop=True)
   ```
   Este trecho cria um novo DataFrame numbers_ranked que contém duas colunas: "Número" e "Frequência", representando os números sorteados e suas respectivas frequências. O índice é redefinido para começar do zero.

5. **Exibir os 10 números mais frequentes:**

   ```python
   numbers_ranked.head(10)
   ```

   Finalmente, este trecho exibe os 10 números mais frequentes no DataFrame numbers_ranked.


In [11]:
# Análise da frequência dos números sorteados
drawn_numbers = data_cleaned[["Bola 1", "Bola 2", "Bola 3", "Bola 4", "Bola 5", "Bola 6"]]
numbers_flattened = drawn_numbers.values.flatten()
number_counts = pd.Series(numbers_flattened).value_counts().sort_values(ascending=False)

# Criar DataFrame de Ranking
numbers_ranked = pd.DataFrame({
    "Número": number_counts.index.astype(int),
    "Frequência": number_counts.values
}).reset_index(drop=True)
numbers_ranked.head(10)

Unnamed: 0,Número,Frequência
0,10,329
1,53,319
2,33,306
3,34,304
4,5,303
5,37,302
6,42,299
7,44,298
8,32,298
9,35,298


## Análise de Dispersão
Verificaremos a diferença entre as medianas dos números mais sorteados, menos sorteados e do meio da tabela.

O objetivo dessa analise é verificar se os valores em diversas partes da tabela de fato possuem uma relevância maior, ou seja os números do topo da tabela devem aparecer em mais sorteios, os do final da tabela devem aparecer em menos sorteios e os do meio da tabela seguem entre o top e base.

Se isso não fosse verdade poderiamos jogar em quaisquer numeros, pois isso não produziria relevância probalistica. Ou seja tanta faria os números que escolhessemos!

In [29]:
top_10_median = numbers_ranked.head(10)["Frequência"].median()
middle_value = numbers_ranked["Frequência"].median()
bottom_10_median = numbers_ranked.tail(10)["Frequência"].median()

dispersion = {
    "Top 10 x Bottom 10": str(abs(top_10_median - bottom_10_median)),
    "Top 10 x Meio": str(abs(top_10_median - middle_value)),
    "Meio x Bottom 10": str(abs(middle_value - bottom_10_median))
}
dispersion

{'Top 10 x Bottom 10': '47.0',
 'Top 10 x Meio': '20.5',
 'Meio x Bottom 10': '26.5'}

## Simulação de Apostas
Usaremos combinações aleatórias e os números mais sorteados para simular apostas.

In [27]:
import numpy as np

# Função para gerar jogos
def generate_game(size, top_numbers):
    return sorted(np.random.choice(top_numbers, size, replace=False))

# Variaveis de controle da dinamica dos jogos
top_numbers = numbers_ranked["Número"].tolist()
numero_de_jogos=10
numberos_por_jogo=6
ranking_numero_para_sorteio=20
numeros_mais_sorteados_ranking=top_numbers[:ranking_numero_para_sorteio]

print(f'Top {ranking_numero_para_sorteio} números mais sorteados')
print(numeros_mais_sorteados_ranking)

# Jogos sugeridos
print('\nSugestão de Jogos')
games = [generate_game(numberos_por_jogo, numeros_mais_sorteados_ranking) for _ in range(numero_de_jogos)]
pd.DataFrame(games, columns=[f"Num {i+1}" for i in range(numberos_por_jogo)])

Top 20 números mais sorteados
[10, 53, 33, 34, 5, 37, 42, 44, 32, 35, 23, 38, 30, 11, 41, 43, 17, 46, 4, 27]

Sugestão de Jogos


Unnamed: 0,Num 1,Num 2,Num 3,Num 4,Num 5,Num 6,Num 7,Num 8
0,17,33,34,35,41,42,43,44
1,5,10,23,27,34,42,43,46
2,4,5,10,23,32,37,42,53
3,4,5,17,23,30,32,42,46
4,10,11,27,30,37,38,42,44
5,5,10,33,34,35,41,43,53
6,10,23,27,37,38,41,43,53
7,5,11,30,32,33,38,43,53
8,23,27,34,38,41,42,44,53
9,4,17,23,30,34,37,43,44


## Conclusão
Com este projeto, exploramos como utilizar Python para analisar dados reais e criar simulações. Usamos conceitos de probabilidade, estatística, e manipulação de dados.

Execute este projeto no Visual Studio Code ou qualquer ambiente Jupyter Notebook para experimentar.

# Próximos passos, Melhorias e Notas Finais

### Próximos passos
Agora é com você! Entenda modifique, comente e replique esse conhecimento!

### Melhorias
Os jogos da Megasena seguem uma dinâmica baseada em pagamento por melhores chances probalilisticas, assim existem diversos tipos de jogos, como jogos com 6 numeros o mais simples e barato, que no momento da geração desse programa no final de 2024, estavam saindo por R$ 5,00, até incriveis jogos com 20 numeros, saindo a quase R$ 200 mil !!!

#### Aqui vão algumas sugestões que você pode fazer
- Tente aprimorar o programa para jogos com 7, 8, 10 números.
- Tente criar uma simlação que leve em conta o dinheiro disponivel para a aposta, e o programa sugere a quantidade e os numeros dos jogos a fazer.
- Misture tudo e crie estratégias alternativas como por exemplo fazer jogos com 6 numeros, bolão de mais numeros (dividir para conquistar), jogos com 7 numeros. Quanto custaria uma opção dessas?
- Aumente suas chances! Crie um programa que crie uma estratégia de aproveitamento melhor dos números! 


### Prompt Utilizado

Parte desse programa foi criado com o auxilio da IA, mais especificamente com o ChatGPT, modelo 4o. Da mesma forma que acredito que um dia todos usarão dados como usam o Excel, também acredito que a IA veio para ficar e ser um ótimo apoio para diversas áreas do conhecimento.

Caso queira consultar o prompt que originou este projeto, acesse o link abaixo:

[Prompt do ChatGPT](https://chatgpt.com/share/67744d1c-aa04-800d-b3d6-78db66bcf867)

- **Para os entusiastas como eu:** Usem e abusem da IA. Ela ainda precisa ser aprimorada, supervisionada e regulada!

- **Para os pessimistas que acreditam que a IA veio para finalidades como furtar empregos, nos tornar mais burros ou preguiçosos:** A IA veio para ficar! Seja cético, mas seja critico também, estude e forme sua opinião real sobre o assunto, não deixe se levar por ideologismos.

- **Para todos:** Deixo aqui o link do Prompt que trabalhei. Ele é perfeito, claro que não foi feito por uma humano falho com eu, e por IA que também não é precisa. Tive que ajustar, testar e investir anos em conhecimento de dados, matematica para ser critico o suficiente para conseguir ter as bases necessárias, criticar, corrijir e ajustar o codigo gerado pela IA como um assistente. Veja por exemplo que já no inicio do codigo, a IA sugeriu um trecho de código que nem baixaria o arquivo de dados com sucesso!   

## Notas Finais
O programa que desenvolvemos foi um exemplo didatico de como podemos usar a abordagem de dados para uma série de finalidades no dia a dia. Eu particularmente acredito que o conhecimento de python será como anteriormente adquirimos o conhecimento em word e excel.

Disseminar esse conhecimento é o objetivo do projeto Dados na Prática! Um dia quem sabe, mais uma pessoa passará a tomar decisão baseada em fatos, ou dados!

Espero que aproveitem!

Se gostou comente, replique, interaja! Se gostou muito pode me agredecer! Se gostou muito mesmo pode me pagar um café meu PIX escanei e escolha o valor!!

![QR Code Cafezinho Algo Megasena](qr_code_pix_bradesco.png)

---

### Contato

Dúvidas, sugestões ou melhorias? Entre em contato ou contribua diretamente no repositório.

- **GitHub**: [dadosnapratica](https://github.com/orgs/dadosnapratica)
- **LinkedIn**: [Flavio Lopes](https://www.linkedin.com/in/flavionlopes/)
- **E-mail**: [flavio.lopes@ideiasfactory.tech](mailto:flavio.lopes@ideiasfactory.tech)
- **WhatsApp**: [+55 11 99635-4436](https://wa.me/5511996354436)
- **Instagram**: [@dadosnapratica](https://www.instagram.com/dadosnapratica/)

**Fique bem e continue aprendendo!**



Fiquem bem, e life long learn! Flavio Lopes 