<a href="https://colab.research.google.com/github/cartecmais/mega-sena-scraper/blob/main/mega_sena_web_scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##Análise de Frequência da Mega-Sena via Web Scraping

### Descrição do Projeto e Informações de Identificação

**Autor:** Carlos - CartecMais
**Data:** 29/12/2025

**Propósito:** Este script Python realiza web scraping no site `asloterias.com.br` para extrair e analisar o histórico de sorteios da Mega-Sena. O objetivo é identificar e listar os números mais frequentes sorteados, utilizando `requests` para requisições HTTP, `BeautifulSoup` para análise de HTML, `re` para expressões regulares e `collections.Counter` para contagem eficiente de frequências.

In [None]:
import requests # Importa a biblioteca requests para fazer requisições HTTP (acessar páginas web)
from bs4 import BeautifulSoup # Importa BeautifulSoup para analisar o HTML de páginas web
from collections import Counter # Importa Counter para contar a frequência de elementos em uma lista
import re # Importa a biblioteca re para usar expressões regulares na busca de padrões

# URL da página da Caixa com resultados da Mega-Sena
url = "https://asloterias.com.br/lista-de-resultados-da-mega-sena"

# Faz a requisição HTTP para a URL e obtém a resposta
response = requests.get(url)
# Extrai o conteúdo HTML da resposta
html = response.text

# Usa BeautifulSoup para analisar o HTML obtido
soup = BeautifulSoup(html, "html.parser")

numeros = [] # Inicializa uma lista vazia para armazenar todos os números sorteados

# Obtém todo o texto da página HTML
page_text = soup.get_text()

# Define uma expressão regular para encontrar linhas que correspondem ao formato
# "XXXX - DD/MM/YYYY - N1 N2 N3 N4 N5 N6" e capturar especificamente os 6 números.
# Exemplo: "0008 - 29/04/1996 - 04 17 37 38 47 53"
mega_sena_line_pattern = re.compile(r'\d{4}\s*-\s*\d{2}/\d{2}/\d{4}\s*-\s*((?:\d{2}\s*){5}\d{2})')

# Encontra todas as ocorrências do padrão no texto da página
all_result_lines = mega_sena_line_pattern.findall(page_text)

# Itera sobre cada correspondência encontrada (cada linha de resultado de sorteio)
for match in all_result_lines:
    # `match` já contém a string dos 6 números (ex: "04 17 37 38 47 53")
    nums_str = match
    # Extrai os números individuais de dois dígitos desta string
    individual_nums = re.findall(r'\d{2}', nums_str)
    # Converte os números extraídos para inteiros e adiciona à lista 'numeros'
    numeros.extend(map(int, individual_nums))

# Usa Counter para contar a frequência de cada número na lista 'numeros'
contador = Counter(numeros)

# Obtém os 60 números mais comuns (ou todos, se forem menos de 60), ordenados por frequência decrescente
mais_jogados = contador.most_common(60)

# Exibe o cabeçalho da tabela de resultados
print("Número | Frequência")
print("-------------------")
# Itera sobre os números e suas frequências e os imprime
for numero, freq in mais_jogados:
    print(f"{numero:>6} | {freq}") # Formata a saída para alinhamento e exibe número e frequência