In [1]:
import pandas as pd
import json
import ast
import sqlite3

In [2]:
df = pd.read_csv("raw/megasena.csv")

# megasena

## Limpeza e ajustes nos dados

In [3]:
df = df.reset_index()

In [4]:
loteria = df["loteria"].iloc[0]

if loteria in ["megasena", "lotofacil"]:
    colunas_drop = ["timeCoracao", "mesSorte", "trevos"]

elif loteria == "maismilionaria":
    colunas_drop = ["timeCoracao", "mesSorte"]

elif loteria == "timemania":
    colunas_drop = ["mesSorte", "trevos"]

elif loteria == "diadesorte":
    colunas_drop = ["timeCoracao", "trevos"]

else:
    colunas_drop = []


colunas_drop = [c for c in colunas_drop if c in df.columns]

df = df.drop(columns=colunas_drop)

In [5]:
df.head()

Unnamed: 0.1,index,Unnamed: 0,loteria,concurso,data,local,dezenasOrdemSorteio,dezenas,premiacoes,estadosPremiados,observacao,acumulou,proximoConcurso,dataProximoConcurso,localGanhadores,valorArrecadado,valorAcumuladoConcurso_0_5,valorAcumuladoConcursoEspecial,valorAcumuladoProximoConcurso,valorEstimadoProximoConcurso
0,0,0,megasena,1551.0,27/11/2013,"Auditório em OSASCO, SP","['02', '23', '38', '15', '21', '19']","['02', '15', '19', '21', '23', '38']","[{'descricao': '6 acertos', 'faixa': 1, 'ganha...",[],Sorteio realizado em Estúdio de TV.,0.0,1552.0,30/11/2013,"[{'ganhadores': 1, 'municipio': 'BOA VISTA', '...",26151116.0,4782195.52,55716520.0,0.0,3000000.0
1,1,2,megasena,664.0,14/05/2005,"Caminhão da Sorte em PASSOS, MG","['12', '01', '55', '59', '38', '36']","['01', '12', '36', '38', '55', '59']","[{'descricao': '6 acertos', 'faixa': 1, 'ganha...",[],ACUMULOU!!! Estimativa de prêmio (SENA) próxim...,1.0,665.0,18/05/2005,[],0.0,23857740.39,0.0,23857740.39,0.0
2,2,4,megasena,366.0,01/06/2002,"Caminhão da Sorte em Orlândia, SP","['06', '04', '51', '07', '21', '15']","['04', '06', '07', '15', '21', '51']","[{'descricao': '6 acertos', 'faixa': 1, 'ganha...",[],Estimativa de prêmio (SENA) próximo concurso: ...,1.0,367.0,05/06/2002,[],0.0,5048832.63,0.0,625880.91,0.0
3,3,5,megasena,537.0,11/02/2004,"Caminhão da Sorte em IBAITI, PR","['37', '03', '19', '34', '39', '07']","['03', '07', '19', '34', '37', '39']","[{'descricao': '6 acertos', 'faixa': 1, 'ganha...",[],Estimativa de prêmio (SENA) próximo concurso: ...,0.0,538.0,14/02/2004,"[{'ganhadores': 1, 'municipio': '', 'nomeFatan...",0.0,2354230.53,0.0,0.0,0.0
4,4,7,megasena,2786.0,16/10/2024,"ESPAÇO DA SORTE em SÃO PAULO, SP","['06', '17', '11', '51', '20', '40']","['06', '11', '17', '20', '40', '51']","[{'descricao': '6 acertos', 'faixa': 1, 'ganha...",[],,1.0,2787.0,19/10/2024,[],66546110.0,8337773.84,107699100.0,33761273.32,42000000.0


In [6]:
df.columns

Index(['index', 'Unnamed: 0', 'loteria', 'concurso', 'data', 'local',
       'dezenasOrdemSorteio', 'dezenas', 'premiacoes', 'estadosPremiados',
       'observacao', 'acumulou', 'proximoConcurso', 'dataProximoConcurso',
       'localGanhadores', 'valorArrecadado', 'valorAcumuladoConcurso_0_5',
       'valorAcumuladoConcursoEspecial', 'valorAcumuladoProximoConcurso',
       'valorEstimadoProximoConcurso'],
      dtype='object')

### removendo concursos duplicados

In [7]:
if df.duplicated(subset=["concurso"]).sum():
    df = df.drop_duplicates(subset=["concurso"], keep="last")

### corrigindo tipagem de colunas concurso e data (dayfirst por conta do formato brasileiro e mixed pois existem 27/02/2025 e 27-02-2025)

In [8]:
df["concurso"] = pd.to_numeric(df["concurso"], errors="coerce").astype("Int64")

In [9]:
df["data"] = pd.to_datetime(df["data"], dayfirst=True, format='mixed')
df["proximoConcurso"] = pd.to_datetime(df["proximoConcurso"], dayfirst=True, format='mixed')

### corrigindo tipagem de colunas numéricas (dinheiro)

In [10]:
cols_monetarias = [
    "valorArrecadado",
    "valorAcumuladoConcurso_0_5",
    "valorAcumuladoConcursoEspecial",
    "valorAcumuladoProximoConcurso",
    "valorEstimadoProximoConcurso",
]

for c in cols_monetarias:
    df[c] = pd.to_numeric(df[c], errors="coerce")

### corrigindo booleanos

In [11]:
df["acumulou"] = df["acumulou"].astype("boolean")

### normalizar colunas que são listas

In [12]:
def normalizar_lista(lista):
    if isinstance(lista, list):
        return lista
    if isinstance(lista, str):
        try:
            return ast.literal_eval(lista)
        except Exception as e:
            return None
    return None

In [13]:
df["dezenas"] = df["dezenas"].apply(normalizar_lista)
df["dezenasOrdemSorteio"] = df["dezenasOrdemSorteio"].apply(normalizar_lista)

expected_count = len(df.loc[0, "dezenas"])

In [14]:
df["premiacoes"] = df["premiacoes"].apply(normalizar_lista)

In [15]:
df["localGanhadores"] = df["localGanhadores"].apply(normalizar_lista)

### valores ausentes
- concursos sem ganhador (localGanhadores)
- arrecadação sem nada (pode ser nulo)
- premiações vazias (válido)

Esses não precisam ser preenchidos

### dezenas inválidas

In [16]:
select_invalido = df["dezenas"].apply(lambda x: isinstance(x, list) and len(x) != expected_count)

In [17]:
select_invalido.sum()

np.int64(0)

In [18]:
df = df[df["dezenas"].apply(lambda x: isinstance(x, list) and len(x) == expected_count)]

### dezenas fora de 1 a 60

In [19]:
def dezenas_validas(lista, loteria):
    intervalos_dezenas = {
    "megasena": (1, 60),
    "lotofacil": (1, 25),
    "timemania": (1, 80),
    "diadesorte": (1, 31),
    "maismilionaria": (1, 50)
    }
    range_dezenas = intervalos_dezenas[loteria]
    if not isinstance(lista, list):
        return False
    return all(range_dezenas[0] <= int(n) <= range_dezenas[1] for n in lista)

In [20]:
df = df[df.apply(lambda row: dezenas_validas(row["dezenas"], row["loteria"]), axis=1)]

### valor monetário negativo

In [21]:
for coluna in cols_monetarias:
    df = df[(df[coluna].isna()) | (df[coluna] >= 0)]

## Engenharia de features

### separando dia, mês, ano, semana do ano e dia da semana das colunas data e proximoConcurso

In [22]:
df['data_dia'] = df['data'].dt.day
df['data_mes'] = df['data'].dt.month
df['data_ano'] = df['data'].dt.year
df['semana_ano_concurso'] = df['data'].dt.isocalendar().week
df["dia_semana_concurso"] = df["data"].dt.weekday

df['proximoConcurso_dia'] = df['proximoConcurso'].dt.day
df['proximoConcurso_mes'] = df['proximoConcurso'].dt.month
df['proximoConcurso_ano'] = df['proximoConcurso'].dt.year

### Separar cada número das dezenas sorteadas em colunas diferentes

In [23]:
df["qtd_dezenas"] = df["dezenas"].apply(lambda x: len(x) if isinstance(x, list) else 0)
max_dezenas = df["qtd_dezenas"].max()

In [24]:
max_dezenas

np.int64(6)

In [25]:
for i in range(max_dezenas):
    df[f"dezena_{i+1}"] = df["dezenas"].apply(
        lambda x: x[i] if isinstance(x, list) and len(x) > i else None
    )

In [26]:
df.drop(columns=["qtd_dezenas"], inplace=True)

### Separar cidade e estado em colunas diferentes (local)

In [27]:
df[["nome_local", "resto"]] = df["local"].str.split(" em ", n=1, expand=True)

In [28]:
df[["cidade", "estado"]] = df["resto"].str.rsplit(", ", n=1, expand=True)

In [29]:
df.drop(columns=["resto"], inplace=True)

### separar premiações em colunas, criar coluna com quantos premiados

In [30]:
df['premiacoes'][1]

[{'descricao': '6 acertos', 'faixa': 1, 'ganhadores': 0, 'valorPremio': 0},
 {'descricao': '5 acertos',
  'faixa': 2,
  'ganhadores': 74,
  'valorPremio': 18450.77},
 {'descricao': '4 acertos',
  'faixa': 3,
  'ganhadores': 4971,
  'valorPremio': 273.62}]

In [31]:
df["premiacoes"] = df["premiacoes"].apply(
    lambda x: ast.literal_eval(x) if isinstance(x, str)
    else (x if isinstance(x, list) else None)
)

In [32]:
def expandir_premiacoes(prem_list):
    """
    Recebe a lista de premiações e retorna um dicionário
    com colunas dinâmicas: ganhadores_faixaX e valor_faixaX.
    Funciona para qualquer loteria.
    """
    if not isinstance(prem_list, list):
        return {}

    resultado = {}

    for item in prem_list:
        # identificar faixa
        faixa = item.get("faixa")

        if faixa is None:
            continue

        # criar nomes de coluna dinâmicos
        col_ganhadores = f"ganhadores_faixa_{faixa}"
        col_valor = f"valor_faixa_{faixa}"

        resultado[col_ganhadores] = item.get("ganhadores")
        resultado[col_valor] = item.get("valorPremio")

    return resultado

In [33]:
premios_expandido = df["premiacoes"].apply(expandir_premiacoes)
premios_df = pd.DataFrame(premios_expandido.tolist())
df = pd.concat([df, premios_df], axis=1)

In [34]:
cols_ganhadores = [c for c in df.columns if c.startswith("ganhadores_faixa_")]
df["total_ganhadores"] = df[cols_ganhadores].sum(axis=1)


cols_valores = [c for c in df.columns if c.startswith("valor_faixa_")]
df["total_pago_premios"] = df[cols_valores].sum(axis=1)


df["media_premio_real"] = df["total_pago_premios"] / df["total_ganhadores"]

### localGanhadores separar por coluna

In [35]:
df['localGanhadores'][0]

[{'ganhadores': 1,
  'municipio': 'BOA VISTA',
  'nomeFatansiaUL': '',
  'serie': '',
  'posicao': 1,
  'uf': 'RR'}]

In [36]:
def normalizar_local(lista):
    if isinstance(lista, list):
        return lista
    return []

df["localGanhadores"] = df["localGanhadores"].apply(normalizar_local)

In [37]:
df["municipioGanhador"] = df["localGanhadores"].apply(
    lambda x: x[0].get("municipio") if len(x) > 0 else None
)

df["ufGanhador"] = df["localGanhadores"].apply(
    lambda x: x[0].get("uf") if len(x) > 0 else None
)

In [38]:
def is_ticket_online(x):
    if len(x) == 0:
        return False
    registro = x[0]
    municipio = registro.get("municipio", "").strip().upper()
    uf = registro.get("uf", "").strip().upper()

    return municipio == "CANAL ELETRONICO" or uf == "BR"

df["ticketGanhadorOnline"] = df["localGanhadores"].apply(is_ticket_online)

In [39]:
df['ticketGanhadorOnline'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 2366 entries, 0 to 2365
Series name: ticketGanhadorOnline
Non-Null Count  Dtype
--------------  -----
2366 non-null   bool 
dtypes: bool(1)
memory usage: 2.4 KB


In [40]:
df['ufGanhador'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 2366 entries, 0 to 2365
Series name: ufGanhador
Non-Null Count  Dtype 
--------------  ----- 
496 non-null    object
dtypes: object(1)
memory usage: 18.6+ KB


### verificar diferença entre nulo e 0 em valorArrecadado

In [41]:
df['valorArrecadado']

0       26151116.0
1              0.0
2              0.0
3              0.0
4       66546110.0
           ...    
2361           0.0
2362    60646614.0
2363    94481851.5
2364           0.0
2365           0.0
Name: valorArrecadado, Length: 2366, dtype: float64

In [42]:
df["valorArrecadado"] = df["valorArrecadado"].replace(0, None)

### criar coluna de razão entre valor estimado e valor acumulado

In [43]:
def calcular_razao(row):
    acumulado = row["valorAcumuladoProximoConcurso"]
    estimado  = row["valorEstimadoProximoConcurso"]

    # evita problemas de None, NaN ou divisões por zero
    if acumulado is None or pd.isna(acumulado) or acumulado == 0:
        return None
    if estimado is None or pd.isna(estimado):
        return None

    return estimado / acumulado

df["razaoEstimadoAcumulado"] = df.apply(calcular_razao, axis=1)

### colunas extras

In [44]:
def normalizar_dezenas(lista):
    if not isinstance(lista, list):
        return None
    nova = []
    for item in lista:
        try:
            nova.append(int(item))  # converte "03" → 3
        except:
            return None  # caso algo esteja muito errado
    return nova

df["dezenas"] = df["dezenas"].apply(normalizar_dezenas)

In [45]:
df["qtd_pares"] = df["dezenas"].apply(
    lambda x: sum(1 for n in x if n % 2 == 0) if isinstance(x, list) else None
)

df["qtd_impares"] = df["dezenas"].apply(
    lambda x: sum(1 for n in x if n % 2 != 0) if isinstance(x, list) else None
)


df["range_dezenas"] = df["dezenas"].apply(
    lambda x: max(x) - min(x) if isinstance(x, list) and len(x) == 6 else None
)

# SQLite

In [46]:
conn = sqlite3.connect("loterias.db")

In [47]:
nome_loteria = df['loteria'][0]

In [48]:
for col in df.columns:
    if df[col].apply(lambda x: isinstance(x, list)).any():
        df[col] = df[col].apply(json.dumps)

In [49]:
df.to_sql(
    name=nome_loteria,
    con=conn,
    if_exists="replace",
    index=False
)

2366

In [50]:
conn.close()

## Acessando e testando

In [51]:
conn = sqlite3.connect("loterias.db")
cursor = conn.cursor()

In [52]:
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
cursor.fetchall()

[('diadesorte',), ('timemania',), ('megasena',)]

In [53]:
cursor.execute("PRAGMA table_info(diadesorte);")
cursor.fetchall()

[(0, 'index', 'INTEGER', 0, None, 0),
 (1, 'Unnamed: 0', 'INTEGER', 0, None, 0),
 (2, 'loteria', 'TEXT', 0, None, 0),
 (3, 'concurso', 'INTEGER', 0, None, 0),
 (4, 'data', 'TIMESTAMP', 0, None, 0),
 (5, 'local', 'TEXT', 0, None, 0),
 (6, 'dezenasOrdemSorteio', 'TEXT', 0, None, 0),
 (7, 'dezenas', 'TEXT', 0, None, 0),
 (8, 'mesSorte', 'TEXT', 0, None, 0),
 (9, 'premiacoes', 'TEXT', 0, None, 0),
 (10, 'estadosPremiados', 'TEXT', 0, None, 0),
 (11, 'observacao', 'TEXT', 0, None, 0),
 (12, 'acumulou', 'INTEGER', 0, None, 0),
 (13, 'proximoConcurso', 'TIMESTAMP', 0, None, 0),
 (14, 'dataProximoConcurso', 'TEXT', 0, None, 0),
 (15, 'localGanhadores', 'TEXT', 0, None, 0),
 (16, 'valorArrecadado', 'REAL', 0, None, 0),
 (17, 'valorAcumuladoConcurso_0_5', 'REAL', 0, None, 0),
 (18, 'valorAcumuladoConcursoEspecial', 'REAL', 0, None, 0),
 (19, 'valorAcumuladoProximoConcurso', 'REAL', 0, None, 0),
 (20, 'valorEstimadoProximoConcurso', 'REAL', 0, None, 0),
 (21, 'data_dia', 'INTEGER', 0, None, 0),
 

In [54]:
cursor.execute("SELECT * FROM diadesorte LIMIT 5;")
cursor.fetchall()

[(0,
  39,
  'diadesorte',
  480,
  '2021-07-13 00:00:00',
  'ESPAÇO LOTERIAS CAIXA em SÃO PAULO, SP',
  '["10", "20", "03", "28", "06", "31", "17"]',
  '[3, 6, 10, 17, 20, 28, 31]',
  'Setembro',
  '[{"descricao": "7 acertos", "faixa": 1, "ganhadores": 0, "valorPremio": 0}, {"descricao": "6 acertos", "faixa": 2, "ganhadores": 53, "valorPremio": 1554.29}, {"descricao": "5 acertos", "faixa": 3, "ganhadores": 1918, "valorPremio": 20}, {"descricao": "4 acertos", "faixa": 4, "ganhadores": 22840, "valorPremio": 4}, {"descricao": "M\\u00eas da Sorte", "faixa": 5, "ganhadores": 86382, "valorPremio": 2}]',
  '[]',
  None,
  1,
  '1970-01-01 00:00:00',
  '15/07/2021',
  '[]',
  1602668.0,
  0.0,
  0.0,
  593996.86,
  800000.0,
  13,
  7,
  2021,
  28,
  1,
  1,
  1,
  1970,
  '03',
  '06',
  '10',
  '17',
  '20',
  '28',
  '31',
  'ESPAÇO LOTERIAS CAIXA',
  'SÃO PAULO',
  'SP',
  0,
  0.0,
  53,
  1554.29,
  1918,
  20,
  22840,
  4,
  86382,
  2.0,
  111193,
  1580.29,
  0.014212135656021512,


In [55]:
cursor.execute("SELECT concurso, data, total_ganhadores FROM diadesorte LIMIT 10;")
cursor.fetchall()

[(480, '2021-07-13 00:00:00', 111193),
 (519, '2021-10-16 00:00:00', 152638),
 (1132, '2025-10-23 00:00:00', 225924),
 (912, '2024-05-11 00:00:00', 59088),
 (981, '2024-10-26 00:00:00', 89841),
 (375, '2020-10-29 00:00:00', 91274),
 (867, '2024-01-25 00:00:00', 84152),
 (541, '2021-12-09 00:00:00', 94112),
 (625, '2022-07-05 00:00:00', 77444),
 (146, '2019-05-04 00:00:00', 144862)]

In [56]:
df_sql = pd.read_sql("SELECT * FROM diadesorte", conn)

In [57]:
df_sql = pd.read_sql(
    "SELECT concurso, data, total_ganhadores FROM diadesorte WHERE total_ganhadores > 100",
    conn
)

In [58]:
df_sql

Unnamed: 0,concurso,data,total_ganhadores
0,480,2021-07-13 00:00:00,111193
1,519,2021-10-16 00:00:00,152638
2,1132,2025-10-23 00:00:00,225924
3,912,2024-05-11 00:00:00,59088
4,981,2024-10-26 00:00:00,89841
...,...,...,...
911,40,2018-08-21 00:00:00,311097
912,862,2024-01-13 00:00:00,81278
913,402,2021-01-05 00:00:00,130941
914,488,2021-07-31 00:00:00,67892
