# Baloto

Diseñar un método basado en machine learning para tratar de predecir los resultados del Baloto es un ejercicio interesante desde un punto de vista académico y práctico. Aunque las probabilidades de ganar el premio mayor son extremadamente bajas, podemos explorar diferentes enfoques y ver qué tan bien funcionan.

Aquí hay un posible enfoque que podríamos seguir:

1. Recopilar datos históricos: Obtendremos los resultados de los sorteos anteriores del Baloto, incluyendo los números ganadores principales y la balota adicional. Cuantos más datos tengamos, mejor podremos entrenar nuestro modelo.

2. Preprocesamiento de datos: Los datos históricos podrían requerir algún preprocesamiento, como el manejo de valores faltantes o la normalización de los valores numéricos.

3. Selección de características: Aquí es donde podemos aplicar nuestra creatividad. Podríamos considerar características como la frecuencia de aparición de cada número, la suma de los números ganadores, la diferencia entre los números consecutivos, las combinaciones de números "fríos" y "calientes", entre otras.

4. Dividir los datos: Dividiremos nuestros datos en conjuntos de entrenamiento y prueba. El conjunto de entrenamiento se utilizará para entrenar el modelo, mientras que el conjunto de prueba se utilizará para evaluar su rendimiento.

5. Selección del modelo: Exploraremos diferentes algoritmos de machine learning, como redes neuronales, árboles de decisión, bosques aleatorios, etc. Cada algoritmo tiene sus propias fortalezas y debilidades, por lo que es recomendable probar varios.

6. Entrenamiento del modelo: Entrenaremos nuestro modelo utilizando el conjunto de datos de entrenamiento y las características seleccionadas.

7. Evaluación del modelo: Utilizaremos el conjunto de datos de prueba para evaluar el rendimiento de nuestro modelo. Podemos calcular métricas como la precisión, el recall y la puntuación F1 para medir qué tan bien está funcionando.

8. Ajuste de hiperparámetros: Si el rendimiento del modelo no es satisfactorio, podemos ajustar los hiperparámetros del algoritmo o probar diferentes combinaciones de características para mejorar los resultados.

9. Predicción: Una vez que tengamos un modelo entrenado y evaluado, podemos utilizarlo para hacer predicciones sobre los próximos sorteos del Baloto.

Es importante tener en cuenta que, aunque el machine learning puede encontrar patrones interesantes en los datos históricos, no hay garantía de que estos patrones se mantengan en el futuro debido a la naturaleza aleatoria del juego. Sin embargo, este ejercicio puede ser valioso para comprender mejor los conceptos de machine learning y explorar sus capacidades y limitaciones.

## **1. Recopilar datos históricos**

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import sqlite3
import pyarrow

In [2]:
connection = sqlite3.connect('my_database.db')
cursor = connection.cursor()

In [3]:
#Pendiente de optimizar
# Función que corrije el mes de la fecha
def correccion_fecha(fecha_sorteo):
    if fecha_sorteo.split('de')[1] == ' Enero ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'January' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Febrero ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'February' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Marzo ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'March' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Abril ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'April' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Mayo ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'May' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Junio ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'June' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Julio ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'July' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Agosto ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'August' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Septiembre ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'September' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Octubre ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'October' + fecha_sorteo.split('de')[2]
    elif fecha_sorteo.split('de')[1] == ' Noviembre ':
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'November' + fecha_sorteo.split('de')[2]
    else:
        fecha_sorteo = fecha_sorteo.split('de')[0] + 'December' + fecha_sorteo.split('de')[2]
    
    return fecha_sorteo

In [4]:
# El primer sorteo con este formato fue el 2081
def historico_revancha(numero_sorteo):
    # URL de la página que deseas escrapear
    url = f"https://baloto.com/resultados-revancha/{numero_sorteo}"

    # Realiza una solicitud GET a la página
    response = requests.get(url)

    # Comprueba que la solicitud fue exitosa
    if response.status_code == 200:
        # Parsea el contenido HTML de la página
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # Extrae la fecha del sorteo
        #fecha_sorteo = soup.find('div', string='Sábado').find_next_sibling('div').string.strip() #gotham-medium dark-blue
        fecha_sorteo = soup.find('div', class_='gotham-medium dark-blue').string.strip()
        fecha_sorteo = correccion_fecha(fecha_sorteo)

        # Extrae los números ganadores
        numeros_ganadores = soup.find('div', class_='container-balls-results').text.strip() #container-balls-results
        balota1 = int(soup.find('div', class_='yellow-ball').text.strip())
        balota2 = int(numeros_ganadores.split('\n')[7].strip())
        balota3 = int(numeros_ganadores.split('\n')[14].strip())
        balota4 = int(numeros_ganadores.split('\n')[21].strip())
        balota5 = int(numeros_ganadores.split('\n')[28].strip())
        balota6 = int(soup.find('div', class_='red-ball').text.strip())

    else:
        print(f"Error al acceder a la página: {response.status_code}")
    return balota1, balota2, balota3, balota4, balota5, balota6, fecha_sorteo

In [5]:
# El primer sorteo con este formato fue el 2081
def historico_baloto(numero_sorteo):
    # URL de la página que deseas escrapear
    url = f"https://baloto.com/resultados-baloto/{numero_sorteo}"

    # Realiza una solicitud GET a la página
    response = requests.get(url)

    # Comprueba que la solicitud fue exitosa
    if response.status_code == 200:
        # Parsea el contenido HTML de la página
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # Extrae la fecha del sorteo
        #fecha_sorteo = soup.find('div', string='Sábado').find_next_sibling('div').string.strip() #gotham-medium dark-blue
        fecha_sorteo = soup.find('div', class_='gotham-medium dark-blue').string.strip()
        fecha_sorteo = correccion_fecha(fecha_sorteo)

        # Extrae los números ganadores
        numeros_ganadores = soup.find('div', class_='container-balls-results').text.strip() #container-balls-results
        balota1 = int(soup.find('div', class_='yellow-ball').text.strip())
        balota2 = int(numeros_ganadores.split('\n')[7].strip())
        balota3 = int(numeros_ganadores.split('\n')[14].strip())
        balota4 = int(numeros_ganadores.split('\n')[21].strip())
        balota5 = int(numeros_ganadores.split('\n')[28].strip())
        balota6 = int(soup.find('div', class_='red-ball').text.strip())

    else:
        print(f"Error al acceder a la página: {response.status_code}")
    return balota1, balota2, balota3, balota4, balota5, balota6, fecha_sorteo

In [6]:
for i in range(2081, 2406):
    df_resultados_baloto_revancha = pd.DataFrame({historico_revancha(i)})
    df_resultados_baloto_revancha.rename(columns={0:'B1', 1:'B2', 2:'B3', 3:'B4', 4:'B5', 5:'SB', 6:'fecha_sorteo'}, inplace=True)
    df_resultados_baloto_revancha['fecha_sorteo'] = pd.to_datetime(df_resultados_baloto_revancha['fecha_sorteo'], format="%d %B %Y", dayfirst=True)
    df_resultados_baloto_revancha['tipo_sorteo'] = 'revancha'
    df_resultados_baloto_revancha['numero_sorteo'] = i
    df_resultados_baloto_revancha.to_sql('historico_baloto_revancha', connection, if_exists='append', index=False)
    del df_resultados_baloto_revancha

    df_resultados_baloto_revancha = pd.DataFrame({historico_baloto(i)})
    df_resultados_baloto_revancha.rename(columns={0:'B1', 1:'B2', 2:'B3', 3:'B4', 4:'B5', 5:'SB', 6:'fecha_sorteo'}, inplace=True)
    df_resultados_baloto_revancha['fecha_sorteo'] = pd.to_datetime(df_resultados_baloto_revancha['fecha_sorteo'], format="%d %B %Y", dayfirst=True)
    df_resultados_baloto_revancha['tipo_sorteo'] = 'baloto'
    df_resultados_baloto_revancha['numero_sorteo'] = i
    df_resultados_baloto_revancha.to_sql('historico_baloto_revancha', connection, if_exists='append', index=False)
    del df_resultados_baloto_revancha

In [7]:
#connection.execute('drop table if exists historico_baloto_revancha')

In [8]:
data = pd.read_sql('SELECT * FROM historico_baloto_revancha', connection)
data

Unnamed: 0,B1,B2,B3,B4,B5,SB,fecha_sorteo,tipo_sorteo,numero_sorteo
0,1,16,34,41,43,2,2021-05-01 00:00:00,revancha,2081
1,22,23,27,28,30,3,2021-05-01 00:00:00,baloto,2081
2,3,15,17,29,32,16,2021-05-05 00:00:00,revancha,2082
3,2,5,10,23,34,7,2021-05-05 00:00:00,baloto,2082
4,5,10,24,29,41,11,2021-05-08 00:00:00,revancha,2083
...,...,...,...,...,...,...,...,...,...
645,16,22,26,27,37,9,2024-06-01 00:00:00,baloto,2403
646,8,18,20,28,41,4,2024-06-05 00:00:00,revancha,2404
647,3,19,24,38,39,5,2024-06-05 00:00:00,baloto,2404
648,7,25,28,39,41,7,2024-06-08 00:00:00,revancha,2405


In [9]:
data[data['tipo_sorteo'] == 'revancha'].to_parquet('historico_revancha.gzip', index=False, compression='gzip')
data[data['tipo_sorteo'] == 'revancha'].to_csv('historico_revancha.csv', index=False)

In [10]:
data[data['tipo_sorteo'] != 'revancha'].to_parquet('historico_baloto.gzip', index=False, compression='gzip')
data[data['tipo_sorteo'] != 'revancha'].to_csv('historico_baloto.csv', index=False)

In [11]:
data.to_parquet('historico_baloto_revancha.gzip', index=False, compression='gzip')
data.to_csv('historico_baloto_revancha.csv', index=False)