<a href="https://colab.research.google.com/github/86HenriqueSilva/Treinamento_de_ia-s/blob/main/IA_sklearn_Mega_Sena__MODELO_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import time
from tqdm import tqdm

# Montar o Google Drive para acessar o arquivo de dados
from google.colab import drive
drive.mount('/content/drive')

# URL do arquivo CSV no Google Drive contendo os dados do histórico da Mega Sena
url = "https://drive.google.com/uc?id=1BXzIxSNSK03Q73OfvC_CCDoJSOZ_LI2n"

# Carregar os dados do arquivo CSV para uma estrutura de dados tabular
print("Carregando os dados do histórico da Mega Sena...")
dados = pd.read_csv(url)

# Dividir os dados em features (X) e target (y)
# Features (variáveis independentes): números sorteados em concursos anteriores
# Target (variáveis dependentes): números sorteados no próximo concurso
X = dados.drop(columns=['Concurso', 'Data'])  # Excluindo colunas de identificação do concurso e data
y = dados[['Bola 1', 'Bola 2', 'Bola 3', 'Bola 4', 'Bola 5', 'Bola 6']]  # Definindo as bolas sorteadas como o target

# Criar um pipeline com pré-processamento de dados e modelo de regressão de floresta aleatória
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Normalização das features
    ('rf', RandomForestRegressor(random_state=512))  # Modelo de regressão de floresta aleatória
])

# Ajustar o pré-processador aos dados
pipeline['scaler'].fit(X)

# Definir o tempo máximo de treinamento para o modelo (em segundos)
tempo_maximo_treinamento = 60  # Definindo um minuto como tempo máximo de treinamento

# Inicializar listas para armazenar os resultados da validação cruzada
scores = []

# Iniciar tempo de treinamento
inicio_treinamento = time.time()

# Ajustar o modelo ao pipeline
pipeline['rf'].fit(X, y)

# Loop de treinamento com validação cruzada
print("Iniciando o treinamento do modelo de regressão de floresta aleatória com validação cruzada...")
while (time.time() - inicio_treinamento) < tempo_maximo_treinamento:
    # Calcular os scores da validação cruzada
    score = cross_val_score(pipeline, X, y, cv=5, scoring='neg_mean_squared_error').mean()
    scores.append(score)

# Tempo total de treinamento
tempo_total_treinamento = time.time() - inicio_treinamento

print(f"Modelo treinado em {tempo_total_treinamento:.2f} segundos.")

# Realizar previsão dos números da próxima Mega Sena
print("Realizando previsão para o próximo sorteio da Mega Sena...")
ultima_entrada = X.iloc[-1, :].values.reshape(1, -1)  # Obtendo os números sorteados mais recentes
previsao = pipeline.predict(ultima_entrada)  # Realizando a previsão dos números do próximo sorteio
previsao_inteira = previsao.round().astype(int)  # Arredondando a previsão para números inteiros
print(f"Previsão para o próximo sorteio da Mega Sena: {previsao_inteira[0]}")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Carregando os dados do histórico da Mega Sena...
Iniciando o treinamento do modelo de regressão de floresta aleatória com validação cruzada...
Modelo treinado em 60.14 segundos.
Realizando previsão para o próximo sorteio da Mega Sena...
Previsão para o próximo sorteio da Mega Sena: [13 19 16 12 11 14]


