# Treinamento

## Inicialização

In [1]:
# Config Inicial
import json
import mlflow.pyfunc
import shutil
import pandas as pd
import requests
from sklearn.metrics import r2_score
import mlflow
from mlflow.tracking import MlflowClient

import os
import signal
import subprocess


### Leitura

In [2]:
# Descomentar, quando quiser carregar para o treinamento, dados originais defasados para primeira execução do treinamento
#shutil.copyfile("dataset/brasil_estado_cidade.csv", "dataset/dados_treinamento.csv")

# Carregar o conjunto de dados
df_treinamento = pd.read_csv("dataset/dados_treinamento.csv", encoding="utf-8")

# Eliminando registros com valores null
df_treinamento.dropna(inplace=True)

# float64
df_treinamento = df_treinamento.astype({col: 'float64' for col in df_treinamento.select_dtypes(include='int').columns})

df_treinamento.head()

Unnamed: 0,id,property_type,state,region,lat,lon,area_m2,price_brl,city
0,1.0,apartment,Pernambuco,Northeast,-8.134204,-34.906326,72.0,414222.98,Recife
1,2.0,apartment,Pernambuco,Northeast,-8.126664,-34.903924,136.0,848408.53,Recife
2,3.0,apartment,Pernambuco,Northeast,-8.12555,-34.907601,75.0,299438.28,Recife
3,4.0,apartment,Pernambuco,Northeast,-8.120249,-34.89592,187.0,848408.53,Recife
4,5.0,apartment,Pernambuco,Northeast,-8.142666,-34.906906,80.0,464129.36,Recife


### Amostragem

In [3]:
# amostra
df_sample = df_treinamento.sample(n=20, random_state=42)

x_features = df_sample.drop(["price_brl"], axis=1)  # Features
y_target = df_sample["price_brl"]  # Variável alvo

df_sample.head()

Unnamed: 0,id,property_type,state,region,lat,lon,area_m2,price_brl,city
3823,3824.0,apartment,Rio de Janeiro,Southeast,-22.930788,-43.355751,62.0,419213.6,Rio de Janeiro
376,377.0,apartment,Piau,Northeast,-5.064457,-42.79275,60.0,319400.84,Teresina
5473,5474.0,apartment,Rio de Janeiro,Southeast,-22.933163,-43.17466,78.0,1287584.69,Rio de Janeiro
2282,2283.0,apartment,Rio Grande do Sul,South,-30.03764,-51.189133,104.0,726908.65,Porto Alegre
980,981.0,apartment,Rio Grande do Sul,South,-30.080242,-51.225227,60.0,494701.71,Porto Alegre


In [4]:
# Gerando o JSON no formato esperado pelo MLflow Serve
dados = {"instances": x_features.to_dict(orient="records")}
json_data = json.dumps(dados)

In [5]:
previsao = requests.post(
    "http://localhost:5000/invocations",
    headers={"Content-Type": "application/json"},
    data=json_data
)
print("HTTP STATUS", previsao.status_code)

HTTP STATUS 200


In [6]:
previsao.text

'{"predictions": [348099.1875, 314764.6875, 963706.625, 730391.0, 330280.34375, 604923.6875, 1018210.0625, 668755.375, 1182253.375, 1222384.375, 798778.8125, 1070625.5, 355035.8125, 863029.625, 542877.5625, 1041795.375, 491103.1875, 373186.9375, 512069.875, 270661.0625]}'

### Carregar e identificar o melhor modelo treinado

In [7]:

def carregar_modelo_com_melhor_r2(experimento_nome):
    client = MlflowClient()

    # Pega o experimento
    experimento = client.get_experiment_by_name(experimento_nome)
    if not experimento:
        raise ValueError(f"Experimento '{experimento_nome}' não encontrado.")
    
    experiment_id = experimento.experiment_id

    melhor_modelo = {
        "r2": float('-inf'),
        "model_uri": None,
        "nome_modelo": None,
        "versao_modelo": None,
        "run_id": None
    }

    # Pega todas as runs ordenadas por R² (decrescente)
    runs = client.search_runs(
        experiment_ids=[experiment_id],
        order_by=["metrics.r2 DESC"]
    )

    modelos_registrados = client.search_registered_models()

    for modelo in modelos_registrados:
        nome_modelo = modelo.name

        for versao in modelo.latest_versions:
            # Busca informações completas da versão
            versoes = client.search_model_versions(f"name='{nome_modelo}'")
            for v in versoes:
                if v.current_stage != "Staging":
                    continue

                run = client.get_run(v.run_id)

                # Verifica se pertence ao experimento desejado
                if run.info.experiment_id != experiment_id:
                    continue

                r2 = run.data.metrics.get("r2")
                if r2 is not None and r2 > melhor_modelo["r2"]:
                    # Pega o caminho do artefato usado na URI
                    source_path = v.source
                    artifact_path = source_path.split("/")[-1]
                    model_uri = f"runs:/{v.run_id}/{artifact_path}"

                    melhor_modelo.update({
                        "r2": r2,
                        "model_uri": model_uri,
                        "nome_modelo": nome_modelo,
                        "versao_modelo": v.version,
                        "run_id": v.run_id
                    })

    if not melhor_modelo["model_uri"]:
        raise ValueError("Nenhum modelo em 'Staging' com métrica R² encontrado para esse experimento.")

    print(f"Carregando modelo '{melhor_modelo['nome_modelo']}' versão {melhor_modelo['versao_modelo']} da run {melhor_modelo['run_id']} com R² = {melhor_modelo['r2']:.4f}")

    modelo_carregado = mlflow.pyfunc.load_model(melhor_modelo["model_uri"])
    
    return modelo_carregado, melhor_modelo
    

# Carregando modelo com melhor R2 
loaded_model, melhor_modelo = carregar_modelo_com_melhor_r2("ecd15")

melhor_modelo


Carregando modelo 'xgboost_model' versão 16 da run 911716e467284426bcb8dfb77ec62b15 com R² = 0.7166


{'r2': 0.7165948434149507,
 'model_uri': 'runs:/911716e467284426bcb8dfb77ec62b15/xgboost_model',
 'nome_modelo': 'xgboost_model',
 'versao_modelo': 16,
 'run_id': '911716e467284426bcb8dfb77ec62b15'}

## Predição de melhor modelo carregado x modelo API

In [8]:
# Fazer a previsão
predictions = loaded_model.predict(x_features)

# Adicionar as previsões ao DataFrame
df_sample["predicao_melhor_modelo"] = predictions

# converter previsões para o mesmo tipo da variável alvo
df_sample["predicao_melhor_modelo"] = df_sample["predicao_melhor_modelo"].astype(float).round(2)

previsao_json = json.loads(previsao.text)

# Extrair as previsões do JSON e adicioná-las ao DataFrame
df_sample["predicao_modelo_api"] = [round(pred, 2) for pred in previsao_json["predictions"]]

# Exibir o DataFrame atualizado
df_sample[["price_brl", "predicao_modelo_api", "predicao_melhor_modelo"]]

Unnamed: 0,price_brl,predicao_modelo_api,predicao_melhor_modelo
3823,419213.6,348099.19,348099.19
376,319400.84,314764.69,314764.69
5473,1287584.69,963706.62,963706.62
2282,726908.65,730391.0,730391.0
980,494701.71,330280.34,330280.34
10954,558951.47,604923.69,604923.69
6607,993137.02,1018210.06,1018210.06
1212,678726.79,668755.38,668755.38
6408,1362953.71,1182253.38,1182253.38
11009,1274609.05,1222384.38,1222384.38


### Comparação R² Score dos modelos

In [9]:
# Calcular R²
r2_melhor_modelo = r2_score(df_sample["price_brl"], df_sample["predicao_melhor_modelo"])
r2_api = r2_score(df_sample["price_brl"], df_sample["predicao_melhor_modelo"])
print(f"R² API: {r2_melhor_modelo:.4f} R² Melhor Modelo: {r2_api:.4f}")

R² API: 0.7869 R² Melhor Modelo: 0.7869


### Promover melhor modelo para Produção

In [19]:
def parar_modelo_mlflow():
    # Encontra o processo que está usando a porta 5000
    try:
        resultado = subprocess.check_output("lsof -i :5000 -t", shell=True)
        pids = resultado.decode().strip().split("\n")
        for pid in pids:
            os.kill(int(pid), signal.SIGTERM)
        print("Servidor de modelo parado com sucesso.")
    except subprocess.CalledProcessError:
        print("Nenhum processo na porta 5000 foi encontrado.")

def parar_modelo_mlflow1():
    try:
        resultado = subprocess.check_output("lsof -i :5000 -sTCP:LISTEN -nP", shell=True)
        linhas = resultado.decode().strip().split("\n")[1:]  # ignora cabeçalho
        for linha in linhas:
            if "mlflow" in linha.lower():
                pid = int(linha.split()[1])
                os.kill(pid, signal.SIGTERM)
                print(f"Servidor MLflow (PID {pid}) parado com sucesso.")
            else:
                print("⚠️ Porta 5000 ocupada por outro processo que não é o MLflow. Ignorado.")
    except subprocess.CalledProcessError:
        print("Nenhum processo ouvindo na porta 5000 foi encontrado.")

def promover_modelo_para_producao(modelo):
    client = MlflowClient()

    nome_modelo = modelo["nome_modelo"]
    versao_modelo = modelo["versao_modelo"]

    # Promover o modelo selecionado
    client.transition_model_version_stage(
        name=nome_modelo,
        version=versao_modelo,
        stage="Production",
        archive_existing_versions=True  # arquiva automaticamente os outros em Production
    )
    print(f"Modelo '{nome_modelo}' versão {versao_modelo} promovido para 'Production'.")

    # Agora vamos arquivar os que ainda estão em Staging
    todos_modelos = client.search_model_versions("name LIKE '%_model'")
    modelos_ativos = [v for v in todos_modelos if v.current_stage != "Archived"]
    
    for v in modelos_ativos:
        if v.version != versao_modelo and v.name != nome_modelo:
            client.transition_model_version_stage(
                name=nome_modelo,
                version=v.version,
                stage="Archived"
            )
            print(f"Modelo { v.name } Versão {v.version} arquivado.")

def servir_melhor_modelo(experimento_nome, modelo):
    client = MlflowClient()
    
    # Parar modelo atual
    #parar_modelo_mlflow1()

    model_uri = modelo["model_uri"]

    #comando = f"mlflow models serve -m {model_uri} --no-conda --host 0.0.0.0 --port 5000 &"
    #print(f"Executando comando:\n{comando}")
    #get_ipython().system(comando)

    promover_modelo_para_producao(modelo)

servir_melhor_modelo("ecd15", melhor_modelo)

  client.transition_model_version_stage(
  client.transition_model_version_stage(


Modelo 'xgboost_model' versão 16 promovido para 'Production'.
Modelo gradient_boosting_model Versão 18 arquivado.
Modelo random_forest_model Versão 18 arquivado.
Modelo linear_regression_model Versão 18 arquivado.
Modelo decision_tree_model Versão 18 arquivado.
Modelo gradient_boosting_model Versão 17 arquivado.
Modelo random_forest_model Versão 17 arquivado.
Modelo linear_regression_model Versão 17 arquivado.
Modelo decision_tree_model Versão 17 arquivado.
Modelo gradient_boosting_model Versão 15 arquivado.
Modelo random_forest_model Versão 15 arquivado.
Modelo linear_regression_model Versão 15 arquivado.
Modelo decision_tree_model Versão 15 arquivado.
Modelo gradient_boosting_model Versão 14 arquivado.
Modelo random_forest_model Versão 14 arquivado.
Modelo linear_regression_model Versão 14 arquivado.
Modelo decision_tree_model Versão 14 arquivado.
Modelo gradient_boosting_model Versão 13 arquivado.
Modelo random_forest_model Versão 13 arquivado.
Modelo linear_regression_model Versão 