# 1 - Software Efort Estimation Using Stacked Ensemble Technique and Hybrid Principal Component Regression and Multivariate Adaptive Regression Splines

Divisão: Cross_validation e kfold.

In [22]:
import os
import pandas as pd
from sklearn.model_selection import KFold, GridSearchCV, cross_val_predict
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.utils.validation import check_X_y
import numpy as np

# Function to load datasets
def load_datasets(directory):
    datasets = {}
    if not os.path.exists(directory):
        print(f"Directory '{directory}' not found.")
        return datasets

    for file in os.listdir(directory):
        filepath = os.path.join(directory, file)
        filename, ext = os.path.splitext(file)

        try:
            if ext == '.txt':
                with open(filepath, 'r') as f:
                    first_line = f.readline()
                    delimiter = ',' if ',' in first_line else ('\t' if '\t' in first_line else ' ')
                datasets[filename] = pd.read_csv(filepath, delimiter=delimiter)
                print(f"{filename}: Detected delimiter - '{delimiter}'")
            else:
                print(f"Unsupported format: {file}")
        except Exception as e:
            print(f"Error loading {file}: {e}")

    print(f"{len(datasets)} files successfully loaded from {directory}.")
    return datasets

# Function to process a single model
def process_model(X, y, model_name, model, param_grid, kf):
    metrics = {
        'rmse': [],
        'mse': [],
        'mae': [],
        'r2': [],
    }

    grid = GridSearchCV(model, param_grid[model_name], cv=kf, scoring='neg_mean_squared_error', error_score='raise')

    try:
        grid.fit(X, y)
        best_model = grid.best_estimator_

        # Predictions with cross-validation
        y_pred = cross_val_predict(best_model, X, y, cv=kf)

        # Calculate metrics
        metrics['rmse'].append(np.sqrt(mean_squared_error(y, y_pred)))
        metrics['mse'].append(mean_squared_error(y, y_pred))
        metrics['mae'].append(mean_absolute_error(y, y_pred))
        metrics['r2'].append(r2_score(y, y_pred))

        return {
            'rmse': np.mean(metrics['rmse']),
            'mse': np.mean(metrics['mse']),
            'mae': np.mean(metrics['mae']),
            'r2': np.mean(metrics['r2']),
            'best_params': grid.best_params_
        }

    except Exception as e:
        print(f"{model_name}: Training failure - {e}")
        return None

# Function to calculate average metrics
def calculate_average_metrics(aggregated_results):
    average_metrics = {}
    for dataset, models in aggregated_results.items():
        average_metrics[dataset] = {}
        for model_name, metrics in models.items():
            average_metrics[dataset][model_name] = {
                'rmse': np.mean(metrics['rmse']),
                'mse': np.mean(metrics['mse']),
                'mae': np.mean(metrics['mae']),
                'r2': np.mean(metrics['r2']),
            }
    return average_metrics

# Function to train and test regression models
def test_regression_models(data, output_directory, n_splits=5, num_runs=30):
    models = {
        'LinearRegression': LinearRegression(),
        'Ridge': Ridge(),
        'RandomForest': RandomForestRegressor(),
    }

    param_grid = {
        'LinearRegression': {},
        'Ridge': {'alpha': [0.1, 1, 10]},
        'RandomForest': {'n_estimators': [50, 100, 200]},
    }

    aggregated_results = {}

    for name, df in data.items():
        df = df.dropna()

        if df.shape[0] < 2 or df.shape[1] < 2:
            print(f"{name}: Dataset too small for training. Size: {df.shape}")
            continue

        X = df.iloc[:, :-1]
        y = df.iloc[:, -1]

        try:
            X, y = check_X_y(X, y)
        except ValueError as e:
            print(f"{name}: Data validation error - {e}")
            continue

        aggregated_results[name] = {model_name: {
            'rmse': [], 'mse': [], 'mae': [], 'r2': []
        } for model_name in models.keys()}

        for run in range(num_runs):
            kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)

            for model_name, model in models.items():
                metrics = process_model(X, y, model_name, model, param_grid, kf)
                if metrics:
                    for metric, value in metrics.items():
                        if metric != 'best_params':
                            aggregated_results[name][model_name][metric].append(value)

        # Calculate averages
        for model_name in models.keys():
            for metric in ['rmse', 'mse', 'mae', 'r2']:
                aggregated_results[name][model_name][metric] = np.mean(aggregated_results[name][model_name][metric])

    # Calculate average metrics
    average_metrics = calculate_average_metrics(aggregated_results)

    # Save results to Excel
    results_df = pd.DataFrame.from_dict({
        f'{dataset}_{model}': metrics
        for dataset, models in aggregated_results.items()
        for model, metrics in models.items()
    }, orient='index')

    output_path = os.path.join(output_directory, 'artigo1-abordagem2-teste-30runs.xlsx')

    try:
        os.makedirs(output_directory, exist_ok=True)
        results_df.to_excel(output_path)
        print(f"Results saved at '{output_path}'.")
    except Exception as e:
        print(f"Error saving results: {e}")

    # Print average metrics
    print("\nAverage Metrics:")
    for dataset, models in average_metrics.items():
        print(f"\nDataset: {dataset}")
        for model_name, metrics in models.items():
            print(f"Model: {model_name}")
            for metric, value in metrics.items():
                print(f"{metric}: {value:.4f}")

# Process multiple directories
output_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo1'

directories = [
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-25',
]

for directory in directories:
    data = load_datasets(directory)
    if data:
        test_regression_models(data, output_directory)

Unsupported format: resultado_consolidado_tratamento.xlsx
tratamento_china: Detected delimiter - ','
Unsupported format: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Detected delimiter - ','
Unsupported format: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Detected delimiter - ','
Unsupported format: tratamento_desharnais_resultados_kfold.xlsx
tratamento_maxwell: Detected delimiter - ','
Unsupported format: tratamento_maxwell_resultados_kfold.xlsx
4 files successfully loaded from C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado.
Results saved at 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo1\artigo1-abordagem2-teste-30runs.xlsx'.

Average Metrics:

Dataset: tratamento_china
Model: LinearRegression
rmse: 0.0196
mse: 0.0004
mae: 0.0069
r2: 0.9728
Model: Ridge
rmse: 0.0179
mse: 0.0003
mae

# 2 - Estimating Software Development Efforts Using a Random Forest-Based Stacked Ensemble Approach

Divisão: cross_validation e kfold. 

In [13]:
import os
import pandas as pd
from sklearn.model_selection import KFold, GridSearchCV, cross_val_predict
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.utils.validation import check_X_y
from joblib import Parallel, delayed
import numpy as np

# Função para carregar datasets
def load_datasets(directory):
    datasets = {}
    if not os.path.exists(directory):
        print(f"Diretório '{directory}' não encontrado.")
        return datasets

    for file in os.listdir(directory):
        filepath = os.path.join(directory, file)
        filename, ext = os.path.splitext(file)

        try:
            if ext == '.txt':
                with open(filepath, 'r') as f:
                    first_line = f.readline()
                    delimiter = ',' if ',' in first_line else ('\t' if '\t' in first_line else ' ')
                datasets[filename] = pd.read_csv(filepath, delimiter=delimiter)
                print(f"{filename}: Delimitador detectado - '{delimiter}'")
            else:
                print(f"Formato não suportado: {file}")
        except Exception as e:
            print(f"Erro ao carregar {file}: {e}")

    print(f"{len(datasets)} arquivos carregados com sucesso de {directory}.")
    return datasets

# Função para processar um único modelo
def process_model(X, y, model_name, model, param_grid, kf):
    metrics = {
        'mae': [],
        'rmse': [],
        'r2': []
    }

    grid = GridSearchCV(model, param_grid[model_name], cv=kf, scoring='neg_mean_squared_error', error_score='raise')

    try:
        grid.fit(X, y)
        best_model = grid.best_estimator_

        # Previsões com validação cruzada
        y_pred = cross_val_predict(best_model, X, y, cv=kf)

        # Cálculo das métricas
        metrics['mae'].append(mean_absolute_error(y, y_pred))
        metrics['rmse'].append(np.sqrt(mean_squared_error(y, y_pred)))
        metrics['r2'].append(r2_score(y, y_pred))

        return {
            'mae': np.mean(metrics['mae']),
            'rmse': np.mean(metrics['rmse']),
            'r2': np.mean(metrics['r2']),
            'best_params': grid.best_params_
        }

    except Exception as e:
        print(f"{model_name}: Falha no treinamento - {e}")
        return None

# Função para treinar e testar modelos de regressão
def test_regression_models(data, output_directory, n_splits=5, n_runs=30):
    models = {
        'LinearRegression': LinearRegression(),
        'Ridge': Ridge(),
        # 'Lasso': Lasso(),
        'RandomForest': RandomForestRegressor(),
        # 'GradientBoosting': GradientBoostingRegressor()
    }

    param_grid = {
        'LinearRegression': {},
        'Ridge': {'alpha': [0.1, 1, 10]},
        # 'Lasso': {'alpha': [0.1, 0.5, 1]},
        'RandomForest': {'n_estimators': [50, 100, 200]},
        # 'GradientBoosting': {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.2]}
    }

    results = {}

    for name, df in data.items():
        df = df.dropna()

        if df.shape[0] < 2 or df.shape[1] < 2:
            print(f"{name}: Dataset insuficiente para treino. Tamanho: {df.shape}")
            continue

        X = df.iloc[:, :-1]
        y = df.iloc[:, -1]

        try:
            X, y = check_X_y(X, y)
        except ValueError as e:
            print(f"{name}: Erro de validação dos dados - {e}")
            continue

        kf = KFold(n_splits=n_splits, shuffle=True, random_state=None)

        # Processar modelos em paralelo
        model_results = Parallel(n_jobs=-1)(
            delayed(process_model)(X, y, model_name, model, param_grid, kf)
            for model_name, model in models.items()
        )

        for model_name, metrics in zip(models.keys(), model_results):
            if metrics:
                results[f'{name}_{model_name}'] = metrics
                print(f"{name} - {model_name}: MAE = {metrics['mae']:.4f}, RMSE = {metrics['rmse']:.4f}, R² = {metrics['r2']:.4f}")

    results_df = pd.DataFrame.from_dict(results, orient='index')
    output_path = os.path.join(output_directory, 'artigo2-abordagem2-teste.xlsx')

    try:
        os.makedirs(output_directory, exist_ok=True)
        results_df.to_excel(output_path)
        print(f"Resultados salvos em '{output_path}'.")
    except Exception as e:
        print(f"Erro ao salvar os resultados: {e}")

# Processamento de múltiplos diretórios
output_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo2' 

directories = [
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-25',
]

for directory in directories:
    data = load_datasets(directory)
    if data:
        test_regression_models(data, output_directory)


Formato não suportado: resultado_consolidado_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_kfold.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_kfold.xlsx
4 arquivos carregados com sucesso de C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado.
tratamento_china - LinearRegression: MAE = 0.0071, RMSE = 0.0201, R² = 0.9712
tratamento_china - Ridge: MAE = 0.0065, RMSE = 0.0176, R² = 0.9780
tratamento_china - RandomForest: MAE = 0.0085, RMSE = 0.0284, R² = 0.9426
tratamento_cocomo81 - LinearRegression: MAE = 0.0883, RMSE = 0.1445, R² = 0.1698
trat

In [15]:
import os
import pandas as pd
from sklearn.model_selection import KFold, GridSearchCV, cross_val_predict
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.utils.validation import check_X_y
from joblib import Parallel, delayed
import numpy as np

# Função para carregar datasets
def load_datasets(directory):
    datasets = {}
    if not os.path.exists(directory):
        print(f"Diretório '{directory}' não encontrado.")
        return datasets

    for file in os.listdir(directory):
        filepath = os.path.join(directory, file)
        filename, ext = os.path.splitext(file)

        try:
            if ext == '.txt':
                with open(filepath, 'r') as f:
                    first_line = f.readline()
                    delimiter = ',' if ',' in first_line else ('\t' if '\t' in first_line else ' ')
                datasets[filename] = pd.read_csv(filepath, delimiter=delimiter)
                print(f"{filename}: Delimitador detectado - '{delimiter}'")
            else:
                print(f"Formato não suportado: {file}")
        except Exception as e:
            print(f"Erro ao carregar {file}: {e}")

    print(f"{len(datasets)} arquivos carregados com sucesso de {directory}.")
    return datasets

# Função para processar um único modelo com múltiplas execuções
def process_model(X, y, model_name, model, param_grid, kf, n_runs):
    metrics = {
        'mae': [],
        'rmse': [],
        'r2': []
    }

    for _ in range(n_runs):
        grid = GridSearchCV(model, param_grid[model_name], cv=kf, scoring='neg_mean_squared_error', error_score='raise')
        
        try:
            grid.fit(X, y)
            best_model = grid.best_estimator_

            # Previsões com validação cruzada
            y_pred = cross_val_predict(best_model, X, y, cv=kf)

            # Cálculo das métricas
            metrics['mae'].append(mean_absolute_error(y, y_pred))
            metrics['rmse'].append(np.sqrt(mean_squared_error(y, y_pred)))
            metrics['r2'].append(r2_score(y, y_pred))
        except Exception as e:
            print(f"{model_name}: Falha no treinamento - {e}")
            continue

    # Retornar a média das métricas ao longo de todas as execuções
    return {
        'mae': np.mean(metrics['mae']),
        'rmse': np.mean(metrics['rmse']),
        'r2': np.mean(metrics['r2']),
        'best_params': grid.best_params_ if metrics['mae'] else None
    }

# Função para treinar e testar modelos de regressão
def test_regression_models(data, output_directory, n_splits=5, n_runs=30):
    models = {
        'LinearRegression': LinearRegression(),
        'Ridge': Ridge(),
        'RandomForest': RandomForestRegressor(),
    }

    param_grid = {
        'LinearRegression': {},
        'Ridge': {'alpha': [0.1, 1, 10]},
        'RandomForest': {'n_estimators': [50, 100, 200]},
    }

    results = {}

    for name, df in data.items():
        df = df.dropna()

        if df.shape[0] < 2 or df.shape[1] < 2:
            print(f"{name}: Dataset insuficiente para treino. Tamanho: {df.shape}")
            continue

        X = df.iloc[:, :-1]
        y = df.iloc[:, -1]

        try:
            X, y = check_X_y(X, y)
        except ValueError as e:
            print(f"{name}: Erro de validação dos dados - {e}")
            continue

        kf = KFold(n_splits=n_splits, shuffle=True, random_state=None)

        # Processar modelos em paralelo
        model_results = Parallel(n_jobs=-1)(
            delayed(process_model)(X, y, model_name, model, param_grid, kf, n_runs)
            for model_name, model in models.items()
        )

        for model_name, metrics in zip(models.keys(), model_results):
            if metrics:
                results[f'{name}_{model_name}'] = metrics
                print(f"{name} - {model_name}: MAE = {metrics['mae']:.4f}, RMSE = {metrics['rmse']:.4f}, R² = {metrics['r2']:.4f}")

    results_df = pd.DataFrame.from_dict(results, orient='index')
    output_path = os.path.join(output_directory, 'resultados.xlsx')

    try:
        os.makedirs(output_directory, exist_ok=True)
        results_df.to_excel(output_path)
        print(f"Resultados salvos em '{output_path}'.")
    except Exception as e:
        print(f"Erro ao salvar os resultados: {e}")

# Função para processar múltiplos diretórios e salvar resultados
def process_multiple_directories(directories, base_output_directory, n_runs=30):
    for directory in directories:
        # Extrair o nome do diretório atual para organizar os resultados
        directory_name = os.path.basename(directory.rstrip(os.sep))
        output_subdirectory = os.path.join(base_output_directory, directory_name)

        # Carregar os datasets do diretório atual
        data = load_datasets(directory)

        # Se houver datasets carregados, processar os modelos
        if data:
            test_regression_models(data, output_subdirectory, n_runs=n_runs)

# Diretórios de entrada e saída
output_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo2'

directories = [
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-25',
]

# Processar os diretórios
process_multiple_directories(directories, output_directory, n_runs=30)


Formato não suportado: resultado_consolidado_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_kfold.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_kfold.xlsx
4 arquivos carregados com sucesso de C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado.
tratamento_china - LinearRegression: MAE = 0.0070, RMSE = 0.0191, R² = 0.9739
tratamento_china - Ridge: MAE = 0.0067, RMSE = 0.0175, R² = 0.9782
tratamento_china - RandomForest: MAE = 0.0078, RMSE = 0.0263, R² = 0.9506
tratamento_cocomo81 - LinearRegression: MAE = 0.0915, RMSE = 0.1504, R² = 0.0954
trat

In [20]:
import os
import pandas as pd
from sklearn.model_selection import KFold, GridSearchCV, cross_val_predict
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.utils.validation import check_X_y
from joblib import Parallel, delayed
import numpy as np

# Função para carregar datasets
def load_datasets(directory):
    datasets = {}
    if not os.path.exists(directory):
        print(f"Diretório '{directory}' não encontrado.")
        return datasets

    for file in os.listdir(directory):
        filepath = os.path.join(directory, file)
        filename, ext = os.path.splitext(file)

        # Processar apenas arquivos com extensão .txt
        if ext != '.txt':
            print(f"Ignorando arquivo não suportado: {file}")
            continue

        try:
            # Ler a primeira linha para detectar o delimitador
            with open(filepath, 'r') as f:
                first_line = f.readline()
                delimiter = ',' if ',' in first_line else ('\t' if '\t' in first_line else ' ')

            # Tentar carregar o dataset
            df = pd.read_csv(filepath, delimiter=delimiter)
            if df.empty:
                print(f"{filename}: Arquivo está vazio ou inválido, ignorando.")
                continue

            datasets[filename] = df
            print(f"{filename}: Delimitador detectado - '{delimiter}'")

        except pd.errors.ParserError as e:
            print(f"{filename}: Erro ao processar arquivo - {e}")
        except Exception as e:
            print(f"Erro ao carregar {file}: {e}")

    print(f"{len(datasets)} arquivos carregados com sucesso de {directory}.")
    return datasets

# Função para processar um único modelo com múltiplas execuções
def process_model(X, y, model_name, model, param_grid, kf, n_runs):
    metrics = {
        'mae': [],
        'rmse': [],
        'r2': []
    }

    for _ in range(n_runs):
        grid = GridSearchCV(model, param_grid[model_name], cv=kf, scoring='neg_mean_squared_error', error_score='raise')

        try:
            grid.fit(X, y)
            best_model = grid.best_estimator_

            # Previsões com validação cruzada
            y_pred = cross_val_predict(best_model, X, y, cv=kf)

            # Cálculo das métricas
            metrics['mae'].append(mean_absolute_error(y, y_pred))
            metrics['rmse'].append(np.sqrt(mean_squared_error(y, y_pred)))
            metrics['r2'].append(r2_score(y, y_pred))
        except Exception as e:
            print(f"{model_name}: Falha no treinamento - {e}")
            continue

    # Retornar a média das métricas ao longo de todas as execuções
    return {
        'mae': np.mean(metrics['mae']),
        'rmse': np.mean(metrics['rmse']),
        'r2': np.mean(metrics['r2']),
        'best_params': grid.best_params_ if metrics['mae'] else None
    }

# Função para treinar e testar modelos de regressão
def test_regression_models(data, output_directory, n_splits=5, n_runs=30):
    models = {
        'LinearRegression': LinearRegression(),
        'Ridge': Ridge(),
        'RandomForest': RandomForestRegressor(),
    }

    param_grid = {
        'LinearRegression': {},
        'Ridge': {'alpha': [0.1, 1, 10]},
        'RandomForest': {'n_estimators': [50, 100, 200]},
    }

    results = {}

    for name, df in data.items():
        # Garantir que o dataset não esteja vazio
        if df.empty or df.shape[0] < 2 or df.shape[1] < 2:
            print(f"{name}: Dataset insuficiente ou vazio. Ignorando.")
            continue

        X = df.iloc[:, :-1]
        y = df.iloc[:, -1]

        try:
            X, y = check_X_y(X, y)
        except ValueError as e:
            print(f"{name}: Erro de validação dos dados - {e}")
            continue

        kf = KFold(n_splits=n_splits, shuffle=True, random_state=None)

        # Processar modelos em paralelo
        model_results = Parallel(n_jobs=-1)(
            delayed(process_model)(X, y, model_name, model, param_grid, kf, n_runs)
            for model_name, model in models.items()
        )

        for model_name, metrics in zip(models.keys(), model_results):
            if metrics:
                results[f'{name}_{model_name}'] = metrics
                print(f"{name} - {model_name}: MAE = {metrics['mae']:.4f}, RMSE = {metrics['rmse']:.4f}, R² = {metrics['r2']:.4f}")

    results_df = pd.DataFrame.from_dict(results, orient='index')
    output_path = os.path.join(output_directory, 'resultados.xlsx')

    try:
        os.makedirs(output_directory, exist_ok=True)
        results_df.to_excel(output_path)
        print(f"Resultados salvos em '{output_path}'.")
    except Exception as e:
        print(f"Erro ao salvar os resultados: {e}")

# Função para processar múltiplos diretórios e salvar resultados
def process_multiple_directories(directories, base_output_directory, n_runs=30):
    for directory in directories:
        # Extrair o nome do diretório atual para organizar os resultados
        directory_name = os.path.basename(directory.rstrip(os.sep))
        output_subdirectory = os.path.join(base_output_directory, directory_name)

        # Carregar os datasets do diretório atual
        data = load_datasets(directory)

        # Se houver datasets carregados, processar os modelos
        if data:
            test_regression_models(data, output_subdirectory, n_runs=n_runs)

# Diretórios de entrada e saída
output_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo2'

directories = [
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-25',
]

# Processar os diretórios
process_multiple_directories(directories, output_directory, n_runs=30)


Ignorando arquivo não suportado: resultado_consolidado_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Ignorando arquivo não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Ignorando arquivo não suportado: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Delimitador detectado - ','
Ignorando arquivo não suportado: tratamento_desharnais_resultados_kfold.xlsx
tratamento_maxwell: Delimitador detectado - ','
Ignorando arquivo não suportado: tratamento_maxwell_resultados_kfold.xlsx
4 arquivos carregados com sucesso de C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado.
tratamento_china - LinearRegression: MAE = 0.0071, RMSE = 0.0195, R² = 0.9729
tratamento_china - Ridge: MAE = 0.0066, RMSE = 0.0174, R² = 0.9784
tratamento_china - RandomForest: MAE = 0.0078, RMSE = 0.0264, R² = 0.9501
tratamento_cocomo81 - LinearRegress

# 3 - Software Effort Estimation using Ensemble Learning.

Divisão: 80 treino e 20 teste.

In [12]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.utils.validation import check_X_y
from joblib import Parallel, delayed
from tqdm import tqdm
import numpy as np

# Função para calcular RAE
def calculate_rae(y_true, y_pred):
    return np.sum(np.abs(y_pred - y_true)) / np.sum(np.abs(y_true - np.mean(y_true)))

# Função para calcular RRSE
def calculate_rrse(y_true, y_pred):
    return np.sqrt(np.sum((y_true - y_pred) ** 2) / np.sum((y_true - np.mean(y_true)) ** 2))

# Função para carregar datasets
def load_datasets(directory):
    datasets = {}
    if not os.path.exists(directory):
        print(f"Diretório '{directory}' não encontrado.")
        return datasets

    for file in os.listdir(directory):
        filepath = os.path.join(directory, file)
        filename, ext = os.path.splitext(file)

        try:
            if ext == '.txt':
                with open(filepath, 'r') as f:
                    first_line = f.readline()
                    delimiter = ',' if ',' in first_line else ('\t' if '\t' in first_line else ' ')
                datasets[filename] = pd.read_csv(filepath, delimiter=delimiter)
                print(f"{filename}: Delimitador detectado - '{delimiter}'")
            else:
                print(f"Formato não suportado: {file}")
        except Exception as e:
            print(f"Erro ao carregar {file}: {e}")

    print(f"{len(datasets)} arquivos carregados com sucesso de {directory}.")
    return datasets

# Função para processar um único modelo
def process_model(X_train, X_test, y_train, y_test, model_name, model, param_grid, repetitions):
    metrics = {'mae': [], 'rmse': [], 'rae': [], 'rrse': []}

    for _ in range(repetitions):
        grid = GridSearchCV(model, param_grid[model_name], cv=5, scoring='neg_mean_absolute_error', error_score='raise')

        try:
            grid.fit(X_train, y_train)
            best_model = grid.best_estimator_

            # Previsões no conjunto de teste
            y_pred = best_model.predict(X_test)

            # Cálculo das métricas
            mae = mean_absolute_error(y_test, y_pred)
            rmse = np.sqrt(mean_squared_error(y_test, y_pred))
            rae = calculate_rae(y_test, y_pred)
            rrse = calculate_rrse(y_test, y_pred)

            metrics['mae'].append(mae)
            metrics['rmse'].append(rmse)
            metrics['rae'].append(rae)
            metrics['rrse'].append(rrse)

        except Exception as e:
            print(f"{model_name}: Falha no treinamento - {e}")
            continue

    # Calcular médias das métricas
    return {
        'mae': np.mean(metrics['mae']),
        'rmse': np.mean(metrics['rmse']),
        'rae': np.mean(metrics['rae']),
        'rrse': np.mean(metrics['rrse']),
        'best_params': grid.best_params_ if 'grid' in locals() else {}
    }

# Função para treinar e testar modelos de regressão
def test_regression_models(data, directory, output_directory, repetitions=30):
    models = {
        'LinearRegression': LinearRegression(),
        'Ridge': Ridge(),
        'RandomForest': RandomForestRegressor(),
    }

    param_grid = {
        'LinearRegression': {},
        'Ridge': {'alpha': [0.1, 1, 10]},
        'RandomForest': {'n_estimators': [50, 100, 200]},
    }

    results = {}

    for name, df in tqdm(data.items(), desc="Processando datasets"):
        df = df.dropna()

        if df.shape[0] < 2 or df.shape[1] < 2:
            print(f"{name}: Dataset insuficiente para treino. Tamanho: {df.shape}")
            continue

        X = df.iloc[:, :-1]
        y = df.iloc[:, -1]

        try:
            X, y = check_X_y(X, y)
        except ValueError as e:
            print(f"{name}: Erro de validação dos dados - {e}")
            continue

        # Divisão dos dados em treinamento (80%) e teste (20%)
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

        # Processar cada modelo em paralelo
        model_results = Parallel(n_jobs=-1)(
            delayed(process_model)(X_train, X_test, y_train, y_test, model_name, model, param_grid, repetitions)
            for model_name, model in models.items()
        )

        # Armazenar resultados
        for model_name, metrics in zip(models.keys(), model_results):
            results[f'{name}_{model_name}'] = metrics
            print(f"{name} - {model_name}: MAE = {metrics['mae']:.4f}, RMSE = {metrics['rmse']:.4f}, "
                  f"RAE = {metrics['rae']:.4f}, RRSE = {metrics['rrse']:.4f}")

    results_df = pd.DataFrame.from_dict(results, orient='index')
    output_path = os.path.join(output_directory, f'{os.path.basename(directory)}_resultados.xlsx')

    try:
        os.makedirs(output_directory, exist_ok=True)
        results_df.to_excel(output_path)
        print(f"Resultados salvos em '{output_path}'.")
    except Exception as e:
        print(f"Erro ao salvar os resultados: {e}")

# Processamento de múltiplos diretórios
output_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados'
directories = [
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-25',
]

for directory in tqdm(directories, desc="Processando diretórios"):
    data = load_datasets(directory)
    if data:
        test_regression_models(data, directory, output_directory, repetitions=30)

Processando diretórios:   0%|          | 0/6 [00:00<?, ?it/s]

Formato não suportado: resultado_consolidado_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_kfold.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_kfold.xlsx
4 arquivos carregados com sucesso de C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado.




tratamento_china - LinearRegression: MAE = 0.0082, RMSE = 0.0233, RAE = 0.1685, RRSE = 0.2319
tratamento_china - Ridge: MAE = 0.0067, RMSE = 0.0158, RAE = 0.1371, RRSE = 0.1578
tratamento_china - RandomForest: MAE = 0.0070, RMSE = 0.0285, RAE = 0.1436, RRSE = 0.2836




tratamento_cocomo81 - LinearRegression: MAE = 0.1214, RMSE = 0.1587, RAE = 3.7213, RRSE = 3.2520
tratamento_cocomo81 - Ridge: MAE = 0.0488, RMSE = 0.0608, RAE = 1.4965, RRSE = 1.2460
tratamento_cocomo81 - RandomForest: MAE = 0.0237, RMSE = 0.0428, RAE = 0.7266, RRSE = 0.8763




tratamento_desharnais - LinearRegression: MAE = 0.0899, RMSE = 0.1102, RAE = 0.7854, RRSE = 0.7218
tratamento_desharnais - Ridge: MAE = 0.0800, RMSE = 0.1019, RAE = 0.6990, RRSE = 0.6677
tratamento_desharnais - RandomForest: MAE = 0.0757, RMSE = 0.0909, RAE = 0.6612, RRSE = 0.5953


Processando datasets: 100%|██████████| 4/4 [10:56<00:00, 164.12s/it]
Processando diretórios:  17%|█▋        | 1/6 [10:56<54:42, 656.56s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0463, RMSE = 0.0593, RAE = 0.8603, RRSE = 0.9212
tratamento_maxwell - Ridge: MAE = 0.0262, RMSE = 0.0330, RAE = 0.4868, RRSE = 0.5119
tratamento_maxwell - RandomForest: MAE = 0.0400, RMSE = 0.0716, RAE = 0.7436, RRSE = 1.1118
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\1-tratamento-target-encoding-normalizado_resultados.xlsx'.
Formato não suportado: resultado_consolidado_variavel.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_kfold.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_kfold.xlsx
4 arquivos carregados c



tratamento_china - LinearRegression: MAE = 0.0002, RMSE = 0.0004, RAE = 0.0043, RRSE = 0.0036
tratamento_china - Ridge: MAE = 0.0024, RMSE = 0.0057, RAE = 0.0499, RRSE = 0.0564
tratamento_china - RandomForest: MAE = 0.0036, RMSE = 0.0221, RAE = 0.0741, RRSE = 0.2200




tratamento_cocomo81 - LinearRegression: MAE = 0.1040, RMSE = 0.1402, RAE = 3.1870, RRSE = 2.8742
tratamento_cocomo81 - Ridge: MAE = 0.0509, RMSE = 0.0614, RAE = 1.5591, RRSE = 1.2577
tratamento_cocomo81 - RandomForest: MAE = 0.0197, RMSE = 0.0352, RAE = 0.6050, RRSE = 0.7208




tratamento_desharnais - LinearRegression: MAE = 0.0848, RMSE = 0.1017, RAE = 0.7406, RRSE = 0.6660
tratamento_desharnais - Ridge: MAE = 0.0782, RMSE = 0.0975, RAE = 0.6831, RRSE = 0.6385
tratamento_desharnais - RandomForest: MAE = 0.0745, RMSE = 0.0891, RAE = 0.6504, RRSE = 0.5838


Processando datasets: 100%|██████████| 4/4 [15:25<00:00, 231.39s/it]
Processando diretórios:  33%|███▎      | 2/6 [26:22<54:19, 814.95s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0703, RMSE = 0.0915, RAE = 1.3074, RRSE = 1.4209
tratamento_maxwell - Ridge: MAE = 0.0280, RMSE = 0.0444, RAE = 0.5201, RRSE = 0.6890
tratamento_maxwell - RandomForest: MAE = 0.0389, RMSE = 0.0541, RAE = 0.7242, RRSE = 0.8399
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\MIMIC-25_resultados.xlsx'.
Formato não suportado: resultado_consolidado_correlacao_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_processamento_simples.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_proce



tratamento_china - LinearRegression: MAE = 0.0084, RMSE = 0.0169, RAE = 0.1731, RRSE = 0.1680
tratamento_china - Ridge: MAE = 0.0089, RMSE = 0.0182, RAE = 0.1832, RRSE = 0.1811
tratamento_china - RandomForest: MAE = 0.0071, RMSE = 0.0289, RAE = 0.1451, RRSE = 0.2877




tratamento_cocomo81 - LinearRegression: MAE = 0.1214, RMSE = 0.1587, RAE = 3.7213, RRSE = 3.2520
tratamento_cocomo81 - Ridge: MAE = 0.0488, RMSE = 0.0608, RAE = 1.4965, RRSE = 1.2460
tratamento_cocomo81 - RandomForest: MAE = 0.0238, RMSE = 0.0425, RAE = 0.7284, RRSE = 0.8707




tratamento_desharnais - LinearRegression: MAE = 0.0899, RMSE = 0.1102, RAE = 0.7854, RRSE = 0.7218
tratamento_desharnais - Ridge: MAE = 0.0800, RMSE = 0.1019, RAE = 0.6990, RRSE = 0.6677
tratamento_desharnais - RandomForest: MAE = 0.0761, RMSE = 0.0919, RAE = 0.6648, RRSE = 0.6022


Processando datasets: 100%|██████████| 4/4 [08:06<00:00, 121.64s/it]
Processando diretórios:  50%|█████     | 3/6 [34:29<33:15, 665.07s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0463, RMSE = 0.0593, RAE = 0.8603, RRSE = 0.9212
tratamento_maxwell - Ridge: MAE = 0.0262, RMSE = 0.0330, RAE = 0.4868, RRSE = 0.5119
tratamento_maxwell - RandomForest: MAE = 0.0401, RMSE = 0.0714, RAE = 0.7449, RRSE = 1.1086
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\1-tratamento_resultados.xlsx'.
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_processamento_simples.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_processamento_simples.xlsx
4 arquivos carregados com sucesso de C:\Users\



tratamento_china - LinearRegression: MAE = 0.0084, RMSE = 0.0170, RAE = 0.1726, RRSE = 0.1694
tratamento_china - Ridge: MAE = 0.0089, RMSE = 0.0188, RAE = 0.1818, RRSE = 0.1876
tratamento_china - RandomForest: MAE = 0.0071, RMSE = 0.0292, RAE = 0.1462, RRSE = 0.2907




tratamento_cocomo81 - LinearRegression: MAE = 0.1065, RMSE = 0.1413, RAE = 3.2629, RRSE = 2.8960
tratamento_cocomo81 - Ridge: MAE = 0.0518, RMSE = 0.0629, RAE = 1.5888, RRSE = 1.2896
tratamento_cocomo81 - RandomForest: MAE = 0.0195, RMSE = 0.0346, RAE = 0.5973, RRSE = 0.7082




tratamento_desharnais - LinearRegression: MAE = 0.0848, RMSE = 0.1017, RAE = 0.7406, RRSE = 0.6660
tratamento_desharnais - Ridge: MAE = 0.0782, RMSE = 0.0975, RAE = 0.6831, RRSE = 0.6385
tratamento_desharnais - RandomForest: MAE = 0.0748, RMSE = 0.0895, RAE = 0.6534, RRSE = 0.5864


Processando datasets: 100%|██████████| 4/4 [03:39<00:00, 54.90s/it]
Processando diretórios:  67%|██████▋   | 4/6 [38:08<16:18, 489.23s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0702, RMSE = 0.0931, RAE = 1.3050, RRSE = 1.4470
tratamento_maxwell - Ridge: MAE = 0.0284, RMSE = 0.0415, RAE = 0.5275, RRSE = 0.6443
tratamento_maxwell - RandomForest: MAE = 0.0439, RMSE = 0.0667, RAE = 0.8154, RRSE = 1.0365
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\MIMIC-25_resultados.xlsx'.
Formato não suportado: resultado_consolidado_select_50_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_processamento_simples.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_proces



tratamento_china - LinearRegression: MAE = 0.0073, RMSE = 0.0161, RAE = 0.1492, RRSE = 0.1603
tratamento_china - Ridge: MAE = 0.0078, RMSE = 0.0173, RAE = 0.1599, RRSE = 0.1718
tratamento_china - RandomForest: MAE = 0.0070, RMSE = 0.0286, RAE = 0.1429, RRSE = 0.2846




tratamento_cocomo81 - LinearRegression: MAE = 0.0519, RMSE = 0.0633, RAE = 1.5892, RRSE = 1.2972
tratamento_cocomo81 - Ridge: MAE = 0.0450, RMSE = 0.0556, RAE = 1.3786, RRSE = 1.1392
tratamento_cocomo81 - RandomForest: MAE = 0.0245, RMSE = 0.0445, RAE = 0.7505, RRSE = 0.9118




tratamento_desharnais - LinearRegression: MAE = 0.0742, RMSE = 0.1060, RAE = 0.6476, RRSE = 0.6941
tratamento_desharnais - Ridge: MAE = 0.0725, RMSE = 0.1070, RAE = 0.6333, RRSE = 0.7010
tratamento_desharnais - RandomForest: MAE = 0.0831, RMSE = 0.1064, RAE = 0.7252, RRSE = 0.6967


Processando datasets: 100%|██████████| 4/4 [03:17<00:00, 49.42s/it]
Processando diretórios:  83%|████████▎ | 5/6 [41:26<06:24, 384.12s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0310, RMSE = 0.0503, RAE = 0.5773, RRSE = 0.7815
tratamento_maxwell - Ridge: MAE = 0.0332, RMSE = 0.0431, RAE = 0.6179, RRSE = 0.6692
tratamento_maxwell - RandomForest: MAE = 0.0414, RMSE = 0.0763, RAE = 0.7708, RRSE = 1.1849
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\1-tratamento-target-encoding-normalizado_resultados.xlsx'.
Formato não suportado: resultado_consolidado_select_50_geracao.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_processamento_simples.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratame



tratamento_china - LinearRegression: MAE = 0.0010, RMSE = 0.0013, RAE = 0.0200, RRSE = 0.0131
tratamento_china - Ridge: MAE = 0.0031, RMSE = 0.0059, RAE = 0.0637, RRSE = 0.0585
tratamento_china - RandomForest: MAE = 0.0035, RMSE = 0.0211, RAE = 0.0711, RRSE = 0.2104




tratamento_cocomo81 - LinearRegression: MAE = 0.0709, RMSE = 0.0830, RAE = 2.1712, RRSE = 1.7004
tratamento_cocomo81 - Ridge: MAE = 0.0559, RMSE = 0.0616, RAE = 1.7126, RRSE = 1.2636
tratamento_cocomo81 - RandomForest: MAE = 0.0192, RMSE = 0.0330, RAE = 0.5874, RRSE = 0.6768




tratamento_desharnais - LinearRegression: MAE = 0.0862, RMSE = 0.1091, RAE = 0.7528, RRSE = 0.7148
tratamento_desharnais - Ridge: MAE = 0.0849, RMSE = 0.1084, RAE = 0.7410, RRSE = 0.7097
tratamento_desharnais - RandomForest: MAE = 0.0742, RMSE = 0.0932, RAE = 0.6477, RRSE = 0.6102


Processando datasets: 100%|██████████| 4/4 [03:40<00:00, 55.21s/it]
Processando diretórios: 100%|██████████| 6/6 [45:07<00:00, 451.24s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0486, RMSE = 0.0805, RAE = 0.9043, RRSE = 1.2513
tratamento_maxwell - Ridge: MAE = 0.0346, RMSE = 0.0538, RAE = 0.6440, RRSE = 0.8356
tratamento_maxwell - RandomForest: MAE = 0.0426, RMSE = 0.0605, RAE = 0.7930, RRSE = 0.9406
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\MIMIC-25_resultados.xlsx'.





In [9]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.utils.validation import check_X_y
from joblib import Parallel, delayed
from tqdm import tqdm
import numpy as np

# Funções de métricas

def calculate_rae(y_true, y_pred):
    return np.sum(np.abs(y_pred - y_true)) / np.sum(np.abs(y_true - np.mean(y_true)))

def calculate_rrse(y_true, y_pred):
    return np.sqrt(np.sum((y_true - y_pred) ** 2) / np.sum((y_true - np.mean(y_true)) ** 2))

# Função para carregar datasets
def load_datasets(directory):
    datasets = {}
    if not os.path.exists(directory):
        print(f"Diretório '{directory}' não encontrado.")
        return datasets

    for file in os.listdir(directory):
        filepath = os.path.join(directory, file)
        filename, ext = os.path.splitext(file)

        if ext != '.txt':
            print(f"Ignorando arquivo não .txt: {file}")
            continue

        try:
            with open(filepath, 'r') as f:
                first_line = f.readline()
                delimiter = ',' if ',' in first_line else ('\t' if '\t' in first_line else ' ')
            datasets[filename] = pd.read_csv(filepath, delimiter=delimiter)
            print(f"{filename}: Delimitador detectado - '{delimiter}'")
        except Exception as e:
            print(f"Erro ao carregar {file}: {e}")

    print(f"{len(datasets)} arquivos carregados com sucesso de {directory}.")
    return datasets

# Função para processar um único modelo
def process_model(X_train, X_test, y_train, y_test, model_name, model, param_grid, repetitions):
    metrics = {'mae': [], 'rmse': [], 'rae': [], 'rrse': []}

    for _ in range(repetitions):
        grid = GridSearchCV(model, param_grid[model_name], cv=5, scoring='neg_mean_absolute_error', error_score='raise')

        try:
            grid.fit(X_train, y_train)
            best_model = grid.best_estimator_

            y_pred = best_model.predict(X_test)

            mae = mean_absolute_error(y_test, y_pred)
            rmse = np.sqrt(mean_squared_error(y_test, y_pred))
            rae = calculate_rae(y_test, y_pred)
            rrse = calculate_rrse(y_test, y_pred)

            metrics['mae'].append(mae)
            metrics['rmse'].append(rmse)
            metrics['rae'].append(rae)
            metrics['rrse'].append(rrse)

        except Exception as e:
            print(f"{model_name}: Falha no treinamento - {e}")
            continue

    return {
        'mae': np.mean(metrics['mae']),
        'rmse': np.mean(metrics['rmse']),
        'rae': np.mean(metrics['rae']),
        'rrse': np.mean(metrics['rrse']),
        'best_params': grid.best_params_ if 'grid' in locals() else {}
    }

# Função para treinar e testar modelos
def test_regression_models(data_original, data_synthetic, output_directory, repetitions=30):
    models = {
        'LinearRegression': LinearRegression(),
        'Ridge': Ridge(),
        'RandomForest': RandomForestRegressor(),
    }

    param_grid = {
        'LinearRegression': {},
        'Ridge': {'alpha': [0.1, 1, 10]},
        'RandomForest': {'n_estimators': [50, 100, 200]},
    }

    results = {}

    for name, df_original in tqdm(data_original.items(), desc="Processando datasets originais"):
        if name not in data_synthetic:
            print(f"{name}: Dados sintéticos correspondentes não encontrados.")
            continue

        df_synthetic = data_synthetic[name]

        df_original = df_original.dropna()
        df_synthetic = df_synthetic.dropna()

        if df_original.shape[0] < 2 or df_original.shape[1] < 2:
            print(f"{name}: Dataset original insuficiente. Tamanho: {df_original.shape}")
            continue

        if df_synthetic.shape[0] < 2 or df_synthetic.shape[1] < 2:
            print(f"{name}: Dataset sintético insuficiente. Tamanho: {df_synthetic.shape}")
            continue

        # Dados originais
        X_original = df_original.iloc[:, :-1]
        y_original = df_original.iloc[:, -1]

        # Dados combinados
        combined_df = pd.concat([df_original, df_synthetic], ignore_index=True)
        X_combined = combined_df.iloc[:, :-1]
        y_combined = combined_df.iloc[:, -1]

        # Validação dos dados
        try:
            X_original, y_original = check_X_y(X_original, y_original)
            X_combined, y_combined = check_X_y(X_combined, y_combined)
        except ValueError as e:
            print(f"{name}: Erro de validação dos dados - {e}")
            continue

        # Divisão de treino e teste
        X_train_orig, X_test_orig, y_train_orig, y_test_orig = train_test_split(X_original, y_original, test_size=0.2, random_state=42)
        X_train_comb, X_test_comb, y_train_comb, y_test_comb = train_test_split(X_combined, y_combined, test_size=0.2, random_state=42)

        # Treino e teste para cada configuração
        model_results_original = Parallel(n_jobs=-1)(
            delayed(process_model)(X_train_orig, X_test_orig, y_train_orig, y_test_orig, model_name, model, param_grid, repetitions)
            for model_name, model in models.items()
        )

        model_results_combined = Parallel(n_jobs=-1)(
            delayed(process_model)(X_train_comb, X_test_comb, y_train_comb, y_test_comb, model_name, model, param_grid, repetitions)
            for model_name, model in models.items()
        )

        for model_name, metrics_original, metrics_combined in zip(models.keys(), model_results_original, model_results_combined):
            results[f'{name}_{model_name}_original'] = metrics_original
            results[f'{name}_{model_name}_combined'] = metrics_combined

            print(f"{name} - {model_name} (Original): MAE = {metrics_original['mae']:.4f}, RMSE = {metrics_original['rmse']:.4f}")
            print(f"{name} - {model_name} (Combined): MAE = {metrics_combined['mae']:.4f}, RMSE = {metrics_combined['rmse']:.4f}")

    results_df = pd.DataFrame.from_dict(results, orient='index')
    output_path = os.path.join(output_directory, 'abordagem3-processamento_alisson.xlsx')

    try:
        os.makedirs(output_directory, exist_ok=True)
        results_df.to_excel(output_path)
        print(f"Resultados salvos em '{output_path}'.")
    except Exception as e:
        print(f"Erro ao salvar os resultados: {e}")

# Configuração dos diretórios
output_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados'
data_original_dir = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-50'
data_synthetic_dir = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\3-simulacao\MIMIC-50'

# Carregamento dos dados
data_original = load_datasets(data_original_dir)
data_synthetic = load_datasets(data_synthetic_dir)

if data_original and data_synthetic:
    test_regression_models(data_original, data_synthetic, output_directory, repetitions=30)


tratamento_china: Delimitador detectado - ','
Ignorando arquivo não .txt: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Ignorando arquivo não .txt: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Ignorando arquivo não .txt: tratamento_desharnais_resultados_processamento_simples.xlsx
tratamento_maxwell: Delimitador detectado - ','
Ignorando arquivo não .txt: tratamento_maxwell_resultados_processamento_simples.xlsx
4 arquivos carregados com sucesso de C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-50.
tratamento_china: Delimitador detectado - ','
Ignorando arquivo não .txt: tratamento_china.txt_resultados_alisson.xlsx
Ignorando arquivo não .txt: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Ignorando arquivo

Processando datasets originais: 100%|██████████| 4/4 [00:00<00:00, 280.61it/s]

tratamento_china: Erro de validação dos dados - Input X contains NaN.
tratamento_cocomo81: Erro de validação dos dados - Input X contains NaN.
tratamento_desharnais: Erro de validação dos dados - Input X contains NaN.
tratamento_maxwell: Erro de validação dos dados - Input X contains NaN.
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\abordagem3-processamento_alisson.xlsx'.





# 4 - Software effort estimation modeling and fully connected artificial neural network optimization using soft computing techniques

Divisão: 70 treino e 30 teste

In [23]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.utils.validation import check_X_y
from joblib import Parallel, delayed
from tqdm import tqdm
import numpy as np

# Função para calcular RAE
def calculate_rae(y_true, y_pred):
    return np.sum(np.abs(y_pred - y_true)) / np.sum(np.abs(y_true - np.mean(y_true)))

# Função para calcular RRSE
def calculate_rrse(y_true, y_pred):
    return np.sqrt(np.sum((y_true - y_pred) ** 2) / np.sum((y_true - np.mean(y_true)) ** 2))

# Função para calcular VAF (Variance Accounted For)
def calculate_vaf(y_true, y_pred):
    return 100 * (1 - np.var(y_true - y_pred) / np.var(y_true))

# Função para calcular ED (Euclidean Distance)
def calculate_ed(y_true, y_pred):
    return np.sqrt(np.sum((y_true - y_pred) ** 2))

# Função para calcular MdMRE (Median Magnitude of Relative Error)
def calculate_mdmre(y_true, y_pred):
    return np.median(np.abs((y_true - y_pred) / y_true))

# Função para calcular MD (Mean Deviation)
def calculate_md(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred))

# Função para calcular SA (Standard Accuracy)
def calculate_sa(y_true, y_pred):
    return 100 * (1 - np.mean(np.abs((y_true - y_pred) / y_true)))

# Função para carregar datasets
def load_datasets(directory):
    datasets = {}
    if not os.path.exists(directory):
        print(f"Diretório '{directory}' não encontrado.")
        return datasets

    for file in os.listdir(directory):
        filepath = os.path.join(directory, file)
        filename, ext = os.path.splitext(file)

        try:
            if ext == '.txt':
                with open(filepath, 'r') as f:
                    first_line = f.readline()
                    delimiter = ',' if ',' in first_line else ('\t' if '\t' in first_line else ' ')
                datasets[filename] = pd.read_csv(filepath, delimiter=delimiter)
                print(f"{filename}: Delimitador detectado - '{delimiter}'")
            else:
                print(f"Formato não suportado: {file}")
        except Exception as e:
            print(f"Erro ao carregar {file}: {e}")

    print(f"{len(datasets)} arquivos carregados com sucesso de {directory}.")
    return datasets

# Função para processar um único modelo
def process_model(X_train, X_test, y_train, y_test, model_name, model, param_grid, repetitions):
    metrics = {
        'mae': [], 'rmse': [], 'rae': [], 'rrse': [], 'vaf': [], 'ed': [], 
        'mdmre': [], 'r2': [], 'md': [], 'sa': []
    }

    for _ in range(repetitions):
        grid = GridSearchCV(model, param_grid[model_name], cv=5, scoring='neg_mean_absolute_error', error_score='raise')

        try:
            grid.fit(X_train, y_train)
            best_model = grid.best_estimator_

            # Previsões no conjunto de teste
            y_pred = best_model.predict(X_test)

            # Cálculo das métricas
            mae = mean_absolute_error(y_test, y_pred)
            rmse = np.sqrt(mean_squared_error(y_test, y_pred))
            rae = calculate_rae(y_test, y_pred)
            rrse = calculate_rrse(y_test, y_pred)
            vaf = calculate_vaf(y_test, y_pred)
            ed = calculate_ed(y_test, y_pred)
            mdmre = calculate_mdmre(y_test, y_pred)
            r2 = r2_score(y_test, y_pred)
            md = calculate_md(y_test, y_pred)
            sa = calculate_sa(y_test, y_pred)

            metrics['mae'].append(mae)
            metrics['rmse'].append(rmse)
            metrics['rae'].append(rae)
            metrics['rrse'].append(rrse)
            metrics['vaf'].append(vaf)
            metrics['ed'].append(ed)
            metrics['mdmre'].append(mdmre)
            metrics['r2'].append(r2)
            metrics['md'].append(md)
            metrics['sa'].append(sa)

        except Exception as e:
            print(f"{model_name}: Falha no treinamento - {e}")
            continue

    # Calcular médias das métricas
    return {
        'mae': np.mean(metrics['mae']),
        'rmse': np.mean(metrics['rmse']),
        'rae': np.mean(metrics['rae']),
        'rrse': np.mean(metrics['rrse']),
        'vaf': np.mean(metrics['vaf']),
        'ed': np.mean(metrics['ed']),
        'mdmre': np.mean(metrics['mdmre']),
        'r2': np.mean(metrics['r2']),
        'md': np.mean(metrics['md']),
        'sa': np.mean(metrics['sa']),
        'best_params': grid.best_params_ if 'grid' in locals() else {}
    }

# Função para treinar e testar modelos de regressão
def test_regression_models(data, directory, output_directory, repetitions=30):
    models = {
        'LinearRegression': LinearRegression(),
        'Ridge': Ridge(),
        'RandomForest': RandomForestRegressor(),
    }

    param_grid = {
        'LinearRegression': {},
        'Ridge': {'alpha': [0.1, 1, 10]},
        'RandomForest': {'n_estimators': [50, 100, 200]},
    }

    results = {}

    for name, df in tqdm(data.items(), desc="Processando datasets"):
        df = df.dropna()

        if df.shape[0] < 2 or df.shape[1] < 2:
            print(f"{name}: Dataset insuficiente para treino. Tamanho: {df.shape}")
            continue

        X = df.iloc[:, :-1]
        y = df.iloc[:, -1]

        try:
            X, y = check_X_y(X, y)
        except ValueError as e:
            print(f"{name}: Erro de validação dos dados - {e}")
            continue

        # Divisão dos dados em treinamento (70%) e teste (30%)
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

        # Processar cada modelo em paralelo
        model_results = Parallel(n_jobs=-1)(
            delayed(process_model)(X_train, X_test, y_train, y_test, model_name, model, param_grid, repetitions)
            for model_name, model in models.items()
        )

        # Armazenar resultados
        for model_name, metrics in zip(models.keys(), model_results):
            results[f'{name}_{model_name}'] = metrics
            print(f"{name} - {model_name}: MAE = {metrics['mae']:.4f}, RMSE = {metrics['rmse']:.4f}, "
                  f"RAE = {metrics['rae']:.4f}, RRSE = {metrics['rrse']:.4f}, VAF = {metrics['vaf']:.4f}, "
                  f"ED = {metrics['ed']:.4f}, MdMRE = {metrics['mdmre']:.4f}, R2 = {metrics['r2']:.4f}, "
                  f"MD = {metrics['md']:.4f}, SA = {metrics['sa']:.4f}")

    results_df = pd.DataFrame.from_dict(results, orient='index')
    output_path = os.path.join(output_directory, f'{os.path.basename(directory)}_resultados.xlsx')

    try:
        os.makedirs(output_directory, exist_ok=True)
        results_df.to_excel(output_path)
        print(f"Resultados salvos em '{output_path}'.")
    except Exception as e:
        print(f"Erro ao salvar os resultados: {e}")

# Processamento de múltiplos diretórios
output_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo4'
directories = [
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-25',
]

for directory in tqdm(directories, desc="Processando diretórios"):
    data = load_datasets(directory)
    if data:
        test_regression_models(data, directory, output_directory, repetitions=30)

Processando diretórios:   0%|          | 0/6 [00:00<?, ?it/s]

Formato não suportado: resultado_consolidado_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_kfold.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_kfold.xlsx
4 arquivos carregados com sucesso de C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado.




tratamento_china - LinearRegression: MAE = 0.0071, RMSE = 0.0193, RAE = 0.1285, RRSE = 0.1878, VAF = 96.4804, ED = 0.2364, MdMRE = 0.1163, R2 = 0.9647, MD = 0.0071, SA = 66.9181
tratamento_china - Ridge: MAE = 0.0071, RMSE = 0.0165, RAE = 0.1279, RRSE = 0.1602, VAF = 97.4793, ED = 0.2016, MdMRE = 0.1020, R2 = 0.9743, MD = 0.0071, SA = 72.1575
tratamento_china - RandomForest: MAE = 0.0067, RMSE = 0.0247, RAE = 0.1213, RRSE = 0.2399, VAF = 94.3278, ED = 0.3020, MdMRE = 0.0804, R2 = 0.9424, MD = 0.0067, SA = 90.0225




tratamento_cocomo81 - LinearRegression: MAE = 0.0838, RMSE = 0.1862, RAE = 0.7670, RRSE = 0.8391, VAF = 37.7891, ED = 0.8116, MdMRE = 2.5408, R2 = 0.2960, MD = 0.0838, SA = -52413.8265
tratamento_cocomo81 - Ridge: MAE = 0.0719, RMSE = 0.1907, RAE = 0.6586, RRSE = 0.8596, VAF = 29.9683, ED = 0.8314, MdMRE = 1.9430, R2 = 0.2611, MD = 0.0719, SA = -33221.9616
tratamento_cocomo81 - RandomForest: MAE = 0.0536, RMSE = 0.1517, RAE = 0.4908, RRSE = 0.6836, VAF = 55.6544, ED = 0.6612, MdMRE = 1.1556, R2 = 0.5323, MD = 0.0536, SA = -712.7909




tratamento_desharnais - LinearRegression: MAE = 0.1066, RMSE = 0.1326, RAE = 0.9025, RRSE = 0.8545, VAF = 31.6716, ED = 0.6632, MdMRE = 0.6158, R2 = 0.2698, MD = 0.1066, SA = -inf
tratamento_desharnais - Ridge: MAE = 0.0852, RMSE = 0.1084, RAE = 0.7215, RRSE = 0.6985, VAF = 53.8963, ED = 0.5421, MdMRE = 0.5059, R2 = 0.5121, MD = 0.0852, SA = -inf
tratamento_desharnais - RandomForest: MAE = 0.0840, RMSE = 0.1102, RAE = 0.7114, RRSE = 0.7100, VAF = 49.5980, ED = 0.5510, MdMRE = 0.4498, R2 = 0.4949, MD = 0.0840, SA = -inf


Processando datasets: 100%|██████████| 4/4 [04:38<00:00, 69.66s/it]
Processando diretórios:  17%|█▋        | 1/6 [04:38<23:13, 278.73s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0781, RMSE = 0.1005, RAE = 1.0727, RRSE = 1.0392, VAF = -7.9316, ED = 0.4380, MdMRE = 0.7709, R2 = -0.0799, MD = 0.0781, SA = -inf
tratamento_maxwell - Ridge: MAE = 0.0609, RMSE = 0.0697, RAE = 0.8363, RRSE = 0.7206, VAF = 61.3369, ED = 0.3037, MdMRE = 1.1133, R2 = 0.4808, MD = 0.0609, SA = -inf
tratamento_maxwell - RandomForest: MAE = 0.0504, RMSE = 0.0704, RAE = 0.6926, RRSE = 0.7275, VAF = 50.9538, ED = 0.3067, MdMRE = 0.4439, R2 = 0.4692, MD = 0.0504, SA = -inf
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo4\1-tratamento-target-encoding-normalizado_resultados.xlsx'.
Formato não suportado: resultado_consolidado_variavel.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_kfold.xlsx
t



tratamento_china - LinearRegression: MAE = 0.0002, RMSE = 0.0004, RAE = 0.0039, RRSE = 0.0039, VAF = 99.9985, ED = 0.0049, MdMRE = 0.0034, R2 = 1.0000, MD = 0.0002, SA = 99.2674
tratamento_china - Ridge: MAE = 0.0028, RMSE = 0.0064, RAE = 0.0509, RRSE = 0.0620, VAF = 99.6231, ED = 0.0780, MdMRE = 0.0387, R2 = 0.9962, MD = 0.0028, SA = 90.8593
tratamento_china - RandomForest: MAE = 0.0035, RMSE = 0.0186, RAE = 0.0622, RRSE = 0.1814, VAF = 96.7337, ED = 0.2283, MdMRE = 0.0257, R2 = 0.9670, MD = 0.0035, SA = 96.0626




tratamento_cocomo81 - LinearRegression: MAE = 0.0749, RMSE = 0.1796, RAE = 0.6860, RRSE = 0.8093, VAF = 41.7091, ED = 0.7827, MdMRE = 1.5558, R2 = 0.3451, MD = 0.0749, SA = -42294.4925
tratamento_cocomo81 - Ridge: MAE = 0.0618, RMSE = 0.1725, RAE = 0.5663, RRSE = 0.7774, VAF = 42.9768, ED = 0.7519, MdMRE = 0.8916, R2 = 0.3956, MD = 0.0618, SA = -29885.5317
tratamento_cocomo81 - RandomForest: MAE = 0.0466, RMSE = 0.1368, RAE = 0.4265, RRSE = 0.6164, VAF = 64.2007, ED = 0.5962, MdMRE = 0.6730, R2 = 0.6196, MD = 0.0466, SA = -558.8427




tratamento_desharnais - LinearRegression: MAE = 0.0956, RMSE = 0.1167, RAE = 0.8096, RRSE = 0.7517, VAF = 47.0733, ED = 0.5834, MdMRE = 0.5705, R2 = 0.4350, MD = 0.0956, SA = -inf
tratamento_desharnais - Ridge: MAE = 0.0810, RMSE = 0.1016, RAE = 0.6861, RRSE = 0.6546, VAF = 59.6781, ED = 0.5081, MdMRE = 0.4986, R2 = 0.5715, MD = 0.0810, SA = -inf
tratamento_desharnais - RandomForest: MAE = 0.0810, RMSE = 0.1033, RAE = 0.6858, RRSE = 0.6654, VAF = 55.7286, ED = 0.5164, MdMRE = 0.4219, R2 = 0.5567, MD = 0.0810, SA = -inf


Processando datasets: 100%|██████████| 4/4 [04:41<00:00, 70.39s/it]
Processando diretórios:  33%|███▎      | 2/6 [09:20<18:41, 280.49s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0770, RMSE = 0.1015, RAE = 1.0576, RRSE = 1.0501, VAF = -8.8543, ED = 0.4426, MdMRE = 0.8992, R2 = -0.1028, MD = 0.0770, SA = -inf
tratamento_maxwell - Ridge: MAE = 0.0421, RMSE = 0.0487, RAE = 0.5784, RRSE = 0.5035, VAF = 81.0312, ED = 0.2122, MdMRE = 0.6988, R2 = 0.7465, MD = 0.0421, SA = -inf
tratamento_maxwell - RandomForest: MAE = 0.0406, RMSE = 0.0552, RAE = 0.5575, RRSE = 0.5704, VAF = 68.5188, ED = 0.2404, MdMRE = 0.5001, R2 = 0.6736, MD = 0.0406, SA = -inf
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo4\MIMIC-25_resultados.xlsx'.
Formato não suportado: resultado_consolidado_correlacao_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_s



tratamento_china - LinearRegression: MAE = 0.0082, RMSE = 0.0168, RAE = 0.1471, RRSE = 0.1631, VAF = 97.3947, ED = 0.2053, MdMRE = 0.1352, R2 = 0.9734, MD = 0.0082, SA = 66.5369
tratamento_china - Ridge: MAE = 0.0088, RMSE = 0.0180, RAE = 0.1577, RRSE = 0.1755, VAF = 96.9645, ED = 0.2209, MdMRE = 0.1440, R2 = 0.9692, MD = 0.0088, SA = 64.0361
tratamento_china - RandomForest: MAE = 0.0067, RMSE = 0.0248, RAE = 0.1209, RRSE = 0.2410, VAF = 94.2707, ED = 0.3034, MdMRE = 0.0815, R2 = 0.9419, MD = 0.0067, SA = 89.9620




tratamento_cocomo81 - LinearRegression: MAE = 0.0838, RMSE = 0.1862, RAE = 0.7670, RRSE = 0.8391, VAF = 37.7891, ED = 0.8116, MdMRE = 2.5408, R2 = 0.2960, MD = 0.0838, SA = -52413.8265
tratamento_cocomo81 - Ridge: MAE = 0.0719, RMSE = 0.1907, RAE = 0.6586, RRSE = 0.8596, VAF = 29.9683, ED = 0.8314, MdMRE = 1.9430, R2 = 0.2611, MD = 0.0719, SA = -33221.9616
tratamento_cocomo81 - RandomForest: MAE = 0.0535, RMSE = 0.1528, RAE = 0.4901, RRSE = 0.6887, VAF = 55.0781, ED = 0.6662, MdMRE = 1.0180, R2 = 0.5252, MD = 0.0535, SA = -723.0058




tratamento_desharnais - LinearRegression: MAE = 0.1066, RMSE = 0.1326, RAE = 0.9025, RRSE = 0.8545, VAF = 31.6716, ED = 0.6632, MdMRE = 0.6158, R2 = 0.2698, MD = 0.1066, SA = -inf
tratamento_desharnais - Ridge: MAE = 0.0852, RMSE = 0.1084, RAE = 0.7215, RRSE = 0.6985, VAF = 53.8963, ED = 0.5421, MdMRE = 0.5059, R2 = 0.5121, MD = 0.0852, SA = -inf
tratamento_desharnais - RandomForest: MAE = 0.0832, RMSE = 0.1092, RAE = 0.7051, RRSE = 0.7034, VAF = 50.5251, ED = 0.5459, MdMRE = 0.4441, R2 = 0.5046, MD = 0.0832, SA = -inf


Processando datasets: 100%|██████████| 4/4 [03:48<00:00, 57.04s/it]
Processando diretórios:  50%|█████     | 3/6 [13:08<12:50, 256.67s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0781, RMSE = 0.1005, RAE = 1.0727, RRSE = 1.0392, VAF = -7.9316, ED = 0.4380, MdMRE = 0.7709, R2 = -0.0799, MD = 0.0781, SA = -inf
tratamento_maxwell - Ridge: MAE = 0.0609, RMSE = 0.0697, RAE = 0.8363, RRSE = 0.7206, VAF = 61.3369, ED = 0.3037, MdMRE = 1.1133, R2 = 0.4808, MD = 0.0609, SA = -inf
tratamento_maxwell - RandomForest: MAE = 0.0513, RMSE = 0.0720, RAE = 0.7048, RRSE = 0.7448, VAF = 48.6938, ED = 0.3139, MdMRE = 0.4516, R2 = 0.4425, MD = 0.0513, SA = -inf
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo4\1-tratamento_resultados.xlsx'.
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Forma



tratamento_china - LinearRegression: MAE = 0.0082, RMSE = 0.0171, RAE = 0.1471, RRSE = 0.1661, VAF = 97.2972, ED = 0.2091, MdMRE = 0.1384, R2 = 0.9724, MD = 0.0082, SA = 68.9126
tratamento_china - Ridge: MAE = 0.0088, RMSE = 0.0188, RAE = 0.1588, RRSE = 0.1832, VAF = 96.6929, ED = 0.2306, MdMRE = 0.1466, R2 = 0.9664, MD = 0.0088, SA = 69.6723
tratamento_china - RandomForest: MAE = 0.0067, RMSE = 0.0244, RAE = 0.1212, RRSE = 0.2372, VAF = 94.4452, ED = 0.2986, MdMRE = 0.0805, R2 = 0.9436, MD = 0.0067, SA = 90.0582




tratamento_cocomo81 - LinearRegression: MAE = 0.0746, RMSE = 0.1785, RAE = 0.6833, RRSE = 0.8043, VAF = 42.2858, ED = 0.7780, MdMRE = 1.9381, R2 = 0.3530, MD = 0.0746, SA = -39277.8467
tratamento_cocomo81 - Ridge: MAE = 0.0627, RMSE = 0.1748, RAE = 0.5744, RRSE = 0.7875, VAF = 41.3322, ED = 0.7617, MdMRE = 1.1959, R2 = 0.3798, MD = 0.0627, SA = -31835.7009
tratamento_cocomo81 - RandomForest: MAE = 0.0462, RMSE = 0.1372, RAE = 0.4225, RRSE = 0.6185, VAF = 63.9310, ED = 0.5982, MdMRE = 0.6739, R2 = 0.6171, MD = 0.0462, SA = -514.3624




tratamento_desharnais - LinearRegression: MAE = 0.0956, RMSE = 0.1167, RAE = 0.8096, RRSE = 0.7517, VAF = 47.0733, ED = 0.5834, MdMRE = 0.5705, R2 = 0.4350, MD = 0.0956, SA = -inf
tratamento_desharnais - Ridge: MAE = 0.0810, RMSE = 0.1016, RAE = 0.6861, RRSE = 0.6546, VAF = 59.6781, ED = 0.5081, MdMRE = 0.4986, R2 = 0.5715, MD = 0.0810, SA = -inf
tratamento_desharnais - RandomForest: MAE = 0.0800, RMSE = 0.1026, RAE = 0.6775, RRSE = 0.6611, VAF = 56.3461, ED = 0.5131, MdMRE = 0.4127, R2 = 0.5625, MD = 0.0800, SA = -inf


Processando datasets: 100%|██████████| 4/4 [03:45<00:00, 56.36s/it]
Processando diretórios:  67%|██████▋   | 4/6 [16:54<08:08, 244.39s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0830, RMSE = 0.1050, RAE = 1.1402, RRSE = 1.0856, VAF = -17.0102, ED = 0.4576, MdMRE = 1.2894, R2 = -0.1786, MD = 0.0830, SA = -inf
tratamento_maxwell - Ridge: MAE = 0.0283, RMSE = 0.0391, RAE = 0.3884, RRSE = 0.4040, VAF = 85.5155, ED = 0.1703, MdMRE = 0.3091, R2 = 0.8368, MD = 0.0283, SA = -inf
tratamento_maxwell - RandomForest: MAE = 0.0465, RMSE = 0.0624, RAE = 0.6388, RRSE = 0.6455, VAF = 60.0851, ED = 0.2721, MdMRE = 0.4507, R2 = 0.5825, MD = 0.0465, SA = -inf
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo4\MIMIC-25_resultados.xlsx'.
Formato não suportado: resultado_consolidado_select_50_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_s



tratamento_china - LinearRegression: MAE = 0.0077, RMSE = 0.0168, RAE = 0.1381, RRSE = 0.1630, VAF = 97.3745, ED = 0.2052, MdMRE = 0.1198, R2 = 0.9734, MD = 0.0077, SA = 77.6497
tratamento_china - Ridge: MAE = 0.0079, RMSE = 0.0175, RAE = 0.1418, RRSE = 0.1706, VAF = 97.1060, ED = 0.2148, MdMRE = 0.1215, R2 = 0.9709, MD = 0.0079, SA = 75.7907
tratamento_china - RandomForest: MAE = 0.0066, RMSE = 0.0242, RAE = 0.1191, RRSE = 0.2355, VAF = 94.5327, ED = 0.2965, MdMRE = 0.0759, R2 = 0.9445, MD = 0.0066, SA = 90.0712




tratamento_cocomo81 - LinearRegression: MAE = 0.0722, RMSE = 0.1776, RAE = 0.6612, RRSE = 0.8003, VAF = 40.4238, ED = 0.7741, MdMRE = 1.5691, R2 = 0.3596, MD = 0.0722, SA = -50417.5727
tratamento_cocomo81 - Ridge: MAE = 0.0722, RMSE = 0.1783, RAE = 0.6607, RRSE = 0.8033, VAF = 39.6751, ED = 0.7770, MdMRE = 1.5069, R2 = 0.3547, MD = 0.0722, SA = -49429.4891
tratamento_cocomo81 - RandomForest: MAE = 0.0521, RMSE = 0.1443, RAE = 0.4770, RRSE = 0.6502, VAF = 59.9377, ED = 0.6289, MdMRE = 1.0848, R2 = 0.5768, MD = 0.0521, SA = -746.0113




tratamento_desharnais - LinearRegression: MAE = 0.0870, RMSE = 0.1206, RAE = 0.7368, RRSE = 0.7768, VAF = 40.9708, ED = 0.6029, MdMRE = 0.4518, R2 = 0.3966, MD = 0.0870, SA = -inf
tratamento_desharnais - Ridge: MAE = 0.0825, RMSE = 0.1160, RAE = 0.6985, RRSE = 0.7474, VAF = 44.4588, ED = 0.5800, MdMRE = 0.3731, R2 = 0.4414, MD = 0.0825, SA = -inf
tratamento_desharnais - RandomForest: MAE = 0.0918, RMSE = 0.1217, RAE = 0.7778, RRSE = 0.7842, VAF = 39.2377, ED = 0.6086, MdMRE = 0.4637, R2 = 0.3846, MD = 0.0918, SA = -inf


Processando datasets: 100%|██████████| 4/4 [03:20<00:00, 50.22s/it]
Processando diretórios:  83%|████████▎ | 5/6 [20:15<03:48, 228.75s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0380, RMSE = 0.0521, RAE = 0.5223, RRSE = 0.5384, VAF = 71.9867, ED = 0.2269, MdMRE = 0.9316, R2 = 0.7101, MD = 0.0380, SA = -inf
tratamento_maxwell - Ridge: MAE = 0.0331, RMSE = 0.0418, RAE = 0.4547, RRSE = 0.4324, VAF = 85.4019, ED = 0.1822, MdMRE = 0.6087, R2 = 0.8130, MD = 0.0331, SA = -inf
tratamento_maxwell - RandomForest: MAE = 0.0484, RMSE = 0.0703, RAE = 0.6644, RRSE = 0.7275, VAF = 49.3629, ED = 0.3066, MdMRE = 0.5497, R2 = 0.4691, MD = 0.0484, SA = -inf
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo4\1-tratamento-target-encoding-normalizado_resultados.xlsx'.
Formato não suportado: resultado_consolidado_select_50_geracao.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81



tratamento_china - LinearRegression: MAE = 0.0010, RMSE = 0.0014, RAE = 0.0182, RRSE = 0.0136, VAF = 99.9816, ED = 0.0171, MdMRE = 0.0265, R2 = 0.9998, MD = 0.0010, SA = 90.4306
tratamento_china - Ridge: MAE = 0.0034, RMSE = 0.0066, RAE = 0.0609, RRSE = 0.0647, VAF = 99.5857, ED = 0.0814, MdMRE = 0.0604, R2 = 0.9958, MD = 0.0034, SA = 83.6306
tratamento_china - RandomForest: MAE = 0.0033, RMSE = 0.0176, RAE = 0.0594, RRSE = 0.1710, VAF = 97.0982, ED = 0.2153, MdMRE = 0.0249, R2 = 0.9707, MD = 0.0033, SA = 96.0820




tratamento_cocomo81 - LinearRegression: MAE = 0.0748, RMSE = 0.1754, RAE = 0.6852, RRSE = 0.7902, VAF = 40.7465, ED = 0.7643, MdMRE = 2.5379, R2 = 0.3755, MD = 0.0748, SA = -25791.8950
tratamento_cocomo81 - Ridge: MAE = 0.0675, RMSE = 0.1696, RAE = 0.6182, RRSE = 0.7645, VAF = 43.7140, ED = 0.7394, MdMRE = 2.4244, R2 = 0.4156, MD = 0.0675, SA = -23014.8546
tratamento_cocomo81 - RandomForest: MAE = 0.0465, RMSE = 0.1378, RAE = 0.4259, RRSE = 0.6210, VAF = 63.6507, ED = 0.6006, MdMRE = 0.6968, R2 = 0.6136, MD = 0.0465, SA = -514.9988




tratamento_desharnais - LinearRegression: MAE = 0.0854, RMSE = 0.1198, RAE = 0.7232, RRSE = 0.7716, VAF = 41.1911, ED = 0.5989, MdMRE = 0.3829, R2 = 0.4046, MD = 0.0854, SA = -inf
tratamento_desharnais - Ridge: MAE = 0.0835, RMSE = 0.1182, RAE = 0.7071, RRSE = 0.7616, VAF = 42.7859, ED = 0.5911, MdMRE = 0.4351, R2 = 0.4200, MD = 0.0835, SA = -inf
tratamento_desharnais - RandomForest: MAE = 0.0863, RMSE = 0.1177, RAE = 0.7311, RRSE = 0.7581, VAF = 42.7784, ED = 0.5884, MdMRE = 0.3960, R2 = 0.4249, MD = 0.0863, SA = -inf


Processando datasets: 100%|██████████| 4/4 [03:42<00:00, 55.73s/it]
Processando diretórios: 100%|██████████| 6/6 [23:58<00:00, 239.74s/it]

tratamento_maxwell - LinearRegression: MAE = 0.0589, RMSE = 0.0864, RAE = 0.8089, RRSE = 0.8933, VAF = 28.2444, ED = 0.3765, MdMRE = 0.4852, R2 = 0.2020, MD = 0.0589, SA = -inf
tratamento_maxwell - Ridge: MAE = 0.0296, RMSE = 0.0441, RAE = 0.4062, RRSE = 0.4561, VAF = 81.5303, ED = 0.1923, MdMRE = 0.4120, R2 = 0.7919, MD = 0.0296, SA = -inf
tratamento_maxwell - RandomForest: MAE = 0.0401, RMSE = 0.0559, RAE = 0.5515, RRSE = 0.5777, VAF = 67.0111, ED = 0.2435, MdMRE = 0.4701, R2 = 0.6656, MD = 0.0401, SA = -inf
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo4\MIMIC-25_resultados.xlsx'.





# 5 - Recommendation of Machine Learning Techniques for Software Effort Estimation using Multi-Criteria Decision Making

Divisão: 70-30

In [24]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.utils.validation import check_X_y
from joblib import Parallel, delayed
from tqdm import tqdm
import numpy as np
from scipy.stats import pearsonr

# Função para calcular MMRE (Mean Magnitude of Relative Error)
def calculate_mmre(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred) / y_true))

# Função para calcular MDARE (Median of Absolute Residual Error)
def calculate_mdare(y_true, y_pred):
    return np.median(np.abs(y_true - y_pred))

# Função para calcular MBRE (Mean Balanced Relative Error)
def calculate_mbre(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred) / np.minimum(y_true, y_pred))

# Função para calcular PRED (0.25)
def calculate_pred(y_true, y_pred, threshold=0.25):
    relative_errors = np.abs((y_true - y_pred) / y_true)
    return np.mean(relative_errors <= threshold)

# Função para carregar datasets
def load_datasets(directory):
    datasets = {}
    if not os.path.exists(directory):
        print(f"Diretório '{directory}' não encontrado.")
        return datasets

    for file in os.listdir(directory):
        filepath = os.path.join(directory, file)
        filename, ext = os.path.splitext(file)

        try:
            if ext == '.txt':
                with open(filepath, 'r') as f:
                    first_line = f.readline()
                    delimiter = ',' if ',' in first_line else ('\t' if '\t' in first_line else ' ')
                datasets[filename] = pd.read_csv(filepath, delimiter=delimiter)
                print(f"{filename}: Delimitador detectado - '{delimiter}'")
            else:
                print(f"Formato não suportado: {file}")
        except Exception as e:
            print(f"Erro ao carregar {file}: {e}")

    print(f"{len(datasets)} arquivos carregados com sucesso de {directory}.")
    return datasets

# Função para processar um único modelo
def process_model(X_train, X_test, y_train, y_test, model_name, model, param_grid, repetitions):
    metrics = {
        'rmse': [], 'mmre': [], 'mdare': [], 'mbre': [], 
        'pearson_r': [], 'pred_025': []
    }

    for _ in range(repetitions):
        grid = GridSearchCV(model, param_grid[model_name], cv=5, scoring='neg_mean_absolute_error', error_score='raise')

        try:
            grid.fit(X_train, y_train)
            best_model = grid.best_estimator_

            # Previsões no conjunto de teste
            y_pred = best_model.predict(X_test)

            # Cálculo das métricas
            rmse = np.sqrt(mean_squared_error(y_test, y_pred))
            mmre = calculate_mmre(y_test, y_pred)
            mdare = calculate_mdare(y_test, y_pred)
            mbre = calculate_mbre(y_test, y_pred)
            pearson_r, _ = pearsonr(y_test, y_pred)
            pred_025 = calculate_pred(y_test, y_pred)

            metrics['rmse'].append(rmse)
            metrics['mmre'].append(mmre)
            metrics['mdare'].append(mdare)
            metrics['mbre'].append(mbre)
            metrics['pearson_r'].append(pearson_r)
            metrics['pred_025'].append(pred_025)

        except Exception as e:
            print(f"{model_name}: Falha no treinamento - {e}")
            continue

    # Calcular médias das métricas
    return {
        'rmse': np.mean(metrics['rmse']),
        'mmre': np.mean(metrics['mmre']),
        'mdare': np.mean(metrics['mdare']),
        'mbre': np.mean(metrics['mbre']),
        'pearson_r': np.mean(metrics['pearson_r']),
        'pred_025': np.mean(metrics['pred_025']),
        'best_params': grid.best_params_ if 'grid' in locals() else {}
    }

# Função para treinar e testar modelos de regressão
def test_regression_models(data, directory, output_directory, repetitions=30):
    models = {
        'LinearRegression': LinearRegression(),
        'Ridge': Ridge(),
        'RandomForest': RandomForestRegressor(),
    }

    param_grid = {
        'LinearRegression': {},
        'Ridge': {'alpha': [0.1, 1, 10]},
        'RandomForest': {'n_estimators': [50, 100, 200]},
    }

    results = {}

    for name, df in tqdm(data.items(), desc="Processando datasets"):
        df = df.dropna()

        if df.shape[0] < 2 or df.shape[1] < 2:
            print(f"{name}: Dataset insuficiente para treino. Tamanho: {df.shape}")
            continue

        X = df.iloc[:, :-1]
        y = df.iloc[:, -1]

        try:
            X, y = check_X_y(X, y)
        except ValueError as e:
            print(f"{name}: Erro de validação dos dados - {e}")
            continue

        # Divisão dos dados em treinamento (80%) e teste (20%)
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

        # Processar cada modelo em paralelo
        model_results = Parallel(n_jobs=-1)(
            delayed(process_model)(X_train, X_test, y_train, y_test, model_name, model, param_grid, repetitions)
            for model_name, model in models.items()
        )

        # Armazenar resultados
        for model_name, metrics in zip(models.keys(), model_results):
            results[f'{name}_{model_name}'] = metrics
            print(f"{name} - {model_name}: RMSE = {metrics['rmse']:.4f}, MMRE = {metrics['mmre']:.4f}, "
                  f"MDARE = {metrics['mdare']:.4f}, MBRE = {metrics['mbre']:.4f}, "
                  f"Pearson r = {metrics['pearson_r']:.4f}, PRED(0.25) = {metrics['pred_025']:.4f}")

    results_df = pd.DataFrame.from_dict(results, orient='index')
    output_path = os.path.join(output_directory, f'{os.path.basename(directory)}_resultados.xlsx')

    try:
        os.makedirs(output_directory, exist_ok=True)
        results_df.to_excel(output_path)
        print(f"Resultados salvos em '{output_path}'.")
    except Exception as e:
        print(f"Erro ao salvar os resultados: {e}")

# Processamento de múltiplos diretórios
output_directory = r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo5'
directories = [
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\2-geracao-variaveis\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\1-tratamento',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\correlacao\2-geracao\MIMIC-25',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\1-tratamento-target-encoding-normalizado',
    r'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\4-escolha\selectKbest\50\2-geracao-variaveis\MIMIC-25',
]

for directory in tqdm(directories, desc="Processando diretórios"):
    data = load_datasets(directory)
    if data:
        test_regression_models(data, directory, output_directory, repetitions=30)

Processando diretórios:   0%|          | 0/6 [00:00<?, ?it/s]

Formato não suportado: resultado_consolidado_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_kfold.xlsx
tratamento_maxwell: Delimitador detectado - ','
Formato não suportado: tratamento_maxwell_resultados_kfold.xlsx
4 arquivos carregados com sucesso de C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\abordagem2\saida\1-tratamento-target-encoding-normalizado.




tratamento_china - LinearRegression: RMSE = 0.0233, MMRE = 0.4073, MDARE = 0.0038, MBRE = 0.2878, Pearson r = 0.9736, PRED(0.25) = 0.7100
tratamento_china - Ridge: RMSE = 0.0158, MMRE = 0.2881, MDARE = 0.0024, MBRE = 0.5017, Pearson r = 0.9944, PRED(0.25) = 0.7800
tratamento_china - RandomForest: RMSE = 0.0288, MMRE = 0.1114, MDARE = 0.0018, MBRE = 0.1182, Pearson r = 0.9840, PRED(0.25) = 0.9687




tratamento_cocomo81 - LinearRegression: RMSE = 0.1587, MMRE = 1634.3269, MDARE = 0.1100, MBRE = 10.8253, Pearson r = 0.4177, PRED(0.25) = 0.0769
tratamento_cocomo81 - Ridge: RMSE = 0.0608, MMRE = 1044.0256, MDARE = 0.0553, MBRE = 23.3034, Pearson r = 0.6967, PRED(0.25) = 0.2308
tratamento_cocomo81 - RandomForest: RMSE = 0.0426, MMRE = 9.2042, MDARE = 0.0080, MBRE = 9.5483, Pearson r = 0.5580, PRED(0.25) = 0.1154




tratamento_desharnais - LinearRegression: RMSE = 0.1102, MMRE = inf, MDARE = 0.0633, MBRE = -0.0825, Pearson r = 0.7754, PRED(0.25) = 0.2353
tratamento_desharnais - Ridge: RMSE = 0.1019, MMRE = inf, MDARE = 0.0642, MBRE = -5.2666, Pearson r = 0.7783, PRED(0.25) = 0.2941
tratamento_desharnais - RandomForest: RMSE = 0.0911, MMRE = inf, MDARE = 0.0590, MBRE = inf, Pearson r = 0.8176, PRED(0.25) = 0.2333


Processando datasets: 100%|██████████| 4/4 [07:31<00:00, 112.75s/it]
Processando diretórios:  17%|█▋        | 1/6 [07:31<37:35, 451.15s/it]

tratamento_maxwell - LinearRegression: RMSE = 0.0593, MMRE = 2.3644, MDARE = 0.0335, MBRE = 1.4040, Pearson r = 0.6791, PRED(0.25) = 0.3077
tratamento_maxwell - Ridge: RMSE = 0.0330, MMRE = 0.7488, MDARE = 0.0194, MBRE = 1.3765, Pearson r = 0.9214, PRED(0.25) = 0.3077
tratamento_maxwell - RandomForest: RMSE = 0.0699, MMRE = 1.4020, MDARE = 0.0166, MBRE = 1.4306, Pearson r = 0.7465, PRED(0.25) = 0.3974
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo5\1-tratamento-target-encoding-normalizado_resultados.xlsx'.
Formato não suportado: resultado_consolidado_variavel.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_kfold.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_kfold.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_kfold.



tratamento_china - LinearRegression: RMSE = 0.0004, MMRE = 0.0080, MDARE = 0.0001, MBRE = 0.0081, Pearson r = 1.0000, PRED(0.25) = 1.0000
tratamento_china - Ridge: RMSE = 0.0057, MMRE = 0.0835, MDARE = 0.0008, MBRE = 0.1202, Pearson r = 0.9994, PRED(0.25) = 0.9100
tratamento_china - RandomForest: RMSE = 0.0223, MMRE = 0.0441, MDARE = 0.0007, MBRE = 0.0473, Pearson r = 0.9880, PRED(0.25) = 0.9910




tratamento_cocomo81 - LinearRegression: RMSE = 0.1402, MMRE = 1063.8417, MDARE = 0.0960, MBRE = 2.3040, Pearson r = 0.6716, PRED(0.25) = 0.0769
tratamento_cocomo81 - Ridge: RMSE = 0.0614, MMRE = 905.2251, MDARE = 0.0493, MBRE = 14.0278, Pearson r = 0.8310, PRED(0.25) = 0.1538
tratamento_cocomo81 - RandomForest: RMSE = 0.0354, MMRE = 8.1420, MDARE = 0.0070, MBRE = 8.3980, Pearson r = 0.8469, PRED(0.25) = 0.0897




tratamento_desharnais - LinearRegression: RMSE = 0.1017, MMRE = inf, MDARE = 0.0692, MBRE = 0.3910, Pearson r = 0.7982, PRED(0.25) = 0.1765
tratamento_desharnais - Ridge: RMSE = 0.0975, MMRE = inf, MDARE = 0.0602, MBRE = 0.6913, Pearson r = 0.7985, PRED(0.25) = 0.2941
tratamento_desharnais - RandomForest: RMSE = 0.0887, MMRE = inf, MDARE = 0.0589, MBRE = inf, Pearson r = 0.8265, PRED(0.25) = 0.2294


Processando datasets: 100%|██████████| 4/4 [08:33<00:00, 128.43s/it]
Processando diretórios:  33%|███▎      | 2/6 [16:05<32:32, 488.06s/it]

tratamento_maxwell - LinearRegression: RMSE = 0.0915, MMRE = 3.3777, MDARE = 0.0513, MBRE = 1.8099, Pearson r = 0.6372, PRED(0.25) = 0.1538
tratamento_maxwell - Ridge: RMSE = 0.0444, MMRE = 1.1268, MDARE = 0.0186, MBRE = 1.2490, Pearson r = 0.8492, PRED(0.25) = 0.4615
tratamento_maxwell - RandomForest: RMSE = 0.0561, MMRE = 1.3951, MDARE = 0.0268, MBRE = 1.4544, Pearson r = 0.7665, PRED(0.25) = 0.2949
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo5\MIMIC-25_resultados.xlsx'.
Formato não suportado: resultado_consolidado_correlacao_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resu



tratamento_china - LinearRegression: RMSE = 0.0169, MMRE = 0.3659, MDARE = 0.0035, MBRE = 0.3855, Pearson r = 0.9923, PRED(0.25) = 0.6800
tratamento_china - Ridge: RMSE = 0.0182, MMRE = 0.3894, MDARE = 0.0036, MBRE = -0.0928, Pearson r = 0.9905, PRED(0.25) = 0.6800
tratamento_china - RandomForest: RMSE = 0.0288, MMRE = 0.1115, MDARE = 0.0017, MBRE = 0.1190, Pearson r = 0.9838, PRED(0.25) = 0.9720




tratamento_cocomo81 - LinearRegression: RMSE = 0.1587, MMRE = 1634.3269, MDARE = 0.1100, MBRE = 10.8253, Pearson r = 0.4177, PRED(0.25) = 0.0769
tratamento_cocomo81 - Ridge: RMSE = 0.0608, MMRE = 1044.0256, MDARE = 0.0553, MBRE = 23.3034, Pearson r = 0.6967, PRED(0.25) = 0.2308
tratamento_cocomo81 - RandomForest: RMSE = 0.0424, MMRE = 9.6878, MDARE = 0.0082, MBRE = 10.0307, Pearson r = 0.5628, PRED(0.25) = 0.1026




tratamento_desharnais - LinearRegression: RMSE = 0.1102, MMRE = inf, MDARE = 0.0633, MBRE = -0.0825, Pearson r = 0.7754, PRED(0.25) = 0.2353
tratamento_desharnais - Ridge: RMSE = 0.1019, MMRE = inf, MDARE = 0.0642, MBRE = -5.2666, Pearson r = 0.7783, PRED(0.25) = 0.2941
tratamento_desharnais - RandomForest: RMSE = 0.0906, MMRE = inf, MDARE = 0.0594, MBRE = inf, Pearson r = 0.8201, PRED(0.25) = 0.2235


Processando datasets: 100%|██████████| 4/4 [04:08<00:00, 62.15s/it]
Processando diretórios:  50%|█████     | 3/6 [20:13<18:56, 378.78s/it]

tratamento_maxwell - LinearRegression: RMSE = 0.0593, MMRE = 2.3644, MDARE = 0.0335, MBRE = 1.4040, Pearson r = 0.6791, PRED(0.25) = 0.3077
tratamento_maxwell - Ridge: RMSE = 0.0330, MMRE = 0.7488, MDARE = 0.0194, MBRE = 1.3765, Pearson r = 0.9214, PRED(0.25) = 0.3077
tratamento_maxwell - RandomForest: RMSE = 0.0692, MMRE = 1.3832, MDARE = 0.0160, MBRE = 1.4108, Pearson r = 0.7528, PRED(0.25) = 0.3923
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo5\1-tratamento_resultados.xlsx'.
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resultados_processamento_simples.xlsx
tratamento_maxwell: Delimitador de



tratamento_china - LinearRegression: RMSE = 0.0170, MMRE = 0.3529, MDARE = 0.0033, MBRE = 0.2335, Pearson r = 0.9922, PRED(0.25) = 0.7000
tratamento_china - Ridge: RMSE = 0.0188, MMRE = 0.3308, MDARE = 0.0033, MBRE = -0.5525, Pearson r = 0.9900, PRED(0.25) = 0.7300
tratamento_china - RandomForest: RMSE = 0.0289, MMRE = 0.1109, MDARE = 0.0017, MBRE = 0.1184, Pearson r = 0.9838, PRED(0.25) = 0.9717




tratamento_cocomo81 - LinearRegression: RMSE = 0.1413, MMRE = 1162.7630, MDARE = 0.1005, MBRE = 1.6784, Pearson r = 0.6715, PRED(0.25) = 0.0769
tratamento_cocomo81 - Ridge: RMSE = 0.0629, MMRE = 954.7196, MDARE = 0.0503, MBRE = 14.4124, Pearson r = 0.8337, PRED(0.25) = 0.1538
tratamento_cocomo81 - RandomForest: RMSE = 0.0346, MMRE = 8.4933, MDARE = 0.0077, MBRE = 8.7231, Pearson r = 0.8493, PRED(0.25) = 0.0923




tratamento_desharnais - LinearRegression: RMSE = 0.1017, MMRE = inf, MDARE = 0.0692, MBRE = 0.3910, Pearson r = 0.7982, PRED(0.25) = 0.1765
tratamento_desharnais - Ridge: RMSE = 0.0975, MMRE = inf, MDARE = 0.0602, MBRE = 0.6913, Pearson r = 0.7985, PRED(0.25) = 0.2941
tratamento_desharnais - RandomForest: RMSE = 0.0896, MMRE = inf, MDARE = 0.0584, MBRE = inf, Pearson r = 0.8209, PRED(0.25) = 0.2235


Processando datasets: 100%|██████████| 4/4 [04:45<00:00, 71.43s/it]
Processando diretórios:  67%|██████▋   | 4/6 [24:59<11:24, 342.10s/it]

tratamento_maxwell - LinearRegression: RMSE = 0.0931, MMRE = 2.4936, MDARE = 0.0563, MBRE = 1.2787, Pearson r = 0.5992, PRED(0.25) = 0.0769
tratamento_maxwell - Ridge: RMSE = 0.0415, MMRE = 0.9943, MDARE = 0.0177, MBRE = 1.1547, Pearson r = 0.8698, PRED(0.25) = 0.3846
tratamento_maxwell - RandomForest: RMSE = 0.0661, MMRE = 1.3423, MDARE = 0.0266, MBRE = 1.3877, Pearson r = 0.7421, PRED(0.25) = 0.2000
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo5\MIMIC-25_resultados.xlsx'.
Formato não suportado: resultado_consolidado_select_50_tratamento.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suportado: tratamento_desharnais_resul



tratamento_china - LinearRegression: RMSE = 0.0161, MMRE = 0.2104, MDARE = 0.0026, MBRE = 0.3167, Pearson r = 0.9956, PRED(0.25) = 0.7600
tratamento_china - Ridge: RMSE = 0.0173, MMRE = 0.2417, MDARE = 0.0030, MBRE = 0.2848, Pearson r = 0.9941, PRED(0.25) = 0.7300
tratamento_china - RandomForest: RMSE = 0.0287, MMRE = 0.1094, MDARE = 0.0015, MBRE = 0.1160, Pearson r = 0.9847, PRED(0.25) = 0.9663




tratamento_cocomo81 - LinearRegression: RMSE = 0.0633, MMRE = 1002.9499, MDARE = 0.0496, MBRE = 29.0422, Pearson r = 0.6702, PRED(0.25) = 0.1538
tratamento_cocomo81 - Ridge: RMSE = 0.0556, MMRE = 867.1737, MDARE = 0.0347, MBRE = 29.1910, Pearson r = 0.6857, PRED(0.25) = 0.1538
tratamento_cocomo81 - RandomForest: RMSE = 0.0439, MMRE = 10.5798, MDARE = 0.0098, MBRE = 10.9560, Pearson r = 0.4865, PRED(0.25) = 0.1026




tratamento_desharnais - LinearRegression: RMSE = 0.1060, MMRE = inf, MDARE = 0.0588, MBRE = 3.3069, Pearson r = 0.7586, PRED(0.25) = 0.2941
tratamento_desharnais - Ridge: RMSE = 0.1070, MMRE = inf, MDARE = 0.0675, MBRE = inf, Pearson r = 0.7638, PRED(0.25) = 0.2941
tratamento_desharnais - RandomForest: RMSE = 0.1063, MMRE = inf, MDARE = 0.0609, MBRE = inf, Pearson r = 0.7401, PRED(0.25) = 0.1941


Processando datasets: 100%|██████████| 4/4 [06:18<00:00, 94.60s/it]
Processando diretórios:  83%|████████▎ | 5/6 [31:18<05:55, 355.24s/it]

tratamento_maxwell - LinearRegression: RMSE = 0.0503, MMRE = 1.1724, MDARE = 0.0219, MBRE = -11.6694, Pearson r = 0.8694, PRED(0.25) = 0.3846
tratamento_maxwell - Ridge: RMSE = 0.0431, MMRE = 1.0461, MDARE = 0.0197, MBRE = 0.3754, Pearson r = 0.9147, PRED(0.25) = 0.3077
tratamento_maxwell - RandomForest: RMSE = 0.0790, MMRE = 1.1600, MDARE = 0.0175, MBRE = 1.1915, Pearson r = 0.7451, PRED(0.25) = 0.3538
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo5\1-tratamento-target-encoding-normalizado_resultados.xlsx'.
Formato não suportado: resultado_consolidado_select_50_geracao.xlsx
tratamento_china: Delimitador detectado - ','
Formato não suportado: tratamento_china_resultados_processamento_simples.xlsx
tratamento_cocomo81: Delimitador detectado - ','
Formato não suportado: tratamento_cocomo81_resultados_processamento_simples.xlsx
tratamento_desharnais: Delimitador detectado - ','
Formato não suporta



tratamento_china - LinearRegression: RMSE = 0.0013, MMRE = 0.1008, MDARE = 0.0008, MBRE = 0.1026, Pearson r = 0.9999, PRED(0.25) = 0.8900
tratamento_china - Ridge: RMSE = 0.0059, MMRE = 0.1545, MDARE = 0.0016, MBRE = 0.1554, Pearson r = 0.9995, PRED(0.25) = 0.8300
tratamento_china - RandomForest: RMSE = 0.0208, MMRE = 0.0441, MDARE = 0.0007, MBRE = 0.0473, Pearson r = 0.9900, PRED(0.25) = 0.9963




tratamento_cocomo81 - LinearRegression: RMSE = 0.0830, MMRE = 786.7234, MDARE = 0.0607, MBRE = 31.3211, Pearson r = 0.8288, PRED(0.25) = 0.0769
tratamento_cocomo81 - Ridge: RMSE = 0.0616, MMRE = 657.1756, MDARE = 0.0574, MBRE = 24.8270, Pearson r = 0.8198, PRED(0.25) = 0.0000
tratamento_cocomo81 - RandomForest: RMSE = 0.0324, MMRE = 8.2552, MDARE = 0.0072, MBRE = 8.5091, Pearson r = 0.8685, PRED(0.25) = 0.1410




tratamento_desharnais - LinearRegression: RMSE = 0.1091, MMRE = inf, MDARE = 0.0939, MBRE = inf, Pearson r = 0.7191, PRED(0.25) = 0.3529
tratamento_desharnais - Ridge: RMSE = 0.1084, MMRE = inf, MDARE = 0.0858, MBRE = inf, Pearson r = 0.7249, PRED(0.25) = 0.3529
tratamento_desharnais - RandomForest: RMSE = 0.0933, MMRE = inf, MDARE = 0.0603, MBRE = inf, Pearson r = 0.8058, PRED(0.25) = 0.2784


Processando datasets: 100%|██████████| 4/4 [05:14<00:00, 78.75s/it]
Processando diretórios: 100%|██████████| 6/6 [36:33<00:00, 365.55s/it]

tratamento_maxwell - LinearRegression: RMSE = 0.0805, MMRE = 1.3582, MDARE = 0.0316, MBRE = 0.7350, Pearson r = 0.7336, PRED(0.25) = 0.1538
tratamento_maxwell - Ridge: RMSE = 0.0538, MMRE = 1.0627, MDARE = 0.0218, MBRE = 0.6345, Pearson r = 0.8653, PRED(0.25) = 0.4615
tratamento_maxwell - RandomForest: RMSE = 0.0602, MMRE = 1.3840, MDARE = 0.0289, MBRE = 1.4627, Pearson r = 0.7578, PRED(0.25) = 0.3026
Resultados salvos em 'C:\Users\CALEO\OneDrive - Hexagon\Documents\GitHub\Software_effort_estimation\proposal\processamento\resultados\artigo5\MIMIC-25_resultados.xlsx'.



