
# Notebook: Requisito Esforço e Estimativa de Story Points

## 1. Introdução
Neste notebook, abordamos a estimativa de Story Points a partir de descrições textuais
utilizando modelos baseados em NLP, incluindo BERT e outros modelos de ensemble.
A avaliação de desempenho é realizada utilizando métricas como MAE, R², RMSE e a correlação de Pearson.

## Principais Passos
- Preparação e pré-processamento dos dados.
- Treinamento de múltiplos modelos, incluindo ensemble.
- Avaliação dos modelos e comparação dos resultados.


## 2. Importações e Configurações

In [None]:
pip install optuna langdetect pandas spacy beautifulsoup4 nltk catboost transformers torch lightgbm contractions pyspellchecker gensim deslib desReg numpy scipy

# Removendo diretórios (caso existam)
rmdir /s /q results 2>nul
rmdir /s /q checkpoints 2>nul

# Instalar diretamente as versões corretas de scikit-learn e xgboost
pip install --force-reinstall scikit-learn==1.5.2 xgboost==2.1.3

In [None]:

# Importações de fontes
import importlib
import preprocessing
import bert_evaluation
import ensemble_models

importlib.reload(preprocessing)
importlib.reload(bert_evaluation)
importlib.reload(ensemble_models)

In [None]:
# Definição de Constantes Globais
LIMITAR_QUANTIDADE_REGISTROS = False
QUANTIDADE_REGISTROS_SE_LIMITADO = 15
DIRETORIO_DATASET_BRUTO = '/content/drive/MyDrive/projetoMestrado/datasets'
DIRETORIO_DATASET_PROCESSADO = '/content/drive/MyDrive/projetoMestrado/datasets_processados'
NOME_ARQUIVO_RESULTADOS = '/content/drive/MyDrive/projetoMestrado/resultados_modelos.csv'
NOME_ARQUIVO_RESULTADOS_ENTRE_DATASETS = '/content/drive/MyDrive/projetoMestrado/resultados_modelos_ENTRE_DATASETS.csv'
NOME_ARQUIVO_RESULTADOS_MESMO_DATASET = '/content/drive/MyDrive/projetoMestrado/resultados_modelos_MESMO_DATASET.csv'
NOME_ARQUIVO_BERT_RESULTADOS_ENTRE_DATASETS = '/content/drive/MyDrive/projetoMestrado/resultados_BERT_modelos_ENTRE_DATASETS.csv'
NOME_ARQUIVO_BERT_RESULTADOS_MESMO_DATASET = '/content/drive/MyDrive/projetoMestrado/resultados_BERT_modelos_MESMO_DATASET.csv'

## 3. Carregamento e Pré-Processamento dos Dados

In [None]:
# Carregar os datasets
datasetsComuns, datasetsBert = preprocessing.carregar_todos_dados(
    DIRETORIO_DATASET_BRUTO, DIRETORIO_DATASET_PROCESSADO, LIMITAR_QUANTIDADE_REGISTROS, QUANTIDADE_REGISTROS_SE_LIMITADO
)

## 4. Treinamento e Avaliação dos Modelos BERT

In [None]:
resultados_finais, predicoes_por_modelo = bert_evaluation.avaliar_modelo_bert_em_datasets_ciclico(
    datasetsBert, "V_BERT", NOME_ARQUIVO_BERT_RESULTADOS_ENTRE_DATASETS
)

In [None]:
resultados_finais, predicoes_por_modelo = bert_evaluation.avaliar_modelo_bert_em_datasets(
    datasetsBert, "V_BERT", NOME_ARQUIVO_BERT_RESULTADOS_MESMO_DATASET
)

## 5. Treinamento e Avaliação de Modelos de Tradicionais

In [None]:
resultados_finais = ensemble_models.avaliar_modelos_em_datasets_ciclico(
    datasetsComuns, "V_ENSEMBLE", NOME_ARQUIVO_RESULTADOS_ENTRE_DATASETS)

In [None]:
resultados_finais = ensemble_models.avaliar_modelos_em_datasets(
    datasetsComuns, "V_ENSEMBLE", NOME_ARQUIVO_RESULTADOS_MESMO_DATASET)