
# Notebook: Requisito Esforço e Estimativa de Story Points

## 1. Introdução
Neste notebook, abordamos a estimativa de Story Points a partir de descrições textuais
utilizando modelos baseados em NLP, incluindo BERT e outros modelos de ensemble.
A avaliação de desempenho é realizada utilizando métricas como MAE, R², RMSE e a correlação de Pearson.

## Principais Passos
- Preparação e pré-processamento dos dados.
- Treinamento de múltiplos modelos, incluindo ensemble.
- Avaliação dos modelos e comparação dos resultados.


## 2. Importações e Configurações

In [None]:
'''
%pip install langdetect
%pip install pandas
%pip install spacy
%pip install scikit-learn
%pip install bs4
%pip install nltk
%pip install xgboost
%pip install catboost
%pip install transformers torch
%pip install lightgbm
%pip install contractions
%pip install pyspellchecker
%pip install gensim
%pip install deslib
%pip install desReg
%pip install numpy
%pip install scipy
%pip install transformers[torch]
'''

In [None]:

# Importações das Bibliotecas
import importlib
import preprocessing
import bert_evaluation
import ensemble_models

importlib.reload(preprocessing)
importlib.reload(bert_evaluation)
importlib.reload(ensemble_models)

# Definição de Constantes Globais
VERSAO_NOME_BERT = "V_BERT"
VERSAO_NOME_ENSEMBLE = "V_ENSEMBLE"
DIRETORIO_DATASETS = 'D:\\Mestrado\\Python\\Projeto\\Datasets\\JIRA-Estimation-Prediction\\storypoint\\IEEE TSE2018\\dataset'
LIMITAR_QUANTIDADE_REGISTROS = False
QUANTIDADE_REGISTROS_SE_LIMITADO = 15
NOME_ARQUIVO_RESULTADOS = 'resultados_modelos.csv'


## 3. Carregamento e Pré-Processamento dos Dados

In [None]:

# Carrega as bases de dados em uma lista
datasetsCarregados = preprocessing.carregar_todos_dados(DIRETORIO_DATASETS, LIMITAR_QUANTIDADE_REGISTROS, QUANTIDADE_REGISTROS_SE_LIMITADO)

# Geração de estatísticas do dataset
for dataset in datasetsCarregados:
    preprocessing.gerar_estatisticas_base(dataset)

# Inicia o processamento dos datasets da lista, tratando o texto de cada um deles
# datasetsCarregados = preprocessing.preprocessar_todos_datasets(datasetsCarregados)
#datasetsCarregados[0].head()


## 4. Treinamento e Avaliação dos Modelos BERT

In [None]:
# Executa a Avaliação dos Modelos BERT e Similar
datasets = datasetsCarregados

# Executa o método que realiza o treinamento e teste encima dos datasets, utilizando diversos modelos'
resultados_finais, predicoes_por_modelo = bert_evaluation.avaliar_modelo_bert_em_datasets(datasets, VERSAO_NOME_BERT)


In [None]:
## Lista para armazenar os dados
#predicoes_lista = []

#for model_name, data in predicoes_por_modelo.items():
#    for issuekey, description, y_test, y_pred in zip(data['issuekeys'], data['descriptions'], data['y_test'], data['y_pred']):
#        predicoes_lista.append({
#            'Modelo': model_name,
#            'IssueKey': issuekey,
#            'Descrição': description,
#            'Valor Real': y_test,
#            'Valor Predito': y_pred
#        })

## Converter a lista em um DataFrame do pandas
#df_predicoes = pd.DataFrame(predicoes_lista)

## Exportar para CSV
#df_predicoes.to_csv('predicoes_por_modelo.csv', index=False)

#print("Predições exportadas para 'predicoes_por_modelo.csv'")

In [None]:
# Exportar os resultados para um arquivo CSV
preprocessing.exportar_resultados_para_csv(resultados_finais, NOME_ARQUIVO_RESULTADOS)

## 5. Treinamento e Avaliação de Modelos de Ensemble

In [None]:

# Executa a Avaliação dos Modelos BERT e Similar
datasets = datasetsCarregados

# Executa o método que realiza o treinamento e teste encima dos datasets, utilizando diversos modelos'
resultados_finais, predicoes_por_modelo = ensemble_models.avaliar_modelosCombinados_em_datasets(datasets, VERSAO_NOME_BERT)



In [None]:
## Lista para armazenar os dados
#predicoes_lista = []

#for model_name, data in predicoes_por_modelo.items():
#    for issuekey, description, y_test, y_pred in zip(data['issuekeys'], data['descriptions'], data['y_test'], data['y_pred']):
#        predicoes_lista.append({
#            'Modelo': model_name,
#            'IssueKey': issuekey,
#            'Descrição': description,
#            'Valor Real': y_test,
#            'Valor Predito': y_pred
#        })

## Converter a lista em um DataFrame do pandas
#df_predicoes = pd.DataFrame(predicoes_lista)

## Exportar para CSV
#df_predicoes.to_csv('predicoes_por_modelo.csv', index=False)

#print("Predições exportadas para 'predicoes_por_modelo.csv'")

In [None]:
# Exportar os resultados para um arquivo CSV
preprocessing.exportar_resultados_para_csv(resultados_finais, NOME_ARQUIVO_RESULTADOS)

## 6. Conclusões


Nesta seção, discutimos os resultados obtidos com cada modelo. Observa-se que:
- [Inclua observações sobre o desempenho dos modelos, pontos fortes e limitações.]
- [Sugira possíveis próximos passos, como otimizações adicionais ou experimentos com novos dados.]
