<a href="https://colab.research.google.com/github/daycardoso/PredictCost/blob/main/PredictCostRandonForest.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabalho CMP263 - Aprendizagem de Máquina - INF/UFRGS

## Modelo 1 - Decision tree sem poda

As árvores de decisão são conhecidas por possuírem um baixo viés, ao mesmo tempo em que apresentam alta variância.
Isto é, o método é capaz de modelar fronteiras de decisão bastante complexas, o que, por um lado, é positivo, mas torna o algoritmo bastante suscetível a ruído ou a padrões nos dados de treino que não generalizam para instâncias de teste.
Por isso, técnicas de poda são fundamentais para o uso efetivo do modelo em dados novos.

Nessa atividade, iremos analisar como a estrutura e as predições da árvore de decisão são afetadas por pequenas variações no conjunto de treino. Além disso, veremos duas técnicas de poda que podem ser usadas para controlar a complexidade do modelo.

**Este *colab* deve ser usado como base para o preenchimento do questionário encontrado no Moodle. Faça uma cópia do mesmo para realizar o exercício.** A forma mais fácil para duplicar este *colab* é ir em File > "Save a Copy in Drive". Não é necessário entregar este *colab* preenchido, mas guarde-o para caso ache que algum questionário está errado.


### Objetivos da Atividade
* Analisar os impactos da característica de **variância** nas árvores de decisão.
* Analisar o efeito da **poda** em árvores de decisão.


## Carregamento dos Dados


### Obtenção e análise dos dados
O código abaixo carrega o dataset do kaggle e mostra algumas informações básicas sobre os dados

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
# import glob

# arquivos = glob.glob('/content/drive/MyDrive/Trabalho ML Mestrado 01-2025/*.csv')



In [None]:
# dfs = [pd.read_csv(f) for f in arquivos]
# df_unificado = pd.concat(dfs, axis=0, ignore_index=True)
# df_unificado.head()

In [None]:
# Excluir a coluna type
# df_unificado = df_unificado.drop('type', axis=1)
# df_unificado.head()

In [None]:
# # Garantir que não a duplicata de instancias evitando sobreposição entre os dados de treinamento e teste
# df_unificado = df_unificado.drop_duplicates().reset_index(drop=True)
# df_unificado.head(-50)

In [None]:
# Salvar o dataset completo, sem duplicatas
# df_unificado.to_csv('/content/drive/MyDrive/Trabalho ML Mestrado 01-2025/df_unificado.csv', index=False)

In [None]:
# Carregar o datset unificado
df_unificado = pd.read_csv('/content/drive/MyDrive/Trabalho ML Mestrado 01-2025/df_unificado.csv')

In [None]:
# matriz contendo os atributos
X = df_unificado.iloc[:, :-1].values

# vetor contendo o custo, ou seja, a ultima coluna
y = df_unificado.iloc[:, -1].values

# nome de cada atributo
feature_names = df_unificado.columns[:-1]

# nome de cada classe
target_names = df_unificado.columns[-1]

print(f"Dimensões de X: {X.shape}\n")
print(f"Dimensões de y: {y.shape}\n")
print(f"Nomes dos atributos: {feature_names}\n")
print(f"Nomes das classes: {target_names}")

In [None]:
from sklearn.model_selection import train_test_split, RepeatedKFold, cross_validate
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.tree import DecisionTreeRegressor
import joblib

# 1) Cria um hold-out antes de qualquer CV
X_train_full, X_test, y_train_full, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, shuffle=True
)

In [None]:
pipeline = Pipeline([
    ('regressor', DecisionTreeRegressor(random_state=42))
])


In [None]:
from sklearn.model_selection import RepeatedKFold

# 5×5 CV repetida: balanceia viés x variância na estimação
cv = RepeatedKFold(n_splits=5, n_repeats=5, random_state=42)


In [None]:
from sklearn.model_selection import cross_validate

scoring = {
    'R2': 'r2',
    'MSE': 'neg_mean_squared_error',
    'MAE': 'neg_mean_absolute_error',
    'MAPE': 'neg_mean_absolute_percentage_error',
    'MedAE': 'neg_median_absolute_error',
    'MaxE': 'max_error',
    'EVS': 'explained_variance',
}

cv_results = cross_validate(
    pipeline, X_train_full, y_train_full,
    cv=cv, scoring=scoring, return_train_score=True, n_jobs=-1
)

In [None]:
# Treinar o modelo
pipeline.fit(X_train_full, y_train_full)

In [None]:
# 5) Gera predições no hold-out
y_pred = pipeline.predict(X_test)

In [None]:
# 6) Salva TUDO num dict
full_results = {
    'pipeline': pipeline,
    'X_test':   X_test,
    'y_test':   y_test,
    'y_pred':   y_pred,
    'cv_results': cv_results,
    'feature_names': feature_names
}
joblib.dump(full_results, '/content/drive/.../full_results.pkl')

In [None]:
import joblib
# Carregar o modelo
pipeline = joblib.load('/content/drive/MyDrive/Trabalho ML Mestrado 01-2025/modelo_joblib.pkl')


In [None]:
import joblib, pandas as pd, streamlit as st, plotly.express as px
from sklearn.metrics import (
    r2_score, mean_squared_error, mean_absolute_error,
    mean_absolute_percentage_error, median_absolute_error,
    max_error, explained_variance_score
)

def report_results(results: dict):
    """
    Gera um relatório interativo de regressão em Streamlit.

    Parâmetros:
      results: dict contendo
        - 'pipeline': modelo treinado
        - 'X_test': array ou DataFrame
        - 'y_test': vetor verdadeiro
        - opcionalmente 'y_pred', 'feature_names'
    """

    # 1) Extrair itens do dict
    model = results['pipeline']
    X_test = results['X_test']
    y_true = results['y_test']
    y_pred = results.get('y_pred', model.predict(X_test))
    feature_names = results.get('feature_names',
                                getattr(X_test, 'columns', None))

    # 2) Cálculo das métricas principais
    metrics = {
        'R² Score'           : r2_score(y_true, y_pred),
        'MSE'                : mean_squared_error(y_true, y_pred),
        'MAE'                : mean_absolute_error(y_true, y_pred),
        'MAPE'               : mean_absolute_percentage_error(y_true, y_pred),
        'MedAE'              : median_absolute_error(y_true, y_pred),
        'Max Error'          : max_error(y_true, y_pred),
        'Explained Variance' : explained_variance_score(y_true, y_pred),
    }
    df_metrics = pd.DataFrame.from_dict(
        metrics, orient='index', columns=['Valor']
    ).round(4)

    # 3) Cabeçalho e parâmetros do modelo
    st.title("📊 Relatório de Desempenho do Modelo")
    st.subheader("🔧 Parâmetros do Modelo")
    st.json(model.get_params())  # exibe estruturação de hiperparâmetros

    # 4) Tabela de métricas
    st.subheader("📈 Métricas de Regressão")
    st.table(df_metrics)

    # 5) Visualização True vs Predito
    st.subheader("🔍 Dispersão Real × Predito")
    fig1 = px.scatter(
        x=y_true, y=y_pred,
        labels={'x':'Real','y':'Predito'},
        title="Real vs Predito"
    )
    # adicionar linha identidade
    min_val = min(y_true.min(), y_pred.min())
    max_val = max(y_true.max(), y_pred.max())
    fig1.add_shape(type="line",
                   x0=min_val, y0=min_val,
                   x1=max_val, y1=max_val,
                   line=dict(dash="dash", color="gray"))
    st.plotly_chart(fig1, use_container_width=True)

    # 6) Distribuição de resíduos
    st.subheader("📉 Histograma de Resíduos")
    residuals = y_true - y_pred
    fig2 = px.histogram(
        residuals, nbins=50,
        labels={'value': 'Resíduo (Real – Predito)'},
        title="Distribuição de Resíduos"
    )
    st.plotly_chart(fig2, use_container_width=True)

    # 7) Boxplot de resíduos por quartil (opcional)
    st.subheader("🗂️ Resíduos por Quartil de Real")
    df_r = pd.DataFrame({'Real': y_true, 'Resíduo': residuals})
    df_r['Quartil'] = pd.qcut(df_r['Real'], 4, labels=False)
    fig3 = px.box(
        df_r, x='Quartil', y='Resíduo',
        title="Boxplot de Resíduos por Quartil de Valor Real"
    )
    st.plotly_chart(fig3, use_container_width=True)

    # 8) Importância das features
    if hasattr(model, 'feature_importances_') and feature_names is not None:
        st.subheader("⭐ Importância das Features")
        fi = pd.DataFrame({
            'feature': feature_names,
            'importance': model.feature_importances_
        }).sort_values('importance', ascending=False)
        st.bar_chart(fi.set_index('feature'))

    # 9) Download dos resultados
    st.subheader("📥 Exportar Relatório")
    csv_metrics = df_metrics.to_csv().encode('utf-8')
    st.download_button(
        label="Baixar Métricas (CSV)",
        data=csv_metrics,
        file_name='metrics_report.csv',
        mime='text/csv'
    )


## Variância nas Árvores de Decisão- EDITAR TUDO PARA REGREÇÃO





### Analisando a Estrutura das Árvores

Como estudado em aula, a árvore de decisão é conhecida por ser um classificador com alta variância. Isso possui consequências na estrutura das árvores treinadas.

O código abaixo treina várias árvores de decisão com diferentes conjuntos de treino obtidos através do método holdout.
Use-o para responder à Questão 1 do questionário.


### Análise da Variação na Acurácia

A propriedade de variância também implica em efeitos na variabilidade do desempenho dos modelos. Para fins de exemplo, podemos usar a acurácia como medida de desempenho através das funções do scikit-learn. Entretanto, outras métricas de desempenho como Recall e Precisão, que são mais indicadas para problemas em que o número de instâncias por classe é desbalanceado (como é o caso deste conjunto de dados) poderiam também ser exploradas (a critério do aluno, podem ser adicionadas para observação, mas a questão deve ser respondida com base na acurácia).

O código abaixo executa repetidas vezes o treinamento das árvores de decisão, da mesma forma que no item *Analisando a Estrutura das Árvores*.
Modifique-o de forma a obter a acurácia para cada execução e então calcule a média, desvio padrão, máximo e mínimo dos valores. Use esses resultados para responder à **Questão 2**.

**Atenção: Não mude os valores que estão sendo passados para os parâmetros random_state para garantir a reprodutibilidade do código**.


### Análise de Instância individuais

1. Treine novamente uma árvore de decisão usando um novo conjunto de treino gerado com a função train_test_split. Utilize 20% de dados de teste e, desta vez, não **especifique valor nenhum para o random_state**.

2. Faça a predição para as instâncias especificadas abaixo e preencha na tabela do excel indicada no **Moodle** a classificação encontrada (0 para maligno e 1 para benigno).


## O Efeito da Poda

As árvores de decisão treinadas nos itens anteriores não possuíam nenhuma forma de poda. No entanto, é possível utilizar técnicas de poda através do scikit-learn. Como consequência, elas podem ter uma complexidade além do que é necessário na modelagem do problema.



### Exemplo de Pré-poda: profundidade máxima da árvore
Podemos especificar a profundidade máxima da árvore utilizando o parâmetro max_depth.

O código abaixo gera árvores de decisão com diferentes profundidades máximas e as avalia em termos de acurácia.

Observe que todas as árvores são treinadas e avaliadas com os mesmos conjuntos de treino e teste, visto que especificamos o parâmetro $random\_state = 0$.

Com base nesse código, e possíveis modificações que você faça a ele, responda à **Questão  4** do questionário.

**Não mude o valor que está sendo passado em random_state=0**.


### Exemplo de Pós-poda: Custo-complexidade

A biblioteca scikit-learn possui uma implementação de pós-poda por custo-complexidade, baseada no parâmetro de custo-complexidade $\alpha \ge 0$.

Na implementação descrita na biblioteca, é definido também um custo-complexidade efetivo do nodo. Quanto maior for a taxa de erros ao se podar a subárvore de um nodo, maior será seu custo-complexidade efetivo. Além disso, quanto maior for a complexidade (número de nodos terminais) da subárvore do nodo, menor será seu custo-complexidade efetivo.
Em resumo, um nodo com alto custo-complexidade efetivo é um nodo importante para diminuir a taxa de erros e com baixa complexidade.

Dentro da biblioteca, passamos um parâmetro $ccp\_alpha$ que serve como um custo-complexidade efetivo de corte: subárvores são podadas enquanto houver nodos com custo-complexidade menor do que o parâmetro $ccp\_alpha$.
Ou seja, quando maior for o parâmetro, mais intensa será a poda.

Para mais informações:
* https://scikit-learn.org/stable/modules/tree.html#minimal-cost-complexity-pruning
* https://scikit-learn.org/stable/auto_examples/tree/plot_cost_complexity_pruning.html

Use o código abaixo para resolver à **Questão 5**.