<a href="https://colab.research.google.com/github/jadsoncastro/IA-codigos-disciplina/blob/main/Aprendizado-de-Maquina/Aulas_17_e_19_de_julho_2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#biblioteca para manipulação de dataframes
import pandas as pd

#Biblioteca sklearn (Separacao de treino e validacao)
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score, f1_score, make_scorer, r2_score, mean_absolute_error

#Biblioteca sklearn (Modelos de classificação)
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

#**Execução e validação de uma tarefa de classificação**


##Leitura de um arquivo base ("disciplina.csv")

In [None]:
df = pd.read_csv("disciplina.csv", delimiter=";")

In [None]:
df

Unnamed: 0,id,Nota1,Nota2,Resultado
0,1,7.0,10.0,Aprovado
1,2,10.0,10.0,Aprovado
2,3,1.0,10.0,Reprovado
3,4,2.0,3.0,Reprovado
4,5,10.0,8.0,Aprovado
5,6,6.1,10.0,Aprovado
6,7,8.0,7.5,Aprovado
7,8,6.0,10.0,Aprovado
8,9,9.5,10.0,Aprovado
9,10,2.8,0.0,Reprovado


##Definindo os atributos e  a variável a ser prevista

In [None]:
X = df.drop(["id", "Resultado"], axis=1)
y = df['Resultado'].values

##Divisão do conjunto de dados em treino e teste (70% treino, 30% teste)


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

##Modelos de classificação

In [None]:
models = {
    'Regressão Logística': LogisticRegression(),
    'Árvore de Decisão': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier()
}

##Geração das métricas
As métricas de acurácia e F1-measure foram "criadas" para utilização dentro da validação cruzada.
A medida F1 exige a informação de um rótulo positivo, para que seja possível calcular a precisão e a revocação dos dados.

In [None]:
acuracia = make_scorer(accuracy_score)
medidaF1 = make_scorer(f1_score, pos_label="Aprovado")

## Treinamento e avaliação dos modelos


In [None]:
for model_name, model in models.items():
    # Treinamento do modelo
    model.fit(X_train, y_train)

    # Validação cruzada com 5 folds
    cv_accuracy = cross_val_score(model, X_train, y_train, cv=10, scoring=acuracia).mean()
    cv_f1 = cross_val_score(model, X_train, y_train, cv=10, scoring=medidaF1).mean()

    # Predição no conjunto de teste
    y_pred = model.predict(X_test)

    # Métricas de avaliação no conjunto de teste
    test_accuracy = accuracy_score(y_test, y_pred)
    test_f1 = f1_score(y_test, y_pred, pos_label="Aprovado")

    # Resultados
    print(f"Modelo: {model_name}")
    print(f"Acurácia média (Validação Cruzada): {cv_accuracy:.4f}")
    print(f"F-measure média (Validação Cruzada): {cv_f1:.4f}")
    print(f"Acurácia (Conjunto de Teste): {test_accuracy:.4f}")
    print(f"F-measure (Conjunto de Teste): {test_f1:.4f}")
    print("-------------------------------------------------")

Modelo: Regressão Logística
Acurácia média (Validação Cruzada): 0.9100
F-measure média (Validação Cruzada): 0.9133
Acurácia (Conjunto de Teste): 0.8889
F-measure (Conjunto de Teste): 0.9091
-------------------------------------------------
Modelo: Árvore de Decisão
Acurácia média (Validação Cruzada): 0.8800
F-measure média (Validação Cruzada): 0.8824
Acurácia (Conjunto de Teste): 0.8889
F-measure (Conjunto de Teste): 0.9091
-------------------------------------------------
Modelo: Random Forest
Acurácia média (Validação Cruzada): 0.8800
F-measure média (Validação Cruzada): 0.8790
Acurácia (Conjunto de Teste): 0.8889
F-measure (Conjunto de Teste): 0.9091
-------------------------------------------------


#**Executando uma tarefa de regressão**

##Leitura de um arquivo base ("real-state.csv")
Acesso ao arquivo original
[Real-State-dataset UCI](https://archive.ics.uci.edu/dataset/477/real+estate+valuation+data+set)

In [None]:
df = pd.read_csv("real-state.csv", delimiter=";")

##Definindo os atributos e  a variável a ser prevista

In [None]:
X = df.drop(["Y house price of unit area"], axis=1)
y = df['Y house price of unit area'].values

##Divisão do conjunto de dados em treino e teste (70% treino, 30% teste)


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

##Modelos de regressão

In [None]:
regressionModels = {
    'Regressão Linear': LinearRegression(),
    'Árvore de Decisão': DecisionTreeRegressor(),
    'Random Forest': RandomForestRegressor()
}

## Criação de um score para o MAE

In [None]:
mae=make_scorer(mean_absolute_error)

## Treinamento e avaliação dos modelos


In [None]:
for model_name, model in regressionModels.items():
    # Treinamento do modelo
    model.fit(X_train, y_train)

    # Validação cruzada com 5 folds
    cv_r2 = cross_val_score(model, X_train, y_train, cv=10, scoring="r2").mean()
    cv_mae = cross_val_score(model, X_train, y_train, cv=10, scoring=mae).mean()

    # Predição no conjunto de teste
    y_pred = model.predict(X_test)

    # Métricas de avaliação no conjunto de teste
    test_r2 = r2_score(y_test, y_pred)
    test_mae = mean_absolute_error(y_test, y_pred)

    # Resultados
    print(f"Modelo: {model_name}")
    print(f"R2 Médio (Validação Cruzada): {cv_r2:.4f}")
    print(f"MAE Médio (Validação Cruzada): {cv_mae:.4f}")
    print(f"R2 (Conjunto de Teste): {test_r2:.4f}")
    print(f"MAE (Conjunto de Teste): {test_mae:.4f}")
    print("-------------------------------------------------")