Para realizar a tarefa proposta, vamos seguir os passos necessários para treinar os modelos clássicos de machine learning e um modelo de Deep Learning. Primeiro, vamos começar com o modelo clássico para o problema de classificação utilizando a biblioteca scikit-learn. Depois, treinaremos um modelo de Deep Learning utilizando a biblioteca TensorFlow.

Você deverá treinar dois modelos de machine learning: um modelo utilizando métodos clássicos para um problema de classificação ou regressão (a); e  outro utilizando Deep Learning para um problema de visão computacional ou processamento de linguagem natural (b).

Você deverá treinar modelos clássicos de machine learning, iniciando na carga e preparação dos dados, incluindo a separação entre treino e teste, a seleção de atributos, transformação de dados, modelagem, otimização de hiperparâmetros, até a avaliação e comparação de resultados dos modelos treinados. É recomendado o uso de cross-validation e a criação de pipelines, conforme apresentado no material do curso.
Você deverá treinar um modelo baseado em Deep Learning para resolver um problema de visão computacional ou processamento de linguagem natural, iniciando na carga e preparação dos dados, incluindo a separação entre treino e teste, modelagem, otimização de hiperparâmetros, até a avaliação e comparação de resultados dos modelos treinados.

Passo 1: Preparação do ambiente

Antes de iniciar, certifique-se de ter instalado as bibliotecas necessárias, como scikit-learn, pandas, numpy e TensorFlow. Caso ainda não tenha instalado, você pode fazer isso usando o gerenciador de pacotes pip:

In [28]:
pip install scikit-learn pandas numpy tensorflow



Passo 2: Importação das bibliotecas e leitura dos dados

Vamos começar importando as bibliotecas e lendo o conjunto de dados.

In [29]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Carregando o conjunto de dados
data = pd.read_csv("https://raw.githubusercontent.com/digitalopentech/mvpuc2/main/Cancer_Data.csv")

# Visualizando as primeiras linhas do conjunto de dados
print(data.head())

         id diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
0    842302         M        17.99         10.38          122.80     1001.0   
1    842517         M        20.57         17.77          132.90     1326.0   
2  84300903         M        19.69         21.25          130.00     1203.0   
3  84348301         M        11.42         20.38           77.58      386.1   
4  84358402         M        20.29         14.34          135.10     1297.0   

   smoothness_mean  compactness_mean  concavity_mean  concave points_mean  \
0          0.11840           0.27760          0.3001              0.14710   
1          0.08474           0.07864          0.0869              0.07017   
2          0.10960           0.15990          0.1974              0.12790   
3          0.14250           0.28390          0.2414              0.10520   
4          0.10030           0.13280          0.1980              0.10430   

   ...  texture_worst  perimeter_worst  area_worst  smoothness

Passo 3: Preparação dos dados

Vamos dividir o conjunto de dados em recursos (X) e rótulos (y). Em seguida, dividiremos os dados em conjuntos de treino e teste.

In [30]:
# Dividindo o conjunto de dados em recursos (X) e rótulos (y)
X = data.drop(columns=['diagnosis'])
y = data['diagnosis']

# Dividindo os dados em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Passo 4: Treinando o modelo clássico - Random Forest

Vamos criar um pipeline para realizar o pré-processamento dos dados e, em seguida, treinar um modelo de Random Forest.

In [31]:
from sklearn.impute import SimpleImputer

# Criando o pipeline com imputação para valores ausentes
pipeline_rf = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # Preenchendo valores ausentes com a média
    ('scaler', StandardScaler()),  # Normalização dos dados
    ('classifier', RandomForestClassifier())  # Modelo Random Forest
])

# Definindo os hiperparâmetros para otimização com GridSearchCV
param_grid_rf = {
    'classifier__n_estimators': [50, 100, 150],
    'classifier__max_depth': [None, 5, 10, 15]
}

# Criando o objeto de GridSearchCV para encontrar os melhores hiperparâmetros
grid_search_rf = GridSearchCV(pipeline_rf, param_grid_rf, cv=5, n_jobs=-1, error_score='raise')

# Treinando o modelo com debug ativado
try:
    grid_search_rf.fit(X_train, y_train)
except Exception as e:
    print("Error occurred during training:", e)

# Obtendo o melhor modelo após a otimização
best_rf_model = grid_search_rf.best_estimator_

# Fazendo previsões no conjunto de teste
y_pred_rf = best_rf_model.predict(X_test)

# Avaliando o modelo
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("Random Forest - Acurácia: {:.2f}%".format(accuracy_rf * 100))
print(classification_report(y_test, y_pred_rf))


Random Forest - Acurácia: 96.49%
              precision    recall  f1-score   support

           B       0.96      0.99      0.97        71
           M       0.98      0.93      0.95        43

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114



Passo 5: Treinando o modelo clássico - Support Vector Machine (SVM)

Vamos repetir o processo para treinar um modelo SVM.

In [32]:
from sklearn.impute import SimpleImputer

# Criando o pipeline com imputação para valores ausentes
pipeline_svm = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),  # Preenchendo valores ausentes com a média
    ('scaler', StandardScaler()),  # Normalização dos dados
    ('classifier', SVC())  # Modelo SVM
])

# Definindo os hiperparâmetros para otimização com GridSearchCV
param_grid_svm = {
    'classifier__C': [0.1, 1, 10],
    'classifier__kernel': ['linear', 'rbf']
}

# Criando o objeto de GridSearchCV para encontrar os melhores hiperparâmetros
grid_search_svm = GridSearchCV(pipeline_svm, param_grid_svm, cv=5, n_jobs=-1, error_score='raise')

# Treinando o modelo com debug ativado
try:
    grid_search_svm.fit(X_train, y_train)
except Exception as e:
    print("Error occurred during training:", e)

# Obtendo o melhor modelo após a otimização
best_svm_model = grid_search_svm.best_estimator_

# Fazendo previsões no conjunto de teste
y_pred_svm = best_svm_model.predict(X_test)

# Avaliando o modelo
accuracy_svm = accuracy_score(y_test, y_pred_svm)
print("SVM - Acurácia: {:.2f}%".format(accuracy_svm * 100))
print(classification_report(y_test, y_pred_svm))


SVM - Acurácia: 98.25%
              precision    recall  f1-score   support

           B       0.97      1.00      0.99        71
           M       1.00      0.95      0.98        43

    accuracy                           0.98       114
   macro avg       0.99      0.98      0.98       114
weighted avg       0.98      0.98      0.98       114



Passo 6: Treinando o modelo de Deep Learning - Rede Neural

Agora, vamos treinar um modelo de Deep Learning utilizando uma Rede Neural com TensorFlow.



In [33]:
import numpy as np
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# Carregar os dados de treinamento e teste do MNIST
(X_train, y_train), (X_test, y_test) = mnist.load_data()

# Pré-processamento dos dados
X_train = X_train.reshape(-1, 28*28) / 255.0
X_test = X_test.reshape(-1, 28*28) / 255.0

# Criar o modelo da Rede Neural
model = Sequential()
model.add(Dense(128, activation='relu', input_dim=X_train.shape[1]))
model.add(Dense(64, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

# Compilando o modelo
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Treinando o modelo
history = model.fit(X_train, y_train, epochs=50, batch_size=32, validation_split=0.2)

# Avaliando o modelo
loss, accuracy_nn = model.evaluate(X_test, y_test)
print("Rede Neural - Acurácia: {:.2f}%".format(accuracy_nn * 100))


Epoch 1/50
   3/1500 [..............................] - ETA: 46s - loss: -1.7254 - accuracy: 0.1875



Epoch 2/50
Epoch 3/50

KeyboardInterrupt: ignored

Passo 7: Comparação de resultados

Agora que treinamos os três modelos, podemos comparar suas acurácias no conjunto de teste.

In [34]:
# Comparando as acurácias dos modelos
print("Random Forest - Acurácia: {:.2f}%".format(accuracy_rf * 100))
print("SVM - Acurácia: {:.2f}%".format(accuracy_svm * 100))
print("Rede Neural - Acurácia: {:.2f}%".format(accuracy_nn * 100))


Random Forest - Acurácia: 96.49%
SVM - Acurácia: 98.25%
Rede Neural - Acurácia: 11.35%


Passo 1: Preparação do ambiente

Verifique se você já instalou as bibliotecas necessárias, incluindo TensorFlow, scikit-learn e pandas. Caso contrário, instale-as usando o gerenciador de pacotes pip

Você deverá treinar um modelo baseado em Deep Learning para resolver um problema de visão computacional ou processamento de linguagem natural, iniciando na carga e preparação dos dados, incluindo a separação entre treino e teste, modelagem, otimização de hiperparâmetros, até a avaliação e comparação de resultados dos modelos treinados.

In [10]:
pip install tensorflow scikit-learn pandas




Passo 2: Importação das bibliotecas e leitura dos dados

In [35]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report

# Carregando o conjunto de dados
data = pd.read_csv("https://raw.githubusercontent.com/digitalopentech/mvpuc2/main/Cancer_Data.csv")

# Visualizando as primeiras linhas do conjunto de dados
print(data.head())


         id diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
0    842302         M        17.99         10.38          122.80     1001.0   
1    842517         M        20.57         17.77          132.90     1326.0   
2  84300903         M        19.69         21.25          130.00     1203.0   
3  84348301         M        11.42         20.38           77.58      386.1   
4  84358402         M        20.29         14.34          135.10     1297.0   

   smoothness_mean  compactness_mean  concavity_mean  concave points_mean  \
0          0.11840           0.27760          0.3001              0.14710   
1          0.08474           0.07864          0.0869              0.07017   
2          0.10960           0.15990          0.1974              0.12790   
3          0.14250           0.28390          0.2414              0.10520   
4          0.10030           0.13280          0.1980              0.10430   

   ...  texture_worst  perimeter_worst  area_worst  smoothness

Passo 3: Preparação dos dados

Vamos dividir o conjunto de dados em recursos (X) e rótulos (y) e, em seguida, dividir os dados em conjuntos de treino e teste.

In [36]:
# Dividindo o conjunto de dados em recursos (X) e rótulos (y)
X = data.drop(columns=['diagnosis'])
y = data['diagnosis']

# Dividindo os dados em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Passo 4: Pré-processamento dos dados

Vamos normalizar os dados antes de alimentá-los ao modelo.

In [37]:
import numpy as np

# Verificar se há valores NaN nos dados de treinamento
print("Número de valores NaN em X_train:", np.isnan(X_train).sum())

# Verificar se há valores NaN nos dados de teste
print("Número de valores NaN em X_test:", np.isnan(X_test).sum())



Número de valores NaN em X_train: id                           0
radius_mean                  0
texture_mean                 0
perimeter_mean               0
area_mean                    0
smoothness_mean              0
compactness_mean             0
concavity_mean               0
concave points_mean          0
symmetry_mean                0
fractal_dimension_mean       0
radius_se                    0
texture_se                   0
perimeter_se                 0
area_se                      0
smoothness_se                0
compactness_se               0
concavity_se                 0
concave points_se            0
symmetry_se                  0
fractal_dimension_se         0
radius_worst                 0
texture_worst                0
perimeter_worst              0
area_worst                   0
smoothness_worst             0
compactness_worst            0
concavity_worst              0
concave points_worst         0
symmetry_worst               0
fractal_dimension_worst      0
Unnam

Passo 5: Modelagem da Rede Neural

Vamos criar o modelo da Rede Neural com camadas densas.

In [38]:
# Criando o modelo da Rede Neural
model_nn = Sequential()
model_nn.add(Dense(128, activation='relu', input_dim=X_train.shape[1]))
model_nn.add(Dense(64, activation='relu'))
model_nn.add(Dense(1, activation='sigmoid'))

# Compilando o modelo
model_nn.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Visualizando o resumo do modelo
print(model_nn.summary())


Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_9 (Dense)             (None, 128)               4224      
                                                                 
 dense_10 (Dense)            (None, 64)                8256      
                                                                 
 dense_11 (Dense)            (None, 1)                 65        
                                                                 
Total params: 12,545
Trainable params: 12,545
Non-trainable params: 0
_________________________________________________________________
None


Passo 6: Treinamento do modelo



In [39]:
import numpy as np
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam

# Carregar os dados de treinamento e teste do MNIST
(X_train, y_train), (X_test, y_test) = mnist.load_data()

# Pré-processamento dos dados
X_train = X_train.reshape(-1, 28*28) / 255.0
X_test = X_test.reshape(-1, 28*28) / 255.0

# Criar o modelo da Rede Neural
model_nn = Sequential()
model_nn.add(Dense(128, activation='relu', input_dim=X_train.shape[1]))
model_nn.add(Dense(64, activation='relu'))
model_nn.add(Dense(1, activation='sigmoid'))

# Compilando o modelo
model_nn.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Treinando o modelo em modo eager
import tensorflow as tf
tf.config.experimental_run_functions_eagerly(True)

history_nn = model_nn.fit(X_train, y_train, epochs=50, batch_size=32, validation_split=0.2)


# Avaliando o modelo
loss, accuracy_nn = model_nn.evaluate(X_test, y_test)
print("Rede Neural - Acurácia: {:.2f}%".format(accuracy_nn * 100))


Epoch 1/50
   3/1500 [..............................] - ETA: 39s - loss: -2.7392 - accuracy: 0.1042 



 314/1500 [=====>........................] - ETA: 32s - loss: -51461.1133 - accuracy: 0.1146

KeyboardInterrupt: ignored

Passo 7: Avaliação do modelo

Agora, vamos avaliar o desempenho do modelo utilizando o conjunto de teste.

In [40]:
# Avaliando o modelo no conjunto de teste
loss, accuracy_nn = model_nn.evaluate(X_test, y_test)
print("Rede Neural MLP - Acurácia: {:.2f}%".format(accuracy_nn * 100))


Rede Neural MLP - Acurácia: 11.35%


Passo 8: Comparação de resultados

Agora, podemos comparar a acurácia da Rede Neural MLP com os modelos clássicos e o modelo de Rede Neural convolucional (CNN) treinados anteriormente.

In [41]:
from sklearn.metrics import accuracy_score

# ...

# Treinando e avaliando o modelo Random Forest (já foi feito no código anterior)
# grid_search_rf.fit(X_train, y_train)
# best_rf_model = grid_search_rf.best_estimator_
# y_pred_rf = best_rf_model.predict(X_test)
# accuracy_rf = accuracy_score(y_test, y_pred_rf)

# Treinando e avaliando o modelo SVM (já foi feito no código anterior)
# grid_search_svm.fit(X_train, y_train)
# best_svm_model = grid_search_svm.best_estimator_
# y_pred_svm = best_svm_model.predict(X_test)
# accuracy_svm = accuracy_score(y_test, y_pred_svm)

# Avaliando o modelo LSTM (Processamento de Linguagem Natural)
# loss_lstm, accuracy_lstm = model_lstm.evaluate(X_test_lstm, y_test_lstm)

# Avaliando o modelo CNN (Visão Computacional)
# loss_cnn, accuracy_cnn = model_cnn.evaluate(X_test_cnn, y_test_cnn)

# Avaliando o modelo MLP (Visão Computacional)
loss_nn, accuracy_nn = model_nn.evaluate(X_test, y_test)

# Comparando as acurácias dos modelos
print("Random Forest - Acurácia: {:.2f}%".format(accuracy_nn * 100))
print("SVM - Acurácia: {:.2f}%".format(accuracy_svm * 100))
# print("Rede Neural MLP (Processamento de Linguagem Natural) - Acurácia: {:.2f}%".format(accuracy_lstm * 100))
# print("Rede Neural CNN (Visão Computacional) - Acurácia: {:.2f}%".format(accuracy_cnn * 100))
print("Rede Neural MLP (Visão Computacional) - Acurácia: {:.2f}%".format(accuracy_nn * 100))


Random Forest - Acurácia: 11.35%
SVM - Acurácia: 98.25%
Rede Neural MLP (Visão Computacional) - Acurácia: 11.35%
