<a href="https://colab.research.google.com/github/felipetimoteo/machinelearnin/blob/main/Trabalho_Final_Machine_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

## Etapa 1: Análise preliminar de dados-------------------------------------------------
# Carregar os dados usando o Pandas
data = pd.read_csv('https://github.com/felipetimoteo/machinelearnin/blob/ea7f73e0bedad8a5199c9a4bd4ddaddd265afa57/airfoil_self_noise.dat', sep='\t', header=None)
data.columns = ['Frequencia', 'AnguloAtaque', 'ComprimentoCorda', 'VelocidadeFluxo', 'Espessura', 'NivelPressao']
#1. Frequência, em Hertz.
#2. Ângulo de ataque, em graus
#3. Comprimento da corda, em metros
#4. Velocidade de fluxo livre, em metros por segundo
#5. Espessura do deslocamento do lado de sucção, em metros
#A única saída é: 6. Nível de pressão sonora escalado, em decibéis. 


# Visualizar os primeiros registros
print(data.head())


ParserError: ignored

In [None]:
## Análises preliminares Preliminares-------------------------------------------------------------------
# Scatter plots
# data = data.iloc[:10, :] #Desmarcar esta linha se quiser ver apenas alguns dados.
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(12, 8))
for i, column in enumerate(data.columns):
    ax = axes[i // 3, i % 3]  # Determinar a posição do sub-plot na matriz de sub-plots
    ax.scatter(data[column], data['NivelPressao'])  # Scatter plot com a coluna atual no eixo x e a coluna de saída no eixo y
    ax.set_xlabel(column)
    ax.set_ylabel('NivelPressao')
plt.tight_layout()

# Plotar boxplots separadamente em figuras individuais
for column in data.columns:
    plt.figure()
    plt.boxplot(data[column])
    plt.xlabel(column)
    plt.ylabel('Valores')

plt.show() #Desmarque para ver os gráficos preliminares.


In [None]:
# Etapa 2: Treinamento da rede neural
# Separar os dados de entrada (X) e saída (y)
X = data.iloc[:, :-1] # Todas as colunas com exceção da última
y = data.iloc[:, -1]  # Apenas a última coluna

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criar e treinar o modelo de rede neural
model = MLPRegressor(hidden_layer_sizes=(10,), activation='logistic', solver='adam', alpha=0.0001, random_state=42)
#um modelo de regressão é criado usando MLPRegressor do scikit-learn.
#A arquitetura da rede é definida com uma camada interna contendo 10 neurônios e
#função de ativação logística.
#Outras opções de hiperparâmetros podem ser ajustadas conforme necessário.
#hidden_layer_sizes=(10,): Esse parâmetro define a arquitetura da rede neural, especificando o número de neurônios em cada camada oculta. Neste caso, temos uma única camada oculta com 10 neurônios. A escolha do número de neurônios na camada oculta é um aspecto importante a ser analisado, e você pode ajustá-lo para encontrar a melhor configuração para o seu problema.
#activation='logistic': Esse parâmetro define a função de ativação utilizada nos neurônios da rede. Neste caso, foi escolhida a função logística, também conhecida como função sigmoide. A função sigmoide é uma função não linear com valores limitados entre 0 e 1, e é comumente utilizada em problemas de regressão. Você pode explorar outras funções de ativação disponíveis, como 'relu', 'tanh', entre outras, e analisar como elas afetam o desempenho do modelo.
#random_state=42: Esse parâmetro define a semente para a inicialização dos pesos da rede neural. Ao definir um valor fixo para random_state, você garante que os resultados do modelo sejam reproduzíveis, ou seja, ao executar o código várias vezes, você obterá os mesmos resultados. Você pode alterar esse valor ou removê-lo para ter diferentes inicializações aleatórias.
#A função de ativação escolhida, logistic, é uma função não linear que introduz não linearidades nas camadas ocultas da rede neural. Isso permite que o modelo aprenda relações não lineares nos dados, o que pode ser importante para problemas mais complexos. Você pode testar diferentes funções de ativação para encontrar a mais adequada ao seu conjunto de dados e problema em particular.


# Treinar o modelo
model.fit(X_train, y_train)

# Prever os valores para o conjunto de teste
y_pred = model.predict(X_test)

In [None]:
# Calcular o RMSE
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE:", rmse)

# Calcular o R²
r2 = r2_score(y_test, y_pred)
print("R²:", r2)

# Converter os valores previstos em classes discretas
y_pred_classes = [1 if val > 0.5 else 0 for val in y_pred]

# Construir a matriz de confusão
confusion = confusion_matrix(y_test, y_pred_classes)
print("Matriz de Confusão:")
print(confusion)

# Calcular a precisão e acurácia
accuracy = accuracy_score(y_test, y_pred_classes)
print("Acurácia:", accuracy)


# Avaliar o modelo no conjunto de teste
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print('Erro quadrático médio (MSE):', mse)

# Etapa 3: Análise dos parâmetros do algoritmo de treinamento
# Você pode ajustar os parâmetros como tamanho do batch, valor do parâmetro de regularização (alpha), taxa de aprendizagem (learning_rate), etc.