<a href="https://colab.research.google.com/github/Alissongrs/RegressaoLinear/blob/main/RNA_e_REGRESS%C3%83O_Marketing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import warnings
warnings.filterwarnings("ignore")

# Bibliotecas para uso e visualização de dados
import numpy as pd
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Imports para seleção de modelos
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

# Imports para preparação de dados
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# Imports para auxiliar a visualização de dados descritos em várias variáveis
from sklearn.decomposition import PCA

# Import de modelos preditivos
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPRegressor
from sklearn.neural_network import MLPClassifier

# Import de métricas
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.metrics import accuracy_score

In [2]:
df = pd.read_csv('/content/advertising.csv')
df.sample(5)

Unnamed: 0,TV,Radio,Newspaper,Sales
48,227.2,15.8,49.9,19.8
77,120.5,28.5,14.2,14.2
98,289.7,42.3,51.2,25.4
23,228.3,16.9,26.2,20.5
30,292.9,28.3,43.2,21.4


In [3]:
# Tipo de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   TV         200 non-null    float64
 1   Radio      200 non-null    float64
 2   Newspaper  200 non-null    float64
 3   Sales      200 non-null    float64
dtypes: float64(4)
memory usage: 6.4 KB


In [4]:
# Removendo duplicadas
df.drop_duplicates(inplace=True)

In [5]:
# Separação de DADOS e LABEL
X = df.drop(columns=['Sales'])
y = df['Sales']

# Dividindo dados TREINO e TESTE
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size = 0.3,
    random_state = 42
)

# Padronização dos dados
ss = StandardScaler()
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

In [6]:
def metricas(X_tr_scaled, y_tr, y_ts, y_pr, model, id_modelo):

 y_pr_tr = model.predict(X_tr_scaled)

 # Erro quadrático médio
 print(f"MSE do TREINO ({id_modelo}): ", mean_squared_error(y_tr, y_pr_tr))
 print(f"MSE do TESTE ({id_modelo}): ", mean_squared_error(y_ts, y_pr))

 # Erro absoluto médio
 print(f"MAE do TREINO ({id_modelo}): ", mean_absolute_error(y_tr, y_pr_tr))
 print(f"MAE do TESTE ({id_modelo}): ", mean_absolute_error(y_ts, y_pr))

 # R²
 print(f"R² do TREINO ({id_modelo}): ", r2_score(y_tr, y_pr_tr))
 print(f"R² do TESTE ({id_modelo}): ", r2_score(y_ts, y_pr))

In [7]:
# Treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train_scaled, y_train)

# Fazendo as predições
y_pred = modelo.predict(X_test_scaled)

# Metricas para regressao linear
metricas(X_train_scaled, y_train, y_test, y_pred, modelo, "Reg Linear")

MSE do TREINO (Reg Linear):  2.8392326607544245
MSE do TESTE (Reg Linear):  2.54162403622915
MAE do TREINO (Reg Linear):  1.2836301223784408
MAE do TESTE (Reg Linear):  1.1594875061090584
R² do TREINO (Reg Linear):  0.8919647339302077
R² do TESTE (Reg Linear):  0.9091484341849798


In [9]:
# Treinando uma RNA padrão e realizando predições
modelo_otimizado = MLPRegressor(hidden_layer_sizes=(10, 5,),
            max_iter=1000,
            solver="lbfgs",
            learning_rate="adaptive",
            random_state=93)
modelo_otimizado.fit(X_train_scaled, y_train)
y_pred_rn = modelo_otimizado.predict(X_test_scaled)

# Metricas para RNA otimizada
metricas(X_train_scaled, y_train, y_test, y_pred_rn, modelo_otimizado, "RN OTIMIZADO")

MSE do TREINO (RN OTIMIZADO):  0.7223982401992917
MSE do TESTE (RN OTIMIZADO):  4.93884563479431
MAE do TREINO (RN OTIMIZADO):  0.5615115916845373
MAE do TESTE (RN OTIMIZADO):  1.6007727270138643
R² do TREINO (RN OTIMIZADO):  0.9725121202052027
R² do TESTE (RN OTIMIZADO):  0.8234586025140637


In [10]:
# Treinando uma RNA padrão e realizando predições
modelo_otimizado = MLPRegressor(hidden_layer_sizes=(10, 5,),
            max_iter=1000,
            solver="lbfgs",
            learning_rate="adaptive",
            random_state=3)
modelo_otimizado.fit(X_train_scaled, y_train)
y_pred_rn = modelo_otimizado.predict(X_test_scaled)

# Metricas para RNA otimizada
metricas(X_train_scaled, y_train, y_test, y_pred_rn, modelo_otimizado, "RN OTIMIZADO")

MSE do TREINO (RN OTIMIZADO):  0.7093816540612269
MSE do TESTE (RN OTIMIZADO):  4.145685663426665
MAE do TREINO (RN OTIMIZADO):  0.6242040023304216
MAE do TESTE (RN OTIMIZADO):  1.5046654466233291
R² do TREINO (RN OTIMIZADO):  0.9730074126009912
R² do TESTE (RN OTIMIZADO):  0.8518104847410896
