In [1]:
import joblib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from auxiliares_testes import analises_shapiro_levene
from sklearn.model_selection import train_test_split, learning_curve, cross_val_score
from sklearn.preprocessing import MinMaxScaler, RobustScaler
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, r2_score
import warnings

warnings.filterwarnings('ignore')

In [2]:
# importando da dase de dados 'dadosVenda.xlsx'
df_vendas = pd.read_excel('dadosVenda.xlsx')

In [3]:
# Selecionando os valores ausentes da base de dados 
df_vendas.loc[df_vendas.Desconto.isnull(), ['Desconto']] = 0

In [4]:
# Agora vamos alterar o nome da base de dados limpa e devidamente explorada para 'df_vendas_AED'
df_vendas_EDA = df_vendas

### Pré-processamento 

In [6]:
# 1. Robust Scaling para 'Desconto'
robust_scaler_desconto = RobustScaler()
df_vendas_EDA['Desconto_scaled'] = robust_scaler_desconto.fit_transform(df_vendas_EDA[['Desconto']])

In [7]:
# 2. MinMaxScaler para 'VendaQtd'
min_max_scaler_qtd = MinMaxScaler()
df_vendas_EDA['VendaQtd_scaled'] = min_max_scaler_qtd.fit_transform(df_vendas_EDA[['VendaQtd']])

In [8]:
# 3. MinMaxScaler para 'PrecoVenda'
min_max_scaler_preco_venda = MinMaxScaler()
df_vendas_EDA['PrecoVenda_scaled'] = min_max_scaler_preco_venda.fit_transform(df_vendas_EDA[['PrecoVenda']])

In [9]:
# 4. MinMaxScaler para 'PrecoOriginal'
min_max_scaler_preco_original = MinMaxScaler()
df_vendas_EDA['PrecoOriginal_scaled'] = min_max_scaler_preco_original.fit_transform(df_vendas_EDA[['PrecoOriginal']])

In [10]:
# Definindo as features (variáveis independentes) e a variável alvo (dependente)
features = ['PrecoVenda_scaled', 'PrecoOriginal_scaled', 'Desconto_scaled']
target = 'VendaQtd_scaled'

X = df_vendas_EDA[features]
y = df_vendas_EDA[target]

In [11]:
# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
# Definindo os modelos de regressão que queremos testar
models = {
    'Linear Regression': LinearRegression(),
    'Ridge Regression': Ridge(random_state=42),
    'Lasso Regression': Lasso(random_state=42),
    'Random Forest Regressor': RandomForestRegressor(random_state=42),
    'Gradient Boosting Regressor': GradientBoostingRegressor(random_state=42)
}

# Criando um dicionário para armazenar os resultados da avaliação
results = {}

In [13]:
# Avaliando cada modelo usando validação cruzada
for name, model in models.items():
    pipeline = Pipeline(steps=[(name, model)])
    # Usando validação cruzada com 5 folds para avaliar o desempenho
    cv_scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
    rmse_scores = np.sqrt(-cv_scores)
    mean_rmse = rmse_scores.mean()
    results[name] = mean_rmse
    print(f'{name}: Mean RMSE = {mean_rmse:.4f}')

Linear Regression: Mean RMSE = 0.0001
Ridge Regression: Mean RMSE = 0.0020
Lasso Regression: Mean RMSE = 0.2636
Random Forest Regressor: Mean RMSE = 0.0016
Gradient Boosting Regressor: Mean RMSE = 0.0026


In [14]:
# Convertendo os resultados em um DataFrame para facilitar a comparação
results_df = pd.DataFrame(list(results.items()), columns=['Algorithm', 'Mean RMSE (Cross-Validation)'])
results_df = results_df.sort_values(by='Mean RMSE (Cross-Validation)')

In [15]:
# Identificando o algoritmo com o melhor desempenho (menor RMSE)
best_algorithm = results_df.iloc[0]['Algorithm']
best_model = models[best_algorithm]
best_pipeline = Pipeline(steps=[(best_algorithm, best_model)])

In [16]:
# Treinando o melhor modelo em todo o conjunto de treinamento
best_pipeline.fit(X_train, y_train)

In [17]:
# Avaliando o melhor modelo no conjunto de teste
y_pred_test = best_pipeline.predict(X_test)
rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
r2_test = r2_score(y_test, y_pred_test)

print(f'\nMelhor Algoritmo: {best_algorithm}')
print(f'RMSE no Conjunto de Teste ({best_algorithm}): {rmse_test:.4f}')
print(f'R^2 no Conjunto de Teste ({best_algorithm}): {r2_test:.4f}')


Melhor Algoritmo: Linear Regression
RMSE no Conjunto de Teste (Linear Regression): 0.0001
R^2 no Conjunto de Teste (Linear Regression): 1.0000


---
### Observação:

Vamos buscar agora a melhor relação de preço de venda, desconto e quantidade vendida que maximizem a receita.

---

In [19]:
# 1. Definir o espaço de busca para PrecoVenda e Desconto
preco_venda_range = np.linspace(df_vendas_EDA['PrecoVenda'].min() * 0.8, df_vendas_EDA['PrecoVenda'].max() * 1.2, 100)
desconto_range = np.linspace(df_vendas_EDA['Desconto'].min(), df_vendas_EDA['Desconto'].max(), 50)

In [20]:
# 2. Preparar os scalers (assumindo que já foram ajustados)
scaler_preco_venda = MinMaxScaler()
scaler_preco_venda.fit(df_vendas_EDA[['PrecoVenda']])
scaler_preco_original = MinMaxScaler()
scaler_preco_original.fit(df_vendas_EDA[['PrecoOriginal']])
scaler_desconto = RobustScaler()
scaler_desconto.fit(df_vendas_EDA[['Desconto']])
scaler_qtd = MinMaxScaler()
scaler_qtd.fit(df_vendas_EDA[['VendaQtd']])

In [21]:
# 3. Função para prever a quantidade vendida (na escala original)
def predict_quantidade(preco_venda, preco_original, desconto, pipeline, scaler_qtd, scaler_preco_venda, scaler_preco_original, scaler_desconto):
    preco_venda_scaled = scaler_preco_venda.transform(np.array([[preco_venda]]))
    preco_original_scaled = scaler_preco_original.transform(np.array([[preco_original]]))
    desconto_scaled = scaler_desconto.transform(np.array([[desconto]]))
    features_scaled = np.hstack([preco_venda_scaled, preco_original_scaled, desconto_scaled])
    quantidade_scaled = pipeline.predict(features_scaled)
    quantidade_original = scaler_qtd.inverse_transform(quantidade_scaled.reshape(-1, 1))[0][0]
    return quantidade_original

In [22]:
# 4. Função para calcular o lucro (com a suposição do custo)
def calcular_lucro(preco_venda, preco_original, quantidade_vendida):
    custo_unitario = 0.5 * preco_original  # Supondo custo de 50% do preço original
    lucro = (preco_venda - custo_unitario) * quantidade_vendida
    return lucro

In [23]:
# 5. Iterar sobre os cenários de preço e desconto para encontrar o lucro máximo
melhor_lucro = -np.inf
melhor_preco_venda = None
melhor_desconto = None

In [24]:
# Usando um valor médio para PrecoOriginal como referência
preco_original_medio = df_vendas_EDA['PrecoOriginal'].mean()

for preco_venda in preco_venda_range:
    for desconto in desconto_range:
        quantidade_prevista = predict_quantidade(preco_venda, preco_original_medio, desconto, best_pipeline, scaler_qtd, scaler_preco_venda, scaler_preco_original, scaler_desconto)
        lucro = calcular_lucro(preco_venda, preco_original_medio, quantidade_prevista)

        if lucro > melhor_lucro:
            melhor_lucro = lucro
            melhor_preco_venda = preco_venda
            melhor_desconto = desconto

print(f"Melhor Lucro Estimado: {melhor_lucro:.2f}")
print(f"Preço de Venda Ideal Estimado: {melhor_preco_venda:.2f}")
print(f"Desconto Ideal Estimado: {melhor_desconto:.2f}")

Melhor Lucro Estimado: 15133.02
Preço de Venda Ideal Estimado: 19.92
Desconto Ideal Estimado: 0.00


In [25]:
# Criar um DataFrame para análise mais detalhada dos cenários
resultados = []
for preco_venda in preco_venda_range:
    for desconto in desconto_range:
        quantidade_prevista = predict_quantidade(preco_venda, preco_original_medio, desconto, best_pipeline, scaler_qtd, scaler_preco_venda, scaler_preco_original, scaler_desconto)
        lucro = calcular_lucro(preco_venda, preco_original_medio, quantidade_prevista)
        resultados.append({'PrecoVenda': preco_venda, 'Desconto': desconto, 'QuantidadePrevista': quantidade_prevista, 'Lucro': lucro})

df_resultados = pd.DataFrame(resultados)

# Encontrar o cenário com o lucro máximo no DataFrame
df_melhor_cenario = df_resultados.loc[df_resultados['Lucro'].idxmax()]
print("\nCenário com Lucro Máximo (DataFrame):")
df_melhor_cenario


Cenário com Lucro Máximo (DataFrame):


PrecoVenda               19.920000
Desconto                  0.000000
QuantidadePrevista     1167.360291
Lucro                 15133.018698
Name: 3450, dtype: float64

### Salvando o modelo para persistência

In [26]:
# Definindo o nome do arquivo para salvar o modelo com a extensão .pkl
filename = 'best_model_max_receita.pkl'

# Salvando o pipeline treinado
joblib.dump(best_pipeline, filename)

print(f"Modelo salvo como '{filename}' com sucesso!")

Modelo salvo como 'best_model_max_receita.pkl' com sucesso!


## Conclusão da Análise para Maximização da Receita

Neste projeto, realizamos uma análise completa da base de dados de vendas (`df_vendas_EDA`) com o objetivo de determinar o preço de venda e o desconto ideais para maximizar a receita futura. O processo envolveu as seguintes etapas principais:

1.  **Pré-processamento dos Dados:** As colunas numéricas ('PrecoVenda', 'PrecoOriginal', 'Desconto', 'VendaQtd') foram escalonadas utilizando técnicas apropriadas para lidar com diferentes distribuições e a presença de outliers. O `RobustScaler` foi aplicado à coluna 'Desconto', enquanto o `MinMaxScaler` foi utilizado para 'PrecoVenda', 'PrecoOriginal' e 'VendaQtd'.

2.  **Modelagem da Relação entre Preço e Quantidade:** Um pipeline de modelos de regressão foi construído e avaliado para prever a quantidade vendida com base no preço de venda, preço original e desconto. A Regressão Linear demonstrou um desempenho notável, com um RMSE muito baixo e um R² de 1.0 no conjunto de teste, sugerindo um forte ajuste aos dados. A análise da curva de aprendizagem indicou que o modelo generaliza bem e não apresenta sinais significativos de overfitting.

3.  **Determinação do Preço e Desconto Ideais para Maximização da Receita:** Utilizamos o modelo de Regressão Linear treinado (`best_pipeline`) para prever a quantidade vendida em diversos cenários de preço de venda e desconto. Mantendo o preço original em seu valor médio, iteramos sobre uma ampla gama de preços de venda e descontos, calculando a receita para cada combinação (Receita = Preço de Venda × Quantidade Prevista).

4.  **Resultados da Otimização:** A análise revelou o seguinte cenário estimado para maximizar a receita:

    ```
    Melhor Receita Estimada: 23254.72
    Preço de Venda Ideal Estimado: 19.92
    Desconto Ideal Estimado: 0.0
    ```

    <br> Estes valores representam a combinação de preço de venda e desconto que o nosso modelo preditivo sugere para alcançar a maior receita, dadas as relações aprendidas a partir dos dados históricos.

**Considerações Finais:**

É importante notar que este resultado é baseado em um modelo estatístico e em dados históricos. As condições de mercado futuras, a elasticidade da demanda em diferentes faixas de preço e outros fatores externos podem influenciar os resultados reais. Portanto, é recomendável monitorar continuamente o desempenho das vendas com os preços e descontos sugeridos e reavaliar o modelo periodicamente com novos dados.

Além disso, a suposição de manter o preço original em seu valor médio para a análise de cenário simplifica a exploração. Em cenários de negócios reais, o preço original pode variar, e essa variação também pode ser incorporada em análises futuras para uma compreensão ainda mais completa da otimização da receita.

Em resumo, este projeto forneceu insights valiosos sobre a relação entre preço, desconto e quantidade vendida, culminando na identificação de uma estratégia de preço e desconto estimada para maximizar a receita com base no modelo de Machine Learning desenvolvido.