### Preço bem compacto

In [1]:
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder, StandardScaler
import pandas as pd
import numpy as np

# Criando dados fictícios
np.random.seed(0)
n_clientes = 1000

clientes = ['Cliente ' + str(i) for i in range(1, n_clientes + 1)]
valores_transacao = np.random.normal(1000, 250, n_clientes).round(2)
custo_transacao = np.random.normal(5, 1, n_clientes).round(2)
gastos = np.random.normal(300, 50, n_clientes).round(2)
mcc = np.random.randint(500, 601, n_clientes)  # Coluna categórica

# Criando DataFrame
df = pd.DataFrame({
    'Cliente': clientes,
    'Valor_Transacao': valores_transacao,
    'Custo_Transacao': custo_transacao,
    'Gastos': gastos,
    'mcc': mcc
})

# Simulando Preço de Transação com ruído
df['Preco_Transacao'] = df['Valor_Transacao'] - (df['Custo_Transacao'] + df['Gastos']) + np.random.normal(0, 10, n_clientes)

# Separando variáveis independentes (X) e dependente (y)
X = df[['Valor_Transacao', 'Custo_Transacao', 'Gastos', 'mcc']]
y = df['Preco_Transacao']

# Realizando o encoding da coluna categórica
label_encoder = LabelEncoder()
X['mcc'] = label_encoder.fit_transform(X['mcc'])

# Padronizando os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Ajustando o modelo de regressão linear
modelo = LinearRegression()
modelo.fit(X_scaled, y)

# Coeficientes da regressão
coeficientes = modelo.coef_
intercepto = modelo.intercept_

# Importância das variáveis
importancia = pd.Series(coeficientes, index=X.columns).abs().sort_values(ascending=False)

# Valores mínimo e máximo de importância
importancia_min = importancia.min()
importancia_max = importancia.max()

# Saída organizada
print("Importância das Variáveis:")
print(importancia)

print(f"\nValor Mínimo de Importância: {importancia_min:.2f}")
print(f"Valor Máximo de Importância: {importancia_max:.2f}")

print("\nCoeficientes da Regressão Linear:")
coeficientes_dict = {
    'Valor_Transacao': coeficientes[0],
    'Custo_Transacao': coeficientes[1],
    'Gastos': coeficientes[2],
    'mcc': coeficientes[3]
}
for var, coef in coeficientes_dict.items():
    print(f"{var}: {coef:.2f}")

print(f"\nIntercepto: {intercepto:.2f}")

# Equação da regressão
equacao = "Preco_Transacao = " + " + ".join([f"{coef:.2f} * {var}" for var, coef in coeficientes_dict.items() if var != 'Intercepto']) + f" + {intercepto:.2f}"
print(f"\nEquação do Preço: {equacao}")


Importância das Variáveis:
Valor_Transacao    246.677736
Gastos              47.864900
Custo_Transacao      1.223920
mcc                  0.521357
dtype: float64

Valor Mínimo de Importância: 0.52
Valor Máximo de Importância: 246.68

Coeficientes da Regressão Linear:
Valor_Transacao: 246.68
Custo_Transacao: -1.22
Gastos: -47.86
mcc: 0.52

Intercepto: 686.15

Equação do Preço: Preco_Transacao = 246.68 * Valor_Transacao + -1.22 * Custo_Transacao + -47.86 * Gastos + 0.52 * mcc + 686.15


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X['mcc'] = label_encoder.fit_transform(X['mcc'])


In [2]:
X

Unnamed: 0,Valor_Transacao,Custo_Transacao,Gastos,mcc
0,1441.01,5.56,223.35,27
1,1100.04,5.89,214.40,57
2,1244.68,4.58,302.31,88
3,1560.22,5.10,252.08,49
4,1466.89,5.23,295.96,46
...,...,...,...,...
995,1103.22,5.10,403.96,62
996,950.40,6.40,254.63,98
997,1023.55,5.16,290.38,46
998,713.10,3.86,239.37,32
