In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt

df_veiculo_origem_televisao = pd.read_csv('../df_veiculo_origem_televisao.csv')

df_veiculo_origem_televisao['Ano'] = pd.to_datetime(df_veiculo_origem_televisao['Data']).dt.year
df_veiculo_origem_televisao['Mes'] = pd.to_datetime(df_veiculo_origem_televisao['Data']).dt.month

# Remover a coluna original de datas
df_veiculo_origem_televisao = df_veiculo_origem_televisao.drop(columns=['Data', 'VL Tabela', 'Vl Bruto', 'IPCA BR', 'IPCA ES', 'Taxa Ac. TRI % PIB', 'PMC - Número-índice (2022=100) (Número-índice)/ ES', 'PMC - Número-índice (2022=100) (Número-índice)/ BR', 'PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)/ ES', 'PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)/ BR', 'PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)/ ES', 'PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)/ BR','Clientes unicos', 'Setor', 'Numero Contratos','Ano'])

df_veiculo_origem_televisao.columns

# 2. Selecionar features e target
target = 'Vl Liquido Final'
categorical_columns = ['Veiculo', 'Origem']
X = df_veiculo_origem_televisao.drop(columns=[target])
y = df_veiculo_origem_televisao[target]

# 3. Encodar variáveis categóricas
encoder = OneHotEncoder(drop='first', sparse_output=False)  # Substituí 'sparse' por 'sparse_output'
X_encoded = pd.DataFrame(encoder.fit_transform(X[categorical_columns]), columns=encoder.get_feature_names_out(categorical_columns))

# Substituir colunas categóricas pelas colunas encodadas
X = X.drop(columns=categorical_columns)
X = pd.concat([X, X_encoded], axis=1)

# 4. Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. Criar o modelo
model = DecisionTreeRegressor(random_state=42)

# 6. Treinar o modelo
model.fit(X_train, y_train)

# 7. Fazer previsões
y_pred = model.predict(X_test)

# 8. Avaliar o modelo
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

mae = mean_absolute_error(y_test, y_pred)
print(f"Mean Absolute Error: {mae}")


In [None]:
plt.figure(figsize=(10, 6))
plt.plot(y_test.values, label='Valores Reais')
plt.plot(y_pred, label='Previsões', linestyle='--')
plt.xlabel('Índice')
plt.ylabel('Vl Liquido Final')
plt.title('Comparação entre Valores Reais e Previsões')
plt.legend()
plt.show()


r2 = r2_score(y_test, y_pred)
print(f'R^2: {r2}')