In [11]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Carregar os dados do arquivo CSV
data = pd.read_csv('../datasetsMATCP/water_consumption_updated.csv', sep=';', decimal=',')

# Calcular o consumo médio mensal para cada parque
monthly_avg_consumption = data.groupby(['Park name', 'Year', 'Month'])['Consumption'].sum().reset_index().groupby('Park name')['Consumption'].mean().reset_index()

# Extrair variáveis relevantes
X = monthly_avg_consumption[['Park name']]  # Nome do parque
y = monthly_avg_consumption['Consumption']  # Consumo médio mensal

# Convertendo o nome do parque em variáveis dummy
X = pd.get_dummies(X)

# Adicionar o novo parque ao conjunto de características
new_park_name = 'NewPark'  # Nome do novo parque
X[new_park_name] = 0  # Adicionar uma coluna para o novo parque

# Dividir dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Avaliar o modelo
train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)
print("R² Score (Treinamento):", train_score)
print("R² Score (Teste):", test_score)

# Prever o custo médio mensal para o novo parque de 55 hectares
new_park_dummy = pd.DataFrame([[0] * len(X.columns)], columns=X.columns)
new_park_dummy[new_park_name] = 1  # Definir o novo parque como 1
predicted_cost = model.predict(new_park_dummy)
print("Custo médio mensal previsto para o novo parque:", predicted_cost[0])


R² Score (Treinamento): 1.0
R² Score (Teste): -102.07010038278472
Custo médio mensal previsto para o novo parque: 29.160000000000004
