In [1]:
!pip install pandas pickle-mixin scikit-learn

Collecting pandas
  Downloading pandas-2.2.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m44.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting pickle-mixin
  Downloading pickle-mixin-1.0.2.tar.gz (5.1 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting scikit-learn
  Downloading scikit_learn-1.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.3/13.3 MB[0m [31m47.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting numpy>=1.23.2
  Downloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.3/18.3 MB[0m [31m38.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting pytz>=2020.1
  Downloading pytz-2024.1-py2.py3-none-any.whl 

In [2]:
import pandas as pd
df = pd.read_csv("datatest.csv")
df = df[['Temperature', 'Humidity', 'CO2']]
df.to_csv("dataForTraining.csv")

In [4]:
data = pd.read_csv("dataForTraining.csv")

#Визначення ідеальних значень параметрів мікроклімату
ideal_values = {
    'Temperature': 22,  # Температура
    'Humidity': 50,     # Вологість
    'CO2': 500          # Рівень CO2
}

# Визначення коефіцієнтів масштабування для кожного параметра
scaling_factors = {
    'Temperature': 0.1,
    'Humidity': 0.1,
    'CO2': 0.01
}

#Відхилення
weighted_deviations = {
    'Temperature': ((data['Temperature'] - ideal_values['Temperature']) / ideal_values['Temperature']) ** 2,
    'Humidity': ((data['Humidity'] - ideal_values['Humidity']) / ideal_values['Humidity']) ** 2,
    'CO2': ((data['CO2'] - ideal_values['CO2']) / ideal_values['CO2']) ** 2
}

# Зробимо нормалізацію та збережемо для подальших дій
normalized_weighted_deviations = {
    'Temperature': weighted_deviations['Temperature'] / weighted_deviations['Temperature'].max(),
    'Humidity': weighted_deviations['Humidity'] / weighted_deviations['Humidity'].max(),
    'CO2': weighted_deviations['CO2'] / weighted_deviations['CO2'].max()
}

weighted_sum_deviations = (
    scaling_factors['Temperature'] * normalized_weighted_deviations['Temperature'] +
    scaling_factors['Humidity'] * normalized_weighted_deviations['Humidity'] +
    scaling_factors['CO2'] * normalized_weighted_deviations['CO2']
)

data['Productivity'] = 100 - (weighted_sum_deviations * 100)

#Обмежимо значення продуктивності, зробимо їх в межах від 1 до 100
data['Productivity'] = data['Productivity'].clip(1, 100)

data = data.sort_values(by=['Temperature', 'Humidity', 'CO2'])
data['Productivity'].describe()

#Виберемо всі ці стовпці для подальших дій
data = data[['Temperature', 'Humidity', 'CO2', 'Productivity']]

In [5]:
data.to_csv("dataForTrainingv1.csv", index=False)
#Видалимо рядки з пропущеними значеннями
data_not_empty = data.dropna(axis=0)

#Не забудемо визначити залежність y та незалежні змінні X
y = data.Productivity
X = data[['Temperature', 'Humidity', 'CO2']]

X.describe()

Unnamed: 0,Temperature,Humidity,CO2
count,2665.0,2665.0,2665.0
mean,21.433876,25.353937,717.90647
std,1.028024,2.436842,292.681718
min,20.2,22.1,427.5
25%,20.65,23.26,466.0
50%,20.89,25.0,580.5
75%,22.356667,26.856667,956.333333
max,24.408333,31.4725,1402.25


In [10]:
#Оберемо модель регресійних дерев рішень, оскільки вони здатні обробляти нелінійні залежності
from sklearn.tree import DecisionTreeRegressor

productivity_model = DecisionTreeRegressor(random_state=1)
productivity_model.fit(X, y)

In [12]:
import pickle

filename = 'ProductivityPredictionModel.sav'
pickle.dump(productivity_model, open(filename, 'wb'))