In [1]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

In [2]:
# Функція для завантаження та об'єднання даних з різних папок
def load_data(data_directory):
    all_data = pd.DataFrame()

    for activity_folder in os.listdir(data_directory):
        activity_path = os.path.join(data_directory, activity_folder)

        for file_name in os.listdir(activity_path):
            file_path = os.path.join(activity_path, file_name)

            data = pd.read_csv(file_path)
            data['activity'] = activity_folder
            all_data = pd.concat([all_data, data], ignore_index=True)

    return all_data

In [3]:
# Завантаження даних
data_directory = r'D:\GO IT HOMEWORK\datasientc\3\data'
all_data = load_data(data_directory)

In [4]:
# Додавання часових ознак (time domain features)
all_data['mean_x'] = all_data[['accelerometer_X']].mean(axis=1)
all_data['mean_y'] = all_data[['accelerometer_Y']].mean(axis=1)
all_data['mean_z'] = all_data[['accelerometer_Z']].mean(axis=1)
all_data['std_x'] = all_data[['accelerometer_X']].std(axis=1)
all_data['std_y'] = all_data[['accelerometer_Y']].std(axis=1)
all_data['std_z'] = all_data[['accelerometer_Z']].std(axis=1)

In [12]:
# Визначення X та y
X = all_data[['mean_x', 'mean_y', 'mean_z', 'std_x', 'std_y', 'std_z']]
y = all_data['activity']

In [13]:
# Створення SimpleImputer
imputer = SimpleImputer(strategy='constant', fill_value=0)

In [14]:
# Заміна відсутніх значень в X
X_imputed = pd.DataFrame(imputer.fit_transform(X), columns=X.columns)

In [15]:
# Розділення даних на тренувальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X_imputed, y, test_size=0.2, random_state=42)


In [16]:
# Перевірка розмірності після розділення
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(155088, 6) (155088,)
(38772, 6) (38772,)


In [17]:
# Навчання моделі Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)

In [18]:
# Перевірка наявності відсутніх значень у X_test
missing_values_test = X_test.isnull().sum()

In [19]:
# Заміна відсутніх значень в X_test за допомогою того ж самого imputer
X_test_imputed = pd.DataFrame(imputer.transform(X_test), columns=X_test.columns)


In [20]:
# Передбачення та оцінка результатів для Random Forest
rf_predictions = rf_model.predict(X_test_imputed)
rf_accuracy = accuracy_score(y_test, rf_predictions)
rf_classification_report = classification_report(y_test, rf_predictions)


In [22]:
# Виведення результатів
print("Missing values in X_test:\n", missing_values_test)
print("\nRandom Forest Accuracy:", rf_accuracy)
print("\nRandom Forest Classification Report:\n", rf_classification_report)

Missing values in X_test:
 mean_x    0
mean_y    0
mean_z    0
std_x     0
std_y     0
std_z     0
dtype: int64

Random Forest Accuracy: 0.9995873310636542

Random Forest Classification Report:
               precision    recall  f1-score   support

        idle       1.00      1.00      1.00      6203
     running       1.00      1.00      1.00     20485
      stairs       1.00      0.99      0.99      1022
     walking       1.00      1.00      1.00     11062

    accuracy                           1.00     38772
   macro avg       1.00      1.00      1.00     38772
weighted avg       1.00      1.00      1.00     38772



In [None]:
# Навчання моделі SVM
svm_model = SVC(random_state=42)
svm_model.fit(X_train, y_train)


In [None]:
# Передбачення та оцінка результатів для SVM
svm_predictions = svm_model.predict(X_test)
svm_accuracy = accuracy_score(y_test, svm_predictions)
svm_classification_report = classification_report(y_test, svm_predictions)

In [None]:
# Виведення результатів
print("\nSVM Results:")
print(f"Accuracy: {svm_accuracy}")
print("Classification Report:")
print(svm_classification_report)