In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report



In [2]:
data = pd.read_csv('universal_top_spotify_songs.csv')
# Вывод общей информации о данных
print("Общая информация о данных:")
print(f"Количество строк: {data.shape[0]}")
print(f"Количество столбцов: {data.shape[1]}")
print("\nТипы данных по столбцам:")
print(data.dtypes)

Общая информация о данных:
Количество строк: 10000
Количество столбцов: 20

Типы данных по столбцам:
spotify_id           object
daily_rank            int64
daily_movement        int64
weekly_movement       int64
country              object
popularity            int64
is_explicit            bool
duration_ms           int64
danceability        float64
energy              float64
key                   int64
loudness            float64
mode                  int64
speechiness         float64
acousticness        float64
instrumentalness    float64
liveness            float64
valence             float64
tempo               float64
time_signature        int64
dtype: object


In [3]:
# Предположим, что вы хотите предсказать 'Medical Condition' на основе других столбцов
# Выборка признаков и целевой переменной
features = ['country', 'daily_rank', 'is_explicit', 'danceability', 'energy', 'loudness', 'acousticness', 'tempo', 'time_signature']
target = 'popularity'

X = data[features]
y = data[target]

# Преобразование категориальных признаков в числовые значения
label_encoders = {}
for column in X.select_dtypes(include=['object']).columns:
    label_encoders[column] = LabelEncoder()
    X.loc[:, column] = label_encoders[column].fit_transform(X.loc[:, column])

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Настройка гиперпараметров для решающего дерева
params_dt = {
    'max_depth': [3, 5, 7, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

decision_tree = DecisionTreeClassifier(random_state=42)
grid_search_dt = GridSearchCV(decision_tree, params_dt, cv=5)
grid_search_dt.fit(X_train, y_train)

best_decision_tree = grid_search_dt.best_estimator_
predictions_dt_tuned = best_decision_tree.predict(X_test)
accuracy_dt_tuned = accuracy_score(y_test, predictions_dt_tuned)

print("Лучшие параметры для решающего дерева:", grid_search_dt.best_params_)
print("Точность настроенных параметров решающего дерева:", accuracy_dt_tuned)
print("Classification Report of Tuned Decision Tree:")
print(classification_report(y_test, predictions_dt_tuned))

params_rf = {
    'n_estimators': [50, 100],
    'max_depth': [None, 5],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1]
}

random_forest = RandomForestClassifier(random_state=42)
grid_search_rf = GridSearchCV(random_forest, params_rf, cv=5)
grid_search_rf.fit(X_train, y_train)

best_random_forest = grid_search_rf.best_estimator_
predictions_rf_tuned = best_random_forest.predict(X_test)
accuracy_rf_tuned = accuracy_score(y_test, predictions_rf_tuned)

print("\nЛушчие параметры для случайного леса:", grid_search_rf.best_params_)
print("Точность настроенных параметров случайного леса:", accuracy_rf_tuned)
print("Classification Report of Tuned Random Forest:")
print(classification_report(y_test, predictions_rf_tuned))



Лучшие параметры для решающего дерева: {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2}
Точность настроенных параметров решающего дерева: 0.165
Classification Report of Tuned Decision Tree:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         1
           9       0.00      0.00      0.00         1
          31       0.00      0.00      0.00         4
          33       0.00      0.00      0.00         2
          36       0.00      0.00      0.00         1
          37       0.00      0.00      0.00         1
          39       0.00      0.00      0.00         4
          40       0.00      0.00      0.00         1
          42       0.00      0.00      0.00         3
          43       0.00      0.00      0.00         6
          44       0.00      0.00      0.00         5
          45       0.00      0.00      0.00         9
          46       0.00      0.00      0.00         4
          47       0.00      0.00    

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))



Лушчие параметры для случайного леса: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 100}
Точность настроенных параметров случайного леса: 0.77
Classification Report of Tuned Random Forest:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         1
           9       0.00      0.00      0.00         1
          27       0.00      0.00      0.00         0
          31       1.00      0.50      0.67         4
          33       1.00      1.00      1.00         2
          35       0.00      0.00      0.00         0
          36       0.00      0.00      0.00         1
          37       1.00      1.00      1.00         1
          39       1.00      0.25      0.40         4
          40       0.00      0.00      0.00         1
          42       0.00      0.00      0.00         3
          43       1.00      0.33      0.50         6
          44       0.00      0.00      0.00         5
          45    

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
