In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import accuracy_score, mean_squared_error, r2_score, classification_report



In [2]:
data = pd.read_csv('universal_top_spotify_songs.csv')

In [2]:
# Вывод общей информации о данных
print("Общая информация о данных:")
print(f"Количество строк: {data.shape[0]}")
print(f"Количество столбцов: {data.shape[1]}")
print("\nТипы данных по столбцам:")
print(data.dtypes)

Общая информация о данных:
Количество строк: 10000
Количество столбцов: 20

Типы данных по столбцам:
spotify_id           object
daily_rank            int64
daily_movement        int64
weekly_movement       int64
country              object
popularity            int64
is_explicit            bool
duration_ms           int64
danceability        float64
energy              float64
key                   int64
loudness            float64
mode                  int64
speechiness         float64
acousticness        float64
instrumentalness    float64
liveness            float64
valence             float64
tempo               float64
time_signature        int64
dtype: object


In [3]:
# Преобразование категориальных признаков в числовые
label_encoder = LabelEncoder()
for column in data.columns:
    if data[column].dtype == 'object':
        data[column] = label_encoder.fit_transform(data[column])

# Удаление ненужных столбцов или подготовка признаков и целевой переменной
X = data.drop(['spotify_id', 'country'], axis=1) # Признаки
y = data['country']  # Целевая переменная

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Модели логистической регрессии с разными гиперпараметрами
logistic_model_1 = LogisticRegression(max_iter=1000)  # Модель с параметрами по умолчанию
logistic_model_2 = LogisticRegression(penalty='l2', C=1.0, solver='lbfgs', max_iter=1000)  # Модель с настроенными гиперпараметрами

# Обучение моделей
logistic_model_1.fit(X_train, y_train)
logistic_model_2.fit(X_train, y_train)

# Получение предсказаний для тестового набора данных
logistic_predictions_1 = logistic_model_1.predict(X_test)
logistic_predictions_2 = logistic_model_2.predict(X_test)

# Оценка производительности моделей на тестовом наборе данных
accuracy_1 = accuracy_score(y_test, logistic_predictions_1)
accuracy_2 = accuracy_score(y_test, logistic_predictions_2)

print(f"Точность (Логистическая регрессия - Начальные параметры) : {accuracy_1}")
print(f"Accuracy (Логистическая регрессия - Кастомные параметры) : {accuracy_2}")

# Вывод отчета по классификации для каждой модели
report_1 = classification_report(y_test, logistic_predictions_1, zero_division=1)
report_2 = classification_report(y_test, logistic_predictions_2, zero_division=1)

print("Classification Report (Логистическая регрессия - Начальные параметры):")
print(report_1)

print("Classification Report (Логистическая регрессия - Кастомные параметры):")
print(report_2)

# Модель линейной регрессии без указанных гиперпараметров
linear_model = LinearRegression()

# Обучение модели линейной регрессии
linear_model.fit(X_train, y_train)

# Получение предсказаний для тестового набора данных
linear_predictions = linear_model.predict(X_test)

# Оценка производительности модели линейной регрессии на тестовом наборе данных
mse = mean_squared_error(y_test, linear_predictions)
r2 = r2_score(y_test, linear_predictions)

print(f"Среднеквадратичная ошибка (Линейная регрессия) : {mse}")
print(f"R^2 Score (Линейная регрессия) : {r2}")


Точность (Логистическая регрессия - Начальные параметры) : 0.12437810945273632
Accuracy (Логистическая регрессия - Кастомные параметры) : 0.12437810945273632
Classification Report (Логистическая регрессия - Начальные параметры):
              precision    recall  f1-score   support

           1       1.00      0.00      0.00         8
           2       1.00      0.00      0.00        15
           3       1.00      0.00      0.00         7
           4       1.00      0.00      0.00        10
           5       1.00      0.00      0.00        10
           6       0.00      0.00      1.00        11
           7       1.00      0.00      0.00         5
           8       1.00      0.00      0.00         9
           9       1.00      0.00      0.00        10
          10       1.00      0.00      0.00        17
          11       0.06      0.22      0.09         9
          12       1.00      0.00      0.00         9
          13       1.00      0.00      0.00        12
          14  