# Анализ данных популярных песен Spotify

В этом ноутбуке мы проведем анализ данных о популярных песнях на Spotify. Мы загрузим данные, выполним предварительную обработку, визуализируем результаты и выполним отбор признаков.

## Шаг 1: Импорт библиотек

Импортируем необходимые библиотеки для анализа данных.


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
import chardet

## Шаг 2: Загрузка данных

Загрузим данные о популярных песнях на Spotify из CSV файла.

In [None]:
def detect_encoding(file_path):
    """Определяет кодировку файла."""
    with open(file_path, 'rb') as f:
        result = chardet.detect(f.read())
    return result['encoding']

def load_data(file_path):
    """Загружает и возвращает DataFrame из CSV файла с определенной кодировкой."""
    encoding = detect_encoding(file_path)
    return pd.read_csv(file_path, encoding=encoding)

# Укажите путь к вашему файлу данных
data_file = './data/Popular_Spotify_Songs.csv'
df = load_data(data_file)

# Проверим первые строки загруженного датафрейма
df.head()

## Шаг 3: Предварительная обработка данных

В этом шаге мы обработаем пропущенные значения и нормализуем числовые признаки.

In [None]:
def handle_missing_values(df):
    """Обрабатывает пропущенные значения в наборе данных."""
    df = df.copy()  # Создаем копию
    df['key'] = df['key'].fillna('Unknown')
    df['in_shazam_charts'] = df['in_shazam_charts'].fillna(0)
    return df

def normalize_data(df, numerical_columns):
    """Нормализует числовые признаки с использованием StandardScaler."""
    df[numerical_columns] = df[numerical_columns].apply(pd.to_numeric, errors='coerce')
    scaler = StandardScaler()
    df[numerical_columns] = scaler.fit_transform(df[numerical_columns])
    return df

def preprocess_data(file_path):
    """Выполняет полную предварительную обработку данных."""
    df = load_data(file_path)
    df = handle_missing_values(df)
    numerical_cols = ['streams', 'bpm', 'danceability_%', 'energy_%', 
                      'acousticness_%', 'instrumentalness_%', 'liveness_%', 'speechiness_%']
    df = normalize_data(df, numerical_cols)
    return df

# Предварительная обработка данных
df = preprocess_data(data_file)

# Проверим форму датафрейма и наличие NaN значений
print("Форма датафрейма:", df.shape)
print("Количество NaN после преобразования:", df.isnull().sum())

## Шаг 4: Визуализация данных

Создадим визуализации, чтобы проанализировать данные.

### 4.1 Тепловая карта корреляции

In [None]:
def plot_correlation_matrix(df):
    """Строит тепловую карту корреляционной матрицы."""
    numeric_df = df.select_dtypes(include='number')
    plt.figure(figsize=(10, 8))
    sns.heatmap(numeric_df.corr(), annot=True, cmap='coolwarm')
    plt.title('Correlation Matrix')
    plt.show()

# Построим тепловую карту
plot_correlation_matrix(df)

### 4.2 Гистограмма распределения

In [None]:
def plot_histogram(df, column_name):
    """Строит гистограмму для заданного числового признака."""
    df[column_name].hist(bins=30)
    plt.title(f'Distribution of {column_name}')
    plt.xlabel(column_name)
    plt.ylabel('Frequency')
    plt.show()

# Гистограмма распределения для 'streams'
plot_histogram(df, 'streams')

### 4.3 Диаграмма рассеяния

In [None]:
def plot_scatter(df, x_col, y_col):
    """Строит scatter plot для двух признаков."""
    plt.scatter(df[x_col], df[y_col])
    plt.title(f'Scatter Plot: {x_col} vs {y_col}')
    plt.xlabel(x_col)
    plt.ylabel(y_col)
    plt.show()

# Диаграмма рассеяния между 'streams' и 'bpm'
plot_scatter(df, 'streams', 'bpm')

## Шаг 5: Отбор признаков

В этом шаге мы выполним отбор признаков с помощью RFE и PCA.

In [None]:
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier
from sklearn.decomposition import PCA

def recursive_feature_elimination(X, y, n_features):
    """Применяет RFE для выбора наиболее важных признаков."""
    model = RandomForestClassifier()
    rfe = RFE(model, n_features_to_select=n_features)
    fit = rfe.fit(X, y)
    return fit.support_

def apply_pca(X, n_components=2):
    """Применяет метод главных компонент для сокращения размерности."""
    pca = PCA(n_components=n_components)
    principal_components = pca.fit_transform(X)
    return principal_components, pca.explained_variance_ratio_

# Разделим признаки и целевой столбец
X = df.drop(columns=['streams'])  # Замените 'streams' на нужный целевой столбец
y = df['streams']  # Замените на нужный целевой столбец

# Применим RFE для отбора признаков
selected_features = recursive_feature_elimination(X, y, n_features=5)
print("Выбранные признаки:", X.columns[selected_features])

# Применение PCA
principal_components, variance_ratios = apply_pca(X)
print("Principal components:", principal_components)
print("Explained variance ratio:", variance_ratios)