# EDA — Spotify Tracks Dataset

Первинний аналіз даних для лабораторної роботи 1 (MLOps). Ціль: регресія **popularity** за аудіо-ознаками.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style="whitegrid")
%matplotlib inline

In [None]:
# Завантаження даних (шлях від кореня проєкту)
df = pd.read_csv("../data/raw/dataset.csv")
df.head()

## Перевірка типів даних та пропусків

In [None]:
df.info()

In [None]:
df.isnull().sum()

In [None]:
df.describe()

## Розподіл цільової змінної (popularity)

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
df["popularity"].hist(bins=50, ax=axes[0], edgecolor="black", alpha=0.7)
axes[0].set_title("Popularity — histogram")
axes[0].set_xlabel("popularity")
df.boxplot(column="popularity", ax=axes[1])
axes[1].set_title("Popularity — boxplot")
plt.tight_layout()
plt.show()

## Матриця кореляції (числові ознаки)

In [None]:
numeric_cols = [
    "popularity", "duration_ms", "danceability", "energy", "key", "loudness",
    "mode", "speechiness", "acousticness", "instrumentalness", "liveness",
    "valence", "tempo", "time_signature"
]
corr = df[numeric_cols].corr()
plt.figure(figsize=(12, 10))
sns.heatmap(corr, annot=False, cmap="coolwarm", center=0, square=True, linewidths=0.5)
plt.title("Correlation matrix (numeric features)")
plt.tight_layout()
plt.show()

## Додатково: дублікати та категорії

In [None]:
print("Дублікати за track_id:", df["track_id"].duplicated().sum())
print("Унікальних жанрів (track_genre):", df["track_genre"].nunique())
print("\nРозподіл explicit:", df["explicit"].value_counts().to_dict())