In [2]:
# Import wymaganych bibliotek
import kagglehub
import pandas as pd

# Pobranie najnowszej wersji bazy danych
print("Pobieranie bazy danych...")
dataset_path = kagglehub.dataset_download("saurabhshahane/music-dataset-1950-to-2019")

# Wyświetlenie ścieżki do pobranej bazy
print("Ścieżka do plików datasetu:", dataset_path)

# Ścieżka do pliku CSV
file_path = f"{dataset_path}/tcc_ceds_music.csv"  # Zmień nazwę pliku, jeśli jest inna

# Wczytanie danych do DataFrame
print("Wczytywanie danych...")
try:
    df = pd.read_csv(file_path)
    print("Dane wczytane pomyślnie!")
except FileNotFoundError:
    print("Nie znaleziono pliku! Upewnij się, że ścieżka do pliku jest poprawna.")

# Wyświetlenie podstawowych informacji o danych
print("\nPodstawowe informacje o danych:")
print(df.info())

print("\nPierwsze 5 wierszy danych:")
print(df.head())

print("\nKolumny w zbiorze danych:")
print(df.columns.tolist())


Pobieranie bazy danych...
Ścieżka do plików datasetu: /home/filip/.cache/kagglehub/datasets/saurabhshahane/music-dataset-1950-to-2019/versions/3
Wczytywanie danych...
Dane wczytane pomyślnie!

Podstawowe informacje o danych:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28372 entries, 0 to 28371
Data columns (total 31 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Unnamed: 0                28372 non-null  int64  
 1   artist_name               28372 non-null  object 
 2   track_name                28372 non-null  object 
 3   release_date              28372 non-null  int64  
 4   genre                     28372 non-null  object 
 5   lyrics                    28372 non-null  object 
 6   len                       28372 non-null  int64  
 7   dating                    28372 non-null  float64
 8   violence                  28372 non-null  float64
 9   world/life                28372 non-null  float64
 10  n

In [3]:
# Usuwanie kolumn
columns_to_remove = ["Unnamed: 0", "artist_name", "track_name", "lyrics", "age"]
df = df.drop(columns=columns_to_remove, errors="ignore")

# Wyświetlenie nazw kolumn po usunięciu
print("\nKolumny po usunięciu:")
print(df.columns.tolist())

# Podgląd pierwszych wierszy danych
print("\nPierwsze 5 wierszy po usunięciu kolumn:")
print(df.head())


Kolumny po usunięciu:
['release_date', 'genre', 'len', 'dating', 'violence', 'world/life', 'night/time', 'shake the audience', 'family/gospel', 'romantic', 'communication', 'obscene', 'music', 'movement/places', 'light/visual perceptions', 'family/spiritual', 'like/girls', 'sadness', 'feelings', 'danceability', 'loudness', 'acousticness', 'instrumentalness', 'valence', 'energy', 'topic']

Pierwsze 5 wierszy po usunięciu kolumn:
   release_date genre  len    dating  violence  world/life  night/time  \
0          1950   pop   95  0.000598  0.063746    0.000598    0.000598   
1          1950   pop   51  0.035537  0.096777    0.443435    0.001284   
2          1950   pop   24  0.002770  0.002770    0.002770    0.002770   
3          1950   pop   54  0.048249  0.001548    0.001548    0.001548   
4          1950   pop   48  0.001350  0.001350    0.417772    0.001350   

   shake the audience  family/gospel  romantic  ...  like/girls   sadness  \
0            0.000598       0.048857  0.01710

In [4]:
# Podział danych na zbiory: treningowy i do doszkalania
from sklearn.model_selection import train_test_split

# Podział na zbiory - 70% na trening, 30% na doszkalanie
train_data, fine_tune_data = train_test_split(df, test_size=0.3, random_state=42)

# Wyświetlenie liczby rekordów w poszczególnych zbiorach
print("\nLiczba rekordów w zbiorze treningowym:", len(train_data))
print("Liczba rekordów w zbiorze do doszkalania:", len(fine_tune_data))

# Podstawowe statystyki dla obu zbiorów
print("\nPodstawowe statystyki - Zbiór treningowy:")
print(train_data.describe())

print("\nPodstawowe statystyki - Zbiór do doszkalania:")
print(fine_tune_data.describe())


Liczba rekordów w zbiorze treningowym: 19860
Liczba rekordów w zbiorze do doszkalania: 8512

Podstawowe statystyki - Zbiór treningowy:
       release_date           len        dating      violence    world/life  \
count  19860.000000  19860.000000  19860.000000  19860.000000  19860.000000   
mean    1990.257402     72.755186      0.020861      0.117965      0.120885   
std       18.534731     41.702387      0.051504      0.178660      0.171643   
min     1950.000000      1.000000      0.000291      0.000284      0.000291   
25%     1975.000000     42.000000      0.000923      0.001120      0.001170   
50%     1991.000000     63.000000      0.001462      0.002506      0.006579   
75%     2007.000000     93.000000      0.004049      0.189427      0.199654   
max     2019.000000    199.000000      0.579520      0.981781      0.962105   

         night/time  shake the audience  family/gospel      romantic  \
count  19860.000000        19860.000000   19860.000000  19860.000000   
mean    