Lépjünk vissza az 1920-as évek pezsgő világába. Ez egy olyan korszak volt, amikor a zene forradalmasítva lett. A jazz hangjai töltötték meg a levegőt. Egy 1928-as adatbázist fogunk megvizsgálni. Ez az év zenei életét örökíti meg. Ez egy egyedülálló lehetőséget kínál arra, hogy tanulmányozzuk a slágereket, a népszerű előadókat és az új műfajokat abból az időből. Pandas DataFrame készségeink fejlesztésével rejtett betekintéseket fogunk találni ebben a történelmi kincsben. Új életet lehelnek azokba a régi dallamokba, amelyek majdnem egy évszázaddal ezelőtt lenyűgözték a közönséget. Készülj fel egy utazásra. Ez ötvözi az adatelemzést egy kis nosztalgiával. Minden egyes kódsor egy történetet mesél el. És mindezt az adatok szemszögéből teszi.

Adatkészlet áttekintése

Ez az adatkészlet 1928-ból származó zeneszámok gyűjteménye. Tartalmaz információkat a dalok különböző aspektusairól, beleértve azok címeit, előadóit, időtartamait, megjelenési dátumait és hangjellemzőit. Az adatkészlet sokszínű, klasszikus darabokat, hangszeres műveket és korai tangófelvételeket is tartalmaz.

Kulcsfontosságú oszlopok

- **name:** A zeneszám címe.
- **artists:** Az előadó(k) vagy zeneszerző(k) neve(i).
- **duration_ms:** A zeneszám időtartama milliszekundumban.
- **release_date:** A zeneszám megjelenési dátuma.
- **year:** A zeneszám megjelenési éve, amely az adatkészlet minden bejegyzése esetében 1928.
- **acousticness, danceability, energy, instrumentalness, liveness, loudness, speechiness, tempo, valence, mode, key:** Ezek az oszlopok a zeneszámból kinyert különböző hangjellemzőket képviselik, amelyek betekintést nyújtanak annak tulajdonságaiba.

Az adatok felfedezése

- **Egyedi előadók:** Felfedezhetjük az adatkészletben szereplő egyedi előadókat, és azonosíthatjuk az adott korszak legjelentősebb zenészeit vagy zeneszerzőit.
- **Zeneszámok időtartamai:** Az időtartamot tartalmazó oszlop elemzésével meghatározhatjuk a zeneszámok hosszúságának tartományát, megtalálhatjuk a legrövidebb és leghosszabb számokat, és esetleg azonosíthatunk mintákat vagy trendeket a zenei kompozícióban abból az időszakból.
- **Hangjellemzők:** A hangjellemzők oszlopai gazdag információt nyújtanak a zene tulajdonságainak megértéséhez. Elemezhetjük ezeknek a jellemzőknek az eloszlását, azonosíthatjuk a kiugró értékeket, és esetleg felfedezhetjük a különböző hangjellemzők közötti kapcsolatokat.
- **Műfajelemzés:** Bár a műfaji információk nem szerepelnek explicit módon, az előadók, zeneszámcímek és hangjellemzők alapján következtethetünk a műfajokra. Ez érdekes betekintéseket nyújthat a zenei kompozíciókba és trendekbe, amelyeket adatelemzési technikákkal fedezhetünk fel.

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv('../../source/spotify.csv', low_memory=False)
df.to_csv

<bound method NDFrame.to_csv of         Unnamed: 0  acousticness              artists  danceability  \
0                0        0.9950      Carl Woitschach         0.708   
1                1        0.9940      Robert Schumann         0.379   
2                2        0.9940    Vladimir Horowitz         0.379   
3                3        0.6040  Seweryn Goszczyński         0.749   
4                4        0.9950     Francisco Canaro         0.781   
...            ...           ...                  ...           ...   
225451      225451        0.5380                 Kygo         0.514   
225452      225452        0.5380            Oh Wonder         0.514   
225453      225453        0.0714            Cash Cash         0.646   
225454      225454        0.0714         Andy Grammer         0.646   
225455      225455        0.1090       Ingrid Andress         0.512   

        duration_ms  energy  explicit                      id  \
0            158648  0.1950         0  6KbQ3uYMLKb

In [3]:
df.head()

Unnamed: 0.1,Unnamed: 0,acousticness,artists,danceability,duration_ms,energy,explicit,id,instrumentalness,key,liveness,loudness,mode,name,popularity,release_date,speechiness,tempo,valence,year
0,0,0.995,Carl Woitschach,0.708,158648,0.195,0,6KbQ3uYMLKb5jDxLF7wYDD,0.563,10,0.151,-12.428,1,Singende Bataillone 1. Teil,0,1928,0.0506,118.469,0.779,1928
1,1,0.994,Robert Schumann,0.379,282133,0.0135,0,6KuQTIu1KoTTkLXKrwlLPV,0.901,8,0.0763,-28.454,1,"Fantasiestücke, Op. 111: Più tosto lento",0,1928,0.0462,83.972,0.0767,1928
2,2,0.994,Vladimir Horowitz,0.379,282133,0.0135,0,6KuQTIu1KoTTkLXKrwlLPV,0.901,8,0.0763,-28.454,1,"Fantasiestücke, Op. 111: Più tosto lento",0,1928,0.0462,83.972,0.0767,1928
3,3,0.604,Seweryn Goszczyński,0.749,104300,0.22,0,6L63VW0PibdM1HDSBoqnoM,0.0,5,0.119,-19.924,0,Chapter 1.18 - Zamek kaniowski,0,1928,0.929,107.177,0.88,1928
4,4,0.995,Francisco Canaro,0.781,180760,0.13,0,6M94FkXd15sOAOQYRnWPN8,0.887,1,0.111,-14.734,0,Bebamos Juntos - Instrumental (Remasterizado),0,1928-09-25,0.0926,108.003,0.72,1928


Az acousticness oszlop átnevezése acoustic_level-re

Az acousticness oszlop a zeneszámok akusztikus szintjét képviseli. Annak érdekében, hogy az oszlop neve leíróbb és könnyebben olvasható legyen, használjuk a rename() függvényt, hogy megváltoztassuk az oszlop nevét acousticness-ről acoustic_level-re. Állítsuk az inplace paramétert True értékre, hogy az adatok közvetlenül a DataFrame-ben módosuljanak, új példány létrehozása nélkül. Ez az átnevezési művelet frissíti az oszlop nevét az eredeti df DataFrame-ben.

In [4]:
df.rename(columns={'acousticness': 'acoustic_level'}, inplace=True)

öbb oszlop átnevezése a rename() függvény segítségével

Nevezze át a DataFrame df több oszlopát, hogy azok leíróbbak, tömörebbek és könnyebben érthetőek legyenek. Változtassa a 'danceability'-t 'dance_score'-ra, a 'duration_ms'-t 'duration_milliseconds'-re, az 'instrumentalness'-t 'instrumental'-ra, a 'liveness'-t 'live_performance'-re, és a 'speechiness'-t 'speech_presence'-re. Rendelje vissza az eredményt a df változóhoz, hogy frissítse az eredeti DataFrame-et.

In [5]:
df.rename(columns={
    'danceability' : 'dance_score',
    'duration_ms' : 'duration_milliseconds',
    'duration_ms' : 'duration_milliseconds',
    'liveness' : 'live_performance',
    'speechiness' : 'speech_presence'
}, inplace=True)

Adjon hozzá egy új oszlopot duration_seconds néven, amely átalakítja a duration_milliseconds oszlopot milliszekundumból másodpercbe

Konvertálja a duration_milliseconds oszlop értékeit másodpercbe, és tárolja az eredményt egy új, duration_seconds nevű oszlopban.

Megjegyzés: Az új oszlopot a df végéhez adja hozzá.


In [6]:
df['duration_seconds'] = df['duration_milliseconds'] / 1000

Adjon hozzá egy új oszlopot popularity_score néven, amely a popularity oszlop értékeit 0,01-gyel szorozza meg

Skálázza újra a popularity oszlop értékeit, úgy hogy megszorozza őket 0,01-gyel, és tárolja az újra skálázott értékeket egy új, popularity_score nevű oszlopban.

Megjegyzés: Az új oszlopot a df végéhez adja hozzá.


In [7]:
df['popularity_score'] = df['popularity'] * 0.01

Adjon hozzá egy új oszlopot is_popular néven, amely 1-et rendel azokhoz a zeneszámokhoz, amelyek népszerűsége meghaladja a 70-et, és 0-t egyébként

Hozzon létre egy új oszlopot is_popular néven, amely 1-et tartalmaz azokban a sorokban, ahol a popularity értéke nagyobb mint 70, és 0-t egyébként. Konvertálja a logikai eredményt egész számokká, ahol a True 1 lesz, a False pedig 0. Ez az új oszlop jelzi, hogy egy dal népszerű-e vagy sem, ahol az 1 a népszerű dalokat, a 0 pedig a nem népszerű dalokat jelenti.

Megjegyzés: Az új oszlopot a df végéhez adja hozzá.


In [8]:
df['is_popular'] = (df['popularity'] > 70).astype(int)

Adjon hozzá egy új oszlopot artist_count néven, amely megszámolja az előadók számát az artists oszlopban

Számolja meg az előadók számát minden egyes sorban az artists oszlopban található vesszők számának megszámolásával és 1 hozzáadásával, majd tárolja az eredményt egy új, artist_count nevű oszlopban.

Megjegyzés: Az új oszlopot a df végéhez adja hozzá.


In [9]:
df['artist_count'] = df['artists'].str.count(',') + 1

Adj hozzá egy új oszlopot, amelyet duration_minutes-nek nevezel el, és számold ki benne a duration_seconds oszlopban lévő értékeket percekben.

Átalakítsd a duration_seconds oszlopot másodpercből percre, és mentsd el az eredményt egy új oszlopba, amit duration_minutes-nek nevezel el.

Megjegyzés: Az új oszlop a df végére lesz hozzáadva.

In [10]:
df['duration_minute'] = df['duration_seconds'] / 60

In [None]:
Frissítsd a popularity oszlopot úgy, hogy minden értékéhez hozzáadsz 10-et.

In [11]:
df['popularity'] = df['popularity'] + 10

Frissítsd a speech_presence oszlopot úgy, hogy minden értékét megszorozod 0,8-cal.

Megjegyzés: Használd az df.head().T parancsot az adattáblázatod kompakt megtekintéséhez.

In [12]:
df['speech_presence'] = df['speech_presence'] * 0.8

Csökkentsd a dance_score oszlop értékeit úgy, hogy minden értékből kivonsz 0,1-et.

In [13]:
df['dance_score'] = df['dance_score'] - 0.1

Frissítsd a mode oszlopot úgy, hogy a numerikus értékeket szöveges reprezentációkká változtatod, ahol 0-t 'Minor'-ra és 1-et 'Major'-ra cserélsz.

In [14]:
df['mode'] = df['mode'].replace({0: 'Minor', 1: 'Major'})

Frissítsd a tempo oszlopot úgy, hogy a 150-nél nagyobb értékeket 150-re állítod, azaz minden 150 feletti értéket lecsippentesz 150-re.

Megjegyzés: Használd az df.head().T parancsot az adattáblázatod kompakt megtekintéséhez.

A kód a DataFrame df meglévő tempo oszlopának értékeire alkalmaz egy csippegetési műveletet. A clip() metódust használja az upper=150 paraméterrel, amely biztosítja, hogy egyetlen érték sem haladja meg a tempo oszlopban a 150-et. Bármely 150-nél nagyobb értéket lecserél 150-re. Az eredményül kapott Series-t, amely a csippegetett értékeket tartalmazza, visszaadja a tempo oszlopnak, így felülírva az eredeti értékeket. Ezen művelet után a tempo oszlopban az értékek maximum 150-re lesznek korlátozva, míg a 150 alatti értékek változatlanok maradnak.

In [15]:
df['tempo'] = df['tempo'].clip(upper=150)

Cseréld le a key oszlop numerikus értékeit azok megfelelő hangneveire, az alábbi hozzárendelések alapján:

0 → 'C', 1 → 'C#', 2 → 'D', 3 → 'D#', 4 → 'E', 5 → 'F', 6 → 'F#', 7 → 'G', 8 → 'G#', 9 → 'A', 10 → 'A#', 11 → 'B'

A kód cseréli a DataFrame df meglévő key oszlopában lévő numerikus értékeket azok megfelelő hangneveire. Ehhez a replace() metódust használja egy szótárral, amely hozzárendeli a numerikus értékeket a szöveges reprezentációjukhoz. Konkrétan az alábbi hozzárendelések vannak:

0 → 'C', 1 → 'C#', 2 → 'D', 3 → 'D#', 4 → 'E', 5 → 'F', 6 → 'F#', 7 → 'G', 8 → 'G#', 9 → 'A', 10 → 'A#', 11 → 'B'

Az eredményül kapott Series-t, amely a cserélt értékeket tartalmazza, visszaadja a key oszlopnak, így felülírva az eredeti numerikus értékeket. Ezen művelet után a key oszlop a hangneveket fogja tartalmazni az eredeti numerikus értékek helyett.

In [16]:
df['key'] = df['key'].replace({0: 'C', 1: 'C#', 2: 'D', 3: 'D#', 4: 'E', 5: 'F', 6: 'F#', 7: 'G', 8: 'G#', 9: 'A', 10: 'A#', 11: 'B'})

Cseréld le az explicit oszlop numerikus értékeit szöveges reprezentációkra, ahol 0-t 'Not Explicit'-re és 1-et 'Explicit'-re cserélsz.

Megjegyzés: Használd az df.head().T parancsot az adattáblázatod kompakt megtekintésére.

In [17]:
df['explicit'] = df['explicit'].replace({0: 'Not Explicit', 1: 'Explicit'})

Cseréld le azoknak az év oszlop értékeinek az értékeit, amelyek 1950 előtti értékeket tartalmaznak, 1950-re.

In [18]:
df.loc[df['year'] < 1950, 'year'] = 1950

Korlátozd a tempo oszlop értékeit 50 és 150 közé. Azokat az értékeket, amelyek meghaladják a 150-et, cseréld le 150-re, azokat pedig, amelyek kisebbek 50-nél, cseréld le 50-re.

Megjegyzés: Használd az df.head().T parancsot az adattáblázatod kompakt megtekintésére.

A kód a következő műveleteket hajtja végre:

1. Boole-i indexelést használva a `loc` segítségével kiválasztja azokat a sorokat a `df` DataFrame-ben, ahol a `tempo` oszlop értéke nagyobb mint 150 (`df['tempo'] > 150`). Ezekre a kiválasztott sorokra, ahol a feltétel `tempo > 150` igaz, 150-re cseréli a tempo értékeket (`df.loc[df['tempo'] > 150, 'tempo'] = 150`).

2. Majd újra boole-i indexelést használ a `loc`-al, hogy kiválassza azokat a sorokat a DataFrame `df`-ben, ahol a `tempo` oszlop értéke kisebb mint 50 (`df['tempo'] < 50`). Ezekre a kiválasztott sorokra, ahol a feltétel `tempo < 50` igaz, 50-re cseréli a tempo értékeket (`df.loc[df['tempo'] < 50, 'tempo'] = 50`).

Alapvetően a kód korlátozza vagy "csippegeti" a tempo oszlop értékeit 50 és 150 közé. Azokat az értékeket, amelyek 150-nél nagyobbak, 150-re cseréli, míg azokat, amelyek 50-nél kisebbek, 50-re cseréli. Ez a művelet hasznos lehet kiugró értékek kezelésére, vagy annak biztosítására, hogy a tempo oszlop értékei egy adott tartományon belül maradjanak.

In [19]:
df.loc[df['tempo'] > 150, 'tempo'] = 150
df.loc[df['tempo'] < 50, 'tempo'] = 50