In [2]:
import pandas as pd
import os

In [7]:
# Beide Datensätze laden
df_2024 = pd.read_csv('../data/processed/df_cleaned_2024.csv', parse_dates=['chart_week'])
df_2025 = pd.read_csv('../data/processed/df_cleaned_2025.csv', parse_dates=['chart_week'])

# Zusammenfügen: Vertical Stacking
df_full = pd.concat([df_2024, df_2025], axis=0, ignore_index=True)

# Sortieren nach Datum und Rank für die später geplante Zeitreihenanalyse
df_full = df_full.sort_values(by=['chart_week', 'rank']).reset_index(drop=True)

# Validierung: Anzahl der Wochen insgesamt (erwartetes Ergebnis: 105 Wochen)
weeks_count = df_full['chart_week'].nunique()
print(f"Gesamt-Datensatz erstellt: {df_full.shape[0]} Zeilen.")
print(f"Zeitraum von {df_full['chart_week'].min().date()} bis {df_full['chart_week'].max().date()}.")
print(f"Anzahl der Wochen: {weeks_count} Wochen.")

Gesamt-Datensatz erstellt: 20999 Zeilen.
Zeitraum von 2024-01-04 bis 2026-01-01.
Anzahl der Wochen: 105 Wochen.


In [11]:
print("____ DATENSATZ INFO _____")
print(df_full.info())
print("\nFehlende Werte pro Spalte:")
print(df_full.isnull().sum())

____ DATENSATZ INFO _____
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20999 entries, 0 to 20998
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   chart_week      20999 non-null  datetime64[ns]
 1   rank            20999 non-null  int64         
 2   uri             20999 non-null  object        
 3   artist_names    20999 non-null  object        
 4   track_name      20999 non-null  object        
 5   peak_rank       20999 non-null  int64         
 6   previous_rank   20999 non-null  int64         
 7   weeks_on_chart  20999 non-null  int64         
 8   streams         20999 non-null  int64         
dtypes: datetime64[ns](1), int64(5), object(3)
memory usage: 1.4+ MB
None

Fehlende Werte pro Spalte:
chart_week        0
rank              0
uri               0
artist_names      0
track_name        0
peak_rank         0
previous_rank     0
weeks_on_chart    0
streams           0
dtype: int64

In [13]:
# Duplikate finden (basierend auf Song-ID und Woche)
duplicate_count = df_full.duplicated(subset=['uri', 'chart_week']).sum()
print(f"Anzahl gefundener Duplikate: {duplicate_count}")

Anzahl gefundener Duplikate: 0


In [16]:
# Whitespaces an den Enden entfernen
df_full['artist_names'] = df_full['artist_names'].str.strip()
df_full['track_name'] = df_full['track_name'].str.strip()

# Kontrolle: Gibt es Künstler, die jetzt doppelt vorkommen könnten?
unique_artists_before = df_full['artist_names'].nunique()
# (Nach dem Strip...)
unique_artists_after = df_full['artist_names'].nunique()

print(f"Künstler vor Strip: {unique_artists_before}")
print(f"Künstler nach Strip: {unique_artists_after}")

Künstler vor Strip: 898
Künstler nach Strip: 898


In [17]:
df_full.head()


Unnamed: 0,chart_week,rank,uri,artist_names,track_name,peak_rank,previous_rank,weeks_on_chart,streams
0,2024-01-04,1,spotify:track:3rUGC1vUpkDG9CZFHMur1t,Tate McRae,greedy,1,14,16,33855816
1,2024-01-04,2,spotify:track:0R6NfOiLzLj4O5VbYSJAjf,Xavi,La Diabla,2,17,4,30894083
2,2024-01-04,3,spotify:track:4xhsWYTOGcal8zt0J161CU,Jack Harlow,Lovin On Me,3,19,8,30778444
3,2024-01-04,4,spotify:track:1BxfuPKGuaTgP7aM0Bbdwr,Taylor Swift,Cruel Summer,2,20,48,30224692
4,2024-01-04,5,spotify:track:3vkCueOmm7xQDoJ17W1Pm3,Mitski,My Love Mine All Mine,3,18,15,26430016


In [18]:
# Als CSV speichern
# Zielverzeichnis definieren
output_dir = '../data/processed'
output_file = os.path.join(output_dir, 'df_cleaned_full.csv')

# Ordner erstellen, falls er noch nicht existiert
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
    print(f"Ordner erstellt: {output_dir}")

# Als Gesamtdatei speichern
df_full.to_csv('../data/processed/df_cleaned_full.csv', index=False, encoding='utf-8')
print(f"Datei erfolgreich gespeichert unter: {output_file}")

Datei erfolgreich gespeichert unter: ../data/processed/df_cleaned_full.csv
