# 1. **Impor Library**

In [231]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.metrics import accuracy_score

Mengimpor library yang diperlukan seperti Pandas, NumPy, dan Keras

# 2. **Memuat Dataset**

In [232]:
# Load the dataset
df = pd.read_csv('Most Streamed Spotify Songs 2024.csv', encoding="latin-1")

*   Membaca dataset dari file CSV menggunakan `pd.read_csv`.
*   Encoding latin-1 mendukung karakter Latin, termasuk beberapa karakter khusus yang mungkin tidak ada dalam encoding ASCII. Ini bermanfaat jika data Anda mengandung karakter yang berasal dari bahasa Eropa Barat (seperti é, ñ, ü, dll.).




# 3. **Preprocessing Data**

In [234]:
# konversi kolom tertentu ke numerik dan handle missing values
cols_to_numeric = ['Spotify Streams', 'YouTube Views', 'TikTok Likes', 'Track Score']

In [235]:
# Mengganti ',' dan konversi kolom ke numerik
for col in cols_to_numeric:
    df[col] = pd.to_numeric(df[col].astype(str).str.replace(',', '', regex=False), errors='coerce')

In [240]:
# Mengisi NaN dengan 0 untuk fitur
X = X.fillna(0)
y = y.fillna(0)  # Mengganti NaN pada target dengan 0

In [237]:
# Menghapus kolom yang tidak relevan atau yang seluruhnya NaN
df = df.dropna(axis=1, how='all')

- Mengubah kolom tertentu menjadi tipe numerik dan menghapus nilai yang hilang.
- Mengisi nilai NaN dengan 0 pada fitur dan target.
- Kolom yang sepenuhnya kosong dihapus

# 4. **Membagi Dataset**

In [238]:
# Memisahkan fitur dan target
features = ['Spotify Streams', 'YouTube Views', 'Track Score', 'TikTok Likes']
X = df[features]

In [239]:
# Target adalah Spotify Popularity
y = df['Spotify Popularity']

In [241]:
# Membagi dataset menjadi training dan validation set
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

* Dataset dipisahkan menjadi fitur (X) dan target (y).
- Membagi dataset menjadi set pelatihan dan validasi dengan proporsi 80:20 menggunakan `train_test_split`.

# 5. **Standarisasi Data**

In [242]:
# Standarisasi data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)

- Menggunakan `StandardScaler` untuk menstandarisasi fitur agar memiliki distribusi yang baik.

# 6. **Membangun Model**

In [252]:
# Membuat model Sequential
model = Sequential()

# Menambahkan lapisan input dan hidden layer
model.add(Dense(128, activation='relu', input_shape=(X_train.shape[1],)))  # Input layer
model.add(Dropout(0.2))  # Regularization layer

model.add(Dense(64, activation='relu'))  # Hidden layer
model.add(Dropout(0.2))

# Menambahkan output layer
model.add(Dense(1, activation='linear'))  # Menggunakan 'linear' karena kita memprediksi nilai kontinu

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


- Membuat model **Sequential** dengan:
     - Input layer dengan 128 neuron.
     - Hidden layer dengan 64 neuron.
     - Output layer dengan 1 neuron (linear activation).

# 7. **Kompilasi Model**

In [253]:
# Mengkompilasi model
model.compile(optimizer='adam', loss='mean_squared_error', metrics=['mae'])  # Menggunakan MSE untuk regresi

- Menggunakan optimizer Adam dan mean squared error (MSE) sebagai loss function.

# 8. **Melatih Model**

In [246]:
# Melatih model
history = model.fit(X_train, y_train, epochs=50, batch_size=32, validation_data=(X_val, y_val))


Epoch 1/50
[1m115/115[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 8ms/step - loss: 3243.4893 - mae: 50.7609 - val_loss: 1619.8868 - val_mae: 33.9162
Epoch 2/50
[1m115/115[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 1138.2129 - mae: 29.4996 - val_loss: 1215.4407 - val_mae: 26.0420
Epoch 3/50
[1m115/115[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 940.7398 - mae: 24.6358 - val_loss: 1048.7889 - val_mae: 24.8580
Epoch 4/50
[1m115/115[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 799.8876 - mae: 23.1483 - val_loss: 945.9362 - val_mae: 23.6937
Epoch 5/50
[1m115/115[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 771.3666 - mae: 22.5229 - val_loss: 883.5547 - val_mae: 23.5581
Epoch 6/50
[1m115/115[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 778.9847 - mae: 22.8200 - val_loss: 838.9968 - val_mae: 22.5405
Epoch 7/50
[1m115/115[0m [32m━━━━━━━━━━━━━━━

- Melatih model dengan data pelatihan selama 50 epoch.

# 9. **Evaluasi Model**

In [247]:
# Evaluasi model
loss, mae = model.evaluate(X_val, y_val)
print(f'Validation MAE: {mae:.2f}')

# Menghitung rentang nilai Spotify Popularity
min_value = y_val.min()
max_value = y_val.max()
range_value = max_value - min_value

# Menghitung persentase akurasi validasi
if range_value > 0:
    validation_accuracy_percentage = (1 - (mae / range_value)) * 100
else:
    validation_accuracy_percentage = 100  # Jika tidak ada rentang, akurasi dianggap 100%

print(f'Akurasi Validasi: {validation_accuracy_percentage:.2f}%')

# Menghitung akurasi pelatihan
train_loss, train_mae = model.evaluate(X_train, y_train, verbose=0)
train_accuracy_percentage = (1 - (train_mae / range_value)) * 100 if range_value > 0 else 100

print(f'Akurasi Pelatihan: {train_accuracy_percentage:.2f}%')

[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 488.3600 - mae: 16.8984 
Validation MAE: 17.43
Akurasi Validasi: 81.06%
Akurasi Pelatihan: 81.26%


- Menghitung Mean Absolute Error (MAE) untuk set validasi dan pelatihan.
- Menghitung persentase akurasi untuk validasi dan pelatihan berdasarkan rentang nilai target.

# 10. **Prediksi**

In [251]:
# Memprediksi dan Menentukan 10 Artis Paling Disukai
y_pred = model.predict(X_val)
df_val = pd.DataFrame(X_val, columns=features)
df_val['Predicted Popularity'] = y_pred

# Menghitung Total Popularity berdasarkan prediksi
df['Total Popularity'] = df['Spotify Popularity'] + df['YouTube Views'].fillna(0) + df['TikTok Likes'].fillna(0)

# Mengelompokkan berdasarkan artis dan menjumlahkan total popularitas
artist_popularity = df.groupby('Artist')['Total Popularity'].sum().reset_index()

# Mengurutkan berdasarkan total popularitas
top_artists = artist_popularity.sort_values(by='Total Popularity', ascending=False).head(10)

# Memformat output untuk tampilan yang lebih baik
top_artists['Total Popularity'] = top_artists['Total Popularity'].apply(lambda x: f"{x:,.0f}")  # Format angka

# Menambahkan nomor urut
top_artists.reset_index(drop=True, inplace=True)
top_artists.index += 1  # Menambahkan 1 ke index untuk mulai dari 1
top_artists.index.name = 'No'  # Menamai index sebagai 'No'

# Menampilkan 10 artis teratas dengan tampilan yang lebih baik
print("10 Artis Paling Disukai:")
print(top_artists.to_string())  # Menghapus index untuk tampilan yang lebih bersih


[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step
10 Artis Paling Disukai:
                      Artist Total Popularity
No                                           
1                 Ed Sheeran   29,283,043,864
2                  Bad Bunny   28,143,427,178
3              Kevin MacLeod   23,485,681,035
4               Taylor Swift   22,961,724,922
5              Justin Bieber   20,722,384,418
6              Ariana Grande   20,650,559,653
7                 The Weeknd   20,203,067,561
8                  BLACKPINK   19,324,392,712
9                        BTS   18,873,331,262
10  The King Khan & BBQ Show   18,430,299,713


- Memprediksi popularitas lagu menggunakan data validasi dan menentukan total popularitas untuk setiap artis.
- Mengelompokkan artis berdasarkan total popularitas dan menampilkan 10 artis paling disukai dengan format yang lebih baik.
