
# **Business Understanding: Analisis Lagu Paling Banyak Diputar di Spotify**

## 1. Menentukan Tujuan Bisnis
Tujuan utama dari analisis ini adalah untuk memahami faktor-faktor yang berkontribusi terhadap popularitas lagu di Spotify. Dengan menganalisis data ini, kita dapat:
- Mengidentifikasi lagu dengan jumlah streaming tertinggi.
- Menganalisis karakteristik musik yang sering muncul dalam lagu populer (tempo, energi, danceability, dll.).
- Melihat tren perilisan lagu berdasarkan tahun dan bulan.
- Menentukan apakah ada korelasi antara jumlah playlist atau chart dengan popularitas lagu.

## 2. Menilai Situasi
Dataset yang digunakan berisi daftar lagu paling banyak diputar di Spotify, dengan berbagai informasi seperti:
- **Informasi lagu**: Nama lagu, artis, tahun rilis.
- **Popularitas**: Jumlah streaming, jumlah playlist, jumlah masuk chart.
- **Karakteristik musik**: Danceability, valence, energy, acousticness, dll.
- **Meta-data lain**: Cover album, mode (mayor/minor), dll.

Kemungkinan kendala:
- Data mungkin tidak mencakup semua lagu di Spotify, hanya yang paling populer.
- Tidak ada informasi demografi pendengar, yang bisa mempengaruhi analisis.

## 3. Menentukan Tujuan Data Mining
Berdasarkan kebutuhan bisnis, tujuan analisis data yang dapat dilakukan:
- Membuat daftar lagu dengan jumlah streaming tertinggi.
- Menganalisis pola karakteristik musik dalam lagu populer.
- Menentukan apakah tahun rilis berpengaruh terhadap popularitas lagu.
- Mengukur korelasi antara jumlah playlist dan popularitas lagu.

## 4. Membuat Rencana Proyek
Langkah-langkah analisis yang akan dilakukan:
1. **Pembersihan Data**: Memeriksa dan menangani data yang hilang atau tidak valid.
2. **Eksplorasi Data**: Statistik deskriptif untuk memahami distribusi data.
3. **Visualisasi Data**: Membuat grafik untuk melihat pola dalam popularitas lagu.
4. **Analisis Korelasi**: Mencari hubungan antara berbagai variabel seperti playlist dan jumlah streaming.
5. **Kesimpulan dan Insight**: Menyusun rekomendasi berdasarkan hasil analisis.


In [None]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Membaca dataset
file_path = 'Spotify Most Streamed Songs.csv'
df = pd.read_csv(file_path)

# Menampilkan 5 baris pertama
df.head()


In [None]:

# Plot distribusi jumlah streaming
plt.figure(figsize=(10,5))
sns.histplot(df['streams'], bins=30, kde=True, color='blue')
plt.title('Distribusi Jumlah Streaming Lagu')
plt.xlabel('Jumlah Streaming')
plt.ylabel('Frekuensi')
plt.show()
