# Y.Music - Musik di Kota Besar

### Konten <a id='back'></a>

* [Pendahuluan](#intro)
* [Tahap 1. Ikhtisar Data](#data_review)
    * [Kesimpulan](#data_review_conclusions)
* [Tahap 2. Pra-pemrosesan data](#data_preprocessing)
    * [2.1 Gaya Penulisan Judul](#header_style)
    * [2.2 Nilai-Nilai yang Hilang](#missing_values)
    * [2.3 Duplikat](#duplicates)
    * [2.4 Kesimpulan](#data_preprocessing_conclusions)
* [Tahap 3. Pengujian Hipotesis](#hypotheses)
    * [3.1 Hipotesis 1: Aktivitas pengguna di kedua kota](#activity)
    * [3.2 Hipotesis 2: Preferensi musik pada hari Senin dan Jumat](#week)
    * [3.3 Hipotesis 3: Preferensi genre di kota Springfield dan Shelbyville](#genre)
* [Temuan](#end)

## Pendahuluan <a id='intro'></a>
Proyek ini bertujuan untuk membandingkan preferensi musik pengguna di kota Springfield dan Shelbyville. Proyek ini menggunakan data Y.music untuk menguji hipotesis dan membandingkan perilaku pengguna di kedua kota tersebut. 

### Tujuan: 
Proyek ini bertujuan untuk menguji tiga hipotesis yaitu:
1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku pada hari Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Di Springfield, para pengguna lebih suka musik pop, sementara di Shelbyville musik rap memiliki lebih banyak penggemar.

### Tahapan 
Proyek ini akan terdiri dari tiga tahap:
 1. Ikhtisar Data
 2. Pra-pemrosesan Data
 3. Pengujian hipotesis

 
[Kembali ke Konten](#back)

## Tahap 1. Ikhtisar Data <a id='data_review'></a>

Buka data terkait Y.Music, lalu jelajahilah data tersebut.

Import *library* `Pandas`.

In [2]:
# mengimpor Pandas
import pandas as pd

Membaca *file* `music_project_en.csv` dari folder `/datasets/` dan menyimpannya di variabel `df`

In [6]:
# membaca berkas dan menyimpannya ke df
try: 
    df = pd.read_csv(
        r'C:\Users\Adam\OneDrive\Course\TripleTen\Sprint 1\moved_music_project_en.csv' 
    )
    
except: 
    df = pd.read_csv('/datasets/ecommerce_dataset_us.csv')

Menampilkan 10 baris tabel pertamanya:

In [7]:
# memperoleh 10 baris pertama dari tabel df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Mendapatkan informasi umum tentang tabel dengan satu perintah:

In [8]:
# memperoleh informasi umum tentang data yang tersedia di df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Terdapat pula jumlah nilai yang berbeda antar kolom. Semuanya menyimpan tipe data yang sama, yaitu: `object`.

Berdasarkan dokumentasi:
- `'userID'` — ID pengguna
- `'Track'` — judul trek lagu
- `'artist'` — nama artis
- `'genre'` - genre lagu
- `'City'` — kota tempat pengguna berada
- `'time'` — lama waktu lagu tersebut dimainkan
- `'Day'` — hari dalam seminggu

Terdapat tiga masalah dengan gaya penulisan nama kolom:
1. Beberapa nama ditulis dalam huruf besar, beberapa dalam huruf kecil.
2. Beberapa nama menggunakan spasi.
3. Jumlah nilai kolom berbeda. Hal ini menandakan bahwa data yang kita miliki mengandung nilai yang hilang.


### Kesimpulan <a id='data_review_conclusions'></a> 

Setiap baris dalam tabel menyimpan data terkait trek lagu yang diputar. Sejumlah kolom menyimpan data yang mendeskripsikan trek itu sendiri: judul trek, artis, dan genre. Sisanya menyimpan data terkait informasi pengguna: kota asal mereka, waktu mereka memutar trek lagu tersebut.

Jelas bahwa data yang ada cukup untuk menguji hipotesis. Meskipun terdapat nilai-nilai yang hilang. Untuk melanjutkan analisis, perlu melakukan pra-pemrosesan data terlebih dahulu.

[Kembali ke Daftar Isi](#back)

## Tahap 2. Pra-pemrosesan Data <a id='data_preprocessing'></a>
Tahap ini memperbaiki format pada judul kolom dan mengatasi nilai yang hilang. Kemudian, memeriksa apakah data terdapat duplikat.

### Gaya Penulisan Judul <a id='header_style'></a>
Tampilkan judul kolom:


In [11]:
# list nama kolom pada tabel df
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Mengubah nama kolom sesuai dengan aturan gaya penulisan yang baik:
* Jika nama memiliki beberapa kata, gunakan snake_case
* Semua karakter harus menggunakan huruf kecil
* Hapus spasi

In [12]:
# mengganti nama kolom
df = df.rename(columns={
    '  userID' : 'user_id',
    'Track' : 'track',
    '  City  ' : 'city',
    'Day' : 'day'
})

Periksa hasilnya lalu menampilkan nama kolom sekali lagi:

In [13]:
# mengecek hasil Anda: tampilkan sekali lagi list nama kolom
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Kembali ke Daftar Isi](#back)

### Nilai-Nilai yang Hilang <a id='missing_values'></a>
Pertama, temukan jumlah nilai yang hilang dalam tabel. Untuk melakukannya, gunakan dua metode `Pandas`:

In [14]:
# menghitung nilai yang hilang
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Tidak semua nilai yang hilang berpengaruh terhadap penelitian. Misalnya, nilai yang hilang dalam kolom `track` dan `artist` tidak begitu penting. Sehingga cukup menggantinya dengan penanda yang jelas.
Namun, nilai yang hilang dalam kolom `'genre'` dapat memengaruhi perbandingan preferensi musik di Springfield dan Shelbyville. Oleh karena itu, saya harus:
* Mengisi nilai yang hilang dengan penanda
* Mengevaluasi seberapa besar nilai yang hilang dapat memengaruhi perhitungan 

Mengganti nilai yang hilang pada kolom `'track'`, `'artist'`, dan `'genre'` dengan *string* `'unknown'`. 

In [15]:
# loop nama kolom dan ganti nilai yang hilang dengan 'unknown'
columns_to_replace = ['track', 'artist', 'genre']

for replace in columns_to_replace:
    df[replace] = df[replace].fillna('unknown')

Memastikan tidak ada tabel lagi yang berisi nilai yang hilang. Hitung kembali nilai yang hilang.

In [16]:
# menghitung nilai yang hilang
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Kembali ke Daftar Isi](#back)

### Duplikat <a id='duplicates'></a>
Mencari jumlah duplikat eksplisit dalam tabel menggunakan satu perintah:

In [17]:
# menghitung duplikat eksplisit
print(df.duplicated().sum())

3826


Menggunakan metode `Pandas` untuk menghapus duplikat eksplisit:

In [18]:
# menghapus duplikat eksplisit
df = df.drop_duplicates().reset_index(drop=True) 

Hitung duplikat eksplisit sekali lagi untuk memastikan bahwa duplikasi data telah dihapus semuanya:

In [19]:
# memeriksa duplikat
print(df.duplicated().sum())

0


Sekarang menghapus duplikat implisit di kolom `genre`. Misalnya, nama genre dapat ditulis dengan cara yang berbeda. Disini menampilkan *list* yang memuat nama genre unik, lalu urutkan *list* tersebut berdasarkan abjad. Untuk melakukannya:
* Mengambil kolom DataFrame yang dimaksud
* Menerapkan metode pengurutan pada kolom tersebut
* Untuk kolom yang telah diurutkan, panggil metode yang akan menghasilkan semua nilai unik kolom

In [20]:
# melihat nama genre yang unik
df['genre'].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb', 'hip',
       'jazz', 'postrock', 'latin', 'classical', 'metal', 'reggae',
       'triphop', 'blues', 'instrumental', 'rusrock', 'dnb', 'türk',
       'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkrock', 

Terdapat duplikat dengan genre `hiphop`. Duplikat tersebut bisa berupa nama yang ditulis secara tidak tepat atau nama alternatif dari genre yang sama. Duplikat implisit genre `hip-hop` yaitu sebagai berikut:
* `hip`
* `hop`
* `hip-hop`

Untuk menghapusnya, menggunakan fungsi `replace_wrong_genres()` dengan dua parameter:
* `wrong_genres=` — *list* dari duplikat yang ingin diganti
* `correct_genre=` — *string* dengan nilai yang benar

Fungsi tersebut mengoreksi nama dalam kolom `'genre'` dari tabel `df` dengan mengganti setiap nilai dari *list* `wrong_genres` dengan nilai dari `correct_genre`.

In [22]:
# fungsi untuk mengganti duplikat implisit
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

wrong_genres = ['hip', 'hop', 'hip-hop']
correct_genre = 'hiphop'

Memanggil `replace_wrong_genres()` dan meneruskan argumen kepada fungsi tersebut, sehingga dapat menghapus duplikat implisit (`hip`, `hop`, dan `hip-hop`) dan menggantinya dengan `hiphop`:

In [23]:
# masukkan fungsi yang mengganti duplikat implisit
replace_wrong_genres(wrong_genres, correct_genre)

Pastikan bahwa nilai yang terduplikasi telah dihapus. Tampilkan *list* nilai unik dari kolom `'genre'`:

In [24]:
# memeriksa duplikat implisit
df['genre'].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb',
       'hiphop', 'jazz', 'postrock', 'latin', 'classical', 'metal',
       'reggae', 'triphop', 'blues', 'instrumental', 'rusrock', 'dnb',
       'türk', 'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkrock

[Kembali ke Daftar Isi](#back)

### Kesimpulan <a id='data_preprocessing_conclusions'></a>
Pada data tersebut terdeteksi tiga masalah yaitu:
- Gaya penulisan judul yang salah
- Nilai-nilai yang hilang
- Duplikat eksplisit dan implisit

Judul kolom sekarang telah dibersihkan untuk mempermudah pemrosesan tabel. Semua nilai yang hilang telah diganti dengan `'unknown'`. Meski demikian, tetap harus melihat apakah nilai yang hilang dalam kolom `'genre'` akan memengaruhi perhitungan. Ketiadaan duplikat akan membuat hasil yang dapat lebih tepat dan lebih mudah dipahami.

[Kembali ke Daftar Isi](#back)

## Tahap 3. Pengujian Hipotesis <a id='hypotheses'></a>

### Hipotesis 1: Membandingkan Perilaku Pengguna di Dua Kota <a id='activity'></a>

Menurut hipotesis pertama, pengguna dari Springfield dan Shelbyville memiliki perbedaan perilaku dalam mendengarkan musik. Pengujian ini menggunakan data yang diambil dari tiga hari dalam seminggu: Senin, Rabu, dan Jumat. Maka yang harus dilakukan ialah:
- Membagi pengguna ke dalam beberapa kelompok berdasarkan kota.
- Membandingkan jumlah trek lagu yang dimainkan setiap kelompok pada hari Senin, Rabu, dan Jumat.

Sekarang saatnya untuk evaluasi aktivitas pengguna di setiap kota dengan mengelompokkan data berdasarkan kota dan temukan jumlah trek lagu yang diputar di setiap kelompok.

In [25]:
# Menghitung trek lagu yang diputar di setiap kota
df_grouped = df.groupby('city')['day'].count()
print(df_grouped)

city
Shelbyville    18512
Springfield    42741
Name: day, dtype: int64


Pengguna dari Springfield memutar lebih banyak trek lagu daripada pengguna Shelbyville. Namun, hal ini tidak mengisyaratkan bahwa warga Springfield lebih sering mendengarkan musik. Kota Shelbyville lebih besar, dan terdapat lebih banyak pengguna.

Sekarang, mengelompokkan data berdasarkan hari dan mencari jumlah trek lagu yang diputar pada hari Senin, Rabu, dan Jumat.

In [26]:
# Menghitung trek lagu yang diputar pada masing-masing hari
df_grouped_days = df.groupby('day')['city'].count()
print(df_grouped_days)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: city, dtype: int64


Rabu adalah hari yang paling tenang secara keseluruhan. Namun jika mempertimbangkan kedua kota secara terpisah, mungkin akan mendapatkan kesimpulan yang berbeda.

Sekarang saatnya untuk membuat fungsi `number_tracks()` untuk menghitung jumlah trek lagu yang diputar untuk hari dan kota tertentu. Fungsi ini membutuhkan dua parameter yaitu:
* nama hari dalam seminggu
* nama kota

Dalam fungsi yang dibuat, dengan menggunakan variabel untuk menyimpan baris dari tabel asli, dimana:
  *  Nilai kolom `'day'` sama dengan parameter `day`
  * Nilai kolom `'city'` sama dengan parameter `city`

Lalu menerapkan pemfilteran berurutan dengan pengindeksan logika. Kemudian hitung nilai kolom `'user_id'` pada tabel yang dihasilkan lalu menyimpan hasilnya ke dalam variabel baru.

In [27]:
# Fungsi untuk menghitung trek lagu yang diputar untuk kota dan hari tertentu.
def number_tracks(day, city):
    track_list = df[(df['day'] == day) & (df['city'] == city)]['track']
    track_list_count = track_list.count()
    return track_list_count
    
number_tracks('Monday', 'Springfield')

15740

Kemudian panggil kembali fungsi `number_tracks()` sebanyak enam kali dengan nilai parameternya pada masing-masing panggilan, sehingga dapat mengambil data kedua kota untuk masing-masing hari (Senin, Rabu, dan Jumat).

In [28]:
# jumlah lagu yang diputar di Springfield pada hari Senin
number_tracks('Monday', 'Springfield')

15740

In [29]:
# jumlah lagu yang diputar di Shelbyville pada hari Senin
number_tracks('Monday', 'Shelbyville')

5614

In [30]:
#  jumlah lagu yang diputar di Springfield pada hari Rabu
number_tracks('Wednesday', 'Springfield')

11056

In [31]:
#  jumlah lagu yang diputar di Shelbyville pada hari Rabu
number_tracks('Wednesday', 'Shelbyville')

7003

In [32]:
# jumlah lagu yang diputar di Springfield pada hari Jumat
number_tracks('Friday', 'Springfield')

15945

In [33]:
# jumlah lagu yang diputar di Shelbyville pada hari Jumat
number_tracks('Friday', 'Shelbyville')

5895

Lalu menggunakan `pd.DataFrame` untuk membuat sebuah tabel dengan rincian:
* Nama kolomnya adalah: `['city', 'monday', 'wednesday', 'friday']`
* Datanya adalah hasil dari `number_tracks()` `number_tracks()`

In [34]:
# tabel dengan hasil
data = [
    ['springfield', number_tracks('Monday', 'Springfield'), number_tracks('Wednesday', 'Springfield'), number_tracks('Friday', 'Springfield')],
    ['shelbyville', number_tracks('Monday', 'Shelbyville'), number_tracks('Wednesday', 'Shelbyville'), number_tracks('Friday', 'Shelbyville')]
]

hasil_table = pd.DataFrame(data, columns=['city', 'monday', 'wednesday', 'friday'])

print(hasil_table)

          city  monday  wednesday  friday
0  springfield   15740      11056   15945
1  shelbyville    5614       7003    5895


**Kesimpulan**

Data yang telah didapat mengungkapkan perbedaan perilaku pengguna bahwa:

- Di kota Springfield, jumlah trek lagu yang diputar mencapai puncaknya pada hari Senin dan Jumat, sedangkan pada hari Rabu terjadi penurunan aktivitas.
- Di kota Shelbyville, sebaliknya, pengguna lebih banyak mendengarkan musik pada hari Rabu.
- Aktivitas pengguna pada hari Senin dan Jumat lebih sedikit.

[Kembali ke Daftar Isi](#back)

### Hipotesis 2: Musik di Awal dan Akhir Minggu <a id='week'></a>

Menurut hipotesis kedua, pada Senin pagi dan Jumat malam, warga Springfield mendengarkan genre musik yang berbeda dari yang dinikmati warga Shelbyville. Maka dari itu, sekarang waktunya untuk membuat tabel:
* Untuk Springfield — `spr_general`
* Untuk Shelbyville — `shel_general`

In [35]:
# membuat tabel spr_general dari baris df, yang nilai dari kolom 'city'-nya adalah 'Springfield'
spr_general = df[df['city']=='Springfield']

In [36]:
# membuat shel_general dari baris df, yang nilai dari kolom 'city'-nya adalah 'Shelbyville'
shel_general = df[df['city']=='Shelbyville']

Sekarang membuat fungsi `genre_weekday()` dengan empat parameter yaitu:
* Sebuah tabel untuk data
* Nama hari
* Stempel waktu pertama, dalam format 'hh:mm'
* Stempel waktu terakhir, dalam format 'hh:mm'

Fungsi ini bertujuan untuk menghasilkan informasi tentang 15 genre paling populer pada hari tertentu dalam periode antara dua stempel waktu.

In [38]:
# Mendeklarasikan fungsi genre_weekday() dengan parameter day=, time1=, dan time2=.

def genre_weekday(df, day, time1, time2):
    
    # pemfilteran berturut-turut
    # genre_df akan menyimpan baris df yang day-nya sama dengan day
    genre_df = df[df['day'] == day] 

    # genre_df hanya menyimpan baris df yang time-nya lebih kecil dari time2
    genre_df = genre_df[genre_df['time'] < time2] 

    # genre_df hanya menyimpan baris df yang time-nya lebih besar dari time1
    genre_df = genre_df[genre_df['time'] > time1] 

    # mengelompokkan DataFrame yang telah difilter berdasarkan kolom dengan nama genre
    genre_df_grouped = genre_df.groupby('genre')['user_id'].count() 

    # kita akan mengurutkan hasilnya dalam urutan menurun
    genre_df_sorted = genre_df_grouped.sort_values(ascending=False)

    # lalu menghasilkan objek Series yang menyimpan 15 genre paling populer pada hari tertentu dalam jangka waktu tertentu
    return genre_df_sorted[:15]

Sekarang membandingkan hasil fungsi `genre_weekday()` untuk Springfield dan Shelbyville pada Senin pagi (dari pukul 07.00 hingga 11.00) dan pada Jumat malam (dari pukul 17:00 hingga 23:00):

In [39]:
# memanggil fungsi untuk Senin pagi di Springfield 
genre_weekday(spr_general, 'Monday', '07.00.00', '11.00.00')

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: user_id, dtype: int64

In [40]:
# memanggil fungsi untuk Senin pagi di Shelbyville 
genre_weekday(shel_general, 'Monday', '07.00', '11.00')

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: user_id, dtype: int64

In [41]:
# memanggil fungsi untuk Jumat malam di Springfield
genre_weekday(spr_general, 'Friday', '17.00', '23.00')

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: user_id, dtype: int64

In [42]:
# memanggil fungsi untuk Jumat malam di Shelbyville
genre_weekday(shel_general, 'Friday', '17.00', '23.00')

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: user_id, dtype: int64

**Kesimpulan**

Setelah membandingkan 15 genre teratas pada Senin pagi, dapat disimpulkan bahwa:

1. Pengguna dari Springfield dan Shelbyville mendengarkan musik dengan genre yang sama. Lima genre teratas dari kedua kota sama, hanya genre rock dan elektronik yang bertukar tempat.

2. Di Springfield, jumlah nilai yang hilang ternyata sangat besar, sehingga nilai `'unknown'` berada di urutan ke-10. Ini berarti nilai-nilai yang hilang mencakup proporsi data yang cukup besar, sehingga fakta ini bisa menjadi dasar untuk mempertanyakan reliabilitas kesimpulan kami.

3. Untuk hari Jumat malam, situasinya juga serupa. Genre individual cukup bervariasi, tetapi secara keseluruhan, 15 besar genre untuk kedua kota sama.

Dengan demikian, hipotesis kedua sebagian terbukti benar yaitu:
* Pengguna mendengarkan musik yang sama di awal dan akhir minggu.
* Tidak ada perbedaan yang mencolok antara Springfield dan Shelbyville. Di kedua kota tersebut, pop adalah genre yang paling populer.

Meski begitu, signifikansi jumlah nilai yang hilang membuat hasil ini patut dipertanyakan. Di Springfield, terdapat begitu banyak nilai hilang yang memengaruhi hasil 15 genre teratas kita. Jika tidak terdapat nilai-nilai yang hilang ini, hasilnya mungkin akan berbeda.

[Kembali ke Daftar Isi](#back)

### Hipotesis 3: Preferensi Genre di Springfield dan Shelbyville <a id='genre'></a>

Hipotesis: Shelbyville menyukai musik rap. Warga Springfield lebih menyukai pop.

Untuk membuktikan hipotesis ketiga, mengelompokkan terlebih dahulu tabel `spr_general` berdasarkan genre dan temukan jumlah trek lagu yang dimainkan untuk setiap genre dengan metode `count()`. Kemudian, urutkan hasilnya dalam urutan menurun dan simpanlah ke `spr_genres`.

In [46]:
# mengelompokkan tabel spr_general berdasarkan kolom 'genre', menghitung nilai kolom 'genre' dengan count() dalam pengelompokan,
# urutkan Series yang dihasilkan dalam urutan menurun
spr_grouped = spr_general.groupby('genre')['user_id'].count()
spr_genres = spr_grouped.sort_values(ascending=False)

Menampilkan 10 baris pertama dari `spr_genres`:

In [47]:
# menampilkan 10 baris pertama dari spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: user_id, dtype: int64

Sekarang melakukan hal yang sama pada data dari Shelbyville. Yaitu mengelompokkan tabel `shel_general` berdasarkan genre dan temukan jumlah trek lagu yang dimainkan untuk setiap genre. Kemudian, urutkan hasilnya dalam urutan menurun dan simpan hasil tersebut ke tabel `shel_genres`:

In [48]:
# mengelompokkan tabel shel_general berdasarkan kolom 'genre'
shel_grouped = shel_general.groupby('genre')['user_id'].count()
shel_genres = shel_grouped.sort_values(ascending=False)

Menampilkan 10 baris pertama dari `shel_genres`:

In [50]:
# menampilkan 10 baris pertama dari shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: user_id, dtype: int64

**Kesimpulan**

Hipotesis ini terbukti benar sebagian:
* Musik pop adalah genre yang paling populer di Springfield, seperti yang telah diperkirakan.
* Namun, musik pop ternyata sama populernya baik di Springfield maupun di Shelbyville, dan musik rap ternyata tidak masuk ke daftar 5 besar genre untuk kedua kota tersebut.


[Kembali ke Daftar Isi](#back)

# Temuan <a id='end'></a>

Pada proyek ini telah diuji tiga hipotesis berikut:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada hari dalam seminggu, meskipun kedua kota ini bervariasi dalam berbagai cara.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku pada hari Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Baik Springfield maupun di Shelbyville, mereka lebih suka musik pop.

Setelah menganalisis data yang tersedia, dapat disimpulkan bahwa:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada harinya, walaupun kotanya berbeda. Sehingga hipotesis pertama dapat diterima sepenuhnya.

2. Preferensi musik tidak bervariasi secara signifikan sepanjang minggu di Springfield dan Shelbyville. Kita bisa melihat perbedaan kecil dalam urutan pada hari Senin, tetapi baik di Springfield maupun di Shelbyville, pengguna paling banyak mendengarkan musik pop. Oleh karena itu, hipotesis ini tidak dapat kita terima. Penting juga untuk mengingat bahwa hasil yang diperoleh bisa saja berbeda jika tidak terdapat nilai yang hilang.

3. Ternyata preferensi musik pengguna dari Springfield dan Shelbyville sangat mirip. Sehingga hipotesis ketiga ditolak. Jika memang terdapat perbedaan preferensi, sayangnya hal ini tidak dapat diketahui dari data ini.

# Rekomendasi Bisnis

Terdapat beberapa rekomendasi bisnis yaitu:
1. Mengingat bahwa aktivitas pengguna sangat dipengaruhi oleh hari dalam seminggu dan kota tempat tinggal mereka, Y.music dapat mengembangkan fitur personalisasi yang menyesuaikan rekomendasi musik berdasarkan lokasi dan waktu. Misalnya, pada hari Senin pagi atau Jumat malam, platform bisa mengutamakan genre atau playlist yang sesuai dengan kebiasaan musik pengguna di masing-masing kota. Dengan kampanye pemasaran berbasis waktu yang menyesuaikan dengan kebiasaan mendengarkan musik di Springfield dan Shelbyville. Misalnya, promosi atau iklan yang menunjukkan genre musik tertentu pada waktu tertentu sesuai preferensi lokal.
2. Dengan hasil analisis menunjukkan bahwa pengguna di kedua kota lebih suka musik pop, Y.music bisa memanfaatkan data ini untuk memprioritaskan genre pop dalam fitur rekomendasi. Dengan membuat kampanye yang mengedepankan genre pop sebagai genre utama di platform untuk kedua kota, dengan menampilkan playlist atau album pop terbaru. Sehingga, pengguna akan lebih mudah menemukan musik yang sesuai dengan preferensi mereka, yang pada akhirnya meningkatkan kepuasan pengguna dan retensi.
3. Meskipun preferensi musik antara Springfield dan Shelbyville tidak menunjukkan perbedaan besar dalam hal genre, ada kemungkinan bahwa perbedaan kecil di antara mereka bisa dimanfaatkan dengan segmentasi lebih lanjut. Y.music bisa menawarkan paket premium atau konten eksklusif yang disesuaikan dengan selera lokal. Misalnya, memberikan akses eksklusif untuk artis atau genre yang lebih populer di satu kota dibandingkan kota lainnya.

[Kembali ke Daftar Isi](#back)