# Pendahuluan

Dalam proyek ini, saya akan membandingkan preferensi musik dari pendengar di kota Springfield dan Shebyville, Amerika Serikat. 

Data yang digunakan adalah data dari Y.Music untuk menguji beberapa hipotesis dan membandingkan perilaku pengguna pada kedua kota tersebut. 


# Tujuan

Tujuan penelitian ini adalah untuk menguji tiga hipotesis:
1. Aktivitas pendengar berbeda-beda tergantung pada hari dan kotanya. 
2. Pada hari Senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku untuk hari Jumat malam. 
3. Pendengar di kota Springfield dan Shelbyville memiliki preferensi yang berbeda. Di Springfield, para pengguna lebih suka musik pop, sementara di Shelbyville musik rap memiliki lebih banyak pendengar. 


# Tahapan

Data terkait perilaku pengguna disimpan dalam file `/datasets/music_project_en.csv`. 

Karena tidak ada informasi terkait kualitas data tersebut, saya harus memeriksa terlebih dahulu sebelum menguji hipotesis. 

Pertama-tama, saya akan mengevaluasi kualitas data dan melihat apakah masalahnya signifikan. Kemudian, selama pra-pemrosesan data, saya akan mengatasi masalah yang cukup krusial. 

Berikut adalah tahapan proyek ini: 
1. Tinjauan data. 
2. Pra-pemrosesan data. 
3. Pengujian hipotesis. 

# Tahap 1: Tinjauan Data

Saya akan membuka data dari Y.Music, dan mempelajarinya terlebih dahulu. 

Proyek ini membutuhkan library `Pandas`, saya akan mengimpornya terlebih dahulu. 

In [1]:
# mengimpor library Pandas

import pandas as pd


 Kemudian, saya akan membaca file `music_project_en.csv` dari folder `/datasets/` lalu menyimpan file tersebut sebagai variabel `df`. 

In [2]:
# membaca file dan menyimpan sebagai variabel df

df = pd.read_csv('music_project_en.csv')

In [3]:
# menampilkan 10 baris pertama dari tabel df

df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Saya akan mendapatkan informasi umum tentang tabel: 

In [4]:
# memperoleh informasi umum tentang data yang tersedia di df

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 1.7+ MB


Dalam tampilan di atas, terlihat bahwa kolom memiliki nilai yang berbeda-beda. Hal ini menandakan bahwa data ini memiliki nilai yang hilang. 

Saya akan menampilkan seluruh judul kolom pada tabel: 

In [5]:
# menampilkan seluruh judul kolom pada tabel: 

df.columns


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Tabel ini berisi tujuh kolom. Semua kolom memiliki tipe data yang sama, yaitu: `object`.

Berikut adalah ketujuh kolom tersebut: 
1. `'  userID'` - ID pengguna
2. `'Track'` - Judul Lagu
3. `'artist'` - Nama artis
4. `'genre'` - genre
5. `'  City  '` - kota asal pengguna
6. `'time'` - waktu saat lagu diputar
7. `'Day'` - hari saat lagu diputar

Berdasarkan data di atas, ada dua masalah dengan gaya penulisan nama kolom: 
1. Beberapa nama ditulis dalam huruf besar, sebagian yang lain dengan huruf kecil. 
2. Beberapa nama menggunakan spasi. 


## Kesimpulan

Setiap baris dalam tabel menyimpan data ID pengguna, judul lagu, nama artis, genre lagu tersebut, kota asal pengguna, waktu saat lagu itu di putar, dan hari saat lagu di putar. 

Data memiliki dua masalah: 
1. Nilai yang hilang. 
2. Nama kolom bermasalah. 


# Tahap 2: Pra-pemrosesan Data

Di tahap ini, saya akan memperbaiki judul kolom, mengatasi nilai yang hilang, serta memeriksa apakah data mengandung duplikat. 

## Memperbaiki judul kolom

Saya akan mengubah judul kolom dengan aturan gaya penulisan yang baik: 
* Menggunakan snake_case, alih-alih spasi. 
* Semua karakter menggunakan huruf kecil. 
* Tidak ada spasi di akhiran dan awalan nama. 

Pertama-tama saya akan menampilkan judul kolom terlebih dahulu: 


In [6]:
# menampilkan judul kolom

df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Dari data di atas, judul kolom yang bermasalah ada empat: 
- '  userID'
- 'Track'
- '  City  '
- 'Day'

Maka, saya akan mengubah keempat nama tersebut sesuai aturan gaya penulisan yang telah disebut di atas: 

In [7]:
# Mengubah judul kolom

df = df.rename(columns={
    '  userID' : 'user_id',
    'Track' : 'track',
    '  City  ' : 'city',
    'Day' : 'day',
})

Kemudian saya akan memeriksa, apakah judul kolom sudah sesuai: 

In [8]:
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Sekarang, seluruh judul kolom sudah sesuai dengan aturan penulisan yang baik. 

## Mengatasi Nilai yang Hilang

Pertama-tama saya akan menghitung terlebih dahulu berapa nilai yang hilang dalam tabel: 

In [9]:
# menghitung nilai yang hilang: 

df.isnull().sum() 
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Dari informasi di atas, terlihat nilai yang hilang ada pada kolom: 
- track
- artist
- genre

Tidak semua nilai yang hilang berpengaruh terhadap penelitian kali ini. Misalnya, nilai yang hilang pada kolom `track` dan `artist` tidak begitu penting, sehingga saya hanya akan beri penanda yang jelas saja. 

Namun, nilai yang hilang dalam kolom `genre` akan memengaruhi perbandingan preferensi musik di kota Springfield dan Shelbyville. Sayangnya, karena keterbatasan sumber daya saya tidak dapat memperbaiki nilai yang hilang dalam kolom `genre`, kecuali hanya diberikan pendanda saja. 

Jadi, saya akan mengganti nilai yang hilang pada kolom track, artist, dan genre sebagai `unknown`. 

Untuk itu, saya akan menerapkan loop `for` untuk mengganti nilai yang hilang pada setiap kolom. 



In [10]:
# menerapkan loop terhadap judul kolom dan mengganti nilai yang hilang dengan 'unknown'

missing_value = ['track', 'artist', 'genre']

for value in missing_value:
    df[value] = df[value].fillna('unknown')


Saya akan memastikan kembali apakah tabel masih berisi nilai yang hilang. Untuk itu saya akan menghitung kembali nilai yang hilang: 

In [11]:
# menghitung nilai yang hilang: 

df.isnull().sum() 
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

Sekarang, seluruh nilai yang hilang pada masing-masing kolom sudah tidak ada. 

## Memeriksa Nilai Duplikat

Nilai duplikat dalam data merupakan salah satu masalah yang bisa berpengaruh pada analisis data. 

Nilai duplikat terdiri dari dua jenis: duplikat eksplisit dan implisit. 

Oleh karenanya, saya akan memeriksa nilai duplikat eksplisit terlebih dahulu dalam tabel sebagai berikut: 


In [12]:
# menghitung duplikat eksplisit

df.duplicated().sum()


3826

Terdapat 3.826 duplikat eksplisit. Saya akan memanggil satu metode `Pandas`, untuk menghapus duplikat eksplisit: 

In [13]:
# menghapus duplikat eksplisit

df = df.drop_duplicates()

Kemudian, saya akan memeriksa apakah masih ada nilai duplikat ekspisit: 

In [14]:
# menghitung duplikat eksplisit

df.duplicated().sum()

0

Sekarang, nilai duplikat ekspisit sudah berhasil terhapus. 

Langkah berikutnya, saya akan menghapus duplikat implisit, di kolom `genre`. Ini hanya dilakukan di kolom `genre` karena kesalahan di kolom tersebut akan memengaruhi hasil analisis dalam penelitian ini.

Langkah-langkahnya adalah sebagai berikut: 
- saya akan mengambil kolom DataFrame yang diinginkan. 
- Menerapkan metode pengurutan pada kolom tersebut. 
- Untuk kolom yang telah diurutkan, saya akan memanggil metode yang akan menghasilkan semua nilai unik kolom. 


In [15]:
# mengambil kolom 'genre' dan menerapkan pengurutan, dan menampilkan nilai unik

implicit_duplicate_genres = sorted(df['genre'].unique())

implicit_duplicate_genres

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

Jika kita lihat baik-baik pada list di atas, terdapat duplikat implisit pada genre `hiphop` berbentuk nama yang ditulis secara tidak tepat, atau nama alternatif dari genre yang sama, yaitu: 
- `hip`
- `hop`
- `hip-hop`

Saya akan mengganti ketiga nama tersebut dengan `hiphop`, menggunakan fungsi `replace_wrong_genre` dengan dua parameter: 
- `wrong_genre` -- list dengan duplikat yang ingin diganti
- `correct_genre` -- string dengan nilai yang benar



In [16]:
# membuat fungsi untuk mengganti duplikat implisit

def replace_wrong_genres(wrong_genres, correct_genre): 
    for wrong_genre in wrong_genres: 
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

hiphop_wrong_name = ['hip','hop','hip-hop']
hiphop_correct_name = 'hiphop'


Kemudian saya akan memanggil fungsi replace_wrong_genres() dan meneruskan argumen kepada fungsi tersebut, sehingga ia dapat menghapus duplikat implisit dengan menggantinya dengan yang benar. 

In [17]:
# memanggil fungsi untuk mengganti duplikat implisit

replace_wrong_genres(hiphop_wrong_name, hiphop_correct_name)


Selanjutnya, saya akan memastikan nilai yang terduplikasi telah berganti menjadi `hiphop':

In [18]:
# menampilkan implicit duplicate genres

sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

Terlihat bahwa nilai yang terduplikasi telah terhapus. 

## Kesimpulan Tahap 2

Berdasarkan informasi di atas, saya mendeteksi ada tiga masalah utama dalam data ini: 
- Penulisan judul yang salah.
- Nilai yang hilang. 
- Duplikat eksplisit dan implisit. 

Setelah semua proses di atas, nama-nama kolom telah diperbaiki untuk mempermudah pemrosesan tabel. Semua nilai yang hilang telah diganti dengan `unknown`. Meski demikian, saya masih harus melihat apakah nilai yang hilang dalam kolom `genre` berpengaruh terhadap penelitian ini. Duplikat eksplisit dan implisit pun telah selesai diatasi. Dengan tidak adanya duplikat, hasil analisis akan menjadi lebih tepat dan mudah dipahami. 




# Tahap 3: Pengujian Hipotesis

## Hipotesis 1: Pengguna dari Kota Springfield dan Shelbyville memiliki perbedaan perilaku dalam mendegarkan musik. 

Pengujian akan dilakukan dengan mengambil tiga hari dalam seminggu: Senin, Rabu, dan Jumat. 

Sebelum memulai, saya akan mengelompokkan pengguna berdasarkan kota. 

Kemudian, saya akan membandingkan berapa banyak trek lagu yang dimainkan oleh setiap kelompok pada hari Senin, Rabu, dan Jum'at. 

Lalu, melakukan perhitungan, serta mengevaluasi hasilnya. 

Langkah pertama: saya akan menampilkan jumlah lagu yang diputar (`track`) berdasarkan kota asal pengguna (`city`). 


In [19]:
# menghitung trek lagu yang diputar di masing-masing kota

df.groupby('city')['track'].count()


city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64

Dari hasil, terlihat bahwa pengguna dari kota Springfield memutar lebih banyak lagu yakni sebesar 43 ribu dibandingkan dengan Shelbyville yang sebesar 19 ribu lagu. 

Akan tetapi, hal ini tidak serta-merta mengisyaratkan bahwa warga Springfield lebih sering mendengarkan musik. Sebab, kota ini memang lebih besar, dan terdapat lebih banyak pengguna dibandingkan dengan Shelbyville. Jadi, hal ini merupakan hal yang wajar. 

Sekarang, saya akan mengelompokkan data berdasarkan hari dan temukan jumlah trek lagu yang diputar pada hari Senin, Rabu, dan Jumat. 


In [20]:
# menghitung trek lagu yang diputar pada masing-masing hari

df.groupby('day')['track'].count()

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

Di hari Rabu, secara keseluruhan merupakan hari yang paling tenang dibandingkan hari Senin dan Jumat.

Jumlah lagu yang diputar pada hari Rabu sebanyak 18 ribu, lebih tenang dari hari Jumat dan Senin yang masing-masing sebesar 22 ribu dan 21 ribu kali. 

Namun, mungkin akan berbeda hasilnya jika saya mengelompokkan kedua kota secara terpisah. 

Sekarang saya akan menghitung jumlah trek lagu yang diputar untuk hari dan kota tertentu. Fungsi tersebut akan membutuhkan dua parameter: 
1. nama hari dalam seminggu
2. nama kota

Dalam fungsi yang akan saya buat buat, saya menggunakan variabel untuk meyimpan baris dari tabel asli.     


In [21]:
def number_tracks(day, city):
    filtered_df = df[(df['day'] == day) & (df['city'] == city)] 
    track_list_count = filtered_df['user_id'].count()
    return track_list_count

In [22]:
# jumlah lagu yang diputar di Springfield pada hari Senin

number_tracks('Monday', 'Springfield')

15740

In [23]:
# jumlah lagu yang diputar di Shelbyville pada hari Senin

number_tracks('Monday', 'Shelbyville')


5614

In [24]:
# jumlah lagu yang diputar di Springfield pada hari Rabu

number_tracks('Wednesday', 'Springfield')


11056

In [25]:
# jumlah lagu yang diputar di Shelbyville pada hari Rabu

number_tracks('Wednesday', 'Shelbyville')


7003

In [26]:
# jumlah lagu yang diputar di Springfield pada hari Jumat

number_tracks('Friday', 'Springfield')


15945

In [27]:
# jumlah lagu yang diputar di Shelbyville pada hari Jumat

number_tracks('Friday', 'Shelbyville')


5895

In [28]:
# Membuat DataFrame kosong

new_df = pd.DataFrame(columns=['city', 'monday', 'wednesday', 'friday'])

cities = ['Springfield', 'Shelbyville']
days = ['Monday', 'Wednesday', 'Friday']

for city in cities:
    row_data = {'city': city}  # membuat dictionary
    for day in days:
        track_count = number_tracks(day, city)
        row_data[day.lower()] = track_count  # menambahkan dictionary
    new_df = new_df.append(row_data, ignore_index=True)
    
print(new_df)


  new_df = new_df.append(row_data, ignore_index=True)
  new_df = new_df.append(row_data, ignore_index=True)


          city monday wednesday friday
0  Springfield  15740     11056  15945
1  Shelbyville   5614      7003   5895


# Kesimpulan

Dari hasil di atas, terlihat beberapa perbedaan perilaku pengguna: 
* Di kota Springfield, jumlah trek lagu yang diputar mencapai puncaknya pada Jumat, sedangkan Shelbyville mencapai puncaknya pada hari Rabu. 
* Di kota Shelbyville penurunan aktivitas terjadi pada hari Senin dan Jumat. Sedangkan di kota Springfield, penurunan aktivitas yang signifikan terjadi pada hari rabu. 


## Hipotesis 2: Pada hari Senin pagi dan Jumat malam, warga Springfield mendengarkan genre musik yang berbeda dari yang dimikmati warga Shelbyville

Pertama-tama, saya akan membuat dua tabel untuk masing-masing-masing kota. 


In [29]:
# menampilkan tabel Springfield

df_springfield = df[df['city'] == 'Springfield']
df_springfield

Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...
65073,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65076,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [30]:
# menampilkan tabel Shelbyville

df_shelbyville = df[df['city'] == 'Shelbyville']
df_shelbyville


Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...
65063,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
65064,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
65065,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
65066,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


Saya akan menampilkan informasi 15 genre paling populer pada hari tertentu dalam periode antara dua stempel waktu. Untuk itu saya akan membuat fungsi `genre_weekday` dengan empat parameter: 

- Sebuah tabel untuk data
- Nama hari
- Stempel waktu awal, dalam format 'hh:mm'
- Stempel waktu akhir, dalam format 'hh:mm'


Saya akan membandingkan perilaku masing-masing kota pada hari Senin pagi (dari pukul 07.00 hingga 11.00) dan pada hari Jumat malam (dari pukul 17.00 hingga 23.00).

Pertama-tama, saya akan membuat tabel yang menampilkan 15 genre populer. 

* Springfield, Senin pagi (pukul 07.00 hingga 11.00), Jumat malam (dari pukul 17.00 hingga 23.00). 
* springfield , senin pagi




sebuah tabel di mana:
- hanya menampilkan hari tertentu
- hanya menampilkan jam sebelum jam tertentu
- hanya menampilkan jam sesudah jam tertentu

In [31]:

cities = ['Springfield', 'Shelbyville']
days = ['Monday', 'Friday']
datas = [df_shelbyville, df_springfield]

def top_15_genre_on_day(kota, data, day, time1, time2): 
    genre_df = data[data['day'] == day] # filter hari
    # memfilter jam
    genre_df = data[data['time'] < time2]
    genre_df = data[data['time'] > time1]
    
    genre_df_count = genre_df['genre'].value_counts() # menghitung genre
    top_15_genre = genre_df_count.head(15) # 15 genre teratas
    print(kota, day, time1, 'hingga', time2) # keterangan
    return top_15_genre # mengembalikan data series 15 genre teratas

In [32]:
top_15_genre_on_day('Shelbyville', df_shelbyville, 'Monday', '07:00:00', '11:00:00')

Shelbyville Monday 07:00:00 hingga 11:00:00


pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
jazz            486
metal           378
soundtrack      331
rnb             321
rap             309
Name: genre, dtype: int64

In [33]:
top_15_genre_on_day('Springfield', df_springfield, 'Monday', '07:00:00', '11:00:00')

Springfield Monday 07:00:00 hingga 11:00:00


pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
jazz            980
unknown         849
metal           832
soundtrack      785
folk            692
Name: genre, dtype: int64

In [34]:
top_15_genre_on_day('Shelbyville', df_shelbyville, 'Friday', '17:00:00', '23:00:00')

Shelbyville Friday 17:00:00 hingga 23:00:00


pop            839
rock           667
electronic     649
dance          626
hiphop         332
alternative    234
classical      219
rusrap         184
world          179
jazz           179
ruspop         170
metal          135
soundtrack     123
unknown        120
folk           104
Name: genre, dtype: int64

In [35]:
top_15_genre_on_day('Springfield', df_springfield, 'Friday', '17:00:00', '23:00:00')

Springfield Friday 17:00:00 hingga 23:00:00


pop            1983
dance          1430
rock           1386
electronic     1284
hiphop          685
world           501
classical       487
alternative     475
ruspop          435
rusrap          382
jazz            332
soundtrack      284
unknown         255
folk            237
metal           233
Name: genre, dtype: int64

### Kesimpulan Hipotesis 2

Setelah membandingkan 15 genre teratas pada hari Senin pagi, kita dapat menarik kesimpulan sebagai berikut: 
1. Pengguna dari Springfield dan Shelbyville mendengarkan musik dengan genre yang sama. Lima genre teratas dari kedua kota sama, hanya genre rock dan electronik yang bertukar tempat. 
2. Di Springfield, jumlah nilai yang hilang ternyata sangat besar, yakni 849, pada urutan ke-10. Artinya, nilai-nilai yang hilang mencakup proporsi data yang cukup besar, sehingga fakta ini bisa dijadikan dasar untuk mempertanyakan reliabilitas kesimpulan ini. 

Untuk hari Jumat malam, situasinya juga serupa. Genre individual cukup bervariasi tetapi secara keseluruhan 15 besar genre untuk kedua kota sama. 

Dengan demikian, hipotesis kedua terbukti benar sebagagian: 
* Pengguna mendengarkan musik yang sama di awal dan di akhir minggu. 
* Tidak ada perbedaan yang mencolok antara Springfield dan Shelbyville. Di kedua kota tersebut, pop adalah genre yang paling populer. 

Meski demikian, signifikansi jumlah nilai yang hilang membuat hasil ini patut dipertanyakan. Di springfield, terdapat begitu banyak nilai hilang yang memengaruhi 15 genre teratas. Jika kita tidak memiliki nilai yang hilang tersebut, hasilnya mungkin akan berbeda. 

    
    

# Hipotesis 3: Pendengar di kota Shelbyville menyukai musik rap, sementara pendengar di kota Springfield lebih menyukai pop

Saya akan menampilkan 10 genre teratas pada masing-masing kota untuk menguji hipotesis tersebut

In [40]:
df_springfield_genre = df_springfield.groupby('genre')['genre'].count().sort_values(ascending=False)
print('Springfield')
df_springfield_genre.head(10)

Springfield


genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

In [42]:
df_shelbyville_genre = df_shelbyville.groupby('genre')['genre'].count().sort_values(ascending=False)
print('Shelbyville')
df_shelbyville_genre.head(10)

Shelbyville


genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

## Kesimpulan

Hipotesis ini terbukti benar sebagian: 
* Musik pop adalah genre yang paling populer di Springfield, seperti yang diperkirakan. 
* Namun, musik pop ternyata sama populernya di Shelbyville, dan musik rap ternyata tidak masuk ke daftar 5 besar genre untuk kedua kota tersebut. 

# Temuan

Kita telah menguji tiga hipotesis berikut: 
1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya. 
2. Pada Senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku untuk hari Jumat malam. 
3. Pendengar di kota Springfield dan Shelbyville memiliki preferensi yang berbeda. Baik di Springfield maupun di Shelbyville, pengguna lebih menyukai musik pop. 

Setelah menganalisis data yang tersedia, kita dapat menyimpulkan bahwa: 
1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada hari dalam seminggu, meskipun kedua kota ini bervariasi dalam berbagai cara. 

Hipotesis pertama dapat diterima sepenuhnya. 
2. Preferensi musik tidak bervariasi secara signifikan sepanjang minggu di Springfield dan Shelbyville. Kita bisa melihat perbedaan kecil dalam urutan pada hari Senin, tetapi: 
    * Baik di Springfield maupun di Shelbyville, pengguna paling banyak mendengarkan musik pop. 

Oleh karena itu, hipotesis ini tidak dapat diterima. Pengting juga untuk mengingatkan bahwa hasil yang diperoleh bisa saja berbeda seandainya kita tidak memiliki nilai yang hilang. 

3. Ternyata, preferensi musik pengguna dari kota Springfield dan Shelbyville sangatlah mirip. 

Hipotesis ketiga ditolak. Jika memang terdapat preferensi, sayangnya hal ini tidak dapat kita ketahui dari dari data ini. 