# Y.Music

# Konten <a id='back'></a>

* [Pendahuluan](#intro)
* [Tahap 1. Ikhtisar Data](#data_review)
    * [Kesimpulan](#data_review_conclusions)
* [Tahap 2. Pra-pemrosesan Data](#data_preprocessing)
    * [2.1 Gaya penulisan judul](#header_style)
    * [2.2 Nilai-nilai yang hilang](#missing_values)
    * [2.3 Duplikat](#duplicates)
    * [2.4 Kesimpulan](#data_preprocessing_conclusions)
* [Tahap 3. Menguji Hipotesis](#hypotheses)
    * [3.1 Hipotesis 1: aktivitas pengguna di dua kota](#activity)
    * [3.2 Hipotesis 2: preferensi musik pada hari Senin dan Jumat](#week)
    * [3.3 Hipotesis 3: preferensi genre di kota Springfield dan Shelbyville](#genre)
* [Temuan](#end)

## Pendahuluan <a id='intro'></a>
Setiap kali kita melakukan penelitian, kita perlu merumuskan hipotesis yang kemudian dapat kita uji. Terkadang kita menerima hipotesis ini; tetapi terkadang kita juga menolaknya. Untuk membuat keputusan yang tepat, sebuah bisnis harus dapat memahami apakah asumsi yang dibuatnya benar atau tidak.

Dalam proyek kali ini, Anda akan membandingkan preferensi musik kota Springfield dan Shelbyville. Anda akan mempelajari data Y.Music yang sebenarnya untuk menguji hipotesis di bawah ini dan membandingkan perilaku pengguna di kedua kota ini.

### Tujuan: 
Menguji tiga hipotesis:
1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga ini juga berlaku untuk Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Di Springfield, mereka lebih suka musik pop, sementara Shelbyville, musik rap memiliki lebih banyak penggemar.

### Tahapan
Data tentang perilaku pengguna disimpan dalam berkas `/datasets/music_project_en.csv`. Tidak ada informasi tentang kualitas data, jadi Anda perlu memeriksanya lebih dahulu sebelum menguji hipotesis.

Pertama, Anda akan mengevaluasi kualitas data dan melihat apakah masalahnya signifikan. Kemudian, selama pra-pemrosesan data, Anda akan mencoba memperhitungkan masalah yang paling serius.
 
Proyek ini akan terdiri dari tiga tahap:
 1. Ikhtisar Data
 2. Pra-pemrosesan Data
 3. Menguji Hipotesis

 
[Kembali ke Daftar Isi](#back)

In [1]:
# mengimpor pandas

import pandas as pd


In [3]:
# membaca berkas dan menyimpannya ke df

url = 'music_project_en.csv'
df = pd.read_csv(url)

In [4]:
# memperoleh 10 baris pertama dari tabel df
df.head()


Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday


In [7]:
# Melakukan Pengecekan umum pada Dataset
df.describe()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


In [6]:
# Melakukan pengecekan dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


[Kembali ke Daftar Isi](#back)

## Tahap 2. Pra-pemrosesan Data <a id='data_preprocessing'></a>
Perbaiki format pada judul kolom dan atasi nilai yang hilang. Kemudian, periksa apakah ada duplikat dalam data.

### Menyesuaikan analysis pada dataset

In [8]:
# Melakukan pengecekan column 
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

In [9]:
# daftar nama kolom di tabel df

df = df.rename(columns={'  userID': 'user_id','Track': 'track','artist': 'artist','genre': 'genre','  City  ': 'city','time': 'time','Day': 'day'})

In [10]:
# Melakukan pemeriksaan nama kolom
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Kembali ke Daftar Isi](#back)

### Pemerikasaan terhadap Object pada Dataset

In [12]:
# hasil pengecekan: daftar nama kolom

df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

In [13]:
# mengulang nama kolom dan mengganti nilai yang hilang dengan 'unknown'

df.loc[:, ['track', 'genre', 'artist']]

Unnamed: 0,track,genre,artist
0,Kamigata To Boots,rock,The Mass Missile
1,Delayed Because of Accident,rock,Andreas Rönnberg
2,Funiculì funiculà,pop,Mario Lanza
3,Dragons in the Sunset,folk,Fire + Ice
4,Soul People,dance,Space Echo
...,...,...,...
65074,My Name,rnb,McLean
65075,Maybe One Day (feat. Black Spade),hip,Blu & Exile
65076,Jalopiina,industrial,
65077,Freight Train,rock,Chas McDevitt


In [14]:
# mengulang nama kolom dan mengganti nilai yang hilang dengan 'unknown'

columns_to_replace = ['track', 'artist','genre']
for column in columns_to_replace:
    df.loc[df[column].isna(), column] = 'unknown'
    

In [15]:
# menghitung duplikat yang jelas

df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

In [50]:
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Melakukan pengecekan duplikat object value

In [21]:
# menghitung duplikat yang jelas

df.duplicated().sum()

0

In [20]:
# menghapus duplikat yang jelas

df = df.drop_duplicates().reset_index(drop=True)

In [18]:
# memeriksa duplikat

df.duplicated().sum()

0

In [19]:
# memeriksa duplikat pada column genre

column = 'genre'
Genres = pd.Series(df[column].unique()).sort_values()


Genres.head()

235        acid
145    acoustic
157      action
106       adult
151      africa
dtype: object

In [41]:
sart = df['genre'].value_counts(ascending=False)

sart

pop              8323
dance            6367
rock             5844
electronic       5522
hip              2975
                 ... 
baile               1
ghazal              1
popelectronic       1
acid                1
regional            1
Name: genre, Length: 269, dtype: int64

### Melakukan Perbaikan duplikat value object pada kolom genre

In [42]:
# memeriksa duplikat

def replace_wrong_genres(wrong_genres, correct_genres):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genres, correct_genres)

In [43]:
# menghapus duplikat implisit

wrong_genres = ['hip', 'hop', 'hip-hop']
correct_genres = 'hiphop'
replace_wrong_genres(wrong_genres, correct_genres)

In [44]:
# memeriksa duplikat implisit

sart = df['genre'].unique()

sorted(sart)

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

### Kesimpulan <a id='data_preprocessing_conclusions'></a>
Kita mendeteksi tiga masalah dengan data:

- Gaya penulisan judul yang salah
- Nilai-nilai yang hilang
- Duplikat yang jelas dan implisit

Judul telah dibersihkan untuk mempermudah pemrosesan tabel.

Semua nilai yang hilang telah diganti dengan `'unknown'`. Tapi kita masih harus melihat apakah nilai yang hilang dalam `'genre'` akan memengaruhi perhitungan kita.

Tidak adanya duplikat akan membuat hasil lebih tepat dan lebih mudah dipahami.

Sekarang kita dapat melanjutkan ke pengujian hipotesis.

[Kembali ke Daftar Isi](#back)

## Tahap 3. Menguji Hipotesis <a id='hypotheses'></a>

### Hipotesis 1: Membandingkan Perilaku Pengguna di Dua Kota <a id='activity'></a>

Menurut hipotesis pertama, pengguna dari Springfield dan Shelbyville memiliki perbedaan dalam mendengarkan musik. Pengujian ini menggunakan data pada hari: Senin, Rabu, dan Jumat.

* Pisahkan pengguna ke dalam kelompok berdasarkan kota.
* Bandingkan berapa banyak lagu yang dimainkan setiap kelompok pada hari Senin, Rabu, dan Jumat.

In [64]:
# Menghitung lagu yang diputar di setiap kota

df.groupby('city').count()['user_id']

city
Shelbyville    18512
Springfield    42741
Name: user_id, dtype: int64

Springfield memiliki lebih banyak lagu yang dimainkan daripada Shelbyville. Namun bukan berarti warga Springfield lebih sering mendengarkan musik. Kota ini lebih besar, dan memiliki lebih banyak pengguna.

Sekarang kelompokkan data menurut hari dan temukan jumlah lagu yang diputar pada hari Senin, Rabu, dan Jumat.

### Mengelompokan data menurut hari dan temukan jumlah lagu yang diputar pada hari Senin, Rabu, dan Jumat.

In [46]:
# Menghitung trek yang diputar pada masing-masing hari

df.groupby('day').count()['track']

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

### Membuat Fungsi untuk mempermudah analysis

In [47]:

def number_tracks (dataset, day, city):
    track_list = dataset.loc[(dataset['day']==day) & (dataset['city']==city)]
    track_list_count = track_list['user_id'].count()
    return track_list_count


In [73]:
# jumlah lagu yang diputar di Springfield pada hari Senin

number_tracks (dataset=df, day='Monday', city='Springfield')

15740

In [74]:
# jumlah lagu yang diputar di Shelbyville pada hari Senin

number_tracks (dataset=df, day='Monday', city='Shelbyville')

5614

In [75]:
# jumlah lagu yang diputar di Springfield pada hari Rabu

number_tracks (dataset=df, day='Wednesday', city='Springfield')

11056

In [76]:
#  jumlah lagu yang diputar di Shelbyville pada hari Rabu
number_tracks (dataset=df, day='Wednesday', city='Shelbyville')

7003

In [77]:
# jumlah lagu yang diputar di Springfield pada hari Jumat
number_tracks (dataset=df, day='Friday', city='Springfield')


15945

In [78]:
# jumlah lagu yang diputar di Shelbyville pada hari Rabu
number_tracks (dataset = df, day = 'Wednesday', city = 'Shelbyville')

7003

Gunakan `pd.DataFrame` untuk membuat tabel, di mana
* Nama kolom adalah: `['city', 'monday', 'wednesday', 'friday']`
* Data adalah hasil yang Anda dapatkan dari `number_tracks()`

### Mempermudah melihat lagu yang di putar di setiap kota 

In [53]:
# tabel dengan hasil


music = [
    ['Springfield', 15740, 11056, 15945],
    ['Shelbyville', 5614, 7003, 5895],
]

entries = ['city', 'monday', 'wednesday', 'friday']

table_first_hypothesis = pd.DataFrame(data=music, columns=entries)
table_first_hypothesis
     

Unnamed: 0,city,monday,wednesday,friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


In [55]:
# Lagu yang di putar per hari secara keseluruhan
df.groupby('day').count()['track']

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

**Kesimpulan**

Data mengungkapkan perbedaan perilaku pengguna:

- Pada Springfield, jumlah lagu yang diputar mencapai puncaknya pada hari Senin dan Jumat, sedangkan pada hari Rabu terjadi penurunan aktivitas.
- Di Shelbyville, sebaliknya, pengguna lebih banyak mendengarkan musik pada hari Rabu.

Aktivitas pengguna pada hari Senin dan Jumat lebih sedikit.

### Hipotesis 2: Musik di Awal dan Akhir Minggu <a id='week'></a>

Menurut hipotesis kedua, pada Senin pagi dan Jumat malam, warga Springfield mendengarkan genre yang berbeda dari yang dinikmati warga Shelbyville.

In [56]:
# mendapatkan tabel spr_general dari baris df,
# dimana nilai dari kolom 'city' adalah 'Springfield'
spr_general = df.loc[(df['city'])=='Springfield']
spr_general


Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...
61247,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
61248,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [57]:
# mendapatkan shel_general dari baris df,
# dimana nilai dari kolom 'city' adalah 'Shelbyville'
shel_general = df.loc[(df['city'])=='Shelbyville']
shel_general


Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...
61239,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
61240,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
61241,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
61242,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


### Membuat hipotesis dengan mendapatkan informasi mengenai genre yang paling populer perharinya`

In [58]:

def genre_weekday(dfset, day, time1, time2):
    genre_df = dfset.loc[(dfset['day']==day) & (dfset['time']>=time1) & (dfset['time']<=time2)]
    genre_df_count = genre_df.groupby('genre').count()
    genre_df_sorted = genre_df_count.sort_values(by='user_id', ascending=False)['user_id']
    return genre_df_sorted[:15]

    


Bandingkan hasil fungsi `genre_weekday()` untuk Springfield dan Shelbyville pada Senin pagi (dari pukul 07.00 hingga 11.00) dan pada Jumat malam (dari pukul 17:00 hingga 23:00):

In [59]:
# memanggil fungsi untuk Senin pagi di Springfield (gunakan spr_general alih-alih tabel df)

genre_weekday(spr_general, 'Friday', '17:00', '23:00')


genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: user_id, dtype: int64

In [60]:
# memanggil fungsi untuk Senin pagi di Shelbyville (gunakan shel_general alih-alih tabel df)
genre_weekday(shel_general, 'Monday', '07:00', '11:00')


genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: user_id, dtype: int64

In [61]:
# memanggil fungsi untuk Jumat malam di Springfield
genre_weekday(spr_general, 'Friday', '17:00', '23:00')



genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: user_id, dtype: int64

In [62]:
# memanggil fungsi untuk Jumat malam di Shelbyville
genre_weekday(spr_general, 'Friday', '17:00', '23:00')


genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: user_id, dtype: int64

[Kembali ke Daftar Isi](#back)

### Hipotesis 3: Preferensi Genre di Springfield dan Shelbyville <a id='genre'></a>

Hipotesis: Shelbyville menyukai musik rap. Warga Springfield lebih menyukai pop.

In [63]:
# pada satu baris: kelompokkan tabel spr_general berdasarkan kolom 'genre',
# hitung nilai 'genre' dengan count() dalam pengelompokan,
# urutkan Series yang dihasilkan dalam urutan menurun, lalu simpan ke spr_genres

spr_genres = spr_general.groupby('genre')['genre'].count().sort_values(ascending = False)

Tampilkan 10 baris pertama dari `spr_genres`:

In [64]:
# menampilkan 10 baris pertama dari spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

Sekarang lakukan hal yang sama pada data di Shelbyville.

Kelompokkan tabel `shel_general` berdasarkan genre dan temukan jumlah lagu yang dimainkan untuk setiap genre. Kemudian urutkan hasilnya dalam urutan menurun dan simpan ke tabel `shel_genres`:

In [65]:
# pada satu baris: kelompokkan tabel shel_general menurut kolom 'genre',
# hitung nilai 'genre' dalam pengelompokan menggunakan count(),
# urutkan Series yang dihasilkan dalam urutan menurun dan simpan ke shel_genres

shel_genres = shel_general.groupby('genre')['user_id'].count().sort_values(ascending = False)

Tampilkan 10 baris pertama dari `shel_genres`:

In [66]:
# menampilkan 10 baris pertama dari shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: user_id, dtype: int64

[Kembali ke Daftar Isi](#back)

# Temuan <a id='end'></a>

Kita telah menguji tiga hipotesis berikut:

1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga ini juga berlaku untuk Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Baik Springfield maupun di Shelbyville, mereka lebih suka musik pop.

Setelah menganalisis data, kita dapat menyimpulkan:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada harinya, walaupun kotanya berbeda.

Hipotesis pertama dapat diterima sepenuhnya.

2. Preferensi musik tidak terlalu berbeda selama seminggu di Springfield dan Shelbyville. Kita dapat melihat perbedaan kecil dalam urutan pada hari Senin, tetapi:
* Baik di Springfield maupun di Shelbyville, orang paling banyak mendengarkan musik pop.

Jadi hipotesis ini tidak dapat kita terima. Kita juga harus ingat bahwa hasilnya bisa berbeda jika bukan karena nilai yang hilang.

3. Ternyata preferensi musik pengguna dari Springfield dan Shelbyville sangat mirip.

Hipotesis ketiga ditolak. Jika ada perbedaan preferensi, tidak dapat dilihat dari data ini.

### Catatan
Dalam proyek sesungguhnya, penelitian melibatkan pengujian hipotesis statistik, yang lebih tepat dan lebih kuantitatif. Perhatikan juga bahwa Anda tidak dapat selalu menarik kesimpulan tentang seluruh kota berdasarkan data dari satu sumber saja.

Anda akan mempelajari pengujian hipotesis dalam sprint analisis data statistik.

[Kembali ke Daftar Isi](#back)