# Analisa Musik di Kota Besar

Dalam proyek kali ini, Anda akan membandingkan preferensi musik di kota Springfield dan Shelbyville dan mempelajari data Y.Music yang sebenarnya untuk menguji hipotesis di bawah ini dan membandingkan perilaku pengguna di kedua kota ini.

<b>Hipotesis:</b>

   1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
   2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda.
       Hal ini juga ini juga berlaku untuk Jumat malam. 
   3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda.
      Di Springfield, mereka lebih suka musik pop, sementara Shelbyville, musik rap memiliki lebih banyak penggemar.

<b>Tahapan:</b><a id='back'></a>

1. [Ikhtisar Data](#Mulai)
2. [Pra-pemprosesan Data](#pra-pemrosesan)
    - [Judul kolom](#kolom)
    - [Nilai-nilai yang hilang](#missing)
    - [Duplikat](#duplikat)
3. [Menguji Hipotesis](#Test)
    - [Hipotesis 1: membandingkan perilaku pengguna di dua kota](#1)
    - [Hipotesis 2: musik di awal dan akhir minggu](#2)
    - [Hipotesis 3: preferensi genre di springfield dan shelbyville](#3)
4. [Kesimpulan Umum](#Kesimpulan)

## Ikhtisar Data <a id="Mulai"></a>

In [2]:
# Memuat library
import pandas as pd

In [3]:
# Dataset
df = pd.read_csv('Y:\\Online Course\\Practicum\\Jupyter Notebook\\1 Project\\music_project_en.csv')

In [4]:
# Informasi umum
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


In [5]:
# Ukuran dataset
df.shape

(65079, 7)

In [6]:
# Memperoleh 10 baris pertama dari tabel df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [7]:
# Memeriksa duplikat
df.duplicated().sum()

3826

In [8]:
# Memeriksa missing value
df.isna().sum()

  userID       0
Track       1343
artist      7567
genre       1198
  City         0
time           0
Day            0
dtype: int64

Dokumentasi:
- `' userID'` — pengenal pengguna
- `'Track'` — judul trek
- `'artist'` — nama artis
- `'genre'` - genre trek
- `' City'` — kota tempat pengguna berada
- `'time'` — lama waktu lagu tersebut dimainkan
- `'Day'` — nama hari

**Kesimpulan sementara**

1. Terdapat beberapa nilai yang duplikat,
2. Penamaan kolom yang bisa diperbaiki karena menggunakan spasi dan juga menggunakan *snake case*,
3. Terdapat bebebara kolom yang memiliki *missing value*.

[Kembali ke tahapan](#back)

## Pra-pemrosesan Data <a id="#pra-pemrosesan"></a>

### Judul kolom <a id="kolom"></a>

In [9]:
# Daftar nama kolom di tabel df
df_clean = df
df_clean.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

In [10]:
# Mengganti nama kolom
df_clean = df_clean.rename(columns={
    '  userID': 'user_id',
    'Track': 'track',
    '  City  ':'city',
    'Day':'day'
})

In [11]:
# Mengecek hasil: daftar nama kolom
df_clean.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Nama kolom `used_id`, `track`, `city`, `day` sudah berhasil diganti menjadi lower case dan menghilangkan spasi.

[Kembali ke tahapan](#back)

### Nilai-nilai yang hilang <a id="missing"></a>

In [12]:
# Menghitung nilai yang hilang
df_clean.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

In [13]:
# Mengganti ganti nilai yang hilang dengan 'unknown'
columns_to_replace = ['track', 'artist', 'genre']

for cols in columns_to_replace:
    df_clean[cols]=df_clean[cols].fillna('unknown')

In [14]:
# Menghitung nilai yang hilang
df_clean.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

Nilai yang hilang dari kolom `track`, `artist`, `genre` berhasil di perbaiki, menggantinya dengan string 'unknown'.

[Kembali ke tahapan](#back)

### Duplikat <a id="duplikat"></a>

In [15]:
# Menghitung duplikat eksplisit
df_clean.duplicated().sum()

3826

In [16]:
# Menghapus duplikat eksplisit
df_clean = df_clean.drop_duplicates().reset_index(drop=True)

In [17]:
# Memeriksa duplikat
df_clean.duplicated().sum()

0

In [18]:
# Mencari jumlah duplikat implisit dalam tabel dan memperbaikinya.
# melihat nama genre yang unik
df_clean['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

In [24]:
# Terdapat duplikat implisit pada string hip, hop, hip-hop
# Fungsi untuk mengganti duplikat implisit
# Fungsi untuk mengganti genre
'''
Definisi:
-----------
    Fungsi ini untuk mengganti nilai menjadi string yang diinginkan
-----------
    wrong_genres:
        string yang ingin diganti
    correct_genre:
        string yang akan menggantikan
'''
def replace_wrong_genres(wrong_genres,correct_genre):
   
    for wrong_genre in wrong_genres:
        df_clean['genre'] = df_clean['genre'].replace(wrong_genres, correct_genre)
        

In [20]:
# Menerapkan fungsi
duplicates = ['hip', 'hop', 'hip-hop']
genre ='hiphop'
replace_wrong_genres(duplicates,genre)

In [21]:
# memeriksa duplikat implisit
df_clean['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

Baik duplikat eksplisit yang diperbaiki dengan menghapus baris yang terduplikat atau implisit telah diperbaiki dengan mengganti nilai yang terduplikat dengan sebuah string.

**Kesimpulan sementara**

- Gaya penulisan judul yang menggunakan *snake case* diganti menjadi *lower case*, spasi juga dihapus,
- Semua nilai yang hilang telah diganti dengan `'unknown'`,
- Duplikat eksplisit dan implisit juga sudah diperbaiki.

[Kembali ke tahapan](#back)

## Menguji Hipotesis <a id="#Test"></a>

### Hipotesis 1: membandingkan perilaku pengguna di dua kota <a id="1"></a>

Menurut hipotesis pertama, pengguna dari Springfield dan Shelbyville memiliki perbedaan perilaku dalam mendengarkan musik. Pengujian ini menggunakan data pada hari: Senin, Rabu, dan Jumat.

In [22]:
# Menghitung lagu yang diputar di setiap kota
df_test = df_clean
print(df_test.groupby('city')['track'].count())

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


Springfield memiliki lebih banyak lagu yang dimainkan daripada Shelbyville. Namun bukan berarti warga Springfield lebih sering mendengarkan musik. Kota ini lebih besar, dan memiliki lebih banyak pengguna.

In [23]:
# Menghitung trek yang diputar pada masing-masing hari
print(df_test.groupby('day')['track'].count())

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


Rabu adalah hari paling tenang secara keseluruhan. Tetapi jika mempertimbangkan kedua kota secara terpisah, mungkin akan memiliki kesimpulan yang berbeda.

In [22]:
# Fungsi menghitung lagu yang diputar untuk kota dan hari tertentu.
'''
Definisi:
-----------
    Fungsi ini untuk menghitung lagu yang diputar untuk kota dan hari tertentu
-----------
    day:
        hari yang diinginkan
    city:
        kota yang diinginkan
'''
def number_tracks(day,city):
    track_list = df_test[(df_test['day'] == day) & (df_test['city'] == city)]['user_id']
    track_list_count = track_list.count()
    return print(track_list_count)

Menggunakan fungsi `number_tracks()` enam kali dan mengubah nilai parameternya, sehingga bisa mengambil data di kedua kota untuk masing-masing hari tersebut.

In [25]:
# Jumlah lagu yang diputar di Springfield pada hari Senin
number_tracks('Monday', 'Springfield')

15740


In [26]:
# Jumlah lagu yang diputar di Shelbyville pada hari Senin
number_tracks('Monday', 'Shelbyville')

5614


In [27]:
#  Jumlah lagu yang diputar di Springfield pada hari Rabu
number_tracks('Wednesday', 'Springfield')

11056


In [28]:
#  Jumlah lagu yang diputar di Shelbyville pada hari Rabu
number_tracks('Wednesday', 'Shelbyville')

7003


In [29]:
# Jumlah lagu yang diputar di Springfield pada hari Jumat
number_tracks('Friday', 'Springfield')

15945


In [30]:
# Jumlah lagu yang diputar di Shelbyville pada hari Jumat
number_tracks('Friday', 'Shelbyville')

5895


In [31]:
# Tabel dengan hasil
new_data = [['Springfield', 15740, 11056, 15945],
           ['Shelbyville', 5614, 7003, 5895]]

column_names = ['city', 'monday', 'wednesday', 'friday']

table = pd.DataFrame (data = new_data, columns = column_names)
print(table)

          city  monday  wednesday  friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


**Kesimpulan sementara**

*Findings*:

1. Pada Springfield, jumlah lagu yang diputar mencapai puncaknya pada hari Senin dan Jumat, sedangkan pada hari Rabu terjadi penurunan aktivitas.
2. Di Shelbyville, sebaliknya, pengguna lebih banyak mendengarkan musik pada hari Rabu. Aktivitas pengguna pada hari Senin dan Jumat lebih sedikit.

[Kembali ke tahapan](#back)

### Hipotesis 2: musik di awal dan akhir minggu <a id="2"></a>

Menurut hipotesis kedua, pada Senin pagi dan Jumat malam, warga Springfield mendengarkan genre yang berbeda dari yang dinikmati warga Shelbyville.

In [33]:
# Mendapatkan tabel spr_general dari baris df,
# di mana nilai dari kolom 'city' adalah 'Springfield'
spr_general = df_test[df_test['city'] == 'Springfield']

In [34]:
# Mendapatkan shel_general dari baris df,
# di mana nilai dari kolom 'city' adalah 'Shelbyville'
shel_general = df_test[df_test['city'] == 'Shelbyville']

In [23]:
# Fungsi untuk memfilter 15 genre yang populer pada waktu yang ditentukan
'''
Definisi:
-----------
    Fungsi ini untuk mengisi nilai yang hilang berdasarkan kondisi dari kolom lain
-----------
    df1:
        data yang diinginkan
    day:
        Hari yang diinginkan
    time1:
        waktu awal yang diinginkan
    time2:
        waktu akhir yang diinginkan
'''
def genre_weekday(df1, day, time1, time2):
    
    genre_df = df1[df1['day']==day]
    genre_df = genre_df[genre_df['time'] < time2]
    genre_df = genre_df[genre_df['time'] > time1]

    genre_df_grouped = genre_df.groupby('genre')['genre'].count()

    genre_df_sorted = genre_df_grouped.sort_values(ascending = False)

    return genre_df_sorted[:15]

Membandingkan hasil fungsi `genre_weekday()` untuk Springfield dan Shelbyville pada Senin pagi (dari pukul 07.00 hingga 11.00) dan pada Jumat malam (dari pukul 17:00 hingga 23:00):

In [36]:
# Memanggil fungsi untuk Senin pagi di Springfield
genre_weekday(spr_general, 'Monday', '07:00', '11:00')

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: genre, dtype: int64

In [37]:
# Memanggil fungsi untuk Senin pagi di Shelbyville
genre_weekday(shel_general, 'Monday', '07:00', '11:00')

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: genre, dtype: int64

In [38]:
# Memanggil fungsi untuk Jumat malam di Springfield
genre_weekday(spr_general, 'Friday', '17:00', '23:00')

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: genre, dtype: int64

In [39]:
# Memanggil fungsi untuk Jumat malam di Shelbyville
genre_weekday(shel_general, 'Friday', '17:00', '23:00')

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: genre, dtype: int64

**Kesimpulan sementara**

*Findings*:

Setelah membandingkan 15 genre teratas pada Senin pagi, data yang didapat menarik kesimpulan berikut:

1. Pengguna dari Springfield dan Shelbyville mendengarkan musik dengan genre yang sama. Lima genre teratas sama, hanya rock dan elektronik yang bertukar tempat.

2. Di Springfield, jumlah nilai yang hilang ternyata sangat besar sehingga nilai `'unknown'` berada di urutan ke-10. Ini berarti bahwa nilai-nilai yang hilang memiliki jumlah data yang cukup besar, yang mungkin menjadi dasar untuk mempertanyakan ketepatan kesimpulan kita.

Untuk Jumat malam, situasinya serupa. Genre individual cukup bervariasi, tetapi secara keseluruhan, 15 besar genre untuk kedua kota sama.

*Insight*:

Dengan demikian, hipotesis kedua sebagian terbukti benar:

1. Pengguna mendengarkan musik yang sama di awal dan akhir minggu.
2. Tidak ada perbedaan yang mencolok antara Springfield dan Shelbyville. Pada kedua kota tersebut, pop adalah genre yang paling populer.

Namun, jumlah nilai yang hilang membuat hasil ini dipertanyakan. Di Springfield, ada begitu banyak yang memengaruhi 15 teratas. Jika tidak mengabaikan nilai-nilai ini, hasilnya mungkin akan berbeda.

[Kembali ke tahapan](#back)

### Hipotesis 3: preferensi genre di springfield dan shelbyville <a id="3"></a>

Shelbyville menyukai musik rap. Warga Springfield lebih menyukai pop.

In [40]:
# Mengelompokkan dataframe di Springfield berdasarkan kolom genre dan menghitung totalnya
new = spr_general.groupby('genre')['genre'].count()
spr_genres = new.sort_values(ascending=False)

In [41]:
# Menampilkan 10 baris pertama dari spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

In [42]:
# Mengelompokkan dataframe di Shelbyville berdasarkan kolom genre dan menghitung totalnya
new1 = shel_general.groupby('genre')['genre'].count()
shel_genres = new1.sort_values(ascending=False)

Tampilkan 10 baris pertama dari `shel_genres`:

In [43]:
# menampilkan 10 baris pertama dari shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

**Kesimpulan sementara**

*Findings*:

Hipotesis terbukti benar sebagian,

1. Musik pop adalah genre paling populer di Springfield, seperti yang diharapkan.
2. Namun, musik pop ternyata sama populernya baik di Springfield maupun di Shelbyville, dan musik rap tidak berada di 5 besar untuk kedua kota tersebut.


[Kembali ke tahapan](#back)

## Kesimpulan Umum <a id="#Kesimpulan"></a>

Setelah menguji tiga hipotesis berikut:

1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga ini juga berlaku untuk Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Baik Springfield maupun di Shelbyville, mereka lebih suka musik pop.

Setelah menganalisis data, dapat disimpulkan:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada harinya, walaupun kotanya berbeda.

Hipotesis pertama dapat diterima sepenuhnya.

2. Preferensi musik tidak terlalu berbeda selama seminggu di Springfield dan Shelbyville. Terlihat perbedaan kecil dalam urutan pada hari Senin, tetapi:
    - Baik di Springfield maupun di Shelbyville, orang paling banyak mendengarkan musik pop.

Jadi hipotesis ini tidak dapat diterima. Harus diingat bahwa hasilnya mungkin saja akan berbeda jika bukan karena nilai yang hilang.

3. Ternyata preferensi musik pengguna dari Springfield dan Shelbyville sangat mirip.

Hipotesis ketiga ditolak. Jika memang ada perbedaan preferensi, ia tidak dapat dilihat dari data ini.

[Kembali ke tahapan](#back)