# Y.Music

# Konten <a id='back'></a>

* [Pendahuluan](#intro)
* [Tahap 1. Ikhtisar Data](#data_review)
    * [Kesimpulan](#data_review_conclusions)
* [Tahap 2. Pra-pemrosesan data](#data_preprocessing)
    * [2.1 Gaya Penulisan Judul](#header_style)
    * [2.2 Nilai-Nilai yang Hilang](#missing_values)
    * [2.3 Duplikat](#duplicates)
    * [2.4 Kesimpulan](#data_preprocessing_conclusions)
* [Tahap 3. Pengujian Hipotesis](#hypotheses)
    * [3.1 Hipotesis 1: Aktivitas pengguna di kedua kota](#activity)
    * [3.2 Hipotesis 2: Preferensi musik pada hari Senin dan Jumat](#week)
    * [3.3 Hipotesis 3: Preferensi genre di kota Springfield dan Shelbyville](#genre)
* [Temuan](#end)

## Pendahuluan <a id='intro'></a>
Setiap kali kita melakukan analisis, kita perlu merumuskan beberapa hipotesis yang perlu kita uji lebih lanjut. Terkadang, pengujian yang kita lakukan membawa kita untuk menerima hipotesis tersebut, adakalanya kita juga perlu menolaknya. Untuk membuat keputusan yang tepat dalam bisnis, kita harus memahami apakah asumsi yang kita buat sudah tepat atau belum.

Dalam proyek kali ini, Anda akan membandingkan preferensi musik pengguna di kota Springfield dan Shelbyville. Anda akan mempelajari data Y.Music yang sebenarnya untuk menguji hipotesis di bawah ini dan membandingkan perilaku pengguna di kedua kota ini.

### Tujuan: 
Menguji tiga hipotesis:
1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku pada hari Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Di Springfield, para pengguna lebih suka musik pop, sementara di Shelbyville musik rap memiliki lebih banyak penggemar.

### Tahapan
Data tentang perilaku pengguna disimpan dalam *file* `/datasets/music_project_en.csv`. Tidak ada informasi terkait kualitas data tersebut, jadi Anda perlu memeriksanya terlebih dahulu sebelum menguji hipotesis.

Pertama, Anda akan mengevaluasi kualitas data dan melihat apakah masalahnya signifikan. Kemudian, selama pra-pemrosesan data, Anda akan mencoba mengatasi masalah yang paling serius.
 
Proyek ini akan terdiri dari tiga tahap:
 1. Ikhtisar Data
 2. Pra-pemrosesan Data
 3. Pengujian hipotesis

 
[Kembali ke Konten](#back)

## Tahap 1. Ikhtisar Data <a id='data_review'></a>

Buka data terkait Y.Music, lalu jelajahilah data tersebut.

Anda akan membutuhkan *library* `Pandas`, oleh karena itu silakan mengimpornya.

In [1]:
# mengimpor Pandas
import pandas as pd
df = pd.read_csv("/datasets/music_project_en.csv")

Baca *file* `music_project_en.csv` dari folder `/datasets/` lalu simpan di variabel `df`:

In [2]:
# membaca berkas dan menyimpannya ke df
df.describe()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,21:51:22,Friday
freq,76,136,136,8850,45360,14,23149


Tampilkan 10 baris tabel pertamanya:

In [3]:
# memperoleh 10 baris pertama dari tabel df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Dapatkan informasi umum tentang tabel dengan satu perintah:

In [4]:
# memperoleh informasi umum tentang data yang tersedia di df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Terdapat pula jumlah nilai yang berbeda antar kolom. Semuanya menyimpan tipe data yang sama, yaitu: `object`.

Berdasarkan dokumentasi:
- `'userID'` — ID pengguna
- `'Track'` — judul trek lagu
- `'artist'` — nama artis
- `'genre'`
- `'City'` — kota tempat pengguna berada
- `'time'` — lama waktu lagu tersebut dimainkan
- `'Day'` — hari dalam seminggu

Kita dapat melihat tiga masalah dengan gaya penulisan nama kolom:
1. Beberapa nama ditulis dalam huruf besar, beberapa dalam huruf kecil.
2. Beberapa nama menggunakan spasi.
3. `Carilah masalah ketiga dan jelaskan masalah tersebut di sini`.
   (nama kolom menggunakan yang dua suku kata seharusnya ditulis dengan format snake_case, contohnya user_id)

Jumlah nilai kolom berbeda. Hal ini menandakan bahwa data yang kita miliki mengandung nilai yang hilang.


### Kesimpulan <a id='data_review_conclusions'></a> 

Setiap baris dalam tabel menyimpan data terkait trek lagu yang diputar. Sejumlah kolom menyimpan data yang mendeskripsikan trek itu sendiri: judul trek, artis, dan genre. Sisanya menyimpan data terkait informasi pengguna: kota asal mereka, waktu mereka memutar trek lagu tersebut.

Jelas bahwa data yang kita miliki cukup untuk menguji hipotesis. Meski demikian, kita memiliki nilai-nilai yang hilang.

Untuk melanjutkan analisis, kita perlu melakukan pra-pemrosesan data terlebih dahulu.

[Kembali ke Daftar Isi](#back)

## Tahap 2. Pra-pemrosesan Data <a id='data_preprocessing'></a>
Perbaiki format pada judul kolom dan atasi nilai yang hilang. Kemudian, periksa apakah data Anda mengandung duplikat.

### Gaya Penulisan Judul <a id='header_style'></a>
Tampilkan judul kolom:


In [5]:
# list nama kolom pada tabel df
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Ubah nama kolom sesuai dengan aturan gaya penulisan yang baik:
* Jika nama memiliki beberapa kata, gunakan snake_case
* Semua karakter harus menggunakan huruf kecil
* Hapus spasi

In [6]:
# mengganti nama kolom
df = df.rename(columns={
    '  userID' : 'user_id',
    'Track' : 'track',
    '  City  ' : 'city',
    'Day': 'day'
})

Periksa hasilnya. Tampilkan nama kolom sekali lagi:

In [7]:
# mengecek hasil Anda: tampilkan sekali lagi list nama kolom
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Kembali ke Daftar Isi](#back)

### Nilai-Nilai yang Hilang <a id='missing_values'></a>
Pertama, temukan jumlah nilai yang hilang dalam tabel. Untuk melakukannya, gunakan dua metode `Pandas`:

In [8]:
# menghitung nilai yang hilang
df.isnull()
df.isna()
df.isnull().sum()
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Tidak semua nilai yang hilang berpengaruh terhadap penelitian. Misalnya, nilai yang hilang dalam kolom `track` dan `artist` tidak begitu penting. Anda cukup menggantinya dengan penanda yang jelas.
Namun, nilai yang hilang dalam kolom `'genre'` dapat memengaruhi perbandingan preferensi musik di Springfield dan Shelbyville. Dalam kehidupan nyata, sangatlah berguna untuk mempelajari alasan mengapa data tersebut hilang dan mencoba memperbaikinya. Sayangnya, kita belum memiliki kesempatan tersebut dalam proyek ini. Oleh karena itu, Anda harus:
* Mengisi nilai yang hilang dengan penanda
* Mengevaluasi seberapa besar nilai yang hilang dapat memengaruhi perhitungan Anda

Ganti nilai yang hilang pada kolom `'track'`, `'artist'`, dan `'genre'` dengan *string* `'unknown'`. Untuk melakukannya, buat *list* `columns_to_replace`, terapkan *loop* dengan `for` pada *list* tersebut, dan ganti nilai yang hilang di setiap kolom:

In [9]:
# loop nama kolom dan ganti nilai yang hilang dengan 'unknown'
columns_to_replace = ['track', 'artist','genre']
for column in columns_to_replace:
    df[column] = df[column].fillna('unknown')

Pastikan tidak ada tabel lagi yang berisi nilai yang hilang. Hitung kembali nilai yang hilang.

In [10]:
# menghitung nilai yang hilang
df.isnull()
df.isna()
df.isnull().sum()
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Kembali ke Daftar Isi](#back)

### Duplikat <a id='duplicates'></a>
Temukan jumlah duplikat eksplisit dalam tabel menggunakan satu perintah:

In [11]:
# menghitung duplikat eksplisit
df.duplicated
df.duplicated().sum()

3826

Panggil metode `Pandas` untuk menghapus duplikat eksplisit:

In [12]:
# menghapus duplikat eksplisit
df = df.drop_duplicates().reset_index(drop = True)

Hitung duplikat eksplisit sekali lagi untuk memastikan bahwa Anda telah menghapus semuanya:

In [13]:
# memeriksa duplikat
df.duplicated().sum()

0

Sekarang hapus duplikat implisit di kolom `genre`. Misalnya, nama genre dapat ditulis dengan cara yang berbeda. Kesalahan seperti ini juga akan memengaruhi hasil Anda.

Tampilkan *list* yang memuat nama genre unik, lalu urutkan *list* tersebut berdasarkan abjad. Untuk melakukannya:
* Ambil kolom DataFrame yang dimaksud
* Terapkan metode pengurutan pada kolom tersebut
* Untuk kolom yang telah diurutkan, panggil metode yang akan menghasilkan semua nilai unik kolom

In [14]:
# melihat nama genre yang unik
df['genre'].sort_values().unique()


array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

Lihat baik-baik *list*-nya untuk menemukan duplikat implisit dari genre `hiphop`. Duplikat tersebut bisa berupa nama yang ditulis secara tidak tepat atau nama alternatif dari genre yang sama.

Anda akan melihat duplikat implisit berikut:
* `hip`
* `hop`
* `hip-hop`

Untuk menghapusnya, gunakan fungsi `replace_wrong_genres()` dengan dua parameter:
* `wrong_genres=` — *list* dari duplikat yang ingin diganti
* `correct_genre=` — *string* dengan nilai yang benar

Fungsi tersebut harus mengoreksi nama dalam kolom `'genre'` dari tabel `df` dengan mengganti setiap nilai dari *list* `wrong_genres` dengan nilai dari `correct_genre`.

In [15]:
# fungsi untuk mengganti duplikat implisit
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genres,correct_genre)

duplicates = ['hip','hop','hip-hop']
genre = 'hiphop'


In [16]:
# masukkan fungsi yang mengganti duplikat implisit
replace_wrong_genres(duplicates,genre)

Pastikan bahwa nilai yang terduplikasi telah dihapus. Tampilkan *list* nilai unik dari kolom `'genre'`:

In [17]:
# memeriksa duplikat implisit
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

[Kembali ke Daftar Isi](#back)

### Kesimpulan <a id='data_preprocessing_conclusions'></a>
Kita telah mendeteksi tiga masalah dalam data kita:

- Gaya penulisan judul yang salah
- Nilai-nilai yang hilang
- Duplikat eksplisit dan implisit

Judul kolom sekarang telah dibersihkan untuk mempermudah pemrosesan tabel.
Semua nilai yang hilang telah diganti dengan `'unknown'`. Meski demikian, kita masih harus melihat apakah nilai yang hilang dalam kolom `'genre'` akan memengaruhi perhitungan kita.

Ketiadaan duplikat akan membuat hasil yang kita dapat lebih tepat dan lebih mudah dipahami.

Sekarang, kita dapat melanjutkan ke pengujian hipotesis.

[Kembali ke Daftar Isi](#back)

## Tahap 3. Pengujian Hipotesis <a id='hypotheses'></a>

### Hipotesis 1: Membandingkan Perilaku Pengguna di Dua Kota <a id='activity'></a>

Menurut hipotesis pertama, pengguna dari Springfield dan Shelbyville memiliki perbedaan perilaku dalam mendengarkan musik. Pengujian ini menggunakan data yang diambil dari tiga hari dalam seminggu: Senin, Rabu, dan Jumat.

* Bagilah pengguna ke dalam beberapa kelompok berdasarkan kota.
* Bandingkan seberapa banyak trek lagu yang dimainkan setiap kelompok pada hari Senin, Rabu, dan Jumat.

Hanya sebagai latihan, lakukan setiap perhitungan secara terpisah.

Evaluasi aktivitas pengguna di setiap kota. Kelompokkan data berdasarkan kota dan temukan jumlah trek lagu yang diputar di setiap kelompok.



In [18]:
# Menghitung trek lagu yang diputar di setiap kota
df.groupby('city')
df.groupby('city').count()


Unnamed: 0_level_0,user_id,track,artist,genre,time,day
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Shelbyville,18512,18512,18512,18512,18512,18512
Springfield,42741,42741,42741,42741,42741,42741


Pengguna dari Springfield memutar lebih banyak trek lagu daripada pengguna Shelbyville. Namun, hal ini tidak mengisyaratkan bahwa warga Springfield lebih sering mendengarkan musik. Kota ini lebih besar, dan terdapat lebih banyak pengguna.

Sekarang, kelompokkan data berdasarkan hari dan temukan jumlah trek lagu yang diputar pada hari Senin, Rabu, dan Jumat.

In [20]:
# Menghitung trek lagu yang diputar pada masing-masing hari
df.groupby('day')
df.groupby('day').count()

Unnamed: 0_level_0,user_id,track,artist,genre,city,time
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Friday,21840,21840,21840,21840,21840,21840
Monday,21354,21354,21354,21354,21354,21354
Wednesday,18059,18059,18059,18059,18059,18059


Rabu adalah hari yang paling tenang secara keseluruhan. Namun jika kita mempertimbangkan kedua kota secara terpisah, kita mungkin akan mendapatkan kesimpulan yang berbeda.

Anda telah melihat cara kerja pengelompokan berdasarkan kota atau hari. Sekarang, tuliskan sebuah fungsi yang akan mengelompokkan data berdasarkan kota dan hari.

Buat fungsi `number_tracks()` untuk menghitung jumlah trek lagu yang diputar untuk hari dan kota tertentu. Fungsi tersebut akan membutuhkan dua parameter:
* nama hari dalam seminggu
* nama kota

Dalam fungsi yang kita buat, gunakan variabel untuk menyimpan baris dari tabel asli, di mana:
  *  Nilai kolom `'day'` sama dengan parameter `day`
  * Nilai kolom `'city'` sama dengan parameter `city`

Terapkan pemfilteran berurutan dengan pengindeksan logika.

Kemudian hitung nilai kolom `'user_id'` pada tabel yang dihasilkan. Simpan hasilnya ke dalam variabel baru. Kembalikan variabel ini dari fungsi.

In [21]:
# <membuat fungsi number_tracks()>
# Kita akan mendeklarasikan sebuah fungsi dengan dua parameter: day=, city=.
def number_tracks(day,city):
# Buat agar variabel track_list menyimpan baris df, di mana
# nilai di kolom 'day' sama dengan parameter day=, serta pada saat yang bersamaan,
# nilai pada kolom 'city' sama dengan parameter city= (terapkan pemfilteran berurutan
# dengan pengindeksan logis).
    track_list = df[(df['day'] == day) & (df['city'] == city)]
# Buat agar variabel track_list_count menyimpan jumlah nilai kolom 'user_id' pada track_list
# (temukan dengan metode count()).
    track_list_count = track_list['user_id'].count()
# Buat agar fungsi yang Anda ciptakan menghasilkan angka: nilai track_list_count.

# Fungsi tersebut menghitung trek lagu yang diputar untuk kota dan hari tertentu.
# Pertama-tama ia akan mengambil baris dengan hari yang diinginkan dari tabel,# kemudian memfilter baris tersebut dengan kota yang diinginkan,
# kemudian mencari jumlah nilai 'user_id' pada tabel yang telah difilter,
# kemudian menghasilkan jumlah tersebut.
# Untuk melihat apa yang dihasilkan, kemas pemanggilan fungsi pada print().
    print(track_list_count)
    return track_list_count

Panggil `number_tracks()` enam kali dan ubahlah nilai parameternya pada masing-masing panggilan, sehingga Anda bisa mengambil data kedua kota untuk masing-masing hari (Senin, Rabu, dan Jumat).

In [22]:
# jumlah lagu yang diputar di Springfield pada hari Senin
num_tracks = number_tracks(day='Monday', city='Springfield')

15740


In [23]:
# jumlah lagu yang diputar di Shelbyville pada hari Senin
num_tracks = number_tracks(day='Monday', city='Shelbyville')

5614


In [24]:
#  jumlah lagu yang diputar di Springfield pada hari Rabu
num_tracks = number_tracks(day='Wednesday', city='Springfield')

11056


In [25]:
#  jumlah lagu yang diputar di Shelbyville pada hari Rabu
num_tracks = number_tracks(day='Wednesday', city='Shelbyville')

7003


In [26]:
# jumlah lagu yang diputar di Springfield pada hari Jumat
num_tracks = number_tracks(day='Friday', city='Springfield')

15945


In [27]:
# jumlah lagu yang diputar di Shelbyville pada hari Jumat
num_tracks = number_tracks(day='Friday', city='Shelbyville')

5895


Gunakan `pd.DataFrame` untuk membuat sebuah tabel, yang
* Nama kolomnya adalah: `['city', 'monday', 'wednesday', 'friday']`
* Datanya adalah hasil dari `number_tracks()` `number_tracks()`

In [28]:
# tabel dengan hasil
cities = ['Springfield','Shelbyville']
days = ['Monday', 'Wednesday', 'Friday']
columns = ['city', 'monday', 'wednesday', 'friday']
data=[]

for city in cities:
    city_data = [city]
    for day in days:
        num_tracks = number_tracks(day=day, city=city)
        city_data.append(num_tracks)
    data.append(city_data)
df_tracks = pd.DataFrame(data, columns=columns)
print(df_tracks)


15740
11056
15945
5614
7003
5895
          city  monday  wednesday  friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


**Kesimpulan**

Data yang Anda dapatkan mengungkapkan perbedaan perilaku pengguna:

- Di kota Springfield, jumlah trek lagu yang diputar mencapai puncaknya pada hari Senin dan Jumat, sedangkan pada hari Rabu terjadi penurunan aktivitas.
- Di kota Shelbyville, sebaliknya, pengguna lebih banyak mendengarkan musik pada hari Rabu.

Aktivitas pengguna pada hari Senin dan Jumat lebih sedikit.

[Kembali ke Daftar Isi](#back)

### Hipotesis 2: Musik di Awal dan Akhir Minggu <a id='week'></a>

Menurut hipotesis kedua, pada Senin pagi dan Jumat malam, warga Springfield mendengarkan genre musik yang berbeda dari yang dinikmati warga Shelbyville.

Dapatkan tabel (pastikan nama tabel gabungan Anda cocok dengan DataFrame yang diberikan dalam dua blok kode di bawah):
* Untuk Springfield — `spr_general`
* Untuk Shelbyville — `shel_general`

In [29]:
# mendapatkan tabel spr_general dari baris df,
# yang nilai dari kolom 'city'-nya adalah 'Springfield'
spr_general = df[df['city'] == 'Springfield']
print(spr_general)

        user_id                          track                   artist  \
1      55204538    Delayed Because of Accident         Andreas Rönnberg   
4      E2DC1FAE                    Soul People               Space Echo   
6      4CB90AA5                           True             Roman Messer   
7      F03E1C1F               Feeling This Way          Polina Griffith   
8      8FA1D3BE                       L’estate              Julia Dalia   
...         ...                            ...                      ...   
61247  83A474E7  I Worship Only What You Bleed  The Black Dahlia Murder   
61248  729CBB09                        My Name                   McLean   
61250  C5E3A0D5                      Jalopiina                  unknown   
61251  321D0506                  Freight Train            Chas McDevitt   
61252  3A64EF84      Tell Me Sweet Little Lies             Monica Lopez   

              genre         city      time        day  
1              rock  Springfield  14:07:09 

In [30]:
# mendapatkan shel_general dari baris df,
# yang nilai dari kolom 'city'-nya adalah 'Shelbyville'
shel_general = df[df['city'] == 'Shelbyville']
print(shel_general)

        user_id                              track              artist  \
0      FFB692EC                  Kamigata To Boots    The Mass Missile   
2        20EC38                  Funiculì funiculà         Mario Lanza   
3      A3DD03C9              Dragons in the Sunset          Fire + Ice   
5      842029A1                             Chains            Obladaet   
9      E772D5C0                          Pessimist             unknown   
...         ...                                ...                 ...   
61239  D94F810B        Theme from the Walking Dead  Proyecto Halloween   
61240  BC8EC5CF       Red Lips: Gta (Rover Rework)               Rover   
61241  29E04611                       Bre Petrunko       Perunika Trio   
61242  1B91C621             (Hello) Cloud Mountain     sleepmakeswaves   
61249  D08D4A55  Maybe One Day (feat. Black Spade)         Blu & Exile   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
2  

Tulis fungsi `genre_weekday()` dengan empat parameter:
* Sebuah tabel untuk data
* Nama hari
* Stempel waktu pertama, dalam format 'hh:mm'
* Stempel waktu terakhir, dalam format 'hh:mm'

Fungsi tersebut harus menghasilkan informasi tentang 15 genre paling populer pada hari tertentu dalam periode antara dua stempel waktu.

In [31]:
# Mendeklarasikan fungsi genre_weekday() dengan parameter day=, time1=, dan time2=. Fungsi tersebut harus
# memberikan informasi tentang genre yang paling populer pada hari dan waktu tertentu:

# 1) Buat agar variabel genre_df menyimpan baris yang memenuhi beberapa kondisi berikut:
#    - nilai pada kolom 'day' sama dengan nilai argumen day=
#    - nilai pada kolom 'time' lebih besar dari nilai argumen time1=
#    - nilai pada kolom 'time' lebih kecil dari nilai argumen time2=
#    Gunakan pemfilteran berurutan dengan pengindeksan logis   

# 2) Kelompokkan genre_df berdasarkan kolom 'genre', lalu ambil salah satu kolomnya,
#    dan gunakan metode count() untuk menemukan jumlah entri untuk masing-masing
#    genre yang terwakili; simpan Series yang dihasilkan ke dalam
#    variabel genre_df_count

# 3) Urutkan genre_df_count dalam urutan menurun berdasarkan frekuensi dan simpan hasilnya
#    ke dalam variabel genre_df_sorted

# 4) Hasilkan sebuah objek Series dengan 15 nilai genre_df_sorted pertama - 15 genre paling
#    populer (pada hari tertentu, dalam jangka waktu tertentu)

# tulis fungsi Anda di sini
def genre_weekday(df, day, time1, time2):
    # pemfilteran berturut-turut
    # genre_df hanya akan menyimpan baris df yang day-nya sama dengan day
    genre_df = df[df['day'] == day]

    # genre_df hanya akan menyimpan baris df yang time-nya lebih kecil dari time2
    genre_df = genre_df[genre_df['time'] < time2]

    # genre_df hanya akan menyimpan baris df yang time-nya lebih besar dari time1
    genre_df = genre_df[genre_df['time'] > time1]

    # kelompokkan DataFrame yang telah difilter berdasarkan kolom dengan nama genre, ambil kolom genre, dan temukan jumlah baris untuk setiap genre dengan metode count()
    genre_df_grouped = genre_df.groupby('genre').count()

    # kita akan mengurutkan hasilnya dalam urutan menurun (sehingga genre yang paling populer ditampilkan lebih awal pada objek Series
    genre_df_sorted = genre_df_grouped.sort_values('day', ascending=False)

    # kita akan menghasilkan objek Series yang menyimpan 15 genre paling populer pada hari tertentu dalam jangka waktu tertentu
    return genre_df_sorted[:15]

Bandingkan hasil fungsi `genre_weekday()` untuk Springfield dan Shelbyville pada Senin pagi (dari pukul 07.00 hingga 11.00) dan pada Jumat malam (dari pukul 17:00 hingga 23:00):

In [154]:
# memanggil fungsi untuk Senin pagi di Springfield (gunakan spr_general alih-alih tabel df)
genre_weekday(spr_general, 'Monday', '07:00', '11:00')

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,781,781,781,781,781,781
dance,549,549,549,549,549,549
electronic,480,480,480,480,480,480
rock,474,474,474,474,474,474
hiphop,286,286,286,286,286,286
ruspop,186,186,186,186,186,186
world,181,181,181,181,181,181
rusrap,175,175,175,175,175,175
alternative,164,164,164,164,164,164
unknown,161,161,161,161,161,161


In [155]:
# memanggil fungsi untuk Senin pagi di Shelbyville (gunakan shel_general alih-alih tabel df)
genre_weekday(shel_general, 'Monday', '07:00', '11:00')

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,218,218,218,218,218,218
dance,182,182,182,182,182,182
rock,162,162,162,162,162,162
electronic,147,147,147,147,147,147
hiphop,80,80,80,80,80,80
ruspop,64,64,64,64,64,64
alternative,58,58,58,58,58,58
rusrap,55,55,55,55,55,55
jazz,44,44,44,44,44,44
classical,40,40,40,40,40,40


In [156]:
# memanggil fungsi untuk Jumat malam di Springfield
genre_weekday(spr_general, 'Friday', '17:00', '23:00')

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,713,713,713,713,713,713
rock,517,517,517,517,517,517
dance,495,495,495,495,495,495
electronic,482,482,482,482,482,482
hiphop,273,273,273,273,273,273
world,208,208,208,208,208,208
ruspop,170,170,170,170,170,170
classical,163,163,163,163,163,163
alternative,163,163,163,163,163,163
rusrap,142,142,142,142,142,142


In [157]:
# memanggil fungsi untuk Jumat malam di Shelbyville
genre_weekday(shel_general, 'Friday', '17:00', '23:00')

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
pop,256,256,256,256,256,256
rock,216,216,216,216,216,216
electronic,216,216,216,216,216,216
dance,210,210,210,210,210,210
hiphop,97,97,97,97,97,97
alternative,63,63,63,63,63,63
jazz,61,61,61,61,61,61
classical,60,60,60,60,60,60
rusrap,59,59,59,59,59,59
world,54,54,54,54,54,54


**Kesimpulan**

Setelah membandingkan 15 genre teratas pada Senin pagi, kita dapat menarik kesimpulan berikut:

1. Pengguna dari Springfield dan Shelbyville mendengarkan musik dengan genre yang sama. Lima genre teratas dari kedua kota sama, hanya genre rock dan elektronik yang bertukar tempat.

2. Di Springfield, jumlah nilai yang hilang ternyata sangat besar, sehingga nilai `'unknown'` berada di urutan ke-10. Ini berarti bahwa nilai-nilai yang hilang mencakup proporsi data yang cukup besar, sehingga fakta ini bisa menjadi dasar untuk mempertanyakan reliabilitas kesimpulan kami.

Untuk hari Jumat malam, situasinya juga serupa. Genre individual cukup bervariasi, tetapi secara keseluruhan, 15 besar genre untuk kedua kota sama.

Dengan demikian, hipotesis kedua sebagian terbukti benar:
* Pengguna mendengarkan musik yang sama di awal dan akhir minggu.
* Tidak ada perbedaan yang mencolok antara Springfield dan Shelbyville. Di kedua kota tersebut, pop adalah genre yang paling populer.

Meski demikian, signifikansi jumlah nilai yang hilang membuat hasil ini patut dipertanyakan. Di Springfield, terdapat begitu banyak nilai hilang yang memengaruhi hasil 15 genre teratas kita. Jika kita tidak memiliki nilai-nilai yang hilang ini, hasilnya mungkin akan berbeda.

[Kembali ke Daftar Isi](#back)

### Hipotesis 3: Preferensi Genre di Springfield dan Shelbyville <a id='genre'></a>

Hipotesis: Shelbyville menyukai musik rap. Warga Springfield lebih menyukai pop.

Kelompokkan tabel `spr_general` berdasarkan genre dan temukan jumlah trek lagu yang dimainkan untuk setiap genre dengan metode `count()`. Kemudian, urutkan hasilnya dalam urutan menurun dan simpanlah ke `spr_genres`.

In [32]:
# dalam satu baris: kelompokkan tabel spr_general berdasarkan kolom 'genre',
spr_group = spr_general.groupby('genre')
# hitung nilai kolom 'genre' dengan count() dalam pengelompokan,
spr_group= spr_group.count()
# urutkan Series yang dihasilkan dalam urutan menurun, lalu simpan hasilnya ke spr_genres
spr_genres = spr_group.sort_values(by='genre', ascending=False)

Tampilkan 10 baris pertama dari `spr_genres`:

In [33]:
# menampilkan 10 baris pertama dari spr_genres
spr_genres.head(10)

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
ïîï,1,1,1,1,1,1
worldbeat,1,1,1,1,1,1
world,1432,1432,1432,1432,1432,1432
western,64,64,64,64,64,64
vocal,68,68,68,68,68,68
videogame,66,66,66,66,66,66
vi,2,2,2,2,2,2
variété,24,24,24,24,24,24
uzbek,16,16,16,16,16,16
urban,158,158,158,158,158,158


Sekarang lakukan hal yang sama pada data dari Shelbyville.

Kelompokkan tabel `shel_general` berdasarkan genre dan temukan jumlah trek lagu yang dimainkan untuk setiap genre. Kemudian, urutkan hasilnya dalam urutan menurun dan simpan hasil tersebut ke tabel `shel_genres`:

In [182]:
# dalam satu baris: kelompokkan tabel shel_general berdasarkan kolom 'genre',
shel_group = shel_general.groupby('genre')
# hitung nilai kolom 'genre' dalam pengelompokan menggunakan count(),
shel_group = shel_group.count()
# urutkan Series yang dihasilkan dalam urutan menurun dan simpanlah ke shel_genres
shel_genres = shel_group.sort_values(by='genre', ascending=False)

Tampilkan 10 baris pertama dari `shel_genres`:

In [184]:
# menampilkan 10 baris pertama dari shel_genres
shel_genres.head(10)

Unnamed: 0_level_0,user_id,track,artist,city,time,day
genre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
worldbeat,1,1,1,1,1,1
world,515,515,515,515,515,515
western,33,33,33,33,33,33
vocal,25,25,25,25,25,25
videogame,48,48,48,48,48,48
vi,1,1,1,1,1,1
variété,14,14,14,14,14,14
uzbek,12,12,12,12,12,12
urban,76,76,76,76,76,76
unknown,278,278,278,278,278,278


**Kesimpulan**

Hipotesis ini terbukti benar sebagian:
* Musik pop adalah genre yang paling populer di Springfield, seperti yang kita perkirakan.
* Namun, musik pop ternyata sama populernya baik di Springfield maupun di Shelbyville, dan musik rap ternyata tidak masuk ke daftar 5 besar genre untuk kedua kota tersebut.


[Kembali ke Daftar Isi](#back)

# Temuan <a id='end'></a>

Kita telah menguji tiga hipotesis berikut:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada hari dalam seminggu, meskipun kedua kota ini bervariasi dalam berbagai cara.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku pada hari Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Baik Springfield maupun di Shelbyville, mereka lebih suka musik pop.

Setelah menganalisis data yang tersedia, kita dapat menyimpulkan bahwa:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada harinya, walaupun kotanya berbeda.

Hipotesis pertama dapat diterima sepenuhnya.

2. Preferensi musik tidak bervariasi secara signifikan sepanjang minggu di Springfield dan Shelbyville. Kita bisa melihat perbedaan kecil dalam urutan pada hari Senin, tetapi:
* Baik di Springfield maupun di Shelbyville, pengguna paling banyak mendengarkan musik pop.

Oleh karena itu, hipotesis ini tidak dapat kita terima. Penting juga untuk mengingat bahwa hasil yang diperoleh bisa saja berbeda seandainya kita tidak memiliki nilai yang hilang.
3. Ternyata preferensi musik pengguna dari Springfield dan Shelbyville sangat mirip.

Hipotesis ketiga ditolak. Jika memang terdapat perbedaan preferensi, sayangnya hal ini tidak dapat kita ketahui dari data ini.
### Catatan
Dalam proyek sesungguhnya, penelitian melibatkan pengujian hipotesis statistik, yang tentunya lebih tepat dan lebih kuantitatif. Perhatikan juga bahwa Anda tidak dapat selalu menarik kesimpulan tentang seluruh kota berdasarkan data dari satu sumber saja.

Anda akan mempelajari pengujian hipotesis dalam sprint analisis data statistik.

[Kembali ke Daftar Isi](#back)