In [None]:
# Y.Music

# Konten <a id='back'></a>

* [Pendahuluan](#intro)
* [Tahap 1. Ikhtisar Data](#data_review)
    * [Kesimpulan](#data_review_conclusions)
* [Tahap 2. Pra-pemrosesan data](#data_preprocessing)
    * [2.1 Gaya Penulisan Judul](#header_style)
    * [2.2 Nilai-Nilai yang Hilang](#missing_values)
    * [2.3 Duplikat](#duplicates)
    * [2.4 Kesimpulan](#data_preprocessing_conclusions)
* [Tahap 3. Pengujian Hipotesis](#hypotheses)
    * [3.1 Hipotesis 1: Aktivitas pengguna di kedua kota](#activity)
    * [3.2 Hipotesis 2: Preferensi musik pada hari Senin dan Jumat](#week)
    * [3.3 Hipotesis 3: Preferensi genre di kota Springfield dan Shelbyville](#genre)
* [Temuan](#end)

## Pendahuluan <a id='intro'></a>
Setiap kali kita melakukan analisis, kita perlu merumuskan beberapa hipotesis yang perlu kita uji lebih lanjut. Terkadang, pengujian yang kita lakukan membawa kita untuk menerima hipotesis tersebut. Namun di lain waktu, kita juga perlu menolaknya. Untuk membuat keputusan yang tepat dalam bisnis, kita harus memahami apakah asumsi yang kita buat sudah tepat atau belum.

Dalam proyek kali ini, kamu akan membandingkan preferensi musik dari pendengar di kota Springfield dan Shelbyville. Kamu akan meninjau data sungguhan dari Y.Music untuk menguji beberapa hipotesis di bawah ini dan membandingkan perilaku pengguna pada kedua kota.

### Tujuan: 
Menguji tiga hipotesis:
1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
2. Pada hari Senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku untuk hari Jumat malam.
3. Pendengar di kota Springfield dan Shelbyville memiliki preferensi yang berbeda. Di Springfield, para pengguna lebih suka musik pop, sementara di Shelbyville musik rap memiliki lebih banyak penggemar.

### Tahapan
Data terkait perilaku pengguna disimpan dalam file `/datasets/music_project_en.csv`. Tidak ada informasi terkait kualitas data tersebut, karena itu kamu perlu memeriksanya terlebih dahulu sebelum menguji hipotesis.

Pertama-tama, kamu akan mengevaluasi kualitas data dan melihat apakah masalahnya signifikan. Kemudian, selama pra-pemrosesan data, kamu akan mencoba mengatasi masalah yang paling serius.
 
Proyek ini terdiri dari tiga tahap:
 1. Tinjauan data
 2. Pra-pemrosesan data
 3. Pengujian hipotesis

 
[Kembali ke Konten](#back)

## Tahap 1. Tinjauan data <a id='data_review'></a>

Buka data terkait Y.Music, lalu pelajarilah data tersebut.

Kamu akan membutuhkan library `Pandas`, oleh karena itu silakan mengimpornya.

In [1]:
import pandas as pd # mengimpor Pandas


Baca file `music_project_en.csv` dari folder `/datasets/` lalu simpan file tersebut di variabel `df`:

In [2]:
df = '/datasets/music_project_en.csv' # membaca file dan menyimpannya ke variabel df
df = pd.read_csv(df)

Tampilkan 10 baris pertama tabel:

In [3]:
print(df.head(10))# memperoleh 10 baris pertama dari tabel df

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

Dapatkan informasi umum tentang tabel dengan satu perintah:

In [4]:
df.info()# memperoleh informasi umum tentang data yang tersedia di df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Tabel ini berisi tujuh kolom. Semua kolom memiliki tipe data yang sama, yaitu: `object`.

Berdasarkan dokumentasi:
- `'userID'` — ID pengguna
- `'Track'` — judul lagu
- `'artist'` — nama artis
- `'genre'`
- `'City'` — kota asal pengguna
- `'time'` — waktu saat lagu tersebut diputar
- `'Day'` — hari dalam seminggu

Kita dapat melihat tiga masalah dengan gaya penulisan nama kolom:
1. Beberapa nama ditulis dalam huruf besar, beberapa dalam huruf kecil.
2. Beberapa nama menggunakan spasi.
3. `Konsistensi nama, sebaiknya hindari karakter khusus kecuali garis bawah (_) untuk memisahkan kata.` .

Kita juga dapat melihat bahwa terdapat jumlah nilai yang berbeda antar kolom. Hal ini menandakan bahwa data yang kita miliki mengandung nilai yang hilang.


### Kesimpulan <a id='data_review_conclusions'></a> 

Setiap baris dalam tabel menyimpan data terkait trek lagu yang diputar. Beberapa kolom menyimpan data yang mendeskripsikan trek itu sendiri: judul lagu, artis, dan genre. Sisanya menyimpan data terkait informasi pengguna: kota asal mereka, waktu mereka memutar trek lagu tersebut.

Jelas bahwa data yang kita miliki cukup untuk menguji hipotesis. Sayangnya, terdapat sejumlah nilai yang hilang.

Untuk melanjutkan analisis, kita perlu melakukan pra-pemrosesan data terlebih dahulu.

[Kembali ke Daftar Isi](#back)

## Tahap 2. Pra-pemrosesan data <a id='data_preprocessing'></a>
Perbaiki format pada judul kolom dan atasi nilai yang hilang. Kemudian, periksa apakah datamu mengandung duplikat.

### Gaya penulisan judul <a id='header_style'></a>
Tampilkan judul kolom:


In [5]:
df.columns# list yang memuat nama-nama kolom pada tabel df

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Ubah nama kolom sesuai dengan aturan gaya penulisan yang baik:
* Jika nama kolom terdiri dari beberapa kata, gunakan snake_case
* Semua karakter harus menggunakan huruf kecil
* Hapus spasi

In [6]:
df.rename(                              # mengganti nama kolom
    columns=({ '  userID': 'user_id', 
              'Track': 'track',
              'artist': 'artist',
              'genre': 'genre',
              '  City  ': 'city',
              'time': 'time',
              'Day': 'day'
             }),
    inplace=True,
)
            
            
  



Periksa hasilnya. Tampilkan nama kolom sekali lagi:

In [7]:
print (df) # mengecek hasilmu: tampilkan sekali lagi list yang memuat nama-nama kolom

        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
65074  729CBB09                            My Name            McLean   
65075  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
65076  C5E3A0D5                          Jalopiina               NaN   
65077  321D0506                      Freight Train     Chas McDevitt   
65078  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

[Kembali ke Daftar Isi](#back)

### Nilai-nilai yang hilang <a id='missing_values'></a>
Pertama, temukan jumlah nilai yang hilang dalam tabel. Untuk melakukannya, gunakan dua metode `Pandas`:

In [8]:
df.isna().sum()# menghitung nilai yang hilang

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Tidak semua nilai yang hilang berpengaruh terhadap penelitianmu. Misalnya, nilai yang hilang dalam kolom `track` dan `artist` tidak begitu penting. Kamu cukup menggantinya dengan penanda yang jelas.
Akan tetapi, nilai yang hilang dalam kolom `'genre'` dapat memengaruhi perbandingan preferensi musik di kota Springfield dan Shelbyville. Dalam kehidupan nyata, sangatlah berguna untuk mempelajari alasan hilangnya data tersebut dan mencoba memperbaikinya. Sayangnya, kita belum memiliki kesempatan tersebut dalam proyek ini. Oleh karena itu, kamu harus:
* Mengisi nilai yang hilang dengan penanda
* Mengevaluasi seberapa besar pengaruh nilai yang hilang terhadap perhitunganmu

Ganti nilai yang hilang pada kolom `'track'`, `'artist'`, dan `'genre'` dengan string `'unknown'`. Untuk melakukannya, buat list yang bernama `columns_to_replace`, terapkan loop `for` pada list tersebut, dan ganti nilai yang hilang di setiap kolom:

In [9]:
columns_to_replace = ['track','artist', 'genre']# menerapkan loop terhadap nama-nama kolom dan menggganti nilai yang hilang dengan 'unknown'
for i in columns_to_replace:
    df[i] = df[i].fillna('unknown')                  

Pastikan tidak ada tabel lagi yang berisi nilai yang hilang. Hitung kembali nilai yang hilang.

In [10]:
df.isna().sum()# menghitung nilai yang hilang

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Kembali ke Daftar Isi](#back)

### Duplikat <a id='duplicates'></a>
Temukan jumlah duplikat eksplisit dalam tabel menggunakan satu perintah:

In [11]:
df.duplicated().sum() # menghitung duplikat eksplisit

3826

Panggil salah satu metode `Pandas` untuk menghapus duplikat eksplisit:

In [12]:
df = df.drop_duplicates() # menghapus duplikat eksplisit

Hitung duplikat eksplisit sekali lagi untuk memastikan bahwa kamu telah berhasil menghapus semuanya:

In [13]:
df.duplicated().sum() # memeriksa duplikat

0

Sekarang, hapus duplikat implisit di kolom `genre`. Sebagai contoh, penulisan suatu nama genre dengan cara yang berbeda merupakan contoh dari duplikat implisit. Kesalahan seperti ini juga akan memengaruhi hasil analisismu.

Tampilkan list yang memuat nama unik genre, lalu urutkan list tersebut berdasarkan abjad. Untuk melakukannya:
* Ambil kolom DataFrame yang diinginkan
* Terapkan metode pengurutan pada kolom tersebut\n",
* Untuk kolom yang telah diurutkan, panggil metode yang akan menghasilkan semua nilai unik kolom

In [14]:
sorted(list(df['genre'].unique()))

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

Lihat baik-baik list yang telah ditampilkan untuk menemukan duplikat implisit dari genre `hiphop`. Duplikat tersebut bisa berupa nama yang ditulis secara tidak tepat atau nama alternatif dari genre yang sama.

Kamu akan melihat duplikat implisit berikut:
* `hip`
* `hop`
* `hip-hop`

Untuk menghapusnya, gunakan fungsi `replace_wrong_genres()` dengan dua parameter:
* `wrong_genres=` — list dengan duplikat yang ingin diganti
* `correct_genre=` — string dengan nilai yang benar

Fungsi tersebut harus mengoreksi nama dalam kolom `'genre'` dari tabel `df`, mengganti setiap nilai dari list `wrong_genres` dengan nilai dari `correct_genre`.

In [15]:
# masukkan fungsi yang mengganti duplikat implisit
def replace_wrong_genres(df, wrong_genres, correct_genre):
    # Ganti nilai yang salah dengan nilai yang benar
    for wrong_genre in wrong_genres:
        df['genre'].replace(wrong_genre, correct_genre, inplace=True)
    return df

Panggil `replace_wrong_genres()` dan teruskan argumen kepada fungsi tersebut, sehingga ia dapat menghapus duplikat implisit (`hip`, `hop`, dan `hip-hop`) dan menggantinya dengan `hiphop`:

In [16]:
# Panggil fungsi replace_wrong_genres() dengan parameter yang sesuai
wrong_genres_to_replace = ["hip", "hop", "hip-hop"]
correct_genre_value = "hiphop"

Pastikan bahwa nilai yang terduplikasi telah dihapus. Tampilkan list nilai unik dari kolom `'genre'`:

In [17]:
# memeriksa duplikat implisit
df_corrected = replace_wrong_genres(df, wrong_genres_to_replace, correct_genre_value)
print(df_corrected)

        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
65074  729CBB09                            My Name            McLean   
65075  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
65076  C5E3A0D5                          Jalopiina           unknown   
65077  321D0506                      Freight Train     Chas McDevitt   
65078  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

[Kembali ke Daftar Isi](#back)

### Kesimpulan <a id='data_preprocessing_conclusions'></a>
Kita telah mendeteksi tiga masalah dalam data kita:

- Gaya penulisan judul yang salah
- Nilai yang hilang
- Duplikat eksplisit dan implisit

Sekarang, nama-nama kolom telah dibersihkan untuk mempermudah pemrosesan tabel.
Semua nilai yang hilang pun telah diganti dengan `'unknown'`. Meski demikian, kita masih harus melihat apakah nilai yang hilang dalam kolom `'genre'` akan memengaruhi perhitungan kita.

Ketiadaan duplikat akan membuat hasil yang kita dapat menjadi lebih tepat dan lebih mudah dipahami.

Yuk, kita lanjut ke tahap pengujian hipotesis.

[Kembali ke Daftar Isi](#back)

## Tahap 3. Pengujian hipotesis <a id='hypotheses'></a>

### Hipotesis 1: membandingkan perilaku pengguna di dua kota <a id='activity'></a>

Menurut hipotesis pertama, pengguna dari kota Springfield dan Shelbyville memiliki perbedaan perilaku dalam mendengarkan musik. Pengujian ini menggunakan data yang diambil dari tiga hari dalam seminggu: Senin, Rabu, dan Jumat.

* Bagilah pengguna ke dalam beberapa kelompok berdasarkan kota.
* Bandingkan berapa banyak trek lagu yang dimainkan oleh setiap kelompok pada hari Senin, Rabu, dan Jumat.

Lakukan setiap perhitungan secara terpisah agar kamu bisa berlatih.

Evaluasi aktivitas pengguna di setiap kota. Kelompokkan data berdasarkan kota dan temukan jumlah trek lagu yang diputar di setiap kelompok.



In [18]:
# Menghitung trek lagu yang diputar di setiap kota
df.groupby('city')['user_id'].count()


city
Shelbyville    18512
Springfield    42741
Name: user_id, dtype: int64

Pengguna dari kota Springfield memutar lebih banyak trek lagu daripada pengguna dari kota Shelbyville. Akan tetapi, hal ini tidak serta-merta mengisyaratkan bahwa warga Springfield lebih sering mendengarkan musik. Kota ini memang lebih besar, dan terdapat lebih banyak pengguna. Jadi, ini merupakan hal yang wajar.

Sekarang, kelompokkan data berdasarkan hari dan temukan jumlah trek lagu yang diputar pada hari Senin, Rabu, dan Jumat.

In [19]:
# Menghitung trek lagu yang diputar pada masing-masing hari
df.groupby('day')['user_id'].count()

day
Friday       21840
Monday       21354
Wednesday    18059
Name: user_id, dtype: int64

Rabu adalah hari yang paling "tenang" secara keseluruhan. Namun jika kita mempertimbangkan kedua kota secara terpisah, kita mungkin akan mendapatkan kesimpulan yang berbeda.

Kamu telah melihat cara kerja pengelompokan berdasarkan kota atau hari. Sekarang, tuliskan sebuah fungsi yang akan mengelompokkan data berdasarkan kota dan hari.

Buat fungsi `number_tracks()` untuk menghitung jumlah trek lagu yang diputar untuk hari dan kota tertentu. Fungsi tersebut akan membutuhkan dua parameter:
* nama hari dalam seminggu
* nama kota

Dalam fungsi yang kita buat, gunakan variabel untuk menyimpan baris dari tabel asli, di mana:
  * Nilai kolom `'day'` sama dengan parameter `day`\n",
  * Nilai kolom `'city'` sama dengan parameter `city`

Terapkan pemfilteran berurutan dengan pengindeksan logika.

Kemudian, hitung nilai kolom `'user_id'` pada tabel yang dihasilkan. Simpan hasilnya ke dalam variabel baru. Kembalikan variabel ini dari fungsi.

In [20]:
# <membuat fungsi number_tracks()>
# Kita akan mendeklarasikan sebuah fungsi dengan dua parameter: day=, city=.
# Buat agar variabel track_list menyimpan baris df, di mana
# nilai di kolom 'day' sama dengan parameter day=, serta pada saat yang bersamaan,
# nilai pada kolom 'city' sama dengan parameter city= (terapkan pemfilteran berurutan
# dengan pengindeksan logika).
# Buat agar variabel track_list_count menyimpan jumlah nilai kolom 'user_id' pada track_list
# (temukan dengan metode count()).\n",
# Buat agar fungsi yang kamu ciptakan menghasilkan angka: nilai track_list_count.

# Fungsi tersebut menghitung trek lagu yang diputar untuk kota dan hari tertentu.
# Pertama-tama, ia akan mengambil baris dengan hari yang diinginkan dari tabel,
# kemudian memfilter baris tersebut dengan kota yang diinginkan dari hasil,
# kemudian mencari jumlah nilai 'user_id' pada tabel yang telah difilter,
# lalu menghasilkan jumlah tersebut.
# Untuk melihat apa yang dihasilkan, kemas pemanggilan fungsi pada print().

def number_track(dataframe, city, day):
    tracks = dataframe.loc[(dataframe['city']==city) & (dataframe['day']==day)]
    track_list_count = tracks['user_id'].count()
    return track_list_count

Panggil `number_tracks()` sebanyak enam kali dan ubahlah nilai parameternya pada masing-masing panggilan, sehingga kamu bisa mengambil data dari kedua kota untuk masing-masing hari (Senin, Rabu, dan Jumat).

In [21]:
# jumlah lagu yang diputar di Springfield pada hari Senin
monday_springfield = number_track(dataframe=df, city='Springfield', day='Monday')

In [22]:
# jumlah lagu yang diputar di Shelbyville pada hari Senin
monday_Shelbyville = number_track(dataframe=df, city='Shelbyville', day='Monday')

In [23]:
# jumlah lagu yang diputar di Springfield pada hari Rabu
wednesday_springfield = number_track(dataframe=df, city='Springfield', day='Wednesday')

In [24]:
# jumlah lagu yang diputar di Shelbyville pada hari Rabu
wednesday_Shelbyville = number_track(dataframe=df, city='Shelbyville', day='Wednesday')

In [25]:
# jumlah lagu yang diputar di Springfield pada hari Jumat
friday_springfield = number_track(dataframe=df, city='Springfield', day='Friday')

In [26]:
# jumlah lagu yang diputar di Shelbyville pada hari Jumat
friday_Shelbyville = number_track(dataframe=df, city='Shelbyville', day='Friday')

Gunakan `pd.DataFrame` untuk membuat sebuah tabel, yang
* Nama kolomnya adalah: `['city', 'monday', 'wednesday', 'friday']`
* Datanya adalah hasil yang kamu dapatkan dari `number_tracks()`

In [27]:
# tabel yang memuat hasil
total = [
    ['Springfield', monday_springfield, wednesday_springfield, friday_springfield],
    ['Shelbyville', monday_Shelbyville, wednesday_Shelbyville, friday_Shelbyville]
]
total = pd.DataFrame(total, columns=['city', 'Monday', 'Wednesday', 'Friday'])
print(total)

          city  Monday  Wednesday  Friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


**Kesimpulan**

Data yang kamu dapatkan ternyata berhasil mengungkapkan beberapa perbedaan perilaku pengguna:

- Di kota Springfield, jumlah trek lagu yang diputar mencapai puncaknya pada hari Senin dan Jumat, sedangkan pada hari Rabu terjadi penurunan aktivitas.
- Di kota Shelbyville, sebaliknya, pengguna lebih banyak mendengarkan musik pada hari Rabu. Aktivitas pengguna pada hari Senin dan Jumat lebih sedikit. 

Dengan demikian, dapat disimpulkan bahwa hipotesis pertama tampaknya benar.

[Kembali ke Daftar Isi](#back)

### Hipotesis 2: musik di awal dan akhir minggu <a id='week'></a>

Menurut hipotesis kedua, pada hari Senin pagi dan Jumat malam, warga Springfield mendengarkan genre musik yang berbeda dari yang dinikmati warga Shelbyville.

Dapatkan tabel (pastikan nama tabel gabungannya cocok dengan DataFrame yang diberikan dalam dua blok kode di bawah):
* Untuk Springfield — `spr_general`
* Untuk Shelbyville — `shel_general`

In [28]:
# mendapatkan tabel spr_general dari baris df,
# yang nilai dari kolom 'city'-nya adalah 'Springfield'
spr_general = df[df['city'] == 'Springfield']

In [29]:
# mendapatkan shel_general dari baris df,
# yang nilai dari kolom 'city'-nya adalah 'Shelbyville'
shel_general = df[df['city'] == 'Shelbyville']

Buat fungsi `genre_weekday()` dengan empat parameter:
* Sebuah tabel untuk data
* Nama hari
* Stempel waktu awal, dalam format 'hh:mm'
* Stempel waktu akhir, dalam format 'hh:mm'

Fungsi tersebut harus menghasilkan informasi tentang 15 genre paling populer pada hari tertentu dalam periode antara dua stempel waktu.

In [30]:
# Mendeklarasikan fungsi genre_weekday() dengan parameter day=, time1=, dan time2=. Fungsi tersebut harus
# memberikan informasi tentang genre yang paling populer pada hari dan waktu tertentu:

# 1) Buat agar variabel genre_df menyimpan baris yang memenuhi beberapa kondisi berikut:
#   - nilai pada kolom 'day' sama dengan nilai argumen day=
#   - nilai pada kolom 'time' lebih besar dari nilai argumen time1=
#   - nilai pada kolom 'time' lebih kecil dari nilai argumen time2=
#   Gunakan pemfilteran berurutan dengan pengindeksan logika.

# 2) Kelompokkan genre_df berdasarkan kolom 'genre', ambil salah satu kolomnya,
#    kemudian gunakan metode count() untuk menemukan jumlah entri untuk masing-masing
#    genre yang diwakili; simpan Series yang dihasilkan ke dalam
#    variabel genre_df_count

# 3) Urutkan genre_df_count dalam urutan menurun berdasarkan frekuensi dan simpan hasilnya
#    ke dalam variabel genre_df_sorted

# 4) Hasilkan sebuah objek Series dengan 15 nilai genre_df_sorted pertama - 15 genre paling
#    populer (pada hari tertentu, dalam jangka waktu tertentu)

# tulis fungsi Anda di sini
def genre_weekday(dataframe, day, time1, time2):
    
    # pemfilteran berurutan
    # genre_df hanya akan menyimpan baris df yang day-nya sama dengan day
    genre_df = dataframe.loc[dataframe['day']==day]  # tulis kode program Anda di sini

    # genre_df hanya akan menyimpan baris df yang time-nya lebih kecil dari time2
    genre_df = genre_df.loc[genre_df['time'] < time2]  # tulis kode program Anda di sini

    # genre_df hanya akan menyimpan baris df yang time-nya lebih besar dari time1
    genre_df = genre_df.loc[genre_df['time'] > time1]  # tulis kode program Anda di sini

    # kelompokkan DataFrame yang telah difilter berdasarkan kolom dengan nama genre, ambil kolom genre, dan temukan jumlah baris untuk setiap genre dengan metode count()
    genre_df_grouped = genre_df.groupby('genre')['user_id'].count() # tulis kode program Anda di sini

    # # kita akan mengurutkan hasilnya dalam urutan menurun (sehingga genre yang paling populer ditampilkan lebih awal pada objek Series)
    genre_df_sorted = genre_df_grouped.sort_values(ascending=False) # tulis kode program Anda di sini

    # kita akan menghasilkan objek Series yang menyimpan 15 genre paling populer pada hari tertentu dalam jangka waktu tertentu
    return genre_df_sorted[:15]

Bandingkan hasil dari fungsi `genre_weekday()` untuk Springfield dan Shelbyville pada hari Senin pagi (dari pukul 07.00 hingga 11.00) dan pada hari Jumat malam (dari pukul 17:00 hingga 23:00):

In [31]:
# memanggil fungsi untuk Senin pagi di Springfield (gunakan spr_general alih-alih tabel df)
monday_morning_springfield = genre_weekday(dataframe=spr_general, day='Monday', time1='07.00.00', time2='11.00.00')

In [32]:
monday_morning_springfield

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: user_id, dtype: int64

In [33]:
# memanggil fungsi untuk Senin pagi di Shelbyville (gunakan shel_general alih-alih tabel df)
monday_morning_shelbyville = genre_weekday(dataframe=shel_general, day='Monday', time1='07.00.00', time2='11.00.00')

In [34]:
monday_morning_shelbyville

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: user_id, dtype: int64

In [35]:
# memanggil fungsi untuk Jumat malam di Springfield\n"
friday_night_springfield = genre_weekday(dataframe=spr_general, day='Friday', time1='17.00.00', time2='23.00.00')

In [36]:
friday_night_springfield

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: user_id, dtype: int64

In [37]:
# memanggil fungsi untuk Jumat malam di Shelbyville
friday_night_shelbyville = genre_weekday(dataframe=shel_general, day='Friday', time1='17.00.00', time2='23.00.00')

In [38]:
friday_night_shelbyville

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: user_id, dtype: int64

**Kesimpulan**

Setelah membandingkan 15 genre teratas pada hari Senin pagi, kita dapat menarik kesimpulan berikut:

1. Pengguna dari Springfield dan Shelbyville mendengarkan musik dengan genre yang sama. Lima genre teratas dari kedua kota sama, hanya genre rock dan elektronik yang bertukar tempat.

2. Di Springfield, jumlah nilai yang hilang ternyata sangat besar, sehingga nilai `'unknown'` pun berada di urutan ke-10. Artinya, nilai-nilai yang hilang mencakup proporsi data yang cukup besar, sehingga fakta ini bisa dijadikan dasar untuk mempertanyakan reliabilitas kesimpulan kami.

Untuk hari Jumat malam, situasinya juga serupa. Genre individual cukup bervariasi, tetapi secara keseluruhan, 15 besar genre untuk kedua kota sama.

Dengan demikian, hipotesis kedua terbukti benar sebagian:
* Pengguna mendengarkan musik yang sama di awal dan di akhir minggu.
* Tidak ada perbedaan yang mencolok antara Springfield dan Shelbyville. Di kedua kota tersebut, pop adalah genre yang paling populer.

Meski demikian, signifikansi jumlah nilai yang hilang membuat hasil ini patut dipertanyakan. Di Springfield, terdapat begitu banyak nilai hilang yang memengaruhi hasil 15 genre teratas kita. Jika kita tidak memiliki nilai-nilai yang hilang tersebut, hasilnya mungkin akan berbeda.

[Kembali ke Daftar Isi](#back)

### Hipotesis 3: preferensi genre di kota Springfield dan Shelbyville <a id='genre'></a>

Hipotesis: pendengar di kota Shelbyville menyukai musik rap, sementara pendengar di kota Springfield lebih menyukai pop.

Kelompokkan tabel `spr_general` berdasarkan genre dan temukan jumlah trek lagu yang dimainkan untuk setiap genre dengan metode `count()`. Kemudian, urutkan hasilnya dalam urutan menurun dan simpanlah ke `spr_genres`.

In [39]:
# dalam satu baris: kelompokkan tabel spr_general berdasarkan kolom 'genre',
# hitung nilai kolom 'genre' dengan count() dalam pengelompokan,
# urutkan Series yang dihasilkan dalam urutan menurun, lalu simpan hasilnya ke spr_genres
genre_grouped = spr_general.groupby('genre')
genre_count = genre_grouped['genre'].count()
spr_genres = genre_count.sort_values(ascending=False)

Tampilkan 10 baris pertama dari `spr_genres`:

In [40]:
# menampilkan 10 baris pertama dari spr_genres
print(spr_genres.head(10))

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64


Sekarang, lakukan hal yang sama pada data dari Shelbyville.

Kelompokkan tabel `shel_general` berdasarkan genre dan temukan jumlah trek lagu yang dimainkan untuk setiap genre. Kemudian, urutkan hasilnya dalam urutan menurun dan simpan hasil tersebut ke tabel `shel_genres`:

In [41]:
# dalam satu baris: kelompokkan tabel shel_general berdasarkan kolom 'genre',
# hitung nilai kolom 'genre' dalam pengelompokan menggunakan count(),
# urutkan Series yang dihasilkan dalam urutan menurun dan simpanlah ke shel_genres
genre_grouped = shel_general.groupby('genre')
genre_count = genre_grouped['genre'].count()
shel_genres = genre_count.sort_values(ascending=False)

Tampilkan 10 baris pertama dari `shel_genres`:

In [42]:
# menampilkan 10 baris pertama dari shel_genres
print(shel_genres.head(10))

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64


**Kesimpulan**

Hipotesis ini terbukti benar sebagian:
* Musik pop adalah genre yang paling populer di Springfield, seperti yang kita perkirakan.
* Namun, musik pop ternyata sama populernya baik di Springfield maupun di Shelbyville, dan musik rap ternyata tidak masuk ke daftar 5 besar genre untuk kedua kota tersebut.


[Kembali ke Daftar Isi](#back)

# Temuan <a id='end'></a>

Kita telah menguji tiga hipotesis berikut:

1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
2. Pada hari Senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku untuk hari Jumat malam.
3. Pendengar di kota Springfield dan Shelbyville memiliki preferensi yang berbeda. Baik di Springfield maupun di Shelbyville, pengguna lebih menyukai musik pop.

Setelah menganalisis data yang tersedia, kita dapat menyimpulkan bahwa:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada hari dalam seminggu, meskipun kedua kota ini bervariasi dalam berbagai cara.

Hipotesis pertama dapat diterima sepenuhnya.

2. Preferensi musik tidak bervariasi secara signifikan sepanjang minggu di Springfield dan Shelbyville. Kita bisa melihat perbedaan kecil dalam urutan pada hari Senin, tetapi:
* Baik di Springfield maupun di Shelbyville, pengguna paling banyak mendengarkan musik pop.

Oleh karena itu, hipotesis ini tidak dapat kita terima. Penting juga untuk mengingat bahwa hasil yang diperoleh bisa saja berbeda seandainya kita tidak memiliki nilai yang hilang.
3. Ternyata, preferensi musik pengguna dari kota Springfield dan Shelbyville sangatlah mirip.

Hipotesis ketiga ditolak. Jika memang terdapat perbedaan preferensi, sayangnya hal ini tidak dapat kita ketahui dari data ini.
### Catatan
Dalam proyek sesungguhnya, penelitian melibatkan pengujian hipotesis statistik, yang tentunya lebih tepat dan lebih bersifat kuantitatif. Perhatikan juga bahwa kamu tidak dapat selalu menarik kesimpulan tentang seluruh kota berdasarkan data dari satu sumber saja.

Kamu akan mempelajari pengujian hipotesis dalam sprint analisis data statistik.

[Kembali ke Daftar Isi](#back)