## Pendahuluan <a id='intro'></a>
Setiap kali kita melakukan analisis, kita perlu merumuskan beberapa hipotesis yang perlu kita uji lebih lanjut. Terkadang, pengujian yang kita lakukan membawa kita untuk menerima hipotesis tersebut, adakalanya kita juga perlu menolaknya. Untuk membuat keputusan yang tepat dalam bisnis, kita harus memahami apakah asumsi yang kita buat sudah tepat atau belum.

Dalam proyek kali ini, Anda akan membandingkan preferensi musik pengguna di kota Springfield dan Shelbyville. Anda akan mempelajari data Y.Music yang sebenarnya untuk menguji hipotesis di bawah ini dan membandingkan perilaku pengguna di kedua kota ini.

### Tujuan: 
Menguji tiga hipotesis:
1. Aktivitas pengguna berbeda-beda tergantung pada hari dan kotanya.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku pada hari Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Di Springfield, para pengguna lebih suka musik pop, sementara di Shelbyville musik rap memiliki lebih banyak penggemar.


# melakukan eksplorasi data dan perbaikan

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/music_project_en.csv')

In [3]:
data

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [4]:
#melihat tipe data dan mengecek apakah ada nilai null atau tidak
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


In [5]:
#memperbaiki nama columns
data = data.rename(columns={'  userID':'user_id','  City  ':'city'})
data.columns = data.columns.str.lower()

In [6]:
#cek nilai hilang
data.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

In [7]:
#mengisi nilai yang hilang dengan mengisi nilainya dengan unknown
column_lost = ['track','artist','genre']
for i in column_lost:
    data[i].fillna('unknown',inplace=True)
data.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

In [8]:
#mengecek duplikasi data
data.duplicated().sum()

3826

In [9]:
#menghapus data duplicate
data = data.drop_duplicates()
data.duplicated().sum()

0

In [10]:
#megecek genre musik pada data
data['genre'].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb', 'hip',
       'jazz', 'postrock', 'latin', 'classical', 'metal', 'reggae',
       'triphop', 'blues', 'instrumental', 'rusrock', 'dnb', 'türk',
       'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkrock', 

In [11]:
#karena disini ada nama genre yang namanya double seperti hip,hop, hip-hop saya akan membuat fungsi untuk mengganti nilainya
def replace_wrong_genre(wrong_genre,correct_genre):
    for i in wrong_genre:
        data['genre']=data['genre'].replace(wrong_genre,correct_genre)
        

In [12]:
#mengganti nilainya
wrong_genre = ['hip','hiphop','hip-hop']
correct = 'hip-hop'
replace_wrong_genre(wrong_genre,correct)
data['genre'].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb',
       'hip-hop', 'jazz', 'postrock', 'latin', 'classical', 'metal',
       'reggae', 'triphop', 'blues', 'instrumental', 'rusrock', 'dnb',
       'türk', 'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'salsa', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'tropical', 'contemporary', 'new', 'soul', 'holiday',
       'german', 'jpop', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'korean', 'numetal', 'vocal', 'estrada', 'tango',
       'loungeelectronic', 'classicmetal', 'dubstep', 'club', 'deep',
       'southern', 'black', 'folkroc

# menganalisis musik yang didengarkan

In [13]:
data['city'].unique()

array(['Shelbyville', 'Springfield'], dtype=object)

In [14]:
data['day'].unique

<bound method Series.unique of 0        Wednesday
1           Friday
2        Wednesday
3           Monday
4           Monday
           ...    
65074    Wednesday
65075       Monday
65076       Friday
65077       Friday
65078       Friday
Name: day, Length: 61253, dtype: object>

In [15]:
#membuat fungsi untuk menghitung jumlah musik yang didengarkan oleh pendegar dari masing masing kota berdasarkan hari
track_list_count = 0
def counts(day,city):
    track_list_count = data[(data['day']==day) & (data['city']==city)]['user_id'].count()
    return track_list_count

In [16]:
counts('Friday','Springfield')

15945

In [17]:
counts('Wednesday','Springfield')

11056

In [18]:
counts('Monday','Springfield')

15740

In [19]:
counts('Friday','Shelbyville')

5895

In [20]:
counts('Monday','Shelbyville')

5614

In [21]:
counts('Wednesday','Shelbyville')

7003

In [23]:
#membuat hasil sebagai tabel

datas=[
        ['Springfield',counts('Monday','Springfield'),counts('Wednesday','Springfield'),counts('Friday','Springfield')],
        ['Shelbyville',counts('Monday','Shelbyville'),counts('Wednesday','Shelbyville'),counts('Friday','Shelbyville')]
    ]

columns=['city','monday','wednesday','Friday']

tabel = pd.DataFrame(data = datas,columns=columns)
tabel

Unnamed: 0,city,monday,wednesday,Friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


# Pengujian hipotesis

membandingkan perilaku pendengar di kedua kota

In [39]:
#membagi data berdasarkan kota
city_1 = data[data['city']=='Shelbyville']
city_2 = data[data['city']=='Springfield']

In [26]:
# membuat fungsi yang menampilkan 15 genre popular yang didengarkan pada hari tertentu pada masing masing kota antara waktu tertentu
def genre_day(data,day,time1,time2):
    genre_data = data[data['day']==day]
    genre_data = genre_data[genre_data['time']<time2]
    genre_data = genre_data[genre_data['time']>time1]
    genre_data_grouped  = genre_data.groupby('genre')['genre'].count()
    genre_data_sorted = genre_data_grouped.sort_values(ascending= False)
    return genre_data_sorted[:15]

In [29]:
# 15 genre musik yang paling banyak didengarkan di kota Shelbyville pada hari rabu jam 06.00 - 22.00
genre_day(city_1,'Wednesday','06.00','22.00')

genre
pop            945
rock           709
dance          700
electronic     655
hip-hop        352
alternative    249
classical      236
rusrap         227
ruspop         208
world          195
jazz           172
metal          153
rnb            141
soundtrack     125
rap            110
Name: genre, dtype: int64

In [31]:
# 15 genre musik yang paling banyak didengarkan di kota Springfield pada hari jumat jam 06.00 - 20.00
genre_day(city_2,'Friday','06.00','20.00')

genre
pop            1453
dance          1107
rock            980
electronic      948
hip-hop         541
classical       440
ruspop          368
alternative     361
world           329
rusrap          299
jazz            253
metal           225
soundtrack      196
latin           164
folk            160
Name: genre, dtype: int64

## mengetahui genre musik yang disukai masing masing kota berdasarkan berapa banyak genre didengarkan

In [42]:
# 10 genre teratas yang paling banyak didengarkan oleh warnga kota Shelbyville
city_1.groupby('genre')['user_id'].count().sort_values(ascending=False)[:10]

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hip-hop         960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: user_id, dtype: int64

In [43]:
# 10 genre teratas yang paling banyak didengarkan oleh warnga kota Springfield
city_2.groupby('genre')['user_id'].count().sort_values(ascending=False)[:10]

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hip-hop        2095
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: user_id, dtype: int64

# Kesimpulan

Kita telah menguji tiga hipotesis berikut:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada hari dalam seminggu, meskipun kedua kota ini bervariasi dalam berbagai cara.
2. Pada senin pagi, penduduk Springfield dan Shelbyville mendengarkan genre yang berbeda. Hal ini juga berlaku pada hari Jumat malam.
3. Pendengar di Springfield dan Shelbyville memiliki preferensi yang berbeda. Baik Springfield maupun di Shelbyville, mereka lebih suka musik pop.

Setelah menganalisis data yang tersedia, kita dapat menyimpulkan bahwa:

1. Aktivitas pengguna di Springfield dan Shelbyville bergantung pada harinya, walaupun kotanya berbeda.

Hipotesis pertama dapat diterima sepenuhnya.

2. Preferensi musik tidak bervariasi secara signifikan sepanjang minggu di Springfield dan Shelbyville. Kita bisa melihat perbedaan kecil dalam urutan pada hari Senin, tetapi:
* Baik di Springfield maupun di Shelbyville, pengguna paling banyak mendengarkan musik pop.

Oleh karena itu, hipotesis ini tidak dapat kita terima. Penting juga untuk mengingat bahwa hasil yang diperoleh bisa saja berbeda seandainya kita tidak memiliki nilai yang hilang.
3. Ternyata preferensi musik pengguna dari Springfield dan Shelbyville sangat mirip.