# Яндекс Музыка

Цель данного исследования - проверить три гипотезы, связанные с зависимостью активности пользователей от дня недели, предпочитаемыми жанрами музыки в Москве и Санкт-Петербурге, а также различиями в жанрах музыки в этих двух городах.

Первым этапом работы является обзор данных, доступных для исследования. Были получены данные о поведении пользователей, их предпочтениях в музыке, а также информация о днях недели, на которые слушатели наиболее активны.

Далее была проведена предобработка данных, включающая в себя обработку, фильтрацию и анализ информации. 

После этого была проверена первая гипотеза - о зависимости активности пользователей от дня недели.

Затем была проверена вторая гипотеза, связанная с различиями в предпочитаемых жанрах музыки в Москве и Санкт-Петербурге в различное время суток.

И, наконец, была проверена третья гипотеза - о различиях в жанрах музыки, которые предпочитают пользователи в Москве и Санкт-Петербурге. 

Таким образом, выполнение этой работы позволило проверить три гипотезы, установить взаимосвязь между активностью пользователей и днями недели, а также определить предпочтения в музыке для жителей двух крупных городов - Москвы и Санкт-Петербурга.




## Обзор данных






In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('/datasets/yandex_music_project.csv')

In [None]:
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


**Выводы**

Таблица содержит информацию о треках, а также данные о пользователе, включая информацию о городе и времени прослушивания музыки. Несмотря на наличие достаточного количества данных для проверки гипотез, в таблице встречаются пропуски и некорректные наименования колонок, что требует дополнительных действий для их устранения и возможности продолжения работы.

## Предобработка данных


### Стиль заголовков

In [None]:
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

In [None]:
df = df.rename(
columns={
'  userID': 'user_id',
'Track': 'track',
'  City  ': 'city', 
'Day':'day'}
)

In [None]:
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

In [None]:
df.isna().sum()

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64

Некоторые пропущенные значения не оказывают влияния на исследование. Например, пропущенные значения в столбцах "track" и "artist" не являются важными для данной работы и могут быть заменены явными обозначениями.

Однако, пропуски в столбце "genre" могут повлиять на сравнение музыкальных вкусов жителей Москвы и Санкт-Петербурга. Хотя на практике рекомендуется установить причины пропусков и восстановить данные, в учебном проекте это не всегда возможно. В таком случае пропущенные значения также могут быть заменены явными обозначениями, но необходимо оценить, как это может повлиять на дальнейшие расчёты и исследование.

In [None]:
columns_to_replace = ['track','artist','genre']
for colum in columns_to_replace:
    df[colum] = df[colum].fillna('unknown')

In [None]:
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Дубликаты



In [None]:
df.duplicated().sum()

3826

In [None]:
df = df.drop_duplicates().reset_index(drop=True)

In [None]:
df.duplicated().sum()

0

In [None]:
df['genre'].sort_values(ascending = True).unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

In [None]:
wrong_genre = ['hip','hop','hip-hop']
correct_genre = 'hiphop'
df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

In [None]:
df['genre'].sort_values(ascending = True).unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

**Выводы**

При предварительной обработке были обнаружены три проблемы в данных: несоответствия в стиле названий колонок, пропущенные значения и наличие дубликатов. Были произведены следующие действия: исправлены названия колонок для упрощения работы с таблицей и удалены дубликаты, чтобы обеспечить более точное исследование. Пропущенные значения были заменены на "unknown", но остался вопрос о том, не повлият ли они на дальнейшие исследования, особенно на колонку "жанр". Теперь исследование может продолжаться с проверкой гипотез.

## Проверка гипотез

### Сравнение поведения пользователей двух столиц

Первая гипотеза утверждает, что пользователи по-разному слушают музыку в Москве и Санкт-Петербурге. 

In [None]:
df.groupby('city')['genre'].count()

city
Moscow              42741
Saint-Petersburg    18512
Name: genre, dtype: int64

In [None]:
# Подсчёт прослушиваний в каждый из трёх дней
df.groupby('day')['genre'].count()


day
Friday       21840
Monday       21354
Wednesday    18059
Name: genre, dtype: int64

In [None]:
def number_tracks(day,city):
    track_list = df[(df['day'] == day) & (df['city'] == city)]
    track_list_count = track_list['user_id'].count()
    return(track_list_count)

In [None]:
number_tracks('Monday','Moscow')

15740

In [None]:
number_tracks('Monday','Saint-Petersburg')

5614

In [None]:
number_tracks('Wednesday','Moscow')

11056

In [None]:
number_tracks('Wednesday','Saint-Petersburg')

7003

In [None]:
number_tracks('Friday','Moscow')

15945

In [None]:
number_tracks('Friday','Saint-Petersburg')

5895

In [None]:
data = [['Moscow', 15740, 11056, 15945],
       ['Saint-Petersburg', 5614, 7003, 5895]]
columns = ['city','monday','wednesday','friday']
table = pd.DataFrame(data = data, columns = columns)
table

Unnamed: 0,city,monday,wednesday,friday
0,Moscow,15740,11056,15945
1,Saint-Petersburg,5614,7003,5895


**Выводы**

Из данных следует, что поведение пользователей в Москве и Санкт-Петербурге различно: в Москве наибольшая активность в прослушивании музыки наблюдается в понедельник и пятницу, в то время как на середину недели приходится спад. В Петербурге же больше всего музыки слушают по средам, а в понедельник и пятницу активность практически равномерно распределена. Это говорит в пользу первой гипотезы, о зависимости активности пользователей от дня недели.

### Музыка в начале и в конце недели

In [None]:
moscow_general=df[df['city'] == 'Moscow']


Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,unknown,ruspop,Moscow,09:17:40,Friday
...,...,...,...,...,...,...,...
61247,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Moscow,21:07:12,Monday
61248,729CBB09,My Name,McLean,rnb,Moscow,13:32:28,Wednesday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Moscow,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Moscow,21:43:59,Friday


In [None]:
spb_general=df[df['city']=='Saint-Petersburg']

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Saint-Petersburg,21:20:49,Wednesday
...,...,...,...,...,...,...,...
61239,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Saint-Petersburg,21:14:40,Monday
61240,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Saint-Petersburg,21:06:50,Monday
61241,29E04611,Bre Petrunko,Perunika Trio,world,Saint-Petersburg,13:56:00,Monday
61242,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Saint-Petersburg,09:22:13,Monday


In [None]:
def genre_weekday(df, day, time1, time2):
    genre_df = df[(df['day']==day) & (df['time']>time1)& (df['time']<=time2)]
    genre_df_count = genre_df.groupby('genre')['genre'].count()
    genre_df_grouped = genre_df_count.sort_values(ascending = False)
    genre_df_sorted = genre_df_grouped.head(10)
    return genre_df_sorted

In [None]:
genre_weekday(moscow_general, 'Monday', '07:00', '11:00')

genre
pop            781
dance          549
electronic     480
rock           474
hip            281
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: genre, dtype: int64

In [None]:
genre_weekday(spb_general, 'Monday', '07:00', '11:00')

genre
pop            218
dance          182
rock           162
electronic     147
hip             79
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: genre, dtype: int64

In [None]:
genre_weekday(moscow_general, 'Friday', '17:00', '23:00')

genre
pop            713
rock           517
dance          495
electronic     482
hip            267
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
Name: genre, dtype: int64

In [None]:
genre_weekday(spb_general, 'Friday', '17:00', '23:00')

genre
pop            256
electronic     216
rock           216
dance          210
hip             94
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: genre, dtype: int64

**Выводы**

Из анализа топ-10 жанров в понедельник утром в Москве и Петербурге можно сделать вывод, что музыкальные предпочтения пользователей в обеих городах похожи друг на друга, за исключением некоторых отличий: в Москве популярен жанр "world", а в Петербурге предпочтение отдается джазу и классике. Однако, наличие большого количества пропущенных значений в Москве, которые заняли десятое место среди популярных жанров, вызывает сомнения в достоверности исследования. Вечер пятницы не меняет существенно эту картину, хотя некоторые жанры в топ-10 поднимаются или опускаются. В целом, вторая гипотеза подтверждается частично, поскольку музыкальные предпочтения пользователей схожи в начале и конце недели, но отличаются в некоторых жанрах, а пропущенные данные могут повлиять на результаты исследования.

### Жанровые предпочтения в Москве и Петербурге

Гипотеза: Петербург — столица рэпа, музыку этого жанра там слушают чаще, чем в Москве.  А Москва — город контрастов, в котором, тем не менее, преобладает поп-музыка.

In [None]:
moscow_genres = moscow_general.groupby('genre')['genre'].count().sort_values(ascending = False)

# одной строкой: группировка таблицы moscow_general по столбцу 'genre', 
# подсчёт числа значений 'genre' в этой группировке методом count(), 
# сортировка получившегося Series в порядке убывания и сохранение в moscow_genres

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hip            2041
               ... 
metalcore         1
marschmusik       1
malaysian         1
lovers            1
ïîï               1
Name: genre, Length: 270, dtype: int64

In [None]:
moscow_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hip            2041
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

In [None]:
spb_genres = spb_general.groupby('genre')['genre'].count().sort_values(ascending = False)
spb_genres

genre
pop              2431
dance            1932
rock             1879
electronic       1736
hip               934
                 ... 
international       1
independent         1
idm                 1
gypsy               1
электроника         1
Name: genre, Length: 212, dtype: int64

In [None]:
spb_genres.head(10)

**Выводы**

Гипотеза частично подтвердилась:
Гипотеза получила частичное подтверждение: поп-музыка является самым популярным жанром в Москве, как и предполагалось, и дополнительно в топ-10 жанров входит русская популярная музыка. В отличие от ожиданий, рэп-музыка одинаково популярна в Москве и Петербурге.

## Итоги исследования

В результате проверки трех гипотез было установлено, что день недели в разной степени влияет на активность пользователей в Москве и Петербурге. Первая гипотеза полностью подтвердилась. Музыкальные предпочтения пользователей обоих городов не различаются сильно в течение недели, за исключением понедельников: в Москве жанр "world", а в Петербурге джаз и классика. Вторая гипотеза была частично подтверждена, пропуски в данных могли повлиять на результаты исследования. Вкусы пользователей Москвы и Петербурга близки друг к другу, и в Петербурге, в отличие от ожиданий, предпочтения жанров напоминают московские.
С методами проверок гипотез вы ещё познакомитесь в следующих темах.