# Музыка / Music

На данных сервиса для поиска и прослушивания музыки и подкастов требуется сравнить поведение пользователей двух столиц.

**Цель исследования** — проверка трех гипотез:
1. Активность пользователей зависит от дня недели. Причём в Москве и Петербурге это проявляется по-разному.
2. В понедельник утром в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города. 
3. Москва и Петербург предпочитают разные жанры музыки. В Москве чаще слушают поп-музыку, в Петербурге — русский рэп.

Исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.
 
Using data from a service for searching and listening to music and podcasts, it is necessary to compare the behavior of users in two capitals.

**The purpose of the study** is to test three hypotheses:
1. User activity depends on the day of the week. Moreover, in Moscow and St. Petersburg this manifests itself in different ways.
2. On Monday morning in Moscow, some genres prevail, and in St. Petersburg, others. Likewise, on Friday evenings, different genres predominate, depending on the city.
3. Moscow and St. Petersburg prefer different genres of music. In Moscow people listen to pop music more often, in St. Petersburg they listen to Russian rap.

The research will take place in three stages:
 1. Review of data.
 2. Data preprocessing.
 3. Testing hypotheses.

## Обзор данных / Data overview

In [1]:
import pandas as pd 

In [2]:
df = pd.read_csv('/Users/vladamalkina/Downloads/dataset.csv')

In [3]:
df.head(10)

Unnamed: 0.1,Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  65079 non-null  int64 
 1     userID    65079 non-null  object
 2   Track       63848 non-null  object
 3   artist      57876 non-null  object
 4   genre       63881 non-null  object
 5     City      65079 non-null  object
 6   time        65079 non-null  object
 7   Day         65079 non-null  object
dtypes: int64(1), object(7)
memory usage: 4.0+ MB


The table has seven columns:

* `userID` — user identifier;
* `Track` — track name;
* `artist` — name of the artist;
* `genre` — genre name;
* `City` — user’s city;
* `time` — start time of listening;
* `Day` - day of the week.

The number of values ​​in the columns varies. This means there are missing values ​​in the data.

## Предобработка данных / Data preprocessing

In [5]:
df.columns

Index(['Unnamed: 0', '  userID', 'Track', 'artist', 'genre', '  City  ',
       'time', 'Day'],
      dtype='object')

In [6]:
df = df.rename(columns = {'  userID':'user_id', 'Track': 'track', '  City  ':'city','Day':'day'})

In [7]:
df.columns

Index(['Unnamed: 0', 'user_id', 'track', 'artist', 'genre', 'city', 'time',
       'day'],
      dtype='object')

### Пропуски значений / Missing values

Подсчет пропусков / Counting passes

In [8]:
df.isna().sum()

Unnamed: 0       0
user_id          0
track         1231
artist        7203
genre         1198
city             0
time             0
day              0
dtype: int64

Перебор названий столбцов в цикле и замена пропущенных значений на 'unknown':

Loop through column names and replace missing values ​​with 'unknown':

In [9]:
columns_to_replace = ['track', 'artist', 'genre']
for col in columns_to_replace:
        df[col] = df[col].fillna('unknown')

Подсчет пропусков / Counting passes:

In [10]:
df.isna().sum()

Unnamed: 0    0
user_id       0
track         0
artist        0
genre         0
city          0
time          0
day           0
dtype: int64

### Дубликаты / Duplicates

Подсчёт явных дубликатов: / Counting obvious duplicates:

In [11]:
df.duplicated().sum()

0

Удаление явных дубликатов: / Removing obvious duplicates:

In [12]:
df = df.drop_duplicates()

Проверка на отсутствие дубликатов: / Checking for duplicates:

In [13]:
df.duplicated().sum()

0

Просмотр уникальных названий жанров: / View unique genre titles:

In [14]:
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

Устранение неявных дубликатов: / Removing implicit duplicates:

In [15]:
replace = ['hip','hop','hip-hop']
df['genre'] = df['genre'].replace(replace, 'hiphop')

Проверка на неявные дубликаты: / Checking for implicit duplicates:

In [16]:
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

**Выводы**

Предобработка обнаружила три проблемы в данных:

- нарушения в стиле заголовков,
- пропущенные значения,
- дубликаты — явные и неявные.

Были исправлены заголовки, чтобы упростить работу с таблицей. Без дубликатов исследование станет более точным.

Пропущенные значения были заменены на `'unknown'`.

Теперь можно перейти к проверке гипотез.

**Conclusions**

Preprocessing found three problems in the data:

- violations in the style of headings,
- missing values,
- duplicates - explicit and implicit.

The headings have been corrected to make the table easier to work with. Without duplicates, the research will be more accurate.

Missing values ​​have been replaced with `'unknown'`.

Now we can move on to testing hypotheses.

## Проверка гипотез / Testing hypotheses

Первая гипотеза утверждает, что пользователи по-разному слушают музыку в Москве и Санкт-Петербурге. 
Проверим это предположение по данным о трёх днях недели — понедельнике, среде и пятнице. 


The first hypothesis states that users listen to music differently in Moscow and St. Petersburg.
Let's check this assumption using data on three days of the week - Monday, Wednesday and Friday.

Подсчёт прослушиваний в каждом городе:

Counting auditions in each city:

In [17]:
df_group = df.groupby('city')['genre'].count()
df_group

city
Moscow              45360
Saint-Petersburg    19719
Name: genre, dtype: int64

Подсчёт прослушиваний в каждый из трёх дней:

Counting auditions on each of the three days:

In [18]:
df.groupby('day')['genre'].count()

day
Friday       23149
Monday       22697
Wednesday    19233
Name: genre, dtype: int64

Функция для подсчёта прослушиваний для конкретного города и дня:

Function for counting plays for a specific city and day:

In [19]:
def number_tracks(day, city):
    track_list = df[df['day']==day]
    track_list = track_list[track_list['city']==city]
    track_list_count = track_list['user_id'].count()
    return track_list_count

Количество прослушиваний в Москве по понедельникам:

Number of auditions in Moscow on Mondays:

In [20]:
number_tracks('Monday', 'Moscow')

16715

Количество прослушиваний в Санкт-Петербурге по понедельникам:

Number of auditions in St. Petersburg on Mondays:

In [21]:
number_tracks('Monday','Saint-Petersburg')

5982

Количество прослушиваний в Москве по средам:

Number of auditions in Moscow on Wednesdays:

In [22]:
number_tracks('Wednesday','Moscow')

11755

Количество прослушиваний в Санкт-Петербурге по средам:

Number of auditions in St. Petersburg on Wednesdays:

In [23]:
number_tracks('Wednesday','Saint-Petersburg')

7478

Количество прослушиваний в Москве по пятницам:

Number of auditions in Moscow on Fridays:

In [24]:
number_tracks('Friday','Moscow')

16890

Количество прослушиваний в Санкт-Петербурге по пятницам:

Number of auditions in St. Petersburg on Fridays:

In [25]:
number_tracks('Friday','Saint-Petersburg')

6259

In [26]:
info = pd.DataFrame(data = [['Москва',15740, 5614, 11056], ['Санкт-Петербург', 7003, 15945, 5895]], columns = ['city', 'monday', 'wednesday', 'friday'])# Таблица с результатами

**Выводы**

Данные показывают разницу поведения пользователей:

- В Москве пик прослушиваний приходится на понедельник и пятницу, а в среду заметен спад.
- В Петербурге, наоборот, больше слушают музыку по средам. Активность в понедельник и пятницу здесь почти в равной мере уступает среде.

Значит, данные говорят в пользу первой гипотезы.

**Conclusions**

The data shows the difference in user behavior:

- In Moscow, the peak of listening is on Monday and Friday, and on Wednesday there is a noticeable decline.
- In St. Petersburg, on the contrary, they listen to music more on Wednesdays. Activity here on Monday and Friday is almost equally inferior to Wednesday.

This means that the data speaks in favor of the first hypothesis.

### Музыка в начале и в конце недели / Music at the beginning and end of the week

Согласно второй гипотезе, утром в понедельник в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города.

According to the second hypothesis, on Monday morning in Moscow some genres prevail, and in St. Petersburg others. Likewise, on Friday evenings, different genres predominate, depending on the city.

In [27]:
moscow_general = df[df['city'] == 'Moscow']

In [28]:
spb_general = df[df['city']=='Saint-Petersburg']

Объявление функции genre_weekday(), которая возвращает информацию о самых популярных жанрах в указанный день в заданное время:

Declaring a function genre_weekday() that returns information about the most popular genres on a given day at a given time:

In [29]:
def genre_weekday(df, day, time1, time2):
    genre_df = df[df['day']==day]
    genre_df = genre_df[genre_df['time']<time2]
    genre_df = genre_df[genre_df['time']>time1]
    genre_df_count = genre_df.groupby('genre')['genre'].count()
    genre_df_sorted = genre_df_count.sort_values(ascending = False)
    return genre_df_sorted[:10]

Cравним результаты функции genre_weekday() для Москвы и Санкт-Петербурга в понедельник утром (с 7:00 до 11:00) и в пятницу вечером (с 17:00 до 23:00):

Let's compare the results of the genre_weekday() function for Moscow and St. Petersburg on Monday morning (from 7:00 to 11:00) and on Friday evening (from 17:00 to 23:00):

In [30]:
genre_weekday(moscow_general, 'Monday', '07:00', '11:00')

genre
pop            830
dance          589
rock           511
electronic     501
hiphop         311
ruspop         203
world          190
rusrap         188
alternative    175
unknown        172
Name: genre, dtype: int64

In [31]:
genre_weekday(spb_general, 'Monday', '07:00','11:00')

genre
pop            238
dance          192
rock           173
electronic     154
hiphop          88
ruspop          68
alternative     65
rusrap          56
jazz            47
classical       42
Name: genre, dtype: int64

In [32]:
genre_weekday(moscow_general, 'Friday', '17:00','23:00')

genre
pop            761
rock           546
dance          521
electronic     510
hiphop         282
world          220
ruspop         184
alternative    176
classical      171
rusrap         151
Name: genre, dtype: int64

In [33]:
genre_weekday(spb_general, 'Friday', '17:00','23:00')

genre
pop            279
rock           230
electronic     227
dance          221
hiphop         103
alternative     67
jazz            66
rusrap          66
classical       64
world           60
Name: genre, dtype: int64

**Выводы**

Если сравнить топ-10 жанров в понедельник утром, можно сделать такие выводы:

1. В Москве и Петербурге слушают похожую музыку. Единственное отличие — в московский рейтинг вошёл жанр “world”, а в петербургский — джаз и классика.

2. В Москве пропущенных значений оказалось так много, что значение `'unknown'` заняло десятое место среди самых популярных жанров. Значит, пропущенные значения занимают существенную долю в данных и угрожают достоверности исследования.

Вечер пятницы не меняет эту картину. Некоторые жанры поднимаются немного выше, другие спускаются, но в целом топ-10 остаётся тем же самым.

Таким образом, вторая гипотеза подтвердилась лишь частично:
* Пользователи слушают похожую музыку в начале недели и в конце.
* Разница между Москвой и Петербургом не слишком выражена. В Москве чаще слушают русскую популярную музыку, в Петербурге — джаз.

Однако пропуски в данных ставят под сомнение этот результат. В Москве их так много, что рейтинг топ-10 мог бы выглядеть иначе, если бы не утерянные  данные о жанрах.


**Conclusions**

If we compare the top 10 genres on Monday morning, we can draw the following conclusions:

1. In Moscow and St. Petersburg they listen to similar music. The only difference is that the Moscow rating included the “world” genre, while the St. Petersburg rating included jazz and classical.

2. In Moscow there were so many missing values ​​that the value `'unknown'` took tenth place among the most popular genres. This means that missing values ​​occupy a significant proportion of the data and threaten the reliability of the study.

Friday evening does not change this picture. Some genres go a little higher, others go down, but overall the top 10 remains the same.

The second hypothesis was only partially confirmed:
* Users listen to similar music at the beginning of the week and at the end.
* The difference between Moscow and St. Petersburg is not very pronounced. In Moscow people listen to Russian popular music more often, in St. Petersburg they listen to jazz.

However, gaps in the data cast doubt on this result. There are so many of them in Moscow that the top 10 ranking might look different if not for the lost data on genres.

### Жанровые предпочтения в Москве и Петербурге / Жанровые предпочтения в Москве и Петербурге

Гипотеза: Петербург — столица рэпа, музыку этого жанра там слушают чаще, чем в Москве.  А Москва — город контрастов, в котором, тем не менее, преобладает поп-музыка.

Hypothesis: St. Petersburg is the capital of rap, music of this genre is listened to more often there than in Moscow. And Moscow is a city of contrasts, in which, nevertheless, pop music prevails.

In [34]:
moscow_genres = moscow_general.groupby('genre')['genre'].count().sort_values(ascending = False)

In [35]:
moscow_genres[:10]

genre
pop            6253
dance          4707
rock           4188
electronic     4010
hiphop         2215
classical      1712
world          1516
alternative    1466
ruspop         1453
rusrap         1239
Name: genre, dtype: int64

In [36]:
spb_genres = spb_general.groupby('genre')['genre'].count().sort_values(ascending = False)

In [37]:
spb_genres[:10]

genre
pop            2597
dance          2054
rock           2004
electronic     1842
hiphop         1020
alternative     700
classical       684
rusrap          604
ruspop          565
world           553
Name: genre, dtype: int64

**Выводы**

Гипотеза частично подтвердилась:
* Поп-музыка — самый популярный жанр в Москве, как и предполагала гипотеза. Более того, в топ-10 жанров встречается близкий жанр — русская популярная музыка.
* Вопреки ожиданиям, рэп одинаково популярен в Москве и Петербурге. 

**Conclusions**

The hypothesis was partially confirmed:
* Pop music is the most popular genre in Moscow, as the hypothesis predicted. Moreover, in the top 10 genres there is a similar genre - Russian popular music.
* Contrary to expectations, rap is equally popular in Moscow and St. Petersburg.

## Итоги исследования / Results of the study

Были проверены три гипотезы и установлено:

1. День недели по-разному влияет на активность пользователей в Москве и Петербурге. 

Первая гипотеза полностью подтвердилась.

2. Музыкальные предпочтения не сильно меняются в течение недели — будь то Москва или Петербург. Небольшие различия заметны в начале недели, по понедельникам:
* в Москве слушают музыку жанра “world”,
* в Петербурге — джаз и классику.

Таким образом, вторая гипотеза подтвердилась лишь отчасти. Этот результат мог оказаться иным, если бы не пропуски в данных.

3. Во вкусах пользователей Москвы и Петербурга больше общего чем различий. Вопреки ожиданиям, предпочтения жанров в Петербурге напоминают московские.

Третья гипотеза не подтвердилась. Если различия в предпочтениях и существуют, на основной массе пользователей они незаметны.

Three hypotheses were tested and it was found:

1. The day of the week affects user activity differently in Moscow and St. Petersburg.

The first hypothesis was completely confirmed.

2. Musical preferences do not change much during the week - be it Moscow or St. Petersburg. Small differences are noticeable at the beginning of the week, on Mondays:
* in Moscow they listen to music of the “world” genre,
* in St. Petersburg - jazz and classics.

The second hypothesis was only partially confirmed. This result might have been different if not for gaps in the data.

3. The tastes of users in Moscow and St. Petersburg have more in common than differences. Contrary to expectations, genre preferences in St. Petersburg resemble those in Moscow.

The third hypothesis was not confirmed. If differences in preferences exist, they are not noticeable for the majority of users.