# Музыка
___
# Music

**Цель исследования** 

Проверка трех гипотез:
1. Активность пользователей зависит от дня недели.
2. Утром понедельника наиболее пробладают одни жанры в Москве, другие в Петербурге.
3. Житеям Москвы и Петербурга нравятся разные жанры музыки. Для Москвы характерна любовь к поп-музыке, для Петербурга - к русскому рэпу.

Исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.
___
**Purpose of the study**

Testing three hypotheses:
1. User activity depends on the day of the week.
2. On Monday morning, some genres are most often sold in Moscow, others in St. Petersburg.
3. Residents of Moscow and St. Petersburg like different genres of music. For the nature of Moscow, love for pop music, for St. Petersburg - for Russian rap.

The study will take place in three stages:
   1. Data review.
   2. Data preprocessing.
   3. Testing the hypothesis.

## Обзор данных
___
## Data review



In [39]:
import pandas as pd

In [40]:
df = pd.read_csv('yandex_music_project.csv')

In [41]:
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
  userID    65079 non-null object
Track       63848 non-null object
artist      57876 non-null object
genre       63881 non-null object
  City      65079 non-null object
time        65079 non-null object
Day         65079 non-null object
dtypes: object(7)
memory usage: 3.5+ MB


В названиях колонок видны три нарушения стиля:
1. Строчные буквы сочетаются с прописными.
2. Встречаются пробелы.

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.
___
There are three style violations in the column headings:
1. Lowercase letters are combined with uppercase.
2. There are gaps.

The number of values in the columns varies. This means there are missing values in the data.

## Предобработка данных
___
## Data preprocessing

### Стиль заголовков
___
### Heading style

In [43]:
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

In [44]:
df = df.rename(columns={'  userID': 'user_id', 'Track': 'track', '  City  ': 'city', 'Day': 'day'})

In [45]:
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Пропуски значений
___
### Missing values

In [46]:
df.isna().sum()

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64

Имеется некоторое количество пропущенных значений, заменим их на строку `'unknown'`.
___
There are some missing values, let's replace them with the string `'unknown'`.

In [47]:
columns_to_replace = ['track', 'artist', 'genre']
for column in columns_to_replace:
    df[column] = df[column].fillna('unknown')


In [48]:
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Дубликаты
___
### Duplicates

In [49]:
df.duplicated().sum()

3826

In [50]:
df = df.drop_duplicates().reset_index(drop=True) 

In [51]:
df.duplicated().sum()

0

In [53]:
df_sorted = df.sort_values('genre', ascending=True)
df_sorted['genre'].unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

In [54]:
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_gen in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genres, correct_genre)
   

In [55]:
hip_duplicates = ['hip', 'hop', 'hip-hop']
hip_name = 'hiphop'

replace_wrong_genres(hip_duplicates, hip_name)

In [56]:
df_sorted_1 = df.sort_values('genre', ascending=True)
df_sorted_1['genre'].unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

**Выводы**

В результате предобработки данных получилось определить 3 проблемы:

- нарушения в стиле заголовков,
- пропущенные значения,
- дубликаты — явные и неявные.

Все выявленные недочеты были устранены.
___
**Conclusions**

As a result of data preprocessing, it was possible to identify 3 problems:

- headline style violations,
- missing values,
- duplicates - explicit and implicit.

All identified shortcomings were eliminated.

## Проверка гипотез
___
## Testing hypotheses

### Сравнение поведения пользователей двух столиц
___
### Comparison of user behavior in two capitals

In [57]:
df.groupby('city')['user_id'].count()

city
Moscow              42741
Saint-Petersburg    18512
Name: user_id, dtype: int64

In [58]:
df.groupby('day')['user_id'].count()

day
Friday       21840
Monday       21354
Wednesday    18059
Name: user_id, dtype: int64

In [59]:
def number_tracks(day, city): 
    track_list = df[df['day'] == day]
    track_list = track_list[track_list['city'] == city]
    track_list_count = track_list['user_id'].count()
    return track_list_count

In [60]:
display(number_tracks('Monday', 'Moscow'))

15740

In [61]:
display(number_tracks('Monday', 'Saint-Petersburg'))

5614

In [62]:
display(number_tracks('Wednesday', 'Moscow'))

11056

In [63]:
display(number_tracks('Wednesday', 'Saint-Petersburg'))

7003

In [64]:
display(number_tracks('Friday', 'Moscow'))

15945

In [65]:
display(number_tracks('Friday', 'Saint-Petersburg'))

5895

In [66]:
data = [['Moscow', 15740, 11056, 15945], ['Saint-Petersburg',5614, 7003, 5895]]
columns = ['city', 'monday', 'wednesday', 'friday']
day_results = pd.DataFrame(data=data, columns=columns)
display(day_results)

Unnamed: 0,city,monday,wednesday,friday
0,Moscow,15740,11056,15945
1,Saint-Petersburg,5614,7003,5895


**Выводы**

- Пик прослушиваний в Москве отмечается в понедельник и пятницу, в среду имеется спад.
- В Петербурге музыку слушают преимущественно по средам.

Первая гипотеза подтверждена.
___
**Conclusions**

- The peak of listening in Moscow is marked on Monday and Friday, on Wednesday there is a recession.
- In St. Petersburg people listen to music mainly on Wednesdays.

The first hypothesis is confirmed.

### Музыка в начале и в конце недели
___
### Music at the beginning and end of the week

In [67]:
moscow_general = df[df['city'] == 'Moscow'] 

In [68]:
spb_general = df[df['city'] == 'Saint-Petersburg'] 

In [30]:
def genre_weekday(table, day, time1, time2):
    genre_df = table[table['day'] == day]
    genre_df = genre_df[genre_df['time'] > time1]
    genre_df = genre_df[genre_df['time'] < time2]
    genre_df_count = genre_df.groupby('genre')['genre'].count()
    genre_df_sorted = genre_df_count.sort_values(ascending=False)
    return genre_df_sorted.head(10)

In [31]:
display(genre_weekday(moscow_general, 'Monday', '07:00', '11:00'))

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: genre, dtype: int64

In [32]:
display(genre_weekday(spb_general, 'Monday', '07:00', '11:00'))

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: genre, dtype: int64

In [33]:
display(genre_weekday(moscow_general, 'Monday', '17:00', '23:00'))

genre
pop            717
dance          524
rock           518
electronic     485
hiphop         238
alternative    182
world          172
classical      172
ruspop         149
rusrap         133
Name: genre, dtype: int64

In [34]:
display(genre_weekday(spb_general, 'Monday', '17:00', '23:00'))

genre
pop            263
rock           208
electronic     192
dance          191
hiphop         104
alternative     72
classical       71
jazz            57
rusrap          54
ruspop          53
Name: genre, dtype: int64

**Выводы**

Если сравнить топ-10 жанров в понедельник утром, можно сделать такие выводы:

1. В Москве и Петербурге слушают похожую музыку. Единственное отличие — в московский рейтинг вошёл жанр “world”, а в петербургский — джаз и классика.

2. В Москве пропущенных значений оказалось так много, что значение `'unknown'` заняло десятое место среди самых популярных жанров. Значит, пропущенные значения занимают существенную долю в данных и угрожают достоверности исследования.

Вечер пятницы не меняет эту картину. Некоторые жанры поднимаются немного выше, другие спускаются, но в целом топ-10 остаётся тем же самым.

Таким образом, вторая гипотеза подтвердилась лишь частично:
* Пользователи слушают похожую музыку в начале недели и в конце.
* Разница между Москвой и Петербургом не слишком выражена. В Москве чаще слушают русскую популярную музыку, в Петербурге — джаз.

Однако пропуски в данных ставят под сомнение этот результат. В Москве их так много, что рейтинг топ-10 мог бы выглядеть иначе, если бы не утерянные  данные о жанрах.
___
**Conclusions**

If we compare the top 10 genres on Monday morning, we can draw the following conclusions:

1. In Moscow and St. Petersburg they listen to similar music. The only difference is that the Moscow rating includes the “world” genre, while the St. Petersburg rating includes jazz and classical.

2. There were so many missing values ​​in Moscow that the value `'unknown'` took tenth place among the most popular genres. This means that missing values ​​occupy a significant share in the data and threaten the reliability of the study.

Friday night does not change this picture. Some genres rise a little higher, others go down, but overall the top 10 stays the same.

Thus, the second hypothesis was only partially confirmed:
* Users listen to similar music at the beginning of the week and at the end.
* The difference between Moscow and St. Petersburg is not very pronounced. In Moscow, they listen to Russian popular music more often, in St. Petersburg - jazz.

However, gaps in the data cast doubt on this result. There are so many of them in Moscow that the top 10 ranking could look different if it were not for the lost genre data.

### Жанровые предпочтения в Москве и Петербурге

Гипотеза: Москва и Петербург предпочитают разные жанры музыки. В Москве чаще слушают поп-музыку, в Петербурге — русский рэп.
___
### Genre preferences in Moscow and St. Petersburg

Hypothesis: Moscow and St. Petersburg prefer different genres of music. In Moscow, they listen to pop music more often, in St. Petersburg - Russian rap.

In [69]:
moscow_genneral_grouped_by_genre = moscow_general.groupby('genre') 
moscow_genneral_grouped_by_genre = moscow_genneral_grouped_by_genre['genre'].count() 
moscow_genres = moscow_genneral_grouped_by_genre.sort_values(ascending=False) 

In [70]:
display(moscow_genres.head(10))

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

In [73]:
spb_genneral_grouped_by_genre = spb_general.groupby('genre')
spb_genneral_grouped_by_genre = spb_genneral_grouped_by_genre['genre'].count() 
spb_genres = spb_genneral_grouped_by_genre.sort_values(ascending=False)

In [74]:
print(spb_genres.head(10))

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64


**Выводы**
___
**Conclusions**

Гипотеза частично подтвердилась:
* Поп-музыка является жанром №1 в Москве;
* Однако рэп-исполнители одинаково популярны в Москве и Петербурге. 
___
The hypothesis was partially confirmed:
* Pop music is genre No. 1 in Moscow;
* However, rap artists are equally popular in Moscow and St. Petersburg.