# Музыка больших городов / Music of Big Cities

Используя данные пользователей сервиса Яндекс.Музыка проверить следующие гипотезы:

- Активность пользователей зависит от дня недели и проявляется по-разному в двух городах.

- Разные жанры преобладают в двух городах в понедельник утром и в пятницу вечером.

- В двух городах слушают разную музыку. Москва - город поп-музыки, Санкт-Петербург - русского рэпа.

----

Using data from users of the Yandex.Music service, test the following hypotheses:

- User activity depends on the day of the week and manifests itself differently in the two cities.

- Different genres prevail in the two cities on Monday morning and Friday evening.

- In two cities listen to different music. Moscow is the city of pop music, St. Petersburg is the city of Russian rap.

## Загрузка данных / Data import

In [1]:
import pandas as pd

Прочитаем файл `yandex_music_project.csv` из папки с проектом и сохраним его в переменной `df`

Read the `yandex_music_project.csv` file from the project folder and save it in the `df` variable

In [2]:
df = pd.read_csv('/Users/vlad/Documents/Documents Linux/Yandex DS/Projects/music_of_big_cities/yandex_music_project.csv')

Посмотрим на первые 10 строк таблицы

Show the head of the table

In [3]:
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


Выведем общую информаицю по датафрэйму

Show info of the table

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


### Описание данных / Data description

В таблице 7 столбцов и 65079 строк. Все переменные имеют тип `object`.

* `userID` — идентификатор пользователя;
* `Track` — название трека;  
* `artist` — имя исполнителя;
* `genre` — название жанра;
* `City` — город пользователя;
* `time` — время начала прослушивания;
* `Day` — день недели.

В названиях колонок есть следующие проблемы:
1. Строчные буквы сочетаются с прописными.
2. Встречаются пробелы.
3. Стиль названия колонок не един. Лучше использовать snake_case.

В данных есть пропуски, так как количество наблюдений в некоторых колонках меньше общего количества строк.

----

The table has 7 columns and 65079 rows. All variables are of type `object`.

* `userID` - user ID;
* `Track` — track name;
* `artist` — artist name;
* `genre` — genre name;
* `City` - user's city;
* `time` - start time of listening;
* `Day` is the day of the week.

Column titles have the following issues:
1. Lowercase letters are combined with uppercase.
2. There are gaps.
3. The style of the column names is not the same. It's better to use snake_case.

There are gaps in the data because the number of observations in some columns is less than the total number of rows.

### Выводы / Conclusion

Полученные данные описывают активность пользователей Яндекс.Музыки. Например, мы можем видеть какой пользователь какой трек прослушал, метаданные этого трека, из какого города пользователь, и в какое время дня и день недели он прослушал этот трек.

В данных встречаются пропуски, а названия переменных не соответствует общепринятому стилю.

Для дальнейшей работы с данными в них необходимо устранить найденые проблемы.

---

The data obtained describes the activity of Yandex.Music users. For example, we can see which user listened to which track, the metadata of this track, what city the user is from, and at what time of the day and day of the week he listened to this track.

There are gaps in the data, and the names of the variables do not correspond to the generally accepted style.

For further work with the data in them, it is necessary to eliminate the problems found.

## Предобработка данных / Data preprocessing

На данном этапе мы исправим проблемы в данных, найденые ранее, а также проверим переменные на наличие дубликатов.

In this step, we will fix the problems in the data found earlier, and also check the variables for duplicates.

### Название столбцов / Column names

In [5]:
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Приведем названия колонок к следующему стилю:
* несколько слов в названии запишем в «snake_case»,
* все символы сделаем строчными,
* устраним пробелы.

----

Let's change the column names to the following style:
* write a few words in the title in "snake_case",
* make all characters lowercase,
* Eliminate spaces.

Для этого используем метод `rename`

For that we use `rename` method

In [6]:
# переименование столбцов
df = df.rename(columns={
    
    '  userID' : 'user_id',
    'Track' : 'track',
    '  City  ' : 'city',
    'Day' : 'day'
})

Проверим результат.

Check the result

In [7]:
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Пропуски / Missing values

Выведем статистику по пропускам

Check statistics of missing values

In [8]:
df.isna().sum()

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64

Пропуски есть в трех колонках: `track`, `artist`, и `genre`.

Для того, чтобы эффективно заполнить пропуски, необходимо разобраться в причине их появления. Однако, в данном случае некоторые пропуски можно было бы заполнить без выяснения причины. Например, можно было бы заполнить пропуски в колонке `artist`, если в данном наблюдении есть значения в колонках `track` и `genre`. Но заполнять тысячу с лишним пропусков вручную трудоемкий процесс, а автоматизация такого процесса выходит за рамки такого проекта. В дополнение, пропуски в колонках `artist` и `track` не повлияют на проверку гипотез в данном проекте. Напротив, пропуски в `genre` прямо влияют на результат. Мы можем зполнить пропуски с фиксированным значением `unknown`.

----

There are gaps in three columns: `track`, `artist`, and `genre`.

In order to effectively fill gaps, you need to understand the reason for their occurrence. However, in this case, some of the gaps could be filled without finding out the reason. For example, one could fill in the gaps in the `artist` column if the case has values in the `track` and `genre` columns. But filling in a thousand-odd blanks by hand is a laborious process, and automating such a process is beyond the scope of such a project. In addition, omissions in the `artist` and `track` columns will not affect the hypothesis testing in this project. In contrast, omissions in `genre` directly affect the result. We can fill in the blanks with a fixed value of `unknown`.

In [9]:
columns_to_replace = ['track', 'artist', 'genre']
for col in columns_to_replace:
    df[col] = df[col].fillna('unknown')

Сделаем проверку заполнения пропусков.

Check missing values imputation

In [10]:
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

Пропуски заполнили, переходим к дубликатам.

Missing values are imputed. Let's move to duplicates.

### Дубликаты / Duplicates

Дубликаты могут быть как явными так и неявными. Явные дубликаты представляют из себя дублирование целых строк, а неявные - дублирование значений с разным написанием, например (cat и caT).

---

Duplicates can be either explicit or implicit. Explicit duplicates are duplicates of entire strings, and implicit ones are duplicates of values with different spellings, for example (cat and catT).

Посчитаем явные дубликаты

Count explicit duplicates

In [11]:
df.duplicated().sum()

3826

Удалим явные дубликаты с помощью метода `drop_duplicates`

Remove explicit duplicates using the `drop_duplicates` method

In [12]:
df = df.drop_duplicates().reset_index(drop=True)

Проверка удаления явных дубликатов

Check explicit duplicates removal

In [13]:
df.duplicated().sum()

0

Проверка колонки `genre` на неявные дубликаты

Checking the `genre` column for implicit duplicates

In [15]:
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'alternativepunk', 'ambient', 'americana',
       'animated', 'anime', 'arabesk', 'arabic', 'arena',
       'argentinetango', 'art', 'audiobook', 'author', 'avantgarde',
       'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass',
       'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks',
       'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean',
       'caucasian', 'celtic', 'chamber', 'chanson', 'children', 'chill',
       'chinese', 'choral', 'christian', 'christmas', 'classical',
       'classicmetal', 'club', 'colombian', 'comedy', 'conjazz',
       'contemporary', 'country', 'cuban', 'dance', 'dancehall',
       'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr',
       'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo',
       'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic',
       'electropop', 'emo', 'entehno', '

Проверка показазал, что жанр **hip-hop** записан по-разному: hiphop, hip-hop, и hip. Напишем функцию для замены этих дубликатов.

----

Checking showed that the **hip-hop** genre is spelled differently: hiphop, hip-hop, and hip. Let's write a function to replace these duplicates.

In [16]:
def replace_wrong_genres(wrong_genres, correct_genre):
    for genr in wrong_genres:
        df['genre'] = df['genre'].replace(genr, correct_genre)

In [18]:
wrong_genres = ['hip', 'hop', 'hip-hop']
replace_wrong_genres(wrong_genres, 'hiphop')

Убедимся, что замена произошла правильно

Chechk if the change is correct

In [19]:
# Проверка на неявные дубликаты
print(df['genre'].sort_values().unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'alternativepunk' 'ambient' 'americana' 'animated' 'anime' 'arabesk'
 'arabic' 'arena' 'argentinetango' 'art' 'audiobook' 'author' 'avantgarde'
 'axé' 'baile' 'balkan' 'beats' 'bigroom' 'black' 'bluegrass' 'blues'
 'bollywood' 'bossa' 'brazilian' 'breakbeat' 'breaks' 'broadway'
 'cantautori' 'cantopop' 'canzone' 'caribbean' 'caucasian' 'celtic'
 'chamber' 'chanson' 'children' 'chill' 'chinese' 'choral' 'christian'
 'christmas' 'classical' 'classicmetal' 'club' 'colombian' 'comedy'
 'conjazz' 'contemporary' 'country' 'cuban' 'dance' 'dancehall' 'dancepop'
 'dark' 'death' 'deep' 'deutschrock' 'deutschspr' 'dirty' 'disco' 'dnb'
 'documentary' 'downbeat' 'downtempo' 'drum' 'dub' 'dubstep' 'eastern'
 'easy' 'electronic' 'electropop' 'emo' 'entehno' 'epicmetal' 'estrada'
 'ethnic' 'eurofolk' 'european' 'experimental' 'extrememetal' 'fado'
 'fairytail' 'film' 'fitness' 'flamenco' 'folk' 'folklore' 'folkmetal'
 'folkrock' 

### Выводы / Conclusion

В данных мы обнаружили пропуски, нестандартные названия колонок, и дубликаты (явные и неявные). Все проблемы перед проверкой гипотез были утсранены.

---

In the data, we found gaps, non-standard column names, and duplicates (explicit and implicit). All problems before testing hypotheses were eliminated.

## Проверка гипотез / Hypotheses thesting

### Сравнение поведения пользователей двух столиц / Compare the activity of users from two capitals

Первая гипотеза утверждает, что жители Москвы и Санкт-Петербурга имеют разную активность в Яндекс.Музыке.

The first hypothesis states that citizens of Moscow and St. Petersburg have different activities in Yandex.Music.

In [21]:
df.groupby(['city']).count()['user_id']

city
Moscow              42741
Saint-Petersburg    18512
Name: user_id, dtype: int64

Мы сгруппировали данные по городу и подсчитали количество идентификаторов пользоватей в каждом из них, что соответствует количеству прослушиваний. В Москве прослушиваний больше в 2,3 раза. Однако, в Москве живет больше людей, чем в Санкт-Петербугре, поэтому никаких выводов из этих рассчетов мы сделать не можем.

----

We grouped the data by city and counted the number of user IDs in each of them, which corresponds to the number of plays. In Moscow, there are 2.3 times more auditions. However, more people live in Moscow than in St. Petersburg, so we cannot draw any conclusions from these calculations.

In [22]:
df.groupby(['day']).count()['user_id']

day
Friday       21840
Monday       21354
Wednesday    18059
Name: user_id, dtype: int64

Средняя активность по двум городам в срезе по дням недели не имеет значительных отличий между пятницей и понедельником, тогда как в среду она на 3 тыс меньше. Рассчеты в городах по отдельности могут отличаться.

----

The average activity in the two cities in terms of days of the week does not differ significantly between Friday and Monday, while on Wednesday it is 3,000 less. Calculations in cities separately may differ.

Создадим функцию, которая будет делать срез по городу и дню недели и рассчитывать активность слушателей.

Let's create a function that will slice by city and day of the week and calculate listener activity.

In [23]:
def number_tracks(day, city):
    track_list = df[df['day'] == day]
    track_list = track_list[track_list['city'] == city]
    track_list_count = track_list['user_id'].count()
    return track_list_count

In [31]:
# Москва по понедельникам
mos_mon = number_tracks(day='Monday', city='Moscow')
mos_mon

15740

In [32]:
# Санкт-Петербург по понедельникам
spb_mon = number_tracks(day='Monday', city='Saint-Petersburg')
spb_mon

5614

In [33]:
# Москва по средам
mos_wed = number_tracks(day='Wednesday', city='Moscow')
mos_wed

11056

In [37]:
# Санкт-Петербург по средам
spb_wed = number_tracks(day='Wednesday', city='Saint-Petersburg')
spb_wed

7003

In [36]:
# Москва по пятницам
mos_fri = number_tracks(day='Friday', city='Moscow')
mos_fri

15945

In [35]:
# Санкт-Петербург по пятницам
spb_fri = number_tracks(day='Friday', city='Saint-Petersburg')
spb_fri

5895

Объединим данные в таблицу

Unite data in the table

In [40]:
# Таблица с результатами
columns = ['city', 'monday', 'wednesday', 'friday']
data = [
    ['Moscow', mos_mon, mos_wed, mos_fri],
    ['Saint-Petersburg', spb_mon, spb_wed, spb_fri]
]
results = pd.DataFrame(data = data, columns = columns)
results

Unnamed: 0,city,monday,wednesday,friday
0,Moscow,15740,11056,15945
1,Saint-Petersburg,5614,7003,5895


### Выводы / Conclusions

Полученные данные подтверждают первую гипотезу. В Москве музыку слушают больше по понедельникам и пятницам, в то время как в Санкт-Петербурге это среда.

----

The obtained data confirm the first hypothesis. In Moscow, music is listened to more on Mondays and Fridays, while in St. Petersburg it is Wednesday.

### Музыка в начале и в конце недели / Music in the start and in the end of the week

Согласно второй гипотезе, утром в понедельник в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города.

---

According to the second hypothesis, on Monday morning certain genres predominate in Moscow, while others dominate in St. Petersburg. Similarly, Friday evenings are dominated by different genres, depending on the city.

Разделим города на два отдельных датафрэйма

Split cities to different dataframes

In [41]:
moscow_general = df[df['city'] == 'Moscow']
spb_general = df[df['city'] == 'Saint-Petersburg']

Напишем функцию, которая будет на вход принимать датафрэйм, день недели и временной промежуток, и выдавать ТОП10 жанров, которые слушают в данном городе.

----

Let's write a function that will take a dataframe, a day of the week and a time period as input, and give out the TOP 10 genres that are listened to in this city.

In [43]:
def genre_weekday(table, day, time1, time2):
    genre_df = table[table['day'] == day]
    genre_df = genre_df[genre_df['time'] > time1 ]
    genre_df = genre_df[genre_df['time'] < time2 ]
    genre_df_count = genre_df.groupby('genre')['user_id'].count()
    genre_df_sorted = genre_df_count.sort_values(ascending=False)
    return genre_df_sorted.head(10)

In [45]:
# что слушают в городах в понедельник с утра
print('Москва')
display(genre_weekday(moscow_general, 'Monday', '07:00', '11:00'))

print('Санкт-Петербург')
genre_weekday(spb_general, 'Monday', '07:00', '11:00')

Москва


genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: user_id, dtype: int64

Санкт-Петербург


genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: user_id, dtype: int64

In [48]:
# что слушают в городах в пятницу вечером
print('Москва')
display(genre_weekday(moscow_general, 'Friday', '17:00', '23:00'))

print('Санкт-Петербург')
genre_weekday(spb_general, 'Friday', '17:00', '23:00')

Москва


genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
Name: user_id, dtype: int64

Санкт-Петербург


genre
pop            256
electronic     216
rock           216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: user_id, dtype: int64

### Выводы / Conclusions

В целом, можем сделать вывод, что глобальных отличий в прослушиваемых жанрах нет. Однако, можем наблюдать, что жанр `unknown` занял 10-е место в Москве с утра. Это говорит о том, что количество пропусков значительное и меняет выводы о данных.

----

Overall, we can conclude that there are no global differences in the genres listened to. However, we can observe that the `unknown` genre took 10th place in Moscow this morning. This suggests that the number of gaps is significant and changes the conclusions about the data.

### Жанровые предпочтения в Москве и Петербурге / Genre preferences in Moscow and St. Petersburg

Гипотеза: Петербург — столица рэпа, музыку этого жанра там слушают чаще, чем в Москве.  А Москва — город контрастов, в котором, тем не менее, преобладает поп-музыка.

----

Hypothesis: St. Petersburg is the capital of rap, the music of this genre is listened to more often than in Moscow. And Moscow is a city of contrasts, which, nevertheless, is dominated by pop music.

Выведем ТОП10 жанров в Москве

TOP10 genres in Moscow

In [51]:
moscow_genres = moscow_general.groupby('genre')['genre'].count().sort_values(ascending=False)
moscow_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

Выведем ТОП10 жанров в Санкт-Петербурге

TOP10 genres in St. Petersburg

In [53]:
spb_genres = spb_general.groupby('genre')['genre'].count().sort_values(ascending=False)
spb_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

### Выводы / Conclusions

В Москве действительно преобладает поп-музыка, а вот рэп в обоих городах слушают с почти одинаковой частотой. Таким образом, гипотеза подтвердилась частично.

----

Pop music really dominates in Moscow, but rap is listened to with almost the same frequency in both cities. Thus, the hypothesis was partially confirmed.

## Общие выводы / Conclusions

В этом проекте мы работали с данными об активности пользователей Яндекс.Музыки. После изучения данных были устранены такие проблемы, как нестандартные названия колонок, пропуски, и дубликаты.

Далее мы проверили три гипотезы:

* Пользователи из Москвы и Санкт-Петербурга имеют разную активность.

**Гипотеза подтвердилась**. Москва имеет более активных пользователей.

* В двух городах слушают разные жанры в понедельник утром и в пятницу вечером.

**Не подтвердилась**. Жанры в это время примерно одинаковые в двух городах, однако выводы были искажены значением `unknown`, которым заменили пропуски.

* В Москве преобладает поп, а в Санкт-Петербурге - рэп.

**Подтвердилась частично**. Поп преобладает в обоих городах, а прослушивание рэпа имеет почти одинаковую частотность.

----

In this project, we worked with data on the activity of Yandex.Music users. After examining the data, problems such as non-standard column names, gaps, and duplicates were eliminated.

Next, we tested three hypotheses:

* Users from Moscow and St. Petersburg have different activity.

**Hypothesis confirmed**. Moscow has more active users.

* The two cities listen to different genres on Monday morning and Friday night.

**Not confirmed**. The genres at this time are about the same in the two cities, but the conclusions were distorted by the value `unknown`, which was replaced by gaps.

* In Moscow, pop dominates, and in St. Petersburg - rap.

**Partially confirmed**. Pop prevails in both cities, and listening to rap has almost the same frequency.