# Яндекс.Музыка

Сравнение Москвы и Петербурга окружено мифами. Например:
 * Москва — мегаполис, подчинённый жёсткому ритму рабочей недели;
 * Петербург — культурная столица, со своими вкусами.

На данных Яндекс.Музыки сравним поведение пользователей двух столиц.

**Цель исследования** — проверить три гипотезы:
1. Активность пользователей зависит от дня недели. Причём в Москве и Петербурге это проявляется по-разному.
2. В понедельник утром в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города. 
3. Москва и Петербург предпочитают разные жанры музыки. В Москве чаще слушают поп-музыку, в Петербурге — русский рэп.

**Ход исследования**

Данные о поведении пользователей мы получаем из файла `yandex_music_project.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. 

Проверим данные на ошибки и оценим их влияние на исследование. Затем, на этапе предобработки мы найдем возможность исправить самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.



## Обзор данных

Составьте первое представление о данных Яндекс.Музыки.




Основной инструмент аналитика — `pandas`. Импортируем эту библиотеку.

In [1]:
import pandas as pd

Прочитаем файл `yandex_music_project.csv` из папки `/datasets` и сохраним его в переменной `df`:

In [2]:
df = pd.read_csv('/datasets/yandex_music_project.csv')

Выведем на экран первые десять строк таблицы:

In [3]:
display(df.head(10))

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


Одной командой получим общую информацию о таблице:

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
  userID    65079 non-null object
Track       63848 non-null object
artist      57876 non-null object
genre       63881 non-null object
  City      65079 non-null object
time        65079 non-null object
Day         65079 non-null object
dtypes: object(7)
memory usage: 3.5+ MB


Итак, в таблице семь столбцов. Тип данных во всех столбцах — `object`.

Согласно документации к данным:
* `userID` — идентификатор пользователя;
* `Track` — название трека;  
* `artist` — имя исполнителя;
* `genre` — название жанра;
* `City` — город пользователя;
* `time` — время начала прослушивания;
* `Day` — день недели.

В названиях колонок видны три нарушения стиля:
1. Строчные буквы сочетаются с прописными.
2. Встречаются пробелы.
3. Несколько слов написано слитно, а по правилам хорошого тона необходимо прописать в "змеином регистре"



Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.


**Выводы**

В каждой строке таблицы — данные о прослушанном треке. Часть колонок описывает саму композицию: название, исполнителя и жанр. Остальные данные рассказывают о пользователе: из какого он города, когда он слушал музыку. 

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а в названиях колонок — расхождения с хорошим стилем.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных
Исправим стиль в заголовках столбцов, исключим пропуски. Затем проверим данные на дубликаты.

### Стиль заголовков
Вывевем на экран названия столбцов:

In [5]:
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Приведите названия в соответствие с хорошим стилем:
* несколько слов в названии запишите в «змеином_регистре»,
* все символы сделайте строчными,
* устраните пробелы.

Для этого напишем **функцию `columns_to_norm` для переименования колонок**, которую можно будет использовать при больших объемах данных:

In [6]:
def columns_to_norm(columns):
  columns_new = []
  for column in columns:
    name = []
    for index in range(len(column)):
      if column[index] != ' ' and column[index] != '_':
        name.append(column[index])     
      elif index + 1 <= len(column)-1 and index - 1 >= 0 and len(name) != 0:  # условие отсекающее ошибку выхода за границы индексирования и добавления "_" первым знаком   
        if (column[index + 1] != ' ' and column[index + 1] != '_'):           # проверка следующего индекса на наличие значения         
          name.append('_')
    name = ''.join(name)
    name = name.lower()
    columns_new.append(name)
  df.columns = columns_new
  return df.columns

Примерим созданную функцию для корректировки названия столбцов и проверим результат.

In [7]:
columns_to_norm(df.columns)
df = df.rename(columns={'userid':'user_id'})
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Пропуски значений
Сначала посчитаем, сколько в таблице пропущенных значений. Для этого достаточно двух методов `pandas`:

In [8]:
df.isna().sum()

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64

Не все пропущенные значения влияют на исследование. Так в `track` и `artist` пропуски не важны для вашей работы. Достаточно заменить их явными обозначениями.

Но пропуски в `genre` могут помешать сравнению музыкальных вкусов в Москве и Санкт-Петербурге. На практике было бы правильно установить причину пропусков и восстановить данные. Такой возможности у нас нет в рамках учебного проекта. Придётся:
* заполнить и эти пропуски явными обозначениями,
* оценить, насколько они повредят расчётам. 

Заменим пропущенные значения в столбцах `track`, `artist` и `genre` на строку `'unknown'`. Для этого создадим список `columns_to_replace`, переберем его элементы циклом `for` и для каждого столбца выполним замену пропущенных значений:

In [9]:
columns_to_replace = ['track', 'artist', 'genre']
for column_to_replace in columns_to_replace:
    df[column_to_replace] = df[column_to_replace].fillna('unknown')

Убедимся, что в таблице не осталось пропусков. Для этого ещё раз посчитаем пропущенные значения.

In [10]:
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Дубликаты
Посчитаем явные дубликаты в таблице одной командой:

In [11]:
df.duplicated().sum()

3826

Вызовем специальный метод `pandas`, чтобы удалить явные дубликаты с обновлением индексов:

In [12]:
df = df.drop_duplicates().reset_index(drop=True)

Ещё раз посчитаем явные дубликаты в таблице — убедимся, что полностью от них избавились:

In [13]:
df.duplicated().sum()

0

Теперь пока избавиться от неявных дубликатов в колонке `genre`. Например, название одного и того же жанра может быть записано немного по-разному. Такие ошибки тоже повлияют на результат исследования.

Выведем на экран список уникальных названий жанров, отсортированный в алфавитном порядке. Для этого:
* извлечем нужный столбец датафрейма, 
* применим к нему метод сортировки,
* для отсортированного столбца вызовем метод, который вернёт уникальные значения из столбца.

In [14]:
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'alternativepunk',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'author',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'chanson',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',


Просмотрим список и найдем неявные дубликаты названия `hiphop` и `electronic`. Это могут быть названия с ошибками или альтернативные названия того же жанра.

Мы видим следующие неявные дубликаты и ошибки отображения языкового шифрования:

* *hip*,
* *hop*,
* *hip-hop*,
* ***электроника***,
* ***electronic***,
* ***ïîï***.

Чтобы очистить от них таблицу, напишем функцию `replace_wrong_genres()` с двумя параметрами: 
* `wrong_genres` — список дубликатов,
* `correct_genre` — строка с правильным значением.

Функция должна исправить колонку `genre` в таблице `df`: заменить каждое значение из списка `wrong_genres` на значение из `correct_genre`.

In [15]:
def replace_wrong_target_column(target_column, wrong_names, correct_name):
    for wrong_name in wrong_names:
        df[target_column] = df[target_column].replace(wrong_name, correct_name)

Вызовем `replace_wrong_genres()` и передадим ей такие аргументы, чтобы она устранила неявные дубликаты: вместо `hip`, `hop` и `hip-hop` в таблице должно быть значение `hiphop`. Аналогично поступим для `electronic` вместо `электроника` и `unknown` вместо `ïîï`

In [16]:
duplicates_hiphop = ['hip', 'hop', 'hip-hop']
replace_wrong_target_column('genre', duplicates_hiphop, 'hiphop')

duplicates_electronic = ['электроника']
replace_wrong_target_column('genre', duplicates_electronic, 'electronic')

duplicates_unknown_genre = ['ïîï']
replace_wrong_target_column('genre', duplicates_unknown_genre, 'unknown')

Проверим, что заменили неправильные названия:

*   hip,
*   hop,
*   hip-hop,
* **электроника**,
* **electronic**,
* **ïîï**.

Выведем отсортированный список уникальных значений столбца `genre`:

In [17]:
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'alternativepunk',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'author',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'chanson',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',


**Выводы**

Предобработка обнаружила три проблемы в данных:

- нарушения в стиле заголовков,
- пропущенные значения,
- дубликаты — явные и неявные.

Мы исправили заголовки, чтобы упростить работу с таблицей. Без дубликатов исследование станет более точным.

Пропущенные значения мы заменили на `'unknown'`. Ещё предстоит увидеть, не повредят ли исследованию пропуски в колонке `genre`.

Теперь можно перейти к проверке гипотез. 

## Проверка гипотез

### Сравнение поведения пользователей двух столиц

Первая гипотеза утверждает, что пользователи по-разному слушают музыку в Москве и Санкт-Петербурге. Проверим это предположение по данным о трёх днях недели — понедельнике, среде и пятнице. Для этого:

* Разделим пользователей Москвы и Санкт-Петербурга
* Сравним, сколько треков послушала каждая группа пользователей в понедельник, среду и пятницу.


Для начала узнаем, по каким данным у нас есть статистика в данных.

Оценим активность пользователей в каждом городе. Сгруппируем данные по городу и посчитаем прослушивания в каждой группе.



---

In [18]:
df.groupby('city')['track'].count()

city
Moscow              42741
Saint-Petersburg    18512
Name: track, dtype: int64

In [19]:
for city in df['city'].unique():
    print(f'\n В городе {city} в исходных данных количество уникальных пользователей равно',
          len(df[df['city'] == city]['user_id'].unique()))


 В городе Saint-Petersburg в исходных данных количество уникальных пользователей равно 12423

 В городе Moscow в исходных данных количество уникальных пользователей равно 29358


Как мы видим, в Москве прослушиваний больше, чем в Петербурге. Однако и самих пользователей в Москве больше.

---

In [20]:
df['day'].unique()

array(['Wednesday', 'Friday', 'Monday'], dtype=object)

Получается в данных у нас есть информация только за понедельник, среду и пятницу. Для проверки нашей гипотезы этого достаточно.

Оценим активность пользователей в каждом городе в разные дни недели. Применим фильтр по городу и затем посчитаем количество прослушиваний по дням недели.

In [21]:
target_days = ['Monday','Wednesday','Friday']
cities = ['Saint-Petersburg','Moscow']

data = []

for city in cities:
    df_day = df[df['city'] == city]
    users_city = len(df_day['user_id'].unique())
    data_city = []
    data_city.extend([city, users_city])
    for day in target_days:
        df_day_city = df_day[df_day['day'] == day]['day'].count()
        data_city.append(df_day_city)
    data.append(data_city)

Результаты оформим в виде таблицы с помощью конструктора `pd.DataFrame`, где
* названия колонок — `['city','total_users', 'monday', 'wednesday', 'friday']`;
* данные — результаты в переменной `data`, которые мы получили с помощью последовательной фильтрации.

In [22]:
columns_for_df = ['city', 'total_users', 'monday', 'wednesday', 'friday']

df_hypothesis_1 = pd.DataFrame(data=data, columns=columns_for_df)
display(df_hypothesis_1)

Unnamed: 0,city,total_users,monday,wednesday,friday
0,Saint-Petersburg,12423,5614,7003,5895
1,Moscow,29358,15740,11056,15945


Как мы видим, в Москве прослушиваний больше, чем в Петербурге. Однако и самих пользователей в Москве больше.


Создадим функцию `number_tracks()` для подсчёта прослушиваний по заданным городу и дню c динамическим списком

In [23]:
def number_tracks(cities, days):
    city_daily_tracks_info = []
    for city in cities:
        city_daily_info = []
        city_daily_info.append(city)
        for day in days:
            city_daily_info.append(df[
                (df['city'] == city) &
                (df['day'] == day)
            ]['track'].count())
        city_daily_tracks_info.append(city_daily_info)
    
    columns_for_df = ['City'] + days
    display(pd.DataFrame(data=city_daily_tracks_info, columns=columns_for_df))

Укажем желаемые города и дни для анализа:

In [24]:
target_days = ['Monday','Wednesday','Friday']
cities = ['Saint-Petersburg','Moscow']

Применим функцию `number_tracks()`

In [25]:
number_tracks(cities,target_days)

Unnamed: 0,City,Monday,Wednesday,Friday
0,Saint-Petersburg,5614,7003,5895
1,Moscow,15740,11056,15945


---

**Выводы**

Данные показывают разницу поведения пользователей:

- В Москве пик прослушиваний приходится на понедельник и пятницу, а в среду заметен спад.
- В Петербурге, наоборот, больше слушают музыку по средам. Активность в понедельник и пятницу здесь почти в равной мере уступает среде.

Значит, данные говорят в пользу первой гипотезы.

### Музыка в начале и в конце недели

Согласно второй гипотезе, утром в понедельник в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города.

Сохраним таблицы с данными в две переменные:
* по Москве — в `moscow_general`;
* по Санкт-Петербургу — в `spb_general`.

In [26]:
moscow_general = df[df['city'] == 'Moscow']
display(moscow_general.head())

Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,unknown,ruspop,Moscow,09:17:40,Friday


In [27]:
spb_general = df[df['city'] == 'Saint-Petersburg']
display(spb_general.head())

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Saint-Petersburg,21:20:49,Wednesday


Создадим функцию `genre_weekday()` с четырьмя параметрами:
* таблица (датафрейм) с данными,
* день недели,
* начальная временная метка в формате 'hh:mm', 
* последняя временная метка в формате 'hh:mm'.

Функция должна вернуть информацию о топ-15 жанров тех треков, которые прослушивали в указанный день, в промежутке между двумя отметками времени.

In [28]:
def genre_weekday(table, day, time1, time2):
    genre_df = table[
        (table['day'] == day) &
        (table['time'] >= time1) &
        (table['time'] <= time2)
    ]
    genre_df_count = genre_df.groupby('genre')['day'].count()
    genre_df_sorted = genre_df_count.sort_values(ascending=False)
    genre_df_sorted_head = genre_df_sorted.head(15)
    display(genre_df_sorted.head(15))

Cравним результаты функции `genre_weekday()` для Москвы и Санкт-Петербурга в понедельник утром (с 7:00 до 11:00) и в пятницу вечером (с 17:00 до 23:00):

In [29]:
genre_weekday(moscow_general, 'Monday', '07:00', '11:00')

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: day, dtype: int64

In [30]:
genre_weekday(spb_general, 'Monday', '07:00', '11:00')

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
metal           27
rnb             27
Name: day, dtype: int64

In [31]:
genre_weekday(moscow_general, 'Friday', '17:00', '23:00')

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: day, dtype: int64

In [32]:
genre_weekday(spb_general, 'Friday', '17:00', '23:00')

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
ruspop          47
unknown         47
soundtrack      40
metal           39
rap             36
Name: day, dtype: int64

**Выводы**

Если сравнить топ-15 жанров в понедельник утром, можно сделать такие выводы:

1. В Москве и Петербурге слушают похожую музыку. Единственное отличие — в московский рейтинг вошёл жанр folk, а в петербургский — rap и r&b.

2. В Москве пропущенных значений оказалось так много, что значение `'unknown'` вошло в топ-15 среди самых популярных жанров. Значит, пропущенные значения занимают существенную долю в данных и угрожают достоверности исследования.

Вечер пятницы не меняет эту картину. Некоторые жанры поднимаются немного выше, другие спускаются, но в целом топ-15 остаётся тем же самым.

Таким образом, вторая гипотеза подтвердилась лишь частично:
* Пользователи слушают похожую музыку в начале недели и в конце.
* Разница между Москвой и Петербургом не слишком выражена.

Однако пропуски в данных ставят под сомнение этот результат. В Москве их так много, что рейтинг топ-15 мог бы выглядеть иначе, если бы не утерянные  данные о жанрах.

### Жанровые предпочтения в Москве и Петербурге

Гипотеза: Петербург — столица рэпа, музыку этого жанра там слушают чаще, чем в Москве.  А Москва — город контрастов, в котором, тем не менее, преобладает поп-музыка.

Сгруппируем таблицу `moscow_general` по жанру и посчитаем прослушивания треков каждого жанра методом `count()`. Затем отсортируем результат в порядке убывания и сохраним его в таблице `moscow_genres`.

In [33]:
moscow_genres = moscow_general.groupby('genre')['track'].count().sort_values(ascending=False)

Выведием на экран первые десять строк `moscow_genres`:

In [34]:
moscow_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: track, dtype: int64

Теперь повторим то же и для Петербурга.

Сгруппируем таблицу `spb_general` по жанру. Посчитаем прослушивания треков каждого жанра. Результат отсортируем в порядке убывания и сохраним в таблице `spb_genres`:


In [35]:
spb_genres = spb_general.groupby('genre')['track'].count().sort_values(ascending=False)

Выведем на экран первые десять строк `spb_genres`:

In [36]:
spb_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1737
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: track, dtype: int64

**Выводы**

Гипотеза частично подтвердилась:
* Поп-музыка — самый популярный жанр в Москве, как и предполагала гипотеза. Более того, в топ-10 жанров встречается близкий жанр — русская популярная музыка.
* Вопреки ожиданиям, рэп одинаково популярен в Москве и Петербурге. 


## Итоги исследования

На основании данных одного сервиса мы проверили три гипотезы и установили:

1. День недели по-разному влияет на активность пользователей в Москве и Петербурге. 

***Первая гипотеза полностью подтвердилась***.


2. Музыкальные предпочтения не сильно меняются в течение недели — будь то Москва или Петербург. Небольшие различия заметны в начале недели, по понедельникам:

*  в Москве слушают музыку жанра **folk**, 
*  в Петербурге — **rap** и **r&b**.

* В Москве пропущенных значений оказалось так много, что значение `'unknown'` вошло в **топ-15** среди самых популярных жанров. Значит, пропущенные значения занимают существенную долю в данных и угрожают достоверности исследования.

Таким образом, ***вторая гипотеза подтвердилась лишь отчасти***. Этот результат мог оказаться иным, если бы не пропуски в данных.


3. Во вкусах пользователей Москвы и Петербурга больше общего чем различий. Вопреки ожиданиям, предпочтения жанров в Петербурге напоминают московские.

* Поп-музыка — самый популярный жанр в Москве.
* Рэп одинаково популярен в Москве и Петербурге. 

***Третья гипотеза подтвердилась частично***. Если различия в предпочтениях и существуют, на основной массе пользователей они незаметны.