# Анализ данных музыкального сервиса

### Описание задачи

Необходимо проанализировать данные музыкального сервиса, которые описывают действия пользователей из Москвы и Санкт-Петербурга и проверить следующие предположения:
* пользователи в Москве и Санкт-Петербурге слушают музыку по-разному;
* в понедельник утром и в пятницу вечером в Москве преобладают прослушивания одних жанров, а в Петербурге - других;
* в Петербурге рэп слушают чаще, чем в Москве, а в Москве наиболее популярным жанром является поп-музыка.

### План работы

1. Загрузить и подготовить данные
1.1. Выполнить обзор данных 
1.2. Выполнить предобработку данных
2. Провести проверку гипотез
3. Сделать выводы.

### Описание данных

#### Признаки:

* userID - идентификатор пользователя
* Track - название трека
* artist - имя исполнителя
* genre - название жанра
* City - город пользователя
* time - время начала прослушивания
* Day - день недели прослушивания

## Обзор данных

Первое представление о данных музыкального сервиса.




Основной инструмент в данном проекте — pandas.

In [90]:
# Импорт библиотеки pandas как переменной pd.
import pandas as pd

Чтение файла `yandex_music_project.csv` из папки `/datasets` и сохранение его в переменной `df`:

In [91]:
# Чтение файла с данными и сохранение в df
try:
    df = pd.read_csv('C:/Users/datasets/yandex_music_project.csv')  # Локальный путь
except:
    df = pd.read_csv('/datasets/yandex_music_project.csv')  # Серверный путь

Вывод на экран первых десяти строк таблицы:

In [92]:
# Получение первых 10 строк таблицы df.
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


Получение общей информации о таблице:

In [93]:
# Получение общей информации о данных в таблице df.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
  userID    65079 non-null object
Track       63848 non-null object
artist      57876 non-null object
genre       63881 non-null object
  City      65079 non-null object
time        65079 non-null object
Day         65079 non-null object
dtypes: object(7)
memory usage: 3.5+ MB


Итак, в таблице семь столбцов. Тип данных во всех столбцах — `object`.

Согласно документации к данным:
* `userID` — идентификатор пользователя;
* `Track` — название трека;  
* `artist` — имя исполнителя;
* `genre` — название жанра;
* `City` — город пользователя;
* `time` — время начала прослушивания;
* `Day` — день недели.

В названиях колонок видны три нарушения стиля:
1. Строчные буквы сочетаются с прописными.
2. Встречаются пробелы.
3. Ещё одной проблемой в названиях столбцов является то, что из их названия не всегда понятно, что за данные хранятся в столбце.



Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.


**Выводы**

В каждой строке таблицы — данные о прослушанном треке. Часть колонок описывает саму композицию: название, исполнителя и жанр. Остальные данные рассказывают о пользователе: из какого он города, когда он слушал музыку. 

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а в названиях колонок — расхождения с хорошим стилем.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных
Исправление стиля в заголовках столбцов, исключение пропусков. Затем проверка данных на дубликаты.

### Стиль заголовков
Вывод на экран названия столбцов:

In [94]:
# Перечень названий столбцов таблицы df можно вывести используя метод columns.
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Приведение названий в соответствие с хорошим стилем. Для этого переименуем колонки так:
* `'  userID'` → `'user_id'`;
* `'Track'` → `'track'`;
* `'  City  '` → `'city'`;
* `'Day'` → `'day'`.

In [95]:
# Переименование столбцов выполняется с сиспользованием метода .rename() с параметром columns.
# Параметр columns - это словарь, в котором ключи - это старые названия столбцов, а значения - новые названия.
df = df.rename(columns={'  userID': 'user_id', 'Track': 'track', '  City  ': 'city', 'Day': 'day'})

Проверка результата. Для этого ещё раз выведем на экран названия столбцов:

In [96]:
# Проверка результатов - перечень названий столбцов.
# Для проверки результата и вывода на экран названия стобцов еще раз воспользуемся командой df.columns
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Пропуски значений
Посчитаем количество NaN в каждой колонке методом .isna() вместе с .sum().

In [97]:
# Подсчёт пропусков значений 
df.isna().sum()

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64

Заменим пропущенные значения в столбцах `track`, `artist` и `genre` на строку `'unknown'`.

In [98]:
# Перебор названий столбцов в цикле и замена пропущенных значений на 'unknown'.
# Сначала создаётся список с названиями столбцов для их перебора.
# Затем создаётся цикл for, который перебирает названия столбцов, помещая их в переменную column.
# Для замены пропущенных значений в каждом столбце используется метод .fillna()
columns_to_replace = [['track'],['artist'],['genre']]
for column in columns_to_replace:
    df[column] = df[column].fillna('unknown')

Убедимся, что в таблице не осталось пропусков.

In [99]:
# Подсчёт пропусков методом .isna() вместе с .sum()
# Метод .isna() ищет значения NaN,
# а функция sum() считает их количество.
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Дубликаты
Подсчет явных дубликатов:

In [100]:
# Подсчёт явных дубликатов осуществляется с помощью метода .duplicated()
# Результатом метода .duplicated являются значения True для строк-дубликатов.
# Для подсчета строк-дубликатов результат метода .duplicated() передаётся функции sum().
print("Количество явных дубликатов:", df.duplicated().sum())

Количество явных дубликатов: 3826


Удаление явных дубликатов:

In [101]:
# Удаление явных дубликатов (с удалением старых индексов и формированием новых).
# Для удаления явных дубликатов используется метод .drop_duplicates().
# Для обновления индексации после удаления дубликатов используется метод .reset_index():
# df.drop_duplicates().reset_index().
# Для удаления старых индексов вместе с методом reset_index() используется параметр drop=True:
df = df.drop_duplicates().reset_index(drop=True) 

Повторный подсчет явных дубликатов, чтобы убедиться, что полностью от них избавились:

In [102]:
# Проверка на отсутствие дубликатов.
# Повторно посчитаем дубликаты, воспользовавшись командой df.duplicated().sum():
print("Количество явных дубликатов:", df.duplicated().sum())

Количество явных дубликатов: 0


Поиск неявных дубликатов в столбце 'genre'.

In [103]:
# Просмотр уникальных названий жанров.
# Метод .unique() возвращает список уникальных значений в столбце 'genre',
# а функция sorted() сортирует эти значения в алфавитном порядке:
sorted(df['genre'].unique())


['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'alternativepunk',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'author',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'chanson',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',


Найдены неявные дубликаты *hip*, *hop*, *hip-hop*. Напишем функцию для их замены:

In [104]:
# Функция для замены неявных дубликатов.
# Объявление функции начинается с ключевого слова def, затем следует имя функции с параметрами.
# Для замены каждого неправильного значения на правильное используется метод .replace()
# Метод .replace() содержит в скобках два параметра - 
# список из заменяемых неправильных значений (wrong_genres) и правильное значение (correct_genre).

def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

Замена неявных дубликатов: `hip`, `hop` и `hip-hop` заменяем на `hiphop`.

In [105]:
# Устранение неявных дубликатов.
# Обращение к функции использует её имя и два позиционных аргумента - 
# список неправильных значений и правильное значение.
# Первое значение,список ['hip', 'hop', 'hip-hop'], передается первому параметру функции - wrong_genres,
# второе значение, 'hiphop', передаётся второму параметру функции - correct_genre.
replace_wrong_genres(['hip', 'hop', 'hip-hop'], 'hiphop')

Повторный просмотр списка уникальных значений столбца `genre`:

In [106]:
# Проверка на неявные дубликаты.
# Повторный просмотр уникальных значений жанров с помощью метода .unique() и функции sorted()
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'alternativepunk',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'author',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'chanson',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',


Неявные дубликаты были удалены.

**Вывод**

Были обнаружены следующие проблемы в данных:

- нарушения в стиле заголовков,
- пропущенные значения,
- явные и неявные дубликаты.

Указанные проблемы были устранены.

## Проверка гипотез

### Сравнение предпочтений пользователей в Москве и Санкт-Петербурге

Проверим гипотезу о том, что пользователи в Москве и Санкт-Петербурге по-разному слушают музыку.

Сначала выполним подсчет числа прослушиваний в каждом городе.

In [107]:
# Подсчёт прослушиваний в каждом городе.
# Таблица df группируется по городу с помощью метода .groupby()
# и с помощью count() подсчитываются прослушивания в каждой группе.
df.groupby('city').count()

Unnamed: 0_level_0,user_id,track,artist,genre,time,day
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Moscow,42741,42741,42741,42741,42741,42741
Saint-Petersburg,18512,18512,18512,18512,18512,18512


В Москве число прослушиваний оказалось больше.

Теперь подсчитаем общее число прослушиваний в обоих городах по дням недели.

In [108]:
# Подсчёт прослушиваний в каждый из трёх дней.
# Таблица df группируется по дням с помощью метода groupby()
# и с помощью count() подсчитываются прослушивания в каждой группе - 
# в понедельник, среду и пятницу.
df.groupby('day').count()

Unnamed: 0_level_0,user_id,track,artist,genre,city,time
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Friday,21840,21840,21840,21840,21840,21840
Monday,21354,21354,21354,21354,21354,21354
Wednesday,18059,18059,18059,18059,18059,18059


Меньше всего слушают музыку в среду. Данные имеются только для понедельника, среды и пятницы.

Теперь напишем функцию для подсчета числа прослушиваний в определенном городе в определенный день недели.

In [109]:
# <создание функции number_tracks()>
# Объявляется функция с двумя параметрами: day, city.
# В переменной track_list сохраняются те строки таблицы df, для которых 
# значение в столбце 'day' равно параметру day и одновременно значение
# в столбце 'city' равно параметру city (используйте последовательную фильтрацию
# с помощью логической индексации).
# В переменной track_list_count сохраняется число значений столбца 'user_id',
# рассчитанное методом count() для таблицы track_list.
# Функция возвращает число - значение track_list_count.

# Функция для подсчёта прослушиваний для конкретного города и дня.
# С помощью последовательной фильтрации с логической индексацией она 
# сначала получит из исходной таблицы строки с нужным днём,
# затем из результата отфильтрует строки с нужным городом,
# методом count() посчитает количество значений в колонке user_id. 
# Это количество функция вернёт в качестве результата
def number_tracks(day, city):
    track_list = df[df['day'] == day]
    track_list = track_list[track_list['city'] == city]
    track_list_count = track_list['user_id'].count()
    return track_list_count

Используем написанную функцию для получения числа прослушиваний в каждом городе в каждый день недели (данные имеются для понедельника, среды и пятницы).

In [110]:
# количество прослушиваний в Москве по понедельникам.
# Вызывается функция number_tracks() c двумя позиционными аргументами,
# которые передаются соответствующим параметрам функции -
# значение 'Monday' передается параметру day,
# а значение 'Moscow' передается параметру city.
print("Количество прослушиваний в Москве в понедельник:", number_tracks('Monday', 'Moscow'))

Количество прослушиваний в Москве в понедельник: 15740


In [111]:
# количество прослушиваний в Санкт-Петербурге по понедельникам.
# Вызывается функция number_tracks() c двумя позиционными аргументами,
# которые передаются соответствующим параметрам функции -
# значение 'Monday' передается параметру day,
# а значение 'Saint-Petersburg' передается параметру city.
print("Количество прослушиваний в Санкт-Петербурге по понедельникам:", number_tracks('Monday', 'Saint-Petersburg'))

Количество прослушиваний в Санкт-Петербурге по понедельникам: 5614


In [112]:
# количество прослушиваний в Москве по средам.
# Вызывается функция number_tracks() c двумя позиционными аргументами,
# которые передаются соответствующим параметрам функции -
# значение 'Wednesday' передается параметру day,
# а значение 'Moscow' передается параметру city.
print("Количество прослушиваний в Москве по средам:", number_tracks('Wednesday', 'Moscow'))

Количество прослушиваний в Москве по средам: 11056


In [113]:
# количество прослушиваний в Санкт-Петербурге по средам.
# Вызывается функция number_tracks() c двумя позиционными аргументами,
# которые передаются соответствующим параметрам функции -
# значение 'Wednesday' передается параметру day,
# а значение 'Saint-Petersburg' передается параметру city.
print("Количество прослушиваний в Санкт-Петербурге по средам:", number_tracks('Wednesday', 'Saint-Petersburg'))

Количество прослушиваний в Санкт-Петербурге по средам: 7003


In [114]:
# количество прослушиваний в Москве по пятницам.
# Вызывается функция number_tracks() c двумя позиционными аргументами,
# которые передаются соответствующим параметрам функции -
# значение 'Friday' передается параметру day,
# а значение 'Moscow' передается параметру city.
print("Количество прослушиваний в Москве по пятницам:", number_tracks('Friday', 'Moscow'))

Количество прослушиваний в Москве по пятницам: 15945


In [115]:
# количество прослушиваний в Санкт-Петербурге по пятницам.
# Вызывается функция number_tracks() c двумя позиционными аргументами,
# которые передаются соответствующим параметрам функции -
# значение 'Friday' передается параметру day,
# а значение 'Saint-Petersburg' передается параметру city.
print("Количество прослушиваний в Санкт-Петербурге по пятницам:", number_tracks('Friday', 'Saint-Petersburg'))

Количество прослушиваний в Санкт-Петербурге по пятницам: 5895


Для удобства сравнения полученных результатов создадим на их основе таблицу.

In [116]:
# Таблица с результатами.
# Создание таблицы с указанием названий колонок с помощью параметра columns
# и с указанием построчно данных для разных городов - Moscow и Saint-Petersburg.
pd.DataFrame(data=[['Moscow', 15740, 11056, 15945], ['Saint-Petersburg', 5614, 7003, 5895]], columns=['city', 'monday', 'wednesday', 'friday'])

Unnamed: 0,city,monday,wednesday,friday
0,Moscow,15740,11056,15945
1,Saint-Petersburg,5614,7003,5895


**Выводы**

Данные показывают разницу поведения пользователей:

- В Москве пик прослушиваний приходится на понедельник и пятницу, а в среду заметен спад.
- В Петербурге, наоборот, больше слушают музыку по средам. Активность в понедельник и пятницу здесь почти в равной мере уступает среде.

Значит, данные говорят в пользу сформулированной гипотезы.

### Прослушивания в начале недели и в конце

Проверим следующую гипотезу, согласно которой в понедельник утром и в пятницу вечером в Москве преобладают прослушивания одних жанров, а в Петербурге - других.

Выделим данные для Москвы и Санкт-Петербурга и сохраним в разные таблицы.

In [117]:
# Получение таблицы moscow_general из тех строк таблицы df, 
# для которых значение в столбце 'city' равно 'Moscow'.
moscow_general = df[df['city'] == 'Moscow']

In [118]:
# Получение таблицы spb_general из тех строк таблицы df,
# для которых значение в столбце 'city' равно 'Saint-Petersburg'.
spb_general = df[df['city'] == 'Saint-Petersburg']

Создание функции, возвращающей 10 самых популярных жанров, с четырьмя параметрами:

* table - таблица с данными
* day - день недели
* time1 - начало временного интервала в формате 'hh:mm'
* time2 - конец временного интервала в формате 'hh:mm'.



In [119]:
# Объявление функции genre_weekday() с параметрами table, day, time1, time2,
# которая возвращает информацию о самых популярных жанрах в указанный день в
# заданное время:
# 1) в переменную genre_df сохраняются те строки переданного датафрейма table, для
#    которых одновременно:
#    - значение в столбце day равно значению аргумента day
#    - значение в столбце time больше значения аргумента time1
#    - значение в столбце time меньше значения аргумента time2
#    Используйте последовательную фильтрацию с помощью логической индексации.
# 2) сгруппировать датафрейм genre_df по столбцу genre, взять один из его
#    столбцов и посчитать методом count() количество записей для каждого из
#    присутствующих жанров, получившийся Series записать в переменную
#    genre_df_count
# 3) отсортировать genre_df_count по убыванию встречаемости и сохранить
#    в переменную genre_df_sorted
# 4) вернуть Series из 10 первых значений genre_df_sorted, это будут топ-10
#    популярных жанров (в указанный день, в заданное время)
def genre_weekday(table, day, time1, time2):
  genre_df = table[table['day'] == day]
  genre_df = genre_df[genre_df['time'] > time1]
  genre_df = genre_df[genre_df['time'] < time2]
  genre_df_count = genre_df.groupby('genre')['track'].count()
  genre_df_sorted = genre_df_count.sort_values(ascending=False)
  return genre_df_sorted.head(10)

10 самых популярных жанров в понедельник утром в Москве.

In [120]:
# Вызов функции для утра понедельника в Москве (вместо df — таблица moscow_general).
# Объекты, хранящие время, являются строками и сравниваются как строки.
# При вызове функции таблица moscow_general передается параметру функции table,
# значение 'Monday' передается параметру функции day,
# значение '07:00' - параметру time1, значение '11:00' - параметру time2.
# Пример вызова: genre_weekday(moscow_general, 'Monday', '07:00', '11:00')
genre_weekday(moscow_general, 'Monday', '07:00', '11:00')

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: track, dtype: int64

10 самых популярных жанров в понедельник утром в Петербурге.

In [121]:
# Вызов функции для утра понедельника в Петербурге (вместо df — таблица spb_general).
# При вызове функции таблица spb_general передается параметру функции table,
# значение 'Monday' передается параметру функции day,
# значение '07:00' - параметру time1, значение '11:00' - параметру time2.
genre_weekday(spb_general, 'Monday', '07:00', '11:00')

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: track, dtype: int64

10 самых популярных жанров в пятницу вечером в Москве.

In [122]:
# Вызов функции для вечера пятницы в Москве.
# При вызове функции таблица moscow_general передается параметру функции table,
# значение 'Friday' передается параметру функции day,
# значение '17:00' - параметру time1, значение '23:00' - параметру time2.
genre_weekday(moscow_general, 'Friday', '17:00', '23:00')

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
Name: track, dtype: int64

10 самых популярных жанров в пятницу вечером в Петербурге.

In [123]:
# вызов функции для вечера пятницы в Петербурге.
# При вызове функции таблица spb_general передается параметру функции table,
# значение 'Friday' передается параметру функции day,
# значение '17:00' - параметру time1, значение '23:00' - параметру time2.
genre_weekday(spb_general, 'Friday', '17:00', '23:00')

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: track, dtype: int64

**Выводы**

Если сравнить топ-10 жанров в понедельник утром, можно сделать такие выводы:

1. В Москве и Петербурге слушают похожую музыку. Единственное отличие — в московский рейтинг вошёл жанр “world”, а в петербургский — джаз и классика.

2. В Москве пропущенных значений оказалось так много, что значение `'unknown'` заняло десятое место среди самых популярных жанров. Значит, пропущенные значения занимают существенную долю в данных и угрожают достоверности исследования.

Вечер пятницы не меняет эту картину. Некоторые жанры поднимаются немного выше, другие спускаются, но в целом топ-10 остаётся тем же самым.

Таким образом, вторая гипотеза подтвердилась лишь частично:
* Пользователи слушают похожую музыку в начале недели и в конце.
* Разница между Москвой и Петербургом не слишком выражена. В Москве чаще слушают русскую популярную музыку, в Петербурге — джаз.

Однако пропуски в данных ставят под сомнение этот результат. В Москве их так много, что рейтинг топ-10 мог бы выглядеть иначе, если бы не утерянные  данные о жанрах.

### Музыкальные предпочтения в Москве и Петербурге

Проверим следующую гипотезу, которая заключается в том, что в Петербурге рэп слушают чаще, чем в Москве, а в Москве наиболее популярным жанром является поп-музыка.

Получим таблицу для Москвы, включающую в себя жанры, отсортированные в порядке убывания их популярности.

In [130]:
# одной строкой: группировка таблицы moscow_general по столбцу 'genre', 
# подсчёт числа значений 'genre' в этой группировке методом count(), 
# сортировка получившегося Series в порядке убывания и сохранение в moscow_genres
moscow_genres = moscow_general.groupby('genre')['track'].count().sort_values(ascending=False)

Выведем для Москвы 10 самых популярных музыкальных жанров.

In [135]:
# просмотр первых 10 строк moscow_genres
# с помощью метода .head(). Число строк указывается в скобках.
print("Количество прослушиваний 10 самых популярных жанров в Москве:")
print()
print(moscow_genres.head(10))

Количество прослушиваний 10 самых популярных жанров в Москве:

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: track, dtype: int64


Теперь получим 10 смых популярных жанров для Петербурга.

In [132]:
# одной строкой: группировка таблицы spb_general по столбцу 'genre', 
# подсчёт числа значений 'genre' в этой группировке методом count(), 
# сортировка получившегося Series в порядке убывания и сохранение в spb_genres
spb_genres = spb_general.groupby('genre')['track'].count().sort_values(ascending=False)

In [136]:
# просмотр первых 10 строк spb_genres.
# С этой целью используется метод .head().
print("Количество прослушиваний 10 самых популярных жанров в Санкт-Петербурге:")
print()
print(spb_genres.head(10))

Количество прослушиваний 10 самых популярных жанров в Санкт-Петербурге:

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: track, dtype: int64


**Выводы**

Гипотеза частично подтвердилась:
* Поп-музыка — самый популярный жанр в Москве, как и предполагала гипотеза. Более того, в топ-10 жанров встречается близкий жанр — русская популярная музыка.
* Вопреки ожиданиям, рэп одинаково популярен в Москве и Петербурге. 


## Общие выводы

В результате проверки трех предположений можно сделать следующие выводы:
1. Число прослушиваний в зависимости от дня недели определяется по-разному в Москве и Санкт-Петербурге. Первая гипотеза полностью подтвердилась;
2. Музыкальные предпочтения в Москве и Петербурге в течение недели меняются не сильно. Различия в предпочтениях в Москве и Петербурге заметно в понедельник, когда в Москве слушают музыку жанра “world”, а в Петербурге - джаз и классику. Вторая гипотеза подтвердилась частично;
3. Музыкальные прдпочтения пользователей в Москве и Петербурге во многом схожи, в них больше общего, чем отличий. Третья гипотеза не подтвердилась, так как отличия на основной массе пользователей незаметны.