# Яндекс.Музыка

Сравнение Москвы и Петербурга окружено мифами. Например:
 * Москва — мегаполис, подчинённый жёсткому ритму рабочей недели;
 * Петербург — культурная столица, со своими вкусами.

На данных Яндекс.Музыки вы сравните поведение пользователей двух столиц.

**Цель исследования** — проверьте три гипотезы:
1. Активность пользователей зависит от дня недели. Причём в Москве и Петербурге это проявляется по-разному.
2. В понедельник утром в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города. 
3. Москва и Петербург предпочитают разные жанры музыки. В Москве чаще слушают поп-музыку, в Петербурге — русский рэп.

**Ход исследования**

Данные о поведении пользователей вы получите из файла `yandex_music_project.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. 

Вы проверите данные на ошибки и оцените их влияние на исследование. Затем, на этапе предобработки вы поищете возможность исправить самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.



## Обзор данных

Составьте первое представление о данных Яндекс.Музыки.




Основной инструмент аналитика — `pandas`. Импортируйте эту библиотеку.

In [3]:
import pandas as pd

Прочитайте файл `yandex_music_project.csv` из папки `/datasets` и сохраните его в переменной `df`:

In [5]:
ym = pd.read_csv(r'C:\Users\stazher3\Downloads\Yandex.Disk.Files\[SLIV.ONE] 13 Проект музыка больших городов\yandex_music_project.csv')

Выведите на экран первые десять строк таблицы:

In [6]:
ym.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


Одной командой получить общую информацию о таблице:

In [7]:
ym.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Итак, в таблице семь столбцов. Тип данных во всех столбцах — `object`.

Согласно документации к данным:
* `userID` — идентификатор пользователя;
* `Track` — название трека;  
* `artist` — имя исполнителя;
* `genre` — название жанра;
* `City` — город пользователя;
* `time` — время начала прослушивания;
* `Day` — день недели.

В названиях колонок видны три нарушения стиля:
1. Строчные буквы сочетаются с прописными.
2. Встречаются пробелы.
3. Найдите ещё одну проблему в названии колонок и опишите её в этом пункте.



Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.


**Выводы**

В каждой строке таблицы — данные о прослушанном треке. Часть колонок описывает саму композицию: название, исполнителя и жанр. Остальные данные рассказывают о пользователе: из какого он города, когда он слушал музыку. 

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а в названиях колонок — расхождения с хорошим стилем.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных
Исправьте стиль в заголовках столбцов, исключите пропуски. Затем проверьте данные на дубликаты.

### Стиль заголовков
Выведите на экран названия столбцов:

In [8]:
ym = ym.rename(columns={'  userID': 'user_id','Track' : 'track', '  City  ' : 'city', 'Day': 'day'} )

In [9]:
ym.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Приведите названия в соответствие с хорошим стилем:
* несколько слов в названии запишите в «змеином_регистре»,
* все символы сделайте строчными,
* устраните пробелы.

Для этого переименуйте колонки так:
* `'  userID'` → `'user_id'`;
* `'Track'` → `'track'`;
* `'  City  '` → `'city'`;
* `'Day'` → `'day'`.

In [10]:
# переименование столбцов

Проверьте результат. Для этого ещё раз выведите на экран названия столбцов:

In [11]:
# проверка результатов - перечень названий столбцов

### Пропуски значений
Сначала посчитайте, сколько в таблице пропущенных значений. Для этого достаточно двух методов `pandas`:

In [12]:
ym.isna().sum()

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64

Не все пропущенные значения влияют на исследование. Так в `track` и `artist` пропуски не важны для вашей работы. Достаточно заменить их явными обозначениями.

Но пропуски в `genre` могут помешать сравнению музыкальных вкусов в Москве и Санкт-Петербурге. На практике было бы правильно установить причину пропусков и восстановить данные. Такой возможности нет в учебном проекте. Придётся:
* заполнить и эти пропуски явными обозначениями,
* оценить, насколько они повредят расчётам. 

Замените пропущенные значения в столбцах `track`, `artist` и `genre` на строку `'unknown'`. Для этого создайте список `columns_to_replace`, переберите его элементы циклом `for` и для каждого столбца выполните замену пропущенных значений:

In [13]:
ym = ym.fillna("unknown")

Убедитесь, что в таблице не осталось пропусков. Для этого ещё раз посчитайте пропущенные значения.

In [14]:
ym.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Дубликаты
Посчитайте явные дубликаты в таблице одной командой:

In [15]:
ym.duplicated().sum()

np.int64(3826)

Вызовите специальный метод `pandas`, чтобы удалить явные дубликаты:

In [16]:
ym = ym.drop_duplicates()

Ещё раз посчитайте явные дубликаты в таблице — убедитесь, что полностью от них избавились:

In [17]:
ym.duplicated().sum()

np.int64(0)

Теперь избавьтесь от неявных дубликатов в колонке `genre`. Например, название одного и того же жанра может быть записано немного по-разному. Такие ошибки тоже повлияют на результат исследования.

Выведите на экран список уникальных названий жанров, отсортированный в алфавитном порядке. Для этого:
* извлеките нужный столбец датафрейма, 
* примените к нему метод сортировки,
* для отсортированного столбца вызовите метод, который вернёт уникальные значения из столбца.

In [18]:
ym['genre'].unique().shape[0]

290

Просмотрите список и найдите неявные дубликаты названия `hiphop`. Это могут быть названия с ошибками или альтернативные названия того же жанра.

Вы увидите следующие неявные дубликаты:
* *hip*,
* *hop*,
* *hip-hop*.

Чтобы очистить от них таблицу, напишите функцию `replace_wrong_genres()` с двумя параметрами: 
* `wrong_genres` — список дубликатов,
* `correct_genre` — строка с правильным значением.

Функция должна исправить колонку `genre` в таблице `df`: заменить каждое значение из списка `wrong_genres` на значение из `correct_genre`.

In [19]:
def replace_wrong_genres(wrong_genres,correct_genre):
    for wrong_genre in wrong_genres:
        ym.loc[ym['genre'] == wrong_genre,'genre'] = correct_genre
wrong = ['hip','hop','hip-hop']
correct = 'hiphop'

Вызовите `replace_wrong_genres()` и передайте ей такие аргументы, чтобы она устранила неявные дубликаты: вместо `hip`, `hop` и `hip-hop` в таблице должно быть значение `hiphop`:

In [20]:
replace_wrong_genres(wrong,correct)

Проверьте, что заменили неправильные названия:

*   hip
*   hop
*   hip-hop

Выведите отсортированный список уникальных значений столбца `genre`:

In [22]:
ym['genre'].unique()
contains_hip_or_hop = ym['genre'].isin(['hip', 'hop','hip-hop']).any()
if contains_hip_or_hop:
    print("The 'genre' column contains 'hip', 'hop' or 'hip-hop'.")
else:
    print("The 'genre' column does not contain 'hip', 'hop' or 'hip-hop'.")

The 'genre' column does not contain 'hip', 'hop' or 'hip-hop'.


**Выводы**

Предобработка обнаружила три проблемы в данных:

- нарушения в стиле заголовков,
- пропущенные значения,
- дубликаты — явные и неявные.

Вы исправили заголовки, чтобы упростить работу с таблицей. Без дубликатов исследование станет более точным.

Пропущенные значения вы заменили на `'unknown'`. Ещё предстоит увидеть, не повредят ли исследованию пропуски в колонке `genre`.

Теперь можно перейти к проверке гипотез. 

## Проверка гипотез

### Сравнение поведения пользователей двух столиц

Первая гипотеза утверждает, что пользователи по-разному слушают музыку в Москве и Санкт-Петербурге. Проверьте это предположение по данным о трёх днях недели — понедельнике, среде и пятнице. Для этого:

* Разделите пользователей Москвы и Санкт-Петербурга
* Сравните, сколько треков послушала каждая группа пользователей в понедельник, среду и пятницу.


Для тренировки сначала выполните каждый из расчётов по отдельности. 

Оцените активность пользователей в каждом городе. Сгруппируйте данные по городу и посчитайте прослушивания в каждой группе.



In [29]:
count_spb = ym[ym['city'] == 'Saint-Petersburg'].count()
count_msc = ym[ym['city'] == 'Moscow'].count()
print(count_spb)
print()
print(count_msc)

user_id    18512
track      18512
artist     18512
genre      18512
city       18512
time       18512
day        18512
dtype: int64

user_id    42741
track      42741
artist     42741
genre      42741
city       42741
time       42741
day        42741
dtype: int64


В Москве прослушиваний больше, чем в Петербурге. Из этого не следует, что московские пользователи чаще слушают музыку. Просто самих пользователей в Москве больше.

Теперь сгруппируйте данные по дню недели и подсчитайте прослушивания в понедельник, среду и пятницу. Учтите, что в данных есть информация о прослушиваниях только за эти дни.


In [46]:
cities = ['Moscow', 'Saint-Petersburg']
days = ['Monday', 'Wednesday', 'Friday']

for city in cities:
    for day in days:
        count = ym[(ym['city'] == city) & (ym['day'] == day)].count()
        print(count)


# count_spb_1 = ym[(ym['city'] == 'Saint-Petersburg') & (ym['day'] == 'Monday')].count()
# count_spb_3 = ym[(ym['city'] == 'Saint-Petersburg') & (ym['day'] == 'Wednesday')].count()
# count_spb_5 = ym[(ym['city'] == 'Saint-Petersburg') & (ym['day'] == 'Friday')].count()
# count_msc_1 = ym[(ym['city'] == 'Moscow') & (ym['day'] == 'Monday')].count()
# count_msc_3 = ym[(ym['city'] == 'Moscow') & (ym['day'] == 'Wednesday')].count()
# count_msc_5 = ym[(ym['city'] == 'Moscow') & (ym['day'] == 'Friday')].count()

# print(count_spb_1)
# print()
# print(count_spb_3)
# print()
# print(count_spb_5)

# print(count_msc_1)
# print()
# print(count_msc_3)
# print()
# print(count_msc_5)

user_id    15740
track      15740
artist     15740
genre      15740
city       15740
time       15740
day        15740
dtype: int64
user_id    11056
track      11056
artist     11056
genre      11056
city       11056
time       11056
day        11056
dtype: int64
user_id    15945
track      15945
artist     15945
genre      15945
city       15945
time       15945
day        15945
dtype: int64
user_id    5614
track      5614
artist     5614
genre      5614
city       5614
time       5614
day        5614
dtype: int64
user_id    7003
track      7003
artist     7003
genre      7003
city       7003
time       7003
day        7003
dtype: int64
user_id    5895
track      5895
artist     5895
genre      5895
city       5895
time       5895
day        5895
dtype: int64


В среднем пользователи из двух городов менее активны по средам. Но картина может измениться, если рассмотреть каждый город в отдельности.

Вы видели, как работает группировка по городу и по дням недели. Теперь напишите функцию, которая объединит два эти расчёта.

Создайте функцию `number_tracks()`, которая посчитает прослушивания для заданного дня и города. Ей понадобятся два параметра:
* день недели,
* название города.

В функции сохраните в переменную строки исходной таблицы, у которых значение:
  * в колонке `day` равно параметру `day`,
  * в колонке `city` равно параметру `city`.

Для этого примените последовательную фильтрацию с логической индексацией.


Затем посчитайте значения в столбце `user_id` получившейся таблицы. Результат сохраните в новую переменную. Верните эту переменную из функции.

In [72]:
def number_tracks(city,days):

    data ={'city':city}
    for day in days:
        data[day] = ym[(ym['city'] == city) & (ym['day'] == day)].shape[0]
    return data
days = ['Monday', 'Wednesday', 'Friday']    
msc_sorted = pd.DataFrame([number_tracks('Moscow',days)])
spb_sorted = pd.DataFrame([number_tracks('Saint-Petersburg',days)])

       # data = {
        #      'city' : city,
        #     'Monday' : ym[(ym['city'] == city) & (ym['day'] == day)].shape[0],
        #     'Wednesday': ym[(ym['city'] == city) & (ym['day'] == day)].shape[0],
        #     'Friday' : ym[(ym['city'] == city) & (ym['day'] == day)].shape[0]
        # }
# <создание функции number_tracks()>
# Объявляется функция с двумя параметрами: day, city.
# В переменной track_list сохраняются те строки таблицы df, для которых 
# значение в столбце 'day' равно параметру day и одновременно значение
# в столбце 'city' равно параметру city (используйте последовательную фильтрацию
# с помощью логической индексации).
# В переменной track_list_count сохраняется число значений столбца 'user_id',
# рассчитанное методом count() для таблицы track_list.
# Функция возвращает число - значение track_list_count.

# Функция для подсчёта прослушиваний для конкретного города и дня.
# С помощью последовательной фильтрации с логической индексацией она 
# сначала получит из исходной таблицы строки с нужным днём,
# затем из результата отфильтрует строки с нужным городом,
# методом count() посчитает количество значений в колонке user_id. 
# Это количество функция вернёт в качестве результата
# import pandas as pd

# def number_tracks(city):
#     data = {
#         'city': city,
#         'Monday': ym[(ym['city'] == city) & (ym['day'] == 'Monday')].shape[0],
#         'Wednesday': ym[(ym['city'] == city) & (ym['day'] == 'Wednesday')].shape[0],
#         'Friday': ym[(ym['city'] == city) & (ym['day'] == 'Friday')].shape[0]
#     }
#     return data

# msc_sorted = pd.DataFrame([number_tracks('Moscow')])
# spb_sorted = pd.DataFrame([number_tracks('Saint-Petersburg')])

# print(msc_sorted)
# print(spb_sorted)

     city  Monday  Wednesday  Friday
0  Moscow   15740      11056   15945
               city  Monday  Wednesday  Friday
0  Saint-Petersburg    5614       7003    5895


Вызовите `number_tracks()` шесть раз, меняя значение параметров — так, чтобы получить данные для каждого города в каждый из трёх дней.

In [76]:
msc_monday = number_tracks('Moscow',['Monday'])
print(msc_monday)

{'city': 'Moscow', 'Monday': 15740}


In [78]:
spb_monday = number_tracks('Saint-Petersburg',['Monday'])
print(spb_monday)

{'city': 'Saint-Petersburg', 'Monday': 5614}


In [79]:
msc_wed = number_tracks('Moscow',['Wednesday'])
print(msc_wed)

{'city': 'Moscow', 'Wednesday': 11056}


In [81]:
spb_wed = number_tracks('Saint-Petersburg',['Wednesday'])
print(spb_wed)

{'city': 'Saint-Petersburg', 'Wednesday': 7003}


In [83]:
msc_friday = number_tracks('Moscow',['Friday'])
print(msc_friday)

{'city': 'Moscow', 'Friday': 15945}


In [82]:
spb_friday = number_tracks('Saint-Petersburg',['Friday'])
print(spb_friday)

{'city': 'Saint-Petersburg', 'Friday': 5895}


Создайте c помощью конструктора `pd.DataFrame` таблицу, где
* названия колонок — `['city', 'monday', 'wednesday', 'friday']`;
* данные — результаты, которые вы получили с помощью `number_tracks`.

In [85]:
print(msc_sorted)
print(spb_sorted)

     city  Monday  Wednesday  Friday
0  Moscow   15740      11056   15945
               city  Monday  Wednesday  Friday
0  Saint-Petersburg    5614       7003    5895


**Выводы**

Данные показывают разницу поведения пользователей:

- В Москве пик прослушиваний приходится на понедельник и пятницу, а в среду заметен спад.
- В Петербурге, наоборот, больше слушают музыку по средам. Активность в понедельник и пятницу здесь почти в равной мере уступает среде.

Значит, данные говорят в пользу первой гипотезы.

### Музыка в начале и в конце недели

Согласно второй гипотезе, утром в понедельник в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города.

Сохраните таблицы с данными в две переменные:
* по Москве — в `moscow_general`;
* по Санкт-Петербургу — в `spb_general`.

In [136]:
spb_general = ym[ym['city'] == 'Saint-Petersburg']
msc_general = ym[ym['city'] == 'Moscow']

# The amount of unique genres in spb_general and msc_general
print(spb_general['genre'].unique().shape[0])
print(msc_general['genre'].unique().shape[0])


211
267


The amount of genres, listened to in `spb_general` not listened to in `msc_general` and vice versa

In [140]:
mismatch =[]
def check_mismatched_genres(data1,data2):
    for genre in data1['genre'].unique():
        if genre not in data2['genre'].unique():
            mismatch.append(genre)
    print(len(mismatch))   

spb_miss = check_mismatched_genres(spb_general,msc_general)
msc_miss = check_mismatched_genres(msc_general,spb_general)

20
96


Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,unknown,ruspop,Moscow,09:17:40,Friday
10,BC5A3A29,Gool la Mita,Shireen Abdul Wahab,world,Moscow,14:08:42,Monday
11,8B5192C0,Is There Anybody Out There? (Panoramic Paralys...,Pink Floyd Floydhead,electronic,Moscow,13:47:49,Monday
12,FF3FD2BD,Мина син генэ кирэк,Ильдар Хакимов,pop,Moscow,09:19:49,Monday
13,CC782B0F,After School Special,Detroit Grand Pubahs,dance,Moscow,20:04:12,Friday
15,E3C5756F,unknown,unknown,unknown,Moscow,09:24:51,Monday


Создайте функцию `genre_weekday()` с четырьмя параметрами:
* таблица (датафрейм) с данными,
* день недели,
* начальная временная метка в формате 'hh:mm', 
* последняя временная метка в формате 'hh:mm'.

Функция должна вернуть информацию о топ-10 жанров тех треков, которые прослушивали в указанный день, в промежутке между двумя отметками времени.

In [173]:
def genre_weekday(table,days,time1,time2):
    for day in days:
        genre_df = table[(table['day'] == day) & (table['time'] > time1) & (table['time'] < time2)]
        genre_df_count = genre_df.groupby('genre')['genre'].count()
        genre_df_sorted = genre_df_count.sort_values(ascending=False)
        print(f"In {', '.join(table['city'].unique())} we have the following amount of listens by genre in {day} \n {genre_df_sorted.head(10)}")

days = ['Monday', 'Wednesday', 'Friday']


In Moscow we have the following amount of listens by genre in Monday 
 genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: genre, dtype: int64
In Moscow we have the following amount of listens by genre in Wednesday 
 genre
pop            445
dance          310
rock           276
electronic     263
hiphop         146
ruspop         117
classical      115
alternative    100
world           84
rusrap          83
Name: genre, dtype: int64
In Moscow we have the following amount of listens by genre in Friday 
 genre
pop            789
dance          585
rock           509
electronic     506
hiphop         277
ruspop         207
classical      201
world          174
alternative    172
rusrap         148
Name: genre, dtype: int64
In Saint-Petersburg we have the following amount of listens by genre in Monday 
 genre
pop            218
dance       

Cравните результаты функции `genre_weekday()` для Москвы и Санкт-Петербурга в понедельник утром (с 7:00 до 11:00) и в пятницу вечером (с 17:00 до 23:00):

In [174]:
# вызов функции для утра понедельника в Москве (вместо df — таблица moscow_general)
genre_msc_by_days_7_11 = genre_weekday(msc_general,days,'07:00','11:00')

In Moscow we have the following amount of listens by genre in Monday 
 genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: genre, dtype: int64
In Moscow we have the following amount of listens by genre in Wednesday 
 genre
pop            445
dance          310
rock           276
electronic     263
hiphop         146
ruspop         117
classical      115
alternative    100
world           84
rusrap          83
Name: genre, dtype: int64
In Moscow we have the following amount of listens by genre in Friday 
 genre
pop            789
dance          585
rock           509
electronic     506
hiphop         277
ruspop         207
classical      201
world          174
alternative    172
rusrap         148
Name: genre, dtype: int64


In [175]:
# вызов функции для утра понедельника в Петербурге (вместо df — таблица spb_general)
genre_spb_by_days_7_11 = genre_weekday(spb_general,days,'07:00','11:00')

In Saint-Petersburg we have the following amount of listens by genre in Monday 
 genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: genre, dtype: int64
In Saint-Petersburg we have the following amount of listens by genre in Wednesday 
 genre
pop            272
dance          232
electronic     205
rock           202
hiphop          99
rusrap          85
alternative     71
ruspop          65
classical       59
world           48
Name: genre, dtype: int64
In Saint-Petersburg we have the following amount of listens by genre in Friday 
 genre
pop            211
dance          192
electronic     167
rock           156
hiphop         109
classical       56
rusrap          55
alternative     55
world           46
ruspop          45
Name: genre, dtype: int64


In [178]:
# вызов функции для вечера пятницы в Москве
genre_msc_by_days_17_23 = genre_weekday(msc_general,days,'17:00','23:00')

In Moscow we have the following amount of listens by genre in Monday 
 genre
pop            717
dance          524
rock           518
electronic     485
hiphop         238
alternative    182
classical      172
world          172
ruspop         149
rusrap         133
Name: genre, dtype: int64
In Moscow we have the following amount of listens by genre in Wednesday 
 genre
pop            553
dance          411
rock           351
electronic     317
hiphop         174
classical      152
alternative    130
world          121
ruspop         116
rusrap         107
Name: genre, dtype: int64
In Moscow we have the following amount of listens by genre in Friday 
 genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
Name: genre, dtype: int64


In [177]:
# вызов функции для вечера пятницы в Петербурге
genre_spb_by_days_17_23 = genre_weekday(spb_general,days,'17:00','23:00')

In Saint-Petersburg we have the following amount of listens by genre in Monday 
 genre
pop            263
rock           208
electronic     192
dance          191
hiphop         104
alternative     72
classical       71
jazz            57
rusrap          54
ruspop          53
Name: genre, dtype: int64
In Saint-Petersburg we have the following amount of listens by genre in Wednesday 
 genre
pop            320
rock           243
electronic     241
dance          225
hiphop         131
alternative     99
classical       88
world           73
rusrap          71
ruspop          70
Name: genre, dtype: int64
In Saint-Petersburg we have the following amount of listens by genre in Friday 
 genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: genre, dtype: int64


**Выводы**

Если сравнить топ-10 жанров в понедельник утром, можно сделать такие выводы:

1. В Москве и Петербурге слушают похожую музыку. Единственное отличие — в московский рейтинг вошёл жанр “world”, а в петербургский — джаз и классика.

2. В Москве пропущенных значений оказалось так много, что значение `'unknown'` заняло десятое место среди самых популярных жанров. Значит, пропущенные значения занимают существенную долю в данных и угрожают достоверности исследования.

Вечер пятницы не меняет эту картину. Некоторые жанры поднимаются немного выше, другие спускаются, но в целом топ-10 остаётся тем же самым.

Таким образом, вторая гипотеза подтвердилась лишь частично:
* Пользователи слушают похожую музыку в начале недели и в конце.
* Разница между Москвой и Петербургом не слишком выражена. В Москве чаще слушают русскую популярную музыку, в Петербурге — джаз.

Однако пропуски в данных ставят под сомнение этот результат. В Москве их так много, что рейтинг топ-10 мог бы выглядеть иначе, если бы не утерянные  данные о жанрах.

### Жанровые предпочтения в Москве и Петербурге

Гипотеза: Петербург — столица рэпа, музыку этого жанра там слушают чаще, чем в Москве.  А Москва — город контрастов, в котором, тем не менее, преобладает поп-музыка.

Сгруппируйте таблицу `moscow_general` по жанру и посчитайте прослушивания треков каждого жанра методом `count()`. Затем отсортируйте результат в порядке убывания и сохраните его в таблице `moscow_genres`.

In [191]:
moscow_genres = msc_general.groupby('genre')['genre'].count().sort_values(ascending=False)

# одной строкой: группировка таблицы moscow_general по столбцу 'genre', 
# подсчёт числа значений 'genre' в этой группировке методом count(), 
# сортировка получившегося Series в порядке убывания и сохранение в moscow_genres

Выведите на экран первые десять строк `moscow_genres`:

In [192]:
moscow_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

Теперь повторите то же и для Петербурга.

Сгруппируйте таблицу `spb_general` по жанру. Посчитайте прослушивания треков каждого жанра. Результат отсортируйте в порядке убывания и сохраните в таблице `spb_genres`:


In [193]:
spb_genres = spb_general.groupby('genre')['genre'].count().sort_values(ascending=False)

Выведите на экран первые десять строк `spb_genres`:

In [190]:
spb_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

**Выводы**

Гипотеза частично подтвердилась:
* Поп-музыка — самый популярный жанр в Москве, как и предполагала гипотеза. Более того, в топ-10 жанров встречается близкий жанр — русская популярная музыка.
* Вопреки ожиданиям, рэп одинаково популярен в Москве и Петербурге. 


## Итоги исследования

Вы проверили три гипотезы и установили:

1. День недели по-разному влияет на активность пользователей в Москве и Петербурге. 

Первая гипотеза полностью подтвердилась.

2. Музыкальные предпочтения не сильно меняются в течение недели — будь то Москва или Петербург. Небольшие различия заметны в начале недели, по понедельникам:
* в Москве слушают музыку жанра “world”,
* в Петербурге — джаз и классику.

Таким образом, вторая гипотеза подтвердилась лишь отчасти. Этот результат мог оказаться иным, если бы не пропуски в данных.

3. Во вкусах пользователей Москвы и Петербурга больше общего чем различий. Вопреки ожиданиям, предпочтения жанров в Петербурге напоминают московские.

Третья гипотеза не подтвердилась. Если различия в предпочтениях и существуют, на основной массе пользователей они незаметны.

**На практике исследования содержат проверки статистических гипотез.**
Из данных одного сервиса не всегда можно сделать вывод о всех жителях города.
Проверки статистических гипотез покажут, насколько они достоверны, исходя из имеющихся данных. 
С методами проверок гипотез вы ещё познакомитесь в следующих темах.