# Яндекс Музыка

Сравнение Москвы и Петербурга окружено мифами. Например:
 * Москва — мегаполис, подчинённый жёсткому ритму рабочей недели;
 * Петербург — культурная столица, со своими вкусами.

На данных Яндекс Музыки вы сравните поведение пользователей двух столиц.

**Цель исследования** — проверьте три гипотезы:
1. Активность пользователей зависит от дня недели. Причём в Москве и Петербурге это проявляется по-разному.
2. В понедельник утром в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города.
3. Москва и Петербург предпочитают разные жанры музыки. В Москве чаще слушают поп-музыку, в Петербурге — русский рэп.

**Ход исследования**

Данные о поведении пользователей вы получите из файла `yandex_music_project.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных.

Вы проверите данные на ошибки и оцените их влияние на исследование. Затем, на этапе предобработки вы поищете возможность исправить самые критичные ошибки данных.

Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.



## Обзор данных

Составьте первое представление о данных Яндекс Музыки.




**Задание 1**

In [None]:
import pandas as pd  # <импорт библиотеки pandas>

**Задание 2**

In [None]:
file_path = '/datasets/yandex_music_project.csv'
# Чтение файла и сохранение в переменной df
df = pd.read_csv(file_path)
# <чтение файла с данными с сохранением в df>

**Задание 3**

In [None]:
df.head(10)  # <получение первых 10 строк таблицы df>

**Задание 4**

In [None]:
df.info() # общая информация о таблице

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

**Задание 5**

In [None]:
# Найденное третье нарушение стиля: встречаются пробелы в названиях колонок

**Выводы**

В каждой строке таблицы — данные о прослушанном треке. Часть колонок описывает саму композицию: название, исполнителя и жанр. Остальные данные рассказывают о пользователе: из какого он города, когда он слушал музыку.

Предварительно можно утверждать, что данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а в названиях колонок — расхождения с хорошим стилем.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных

### Переименование столбцов

**Задание 6**

In [None]:
print(df.columns)
# перечень названий столбцов таблицы df

**Задание 7**

In [None]:
df.rename(columns={'  userID': 'user_id', 'Track': 'track', '  City  ': 'city', 'Day': 'day'}, inplace=True)
# переименование столбцов

**Задание 8**

In [None]:
print(df.columns)
# проверка результатов - перечень названий столбцов

### Обработка пропущенных значений

**Задание 9**

In [None]:
missing_values = df.isnull().sum()
print(missing_values)
# подсчёт пропусков

**Задание 10**

In [None]:
columns_to_replace = ['track', 'artist', 'genre']

for column in columns_to_replace:
    df[column].fillna('unknown', inplace=True)
# замена пропущенных значений на 'unknown'

**Задание 11**

In [None]:
missing_values_after_replace = df.isnull().sum()
print(missing_values_after_replace)
# проверка на отсутствие пропусков

### Обработка дубликатов

**Задание 12**

In [None]:
duplicate_count = df.duplicated().sum()
print(duplicate_count)
# подсчёт явных дубликатов

**Задание 13**

In [None]:
df = df.drop_duplicates().reset_index(drop=True)
# удаление явных дубликатов, создание новых индексов и удаление старых

**Задание 14**

In [None]:
duplicate_count_after_drop = df.duplicated().sum()
print(duplicate_count_after_drop)
# проверка на отсутствие явных дубликатов

**Задание 15**

In [None]:
unique_genres = sorted(df['genre'].unique())
print(unique_genres)
# просмотр уникальных отсортированных названий жанров

**Задание 16**

In [None]:
duplicates_to_replace = ['hip', 'hop', 'hip-hop']
df['genre'].replace(duplicates_to_replace, 'hiphop', inplace=True)
# устранение неявных дубликатов

**Задание 17**

In [None]:
sorted_unique_genres = sorted(df['genre'].unique())
print(sorted_unique_genres)
# проверка на отсутствие неявных дубликатов

**Выводы**

Предобработка обнаружила три проблемы в данных:

- нарушения в стиле заголовков,
- пропущенные значения,
- дубликаты — явные и неявные.

Вы исправили заголовки, чтобы упростить работу с таблицей. Без дубликатов исследование станет более точным.

Пропущенные значения вы заменили на `'unknown'`. Ещё предстоит увидеть, не повредят ли исследованию пропуски в колонке `genre`.

Теперь можно перейти к проверке гипотез.

## Проверка гипотез

### Сравнение поведения пользователей двух столиц

Первая гипотеза утверждает, что пользователи по-разному слушают музыку в Москве и Санкт-Петербурге. Проверим это предположение по данным о трёх днях недели — понедельнике, среде и пятнице. Для этого:

* Разделим пользователей Москвы и Санкт-Петербурга.
* Сравним, сколько треков послушала каждая группа пользователей в понедельник, среду и пятницу.


**Задание 18**



In [None]:
# Группировка данных по городу и подсчет прослушиваний
city_activity = df.groupby('city')['track'].count()

# Вывод результатов
print(city_activity)

# подсчёт прослушиваний в каждом городе

**Задание 19**


In [None]:
# Группировка данных по дню недели и подсчет прослушиваний
day_activity = df.groupby('day')['track'].count()

# Вывод результатов
print(day_activity)
# подсчёт прослушиваний в каждый из трёх дней

**Задание 20**

In [None]:
def number_tracks(day, city):
    # Фильтрация данных по дню и городу
    filtered_data = df[(df['day'] == day) & (df['city'] == city)]

    # Подсчет числа прослушиваний после фильтрации
    track_list_count = filtered_data['user_id'].count()

    # Возврат результата из функции
    return track_list_count


**Задание 21**

In [1]:
# Первая пара
result_monday_moscow = number_tracks('Monday', 'Moscow')
result_monday_spb = number_tracks('Monday', 'Saint-Petersburg')

# Вторая пара
result_wednesday_moscow = number_tracks('Wednesday', 'Moscow')
result_wednesday_spb = number_tracks('Wednesday', 'Saint-Petersburg')

# Третья пара
result_friday_moscow = number_tracks('Friday', 'Moscow')
result_friday_spb = number_tracks('Friday', 'Saint-Petersburg')

# Вывод результатов
print(result_monday_moscow)

# количество прослушиваний в Москве по понедельникам

In [None]:
print(result_monday_spb)

# количество прослушиваний в Санкт-Петербурге по понедельникам

In [None]:
print(result_wednesday_moscow)

# количество прослушиваний в Москве по средам

In [None]:
print(result_wednesday_spb)

# количество прослушиваний в Санкт-Петербурге по средам

In [None]:
print(result_friday_moscow)

# количество прослушиваний в Москве по пятницам

In [None]:
print(result_friday_spb)

# количество прослушиваний в Санкт-Петербурге по пятницам

**Задание 22**

In [None]:
import pandas as pd

# Создание таблицы info
info_data = {
    'city': ['Moscow', 'Saint-Petersburg'],
    'monday': [result_monday_moscow, result_monday_spb],
    'wednesday': [result_wednesday_moscow, result_wednesday_spb],
    'friday': [result_friday_moscow, result_friday_spb]
}

info = pd.DataFrame(info_data)

# Вывод таблицы на экран
print(info)

**Выводы**

Данные показывают разницу поведения пользователей:

- В Москве пик прослушиваний приходится на понедельник и пятницу, а в среду заметен спад.
- В Петербурге, наоборот, больше слушают музыку по средам. Активность в понедельник и пятницу здесь почти в равной мере уступает среде.

Значит, данные говорят в пользу первой гипотезы.

### Музыка в начале и в конце недели

Согласно второй гипотезе, утром в понедельник в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города.

**Задание 23**

In [None]:
# Таблица для Москвы
moscow_general = df[df['city'] == 'Moscow']

# получение таблицы moscow_general из тех строк таблицы df, для которых значение в столбце 'city' равно 'Moscow'


In [None]:
# Таблица для Санкт-Петербурга
spb_general = df[df['city'] == 'Saint-Petersburg']

# получение таблицы spb_general из тех строк таблицы df, для которых значение в столбце 'city' равно 'Saint-Petersburg'


**Задание 24**

In [None]:
def genre_weekday(df, day, time1, time2):
    # Последовательная фильтрация
    # Оставляем только строки, где день равен указанному дню
    genre_df = df[df['day'] == day]
    
    # Оставляем только строки, где время меньше time2
    genre_df = genre_df[genre_df['time'] < time2]
    
    # Оставляем только строки, где время больше time1
    genre_df = genre_df[genre_df['time'] > time1]
    
    # Группировка отфильтрованных данных по жанрам и подсчет количества треков для каждого жанра
    genre_df_grouped = genre_df.groupby('genre')['track'].count()
    
    # Сортировка результатов по убыванию
    genre_df_sorted = genre_df_grouped.sort_values(ascending=False)
    
    # Возвращение Series с 10 самыми популярными жанрами в указанный отрезок времени заданного дня
    return genre_df_sorted[:10]


**Задание 25**

In [None]:
# Вызов функции для Москвы в понедельник утром
result_moscow_monday_morning = genre_weekday(moscow_general, 'Monday', '07:00', '11:00')
print(result_moscow_monday_morning)

# вызов функции для утра понедельника в Москве (вместо df — таблица moscow_general)

In [3]:
# Вызов функции для Санкт-Петербурга в понедельник утром
result_spb_monday_morning = genre_weekday(spb_general, 'Monday', '07:00', '11:00')
print(result_spb_monday_morning)

# вызов функции для утра понедельника в Петербурге (вместо df — таблица spb_general)

In [None]:
# Вызов функции для Москвы в пятницу вечером
result_moscow_friday_evening = genre_weekday(moscow_general, 'Friday', '17:00', '23:00')
print(result_moscow_friday_evening)

# вызов функции для вечера пятницы в Москве

In [None]:
# Вызов функции для Санкт-Петербурга в пятницу вечером
result_spb_friday_evening = genre_weekday(spb_general, 'Friday', '17:00', '23:00')
print(result_spb_friday_evening)

# вызов функции для вечера пятницы в Петербурге

**Выводы**

Если сравнить топ-10 жанров в понедельник утром, можно сделать такие выводы:

1. В Москве и Петербурге слушают похожую музыку. Единственное различие — в московский рейтинг вошёл жанр “world”, а в петербургский — джаз и классика.

2. В Москве пропущенных значений оказалось так много, что значение `'unknown'` заняло десятое место среди самых популярных жанров. Значит, пропущенные значения занимают существенную долю в данных и угрожают достоверности исследования.

Вечер пятницы не меняет эту картину. Некоторые жанры поднимаются немного выше, другие спускаются, но в целом топ-10 остаётся тем же самым.

Таким образом, вторая гипотеза подтвердилась лишь частично:
* Пользователи слушают похожую музыку в начале недели и в конце.
* Разница между Москвой и Петербургом не слишком выражена. В Москве чаще слушают русскую популярную музыку, в Петербурге — джаз.

Однако пропуски в данных ставят под сомнение этот результат. В Москве их так много, что рейтинг топ-10 мог бы выглядеть иначе, если бы не утерянные  данные о жанрах.

### Жанровые предпочтения в Москве и Петербурге

Гипотеза: Петербург — столица рэпа, музыку этого жанра там слушают чаще, чем в Москве.  А Москва — город контрастов, в котором, тем не менее, преобладает поп-музыка.

**Задание 26**

In [4]:
moscow_genres = moscow_general.groupby('genre')['genre'].count().sort_values(ascending=False)

# одной строкой: группировка таблицы moscow_general по столбцу 'genre', выбор столбца `genre`, подсчёт числа значений 'genre' методом count(), сохранение в moscow_genres
# сортировка получившегося Series в порядке убывания и сохранение обратно в moscow_genres

**Задание 27**

In [None]:
print(moscow_genres.head(10))
# просмотр первых 10 строк moscow_genres

**Задание 28**

In [None]:
spb_genres = spb_general.groupby('genre')['genre'].count().sort_values(ascending=False)

# одной строкой: группировка таблицы spb_general по столбцу 'genre', выбор столбца `genre`, подсчёт числа значений 'genre' методом count(), сохранение в spb_genres
# сортировка получившегося Series в порядке убывания и сохранение обратно в spb_genres

**Задание 29**

In [None]:
print(spb_genres.head(10))
# просмотр первых 10 строк spb_genres

**Выводы**

Гипотеза частично подтвердилась:
* Поп-музыка — самый популярный жанр в Москве, как и предполагала гипотеза. Более того, в топ-10 жанров встречается близкий жанр — русская популярная музыка.
* Вопреки ожиданиям, рэп одинаково популярен в Москве и Петербурге.


## Итоги исследования

Вы проверили три гипотезы и установили:

1. День недели по-разному влияет на активность пользователей в Москве и Петербурге.

Первая гипотеза полностью подтвердилась.

2. Музыкальные предпочтения не сильно меняются в течение недели — будь то Москва или Петербург. Небольшие различия заметны в начале недели, по понедельникам:
* в Москве слушают музыку жанра “world”,
* в Петербурге — джаз и классику.

Таким образом, вторая гипотеза подтвердилась лишь отчасти. Этот результат мог оказаться иным, если бы не пропуски в данных.

3. Во вкусах пользователей Москвы и Петербурга больше общего, чем различий. Вопреки ожиданиям, предпочтения жанров в Петербурге напоминают московские.

Третья гипотеза не подтвердилась. Если различия в предпочтениях и существуют, на основной массе пользователей они незаметны.

**На практике исследования содержат проверки статистических гипотез.**
Из части данных одного сервиса невозможно сделать какие-то выводы о всех пользователях сервиса без методов статистики.
Проверки статистических гипотез покажут, насколько они достоверны, исходя из имеющихся данных.
С методами проверок гипотез вы ещё познакомитесь в следующих темах.