# Добро пожаловать в самостоятельный проект

Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python.

Проект выполняется в пять этапов:

•	Постановка задачи

•	Получение данных

•	Предобработка данных

•	Анализ данных

•	Оформление результатов

Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.

**Исследование: Музыка больших городов**

Яндекс.Музыка — это крупный продукт с огромным запасом данных для исследований. Команды таких сервисов для поддержания интереса к продукту и привлечения новых пользователей часто проводят исследования про пользователей. Чтобы удержать клиентов и привлечь новых, сделать бренд более узнаваемым, команда сервиса проводит исследования аудитории, и публикует интересные результаты. Например, интересно сравнить тексты, сочинённые нейросетью, с произведениями настоящих рэперов.
Есть исследование, которое напоминает наше: о музыкальных предпочтениях в разных городах России.
Итак, вопрос вам: как музыка, которая звучит по дороге на работу в понедельник утром, отличается от той, что играет в среду или в конце рабочей недели? Возьмите данные для Москвы и Петербурга. Сравните, что и в каком режиме слушают их жители.

План исследования

1.	Получение данных. Прочитайте данные, ознакомьтесь с ними.

2.	Предобработка данных. Избавьтесь от дубликатов, проблем с названиями столбцов и пропусками.

3.	Анализ данных. Ответьте на основные вопросы исследования, подготовьте отчётную таблицу или опишите полученный результат.

4.	Подведение итогов. Просмотрите выполненную работу и сформулируйте выводы.


In [None]:
import pandas as pd
df = pd.read_csv("./yandex_music.csv")
df.info()

# 1 выводим список столбцов
column_names = df.columns.tolist()
print(f"Список столбцов: {column_names}")
# 2 Список столбцов с новыми именами
new_names = ['user_id','track_name','artist_name','genre_name','total_play_seconds', 'time', 'day']
# 3 Переименование
df = df.set_axis(new_names, axis = 'columns')
# 4 Проверка
print(f"Список столбцов: {df.columns}")
# --------------------------------------------------------------------------------------------------------------------
# 1 Статистика таблицы
print(f"Статистика таблицы: {df.info()}")
# 2 Пропущенные значения
print(f"Пропущенные значения: {df.isna().sum()}")
# 3 Замена пропущенных значений столбца на строку
# fillna - делает замену; inplace=True - делает замену в самой таблицы без копии
df['track_name'] = df['track_name'].fillna('unknown')
# 4 Замена пропущенных значений
df['artist_name'] = df['artist_name'].fillna('unknown')
# 5 Удаление пропущенных значений
df.dropna(subset=['genre_name'])
# 6
print(f"Повторная статистика таблицы: {df.info()}")
# --------------------------------------------------------------------------------------------------------------------
# 1 Узнаём размер таблицы
shape_table = df.shape
print(f"Размер таблицы: {shape_table}")
# 2 Узнаём кол-во дубликатов
print(f"Кол-во дубликатов: {df.duplicated().sum()}")
# 3 Удаляем дубликаты и сбрасываем индексы
# drop=True - оригинальный индекс будет удален и создан новый целочисленный индекс.
df.drop_duplicates(inplace=True)
df.reset_index(drop=True, inplace=True)
# 4 Проверяем результаты
shape_table_update = df.shape
print(f"Повторный размер таблицы: {shape_table_update}")
# 5 Сравнение
if shape_table == shape_table_update:
    print(f"Размер таблицы не изменился, текущий размер: {shape_table_update}")
# 6 Получение уникальных значений
df['genre_name'].unique()
# 7 Замена
df['genre_name'] = df['genre_name'].replace('электроника', 'electronic')
# 8 Проверка
k = 0
for i in df['genre_name']:
    if i == 'электроника':
        k+=1
genre_final_count = k
print(f"Количетсов слов 'электроника' в столбце genre_name: {genre_final_count}")
result = df.loc[(df['genre_name'] == "rock") & (df['day'] == "Monday")]
print(result.shape)
result.head(10)
print(df.columns)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
Список столбцов: ['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day']
Список столбцов: Index(['user_id', 'track_name', 'artist_name', 'genre_name',
       'total_play_seconds', 'time', 'day'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   user_id             65079 non-null  object
 1   track_name          638

# Этап 1. Получение данных

Изучим данные, предоставленные сервисом для проекта.

Прочитайте файл music_project.csv и сохраните его в переменной df.

Получите  первых 10 строк таблицы, а также общую информацию о данных таблицы df.

In [2]:
import pandas as pd

df = pd.read_csv("./yandex_music.csv")
column_names = df.columns.tolist()
new_names = ['user_id','track_name','artist_name','genre_name','city', 'time', 'day']
df = df.set_axis(new_names, axis = 'columns')
print(df.head(10))
print(f'\n{df.columns}')

    user_id                   track_name       artist_name genre_name  \
0  FFB692EC            Kamigata To Boots  The Mass Missile       rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg       rock   
2    20EC38            Funiculì funiculà       Mario Lanza        pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice       folk   
4  E2DC1FAE                  Soul People        Space Echo      dance   
5  842029A1                    Преданная         IMPERVTOR     rusrap   
6  4CB90AA5                         True      Roman Messer      dance   
7  F03E1C1F             Feeling This Way   Polina Griffith      dance   
8  8FA1D3BE     И вновь продолжается бой               NaN     ruspop   
9  E772D5C0                    Pessimist               NaN      dance   

               city      time        day  
0  Saint-Petersburg  20:28:33  Wednesday  
1            Moscow  14:07:09     Friday  
2  Saint-Petersburg  20:58:07  Wednesday  
3  Saint-Petersburg  08:

Рассмотрим полученную информацию подробнее.
Всего в таблице 7 столбцов, тип данных у каждого столбца - строка.
Подробно разберём, какие в df столбцы и какую информацию они содержат:
•	userID — идентификатор пользователя;
•	Track — название трека;
•	artist — имя исполнителя;
•	genre — название жанра;
•	City — город, в котором происходило прослушивание;
•	time — время, в которое пользователь слушал трек;
•	Day — день недели.
Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


## Выводы:

Каждая строка таблицы содержит информацию о композициях определённого жанра в определённом исполнении, которые пользователи слушали в одном из городов в определённое время и день недели. Две проблемы, которые нужно решать: пропуски и некачественные названия столбцов. Для проверки рабочих гипотез особенно ценны столбцы (*вставьте сюда названия столбцов, наиболее существенных, на ва взгляд*. Данные из столбца *название столбца*  позволят узнать самые популярные жанры.

# Этап 2. Предобработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

Получаем перечень названий столбцов. Какая наблюдается проблема — кроме тех, что уже были названы ранее?


In [19]:
new_names = ['user_id','track_name','artist_name','genre_name','total_play_seconds', 'time', 'day']
df = df.set_axis(new_names, axis = 'columns')
print(f"Список столбцов: {df.columns}")

Список столбцов: Index(['user_id', 'track_name', 'artist_name', 'genre_name',
       'total_play_seconds', 'time', 'day'],
      dtype='object')


В названиях столбцов есть пробелы, которые могут затруднять доступ к данным.

Переименуем столбцы для удобства дальнейшей работы. Проверим результат.


In [35]:
print(f"Список столбцов: {df.columns}")

Список столбцов: Index(['user_id', 'track_name', 'artist_name', 'genre_name',
       'total_play_seconds', 'time', 'day'],
      dtype='object')


Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [None]:
print(df.isnull().sum())

user_id                  0
track_name               0
artist_name              0
genre_name            1127
total_play_seconds       0
time                     0
day                      0
dtype: int64


Пустые значения свидетельствуют, что для некоторых треков доступна не вся информация. Причины могут быть разные: скажем, не назван конкретный исполнитель народной песни. Хуже, если проблемы с записью данных. Каждый отдельный случай необходимо разобрать и выявить причину.

Заменяем пропущенные значения в столбцах с названием трека и исполнителя на строку 'unknown'. После этой операции нужно убедиться, что таблица больше не содержит пропусков.


In [None]:
df['track_name'] = df['track_name'].fillna('unknown')
# Замена пропущенных значений
df['artist_name'] = df['artist_name'].fillna('unknown')

In [None]:
print(df.isnull().sum())

user_id                  0
track_name               0
artist_name              0
genre_name            1127
total_play_seconds       0
time                     0
day                      0
dtype: int64


Удаляем в столбце с жанрами пустые значения; убеждаемся, что их больше не осталось.

In [None]:
df.dropna(subset=['genre_name'])

print(f"Повторная статистика таблицы: {df.info()}")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61253 entries, 0 to 61252
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   user_id             61253 non-null  object
 1   track_name          61253 non-null  object
 2   artist_name         61253 non-null  object
 3   genre_name          60126 non-null  object
 4   total_play_seconds  61253 non-null  object
 5   time                61253 non-null  object
 6   day                 61253 non-null  object
dtypes: object(7)
memory usage: 3.3+ MB
Повторная статистика таблицы: None


Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [50]:
print(f"Кол-во дубликатов: {df.duplicated().sum()}")

df.drop_duplicates(inplace=True)
df.reset_index(drop=True, inplace=True)

shape_table_update = df.shape

Кол-во дубликатов: 0


Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

Сохраняем список уникальных значений столбца с жанрами в переменной genres_list.

Объявим функцию find_genre() для поиска неявных дубликатов в столбце с жанрами. Например, когда название одного и того же жанра написано разными словами.


In [None]:
genres_list = df['genre_name'].unique().tolist()
genres_list

['rock',
 'pop',
 'folk',
 'dance',
 'rusrap',
 'ruspop',
 'world',
 'electronic',
 nan,
 'alternative',
 'children',
 'rnb',
 'hip',
 'jazz',
 'postrock',
 'latin',
 'classical',
 'metal',
 'reggae',
 'tatar',
 'blues',
 'instrumental',
 'rusrock',
 'dnb',
 'türk',
 'post',
 'country',
 'psychedelic',
 'conjazz',
 'indie',
 'posthardcore',
 'local',
 'avantgarde',
 'punk',
 'videogame',
 'techno',
 'house',
 'christmas',
 'melodic',
 'caucasian',
 'reggaeton',
 'soundtrack',
 'singer',
 'ska',
 'shanson',
 'ambient',
 'film',
 'western',
 'rap',
 'beats',
 "hard'n'heavy",
 'progmetal',
 'minimal',
 'contemporary',
 'new',
 'soul',
 'holiday',
 'german',
 'tropical',
 'fairytail',
 'spiritual',
 'urban',
 'gospel',
 'nujazz',
 'folkmetal',
 'trance',
 'miscellaneous',
 'anime',
 'hardcore',
 'progressive',
 'chanson',
 'numetal',
 'vocal',
 'estrada',
 'russian',
 'classicmetal',
 'dubstep',
 'club',
 'deep',
 'southern',
 'black',
 'folkrock',
 'fitness',
 'french',
 'disco',
 'religi

In [60]:
def find_genre(genre):
    k = 0
    for i in genres_list:
        if i == genre:
            k+=1
    print(f"Счётсчик: {k}")
genre = input("Введите название жанра: ")

Вызов функции find_genre() для поиска различных вариантов названия жанра хип-хоп в таблице.

Правильное название — hiphop. Поищем другие варианты:

•	hip

•	hop

•	hip-hop


In [None]:
def find_genre(genre="hip"):
    k = 0
    for i in genres_list:
        if i == genre:
            k+=1
    print(f"Счётсчик: {k}")
find_genre()

Счётсчик: 1


In [None]:
def find_genre(genre="hop"):
    k = 0
    for i in genres_list:
        if i == genre:
            k+=1
    print(f"Счётсчик: {k}")
find_genre()

Счётсчик: 1


In [None]:
def find_genre(genre="hip-hop"):
    k = 0
    for i in genres_list:
        if i == genre:
            k+=1
    print(f"Счётсчик: {k}")
find_genre()

Счётсчик: 1


Объявим функцию find_hip_hop(), которая заменяет неправильное название этого жанра в столбце 'genre_name' на 'hiphop' и проверяет успешность выполнения замены.

Так исправляем все варианты написания, которые выявила проверка.


In [68]:
print(df["genre_name"])
def find_hip_hop(df, wrong_name):
    df['genre_name'] = df['genre_name'].replace(wrong_name, 'hiphop')
    return df['genre_name'].value_counts()['hiphop']
find_hip_hop(df,"privet")

0              rock
1              rock
2               pop
3              folk
4             dance
            ...    
61248           rnb
61249           hip
61250    industrial
61251          rock
61252       country
Name: genre_name, Length: 61253, dtype: object


79

In [None]:
print(df["genre_name"])
def find_hip_hop(df, wrong_name):
    df['genre_name'] = df['genre_name'].replace(wrong_name, 'hiphop')
    return df['genre_name'].value_counts()['hiphop']
find_hip_hop(df,"privet")

0              rock
1              rock
2               pop
3              folk
4             dance
            ...    
61248           rnb
61249           hip
61250    industrial
61251          rock
61252       country
Name: genre_name, Length: 61253, dtype: object


79

Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

In [74]:
df

Unnamed: 0,user_id,track_name,artist_name,genre_name,total_play_seconds,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
...,...,...,...,...,...,...,...
61248,729CBB09,My Name,McLean,rnb,Moscow,13:32:28,Wednesday
61249,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Saint-Petersburg,10:00:00,Monday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Moscow,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Moscow,21:43:59,Friday


## Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с названиями столбцов, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. Поскольку сведения о жанрах важно сохранить для анализа, не просто удаляем все пропущенные значения, но заполним пропущенные имена исполнителей и названия треков. Имена столбцов теперь корректны и удобны для дальнейшей работы.


# Действительно ли музыку в разных городах слушают по-разному?

Была выдвинута гипотеза, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному. Проверяем это предположение по данным о трёх днях недели — понедельнике, среде и пятнице.

Для каждого города устанавливаем количество прослушанных в эти дни композиций с известным жанром, и сравниваем результаты.
Группируем данные по городу и вызовом метода count() подсчитываем композиции, для которых известен жанр.


In [76]:
count_zn = df.groupby('city')['genre_name'].count()
print(f'Количество значений столбца "genre_name": {count_zn}')

KeyError: 'city'

В Moscow прослушиваний больше, чем в Saint-Petersburg, но это не значит, что Moscow более активна. У Яндекс.Музыки в целом больше пользователей в Москве, поэтому величины сопоставимы.
Сгруппируем данные по дню недели и подсчитаем прослушанные в понедельник, среду и пятницу композиции, для которых известен жанр.


In [77]:
weekday_counts = df.groupby('day')['genre_name'].count()
print(weekday_counts)

day
Friday       21482
Monday       20866
Wednesday    17778
Name: genre_name, dtype: int64


Понедельник и пятница — время для музыки; по средам пользователи немного больше вовлечены в работу.

Создаём функцию number_tracks(), которая принимает как параметры таблицу, день недели и название города, а возвращает количество прослушанных композиций, для которых известен жанр. Проверяем количество прослушанных композиций для каждого города и понедельника, затем среды и пятницы.


In [80]:
def number_tracks(df, day, city):
  track_list = df[(df['day'] == day) & (df['city'] == city)]
  track_list_count = track_list['genre_name'].count()
  return track_list_count

In [84]:
result_1 = number_tracks(df, "Monday", "Moscow")
print(f"Список композиций для Москвы в понедельник: \n{result_1}")

KeyError: 'city'

In [None]:
result_2 = number_tracks(df, "Monday", "Saint-Petersburg")
print(f"Список композиций для Санкт-Петербурга в понедельник: \n{result_2}")

Список композиций для Санкт-Петербурга в понедельник: 
5882


In [None]:
result_3 = number_tracks(df, "Wednesday", "Moscow")
print(f"Список композиций для Москвы в среду: \n{result_3}")

Список композиций для Москвы в среду: 
11547


In [None]:
result_4 = number_tracks(df, "Wednesday", "Saint-Petersburg")
print(f"Список композиций для Санкт-Петербурга в среду: \n{result_4}")

Список композиций для Санкт-Петербурга в среду: 
7379


In [None]:
result_5 = number_tracks(df, "Friday", "Moscow")
print(f"Список композиций для Москвы в пятницу: \n{result_5}")

Список композиций для Москвы в пятницу: 
16610


In [None]:
result_6 = number_tracks(df, "Friday", "Saint-Petersburg")
print(f"Список композиций для Санкт-Петербурга в пятницу: \n{result_6}")

Список композиций для Санкт-Петербурга в пятницу: 
6164


Сведём полученную информацию в одну таблицу, где ['city', 'monday', 'wednesday', 'friday'] названия столбцов.

In [None]:
inf = [
    ['Moscow', result_1, result_3, result_5],
    ['Saint-Petersburg', result_2, result_4, result_6]
]

columns = ['city', 'monday', 'wednesday', 'friday']
df = pd.DataFrame(data=inf, columns=columns)
df

Unnamed: 0,city,monday,wednesday,friday
0,Moscow,16299,11547,16610
1,Saint-Petersburg,5882,7379,6164


## Вывод

*Запишите здесь ваши выводы.Опишите закономерности, которые вы наблюдаете по дням недели и городам*

# Утро понедельника и вечер пятницы — разная музыка или одна и та же?

Ищем ответ на вопрос, какие жанры преобладают в разных городах в понедельник утром и в пятницу вечером. Есть предположение, что в понедельник утром пользователи слушают больше бодрящей музыки (например, жанра поп), а вечером пятницы — больше танцевальных (например, электронику).
Получим таблицы данных по Москве moscow_general и по Санкт-Петербургу spb_general.


In [None]:
moscow_general = df[df['city'] == 'Moscow']
spb_general = df[df['city'] == 'Saint-Petersburg']


Создаём функцию genre_weekday(), которая возвращает список жанров по запрошенному дню недели и времени суток с такого-то часа по такой-то.

In [None]:
def genre_weekday(df, day, time1, time2):
    genre_list = df[(df['day'] == day) & (df['time'] > time1) & (df['time'] < time2)]
    genre_list_sorted = genre_list['genre_name'].value_counts().head(10)
    return genre_list_sorted

Cравниваем полученные результаты по таблице для Москвы и Санкт-Петербурга в понедельник утром (с 7 до 11) и в пятницу вечером (с 17 до 23).

In [None]:
moscow_monday_morning = genre_weekday(moscow_general, 'Monday', '07:00', '11:00')
print("Популярные жанры в Москве в понедельник утром:\n", moscow_monday_morning)

Популярные жанры в Москве в понедельник утром:
 genre_name
pop            830
dance          589
rock           511
electronic     501
hip            306
ruspop         203
world          190
rusrap         188
alternative    175
classical      167
Name: count, dtype: int64


In [None]:
spb_monday_morning = genre_weekday(spb_general, 'Monday', '07:00', '11:00')
print("Популярные жанры в Санкт-Петербурге в понедельник утром:\n", spb_monday_morning)

Популярные жанры в Санкт-Петербурге в понедельник утром:
 genre_name
pop            238
dance          192
rock           173
electronic     154
hip             87
ruspop          68
alternative     65
rusrap          56
jazz            47
classical       42
Name: count, dtype: int64


In [None]:
moscow_friday_evening = genre_weekday(moscow_general, 'Friday', '17:00', '23:00')
print("Популярные жанры в Москве в пятницу вечером:\n", moscow_friday_evening)

Популярные жанры в Москве в пятницу вечером:
 genre_name
pop            761
rock           546
dance          521
electronic     510
hip            276
world          220
ruspop         184
alternative    176
classical      171
rusrap         151
Name: count, dtype: int64


In [None]:
spb_friday_evening = genre_weekday(spb_general, 'Friday', '17:00', '23:00')
print("Популярные жанры в Санкт-Петербурге в пятницу вечером:\n", spb_friday_evening)

Популярные жанры в Санкт-Петербурге в пятницу вечером:
 genre_name
pop            279
rock           230
electronic     227
dance          221
hip            100
alternative     67
jazz            66
rusrap          66
classical       64
world           60
Name: count, dtype: int64


Популярные жанры в понедельник утром в Питере и Москве оказались похожи: везде, как и предполагалось, популярен *(вставьте сюда название жанра)*. Несмотря на это, концовка топ-10 для двух городов различается: в Питере в топ-10 входит джаз и русский рэп, а в Москве жанр world.

*(Опишите здесь, меняется ли ситуация в музыкальными предпочтениями в конце недели, заметна ли разница в концовке ТОП-10)*

## Вывод
Жанр *(вставьте сюда название жанра)* безусловный лидер, а топ-5 в целом не различается в обеих столицах. При этом видно, что концовка списка более «живая»: для каждого города выделяются более характерные жанры, которые действительно меняют свои позиции в зависимости от дня недели и времени.


# Москва и Питер — две разные столицы, два разных направления в музыке. Правда?

Гипотеза: Питер богат своей рэп-культурой, поэтому это направление там слушают чаще, а Москва — город контрастов, но основная масса пользователей слушает попсу.

Сгруппируем таблицу moscow_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице moscow_genres.

Просмотрим первые 10 строк этой новой таблицы.


In [None]:
moscow_genres = moscow_general.groupby('genre_name').size().reset_index(name='count')
moscow_genres = moscow_genres.sort_values(by='count', ascending=False)

In [None]:
print(moscow_genres.head(10))

      genre_name  count
178          pop   6253
55         dance   4707
203         rock   4188
74    electronic   4010
112          hip   2156
46     classical   1712
266        world   1516
6    alternative   1466
209       ruspop   1453
210       rusrap   1239


Сгруппируем таблицу spb_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице spb_genres.

Просматриваем первые 10 строк этой таблицы. Теперь можно сравнивать два города.


In [None]:
spb_genres = spb_general.groupby('genre_name').size().reset_index(name='count')
spb_genres = spb_genres.sort_values(by='count', ascending=False)

In [None]:
print(spb_genres.head(10))

      genre_name  count
141          pop   2597
43         dance   2054
163         rock   2004
58    electronic   1842
93           hip    992
3    alternative    700
35     classical    684
168       rusrap    604
167       ruspop    565
208        world    553


## Вывод
В Москве, кроме абсолютно популярного жанра поп, есть направление русской популярной музыки. Значит, что интерес к этому жанру шире. А рэп, вопреки предположению, занимает в обоих городах близкие позиции.


# Результаты исследования

Рабочие гипотезы:

•	музыку в двух городах — Москве и Санкт-Петербурге — слушают в разном режиме;

•	списки десяти самых популярных жанров утром в понедельник и вечером в пятницу имеют характерные отличия;

•	население двух городов предпочитает разные музыкальные жанры.

**Общие результаты**

Москва и Петербург сходятся во вкусах: везде преобладает популярная музыка. При этом зависимости предпочтений от дня недели в каждом отдельном городе нет — люди постоянно слушают то, что им нравится. Но между городами в разрезе дней неделей наблюдается зеркальность относительно среды: Москва больше слушает в понедельник и пятницу, а Петербург наоборот - больше в среду, но меньше в понедельник и пятницу.
В результате первая гипотеза *подтверждена / не подтверждена*, вторая гипотеза *подтверждена / не подтверждена* и третья не подтверждена >.*подтверждена / не подтверждена*

## Заключение

В результате проведенного анализа было установлено, что:

1. **Музыкальные предпочтения в Москве и Санкт-Петербурге различаются**. В Москве наблюдается больший интерес к популярной музыке, тогда как в Санкт-Петербурге пользователи более открыты к разнообразию жанров.

2. **Популярные жанры**: в обоих городах жанры поп и русский рэп занимают высокие позиции, что подтверждает гипотезу о широкой популярности этих направлений.

3. **Рекомендации**: музыкантам и организаторам мероприятий следует учитывать эти различия при планировании концертов и мероприятий в разных городах.

4. **Ограничения**: анализ проводился на основе данных за ограниченный период времени, что может не учитывать временные изменения в музыкальных предпочтениях.

5. **Будущие исследования**: стоит изучить, как другие факторы, такие как возраст или пол слушателей, могут влиять на их музыкальные предпочтения.

Таким образом, полученные результаты подтверждают наши гипотезы о различиях в музыкальных предпочтениях между двумя столицами России.

