# Добро пожаловать в самостоятельный проект

Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python. 

Проект выполняется в пять этапов:

•	Постановка задачи

•	Получение данных

•	Предобработка данных

•	Анализ данных

•	Оформление результатов

Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.

**Исследование: Музыка больших городов**

Яндекс.Музыка — это крупный продукт с огромным запасом данных для исследований. Команды таких сервисов для поддержания интереса к продукту и привлечения новых пользователей часто проводят исследования про пользователей. Чтобы удержать клиентов и привлечь новых, сделать бренд более узнаваемым, команда сервиса проводит исследования аудитории, и публикует интересные результаты. Например, интересно сравнить тексты, сочинённые нейросетью, с произведениями настоящих рэперов.
Есть исследование, которое напоминает наше: о музыкальных предпочтениях в разных городах России.
Итак, вопрос вам: как музыка, которая звучит по дороге на работу в понедельник утром, отличается от той, что играет в среду или в конце рабочей недели? Возьмите данные для Москвы и Петербурга. Сравните, что и в каком режиме слушают их жители.

План исследования

1.	Получение данных. Прочитайте данные, ознакомьтесь с ними.

2.	Предобработка данных. Избавьтесь от дубликатов, проблем с названиями столбцов и пропусками.

3.	Анализ данных. Ответьте на основные вопросы исследования, подготовьте отчётную таблицу или опишите полученный результат.

4.	Подведение итогов. Просмотрите выполненную работу и сформулируйте выводы.


# Этап 1. Получение данных

Изучим данные, предоставленные сервисом для проекта.

Прочитайте файл music_project.csv и сохраните его в переменной df.

Получите  первых 10 строк таблицы, а также общую информацию о данных таблицы df.

In [40]:
import pandas as pd

df = pd.read_csv('./datasets/yandex_music.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Рассмотрим полученную информацию подробнее.
Всего в таблице 7 столбцов, тип данных у каждого столбца - строка.
Подробно разберём, какие в df столбцы и какую информацию они содержат:
•	userID — идентификатор пользователя;
•	Track — название трека;
•	artist — имя исполнителя;
•	genre — название жанра;
•	City — город, в котором происходило прослушивание;
•	time — время, в которое пользователь слушал трек;
•	Day — день недели.
Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


## Выводы: 

Каждая строка таблицы содержит информацию о композициях определённого жанра в определённом исполнении, которые пользователи слушали в одном из городов в определённое время и день недели. Две проблемы, которые нужно решать: пропуски и некачественные названия столбцов. Для проверки рабочих гипотез особенно ценны столбцы (*вставьте сюда названия столбцов, наиболее существенных, на ва взгляд*. Данные из столбца *название столбца*  позволят узнать самые популярные жанры.

# Этап 2. Предобработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

Получаем перечень названий столбцов. Какая наблюдается проблема — кроме тех, что уже были названы ранее?


In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


В названиях столбцов есть пробелы, которые могут затруднять доступ к данным.

Переименуем столбцы для удобства дальнейшей работы. Проверим результат.


In [42]:
df.rename(columns={'  userID': 'user_id', 'Track': 'track_name', 'artist': 'artist', 'genre': 'genre_name', '  City  ': 'city', 'time': 'time', 'Day': 'day'}, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     65079 non-null  object
 1   track_name  63848 non-null  object
 2   artist      57876 non-null  object
 3   genre_name  63881 non-null  object
 4   city        65079 non-null  object
 5   time        65079 non-null  object
 6   day         65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [43]:
df.isna().sum()

user_id          0
track_name    1231
artist        7203
genre_name    1198
city             0
time             0
day              0
dtype: int64

Пустые значения свидетельствуют, что для некоторых треков доступна не вся информация. Причины могут быть разные: скажем, не назван конкретный исполнитель народной песни. Хуже, если проблемы с записью данных. Каждый отдельный случай необходимо разобрать и выявить причину.

Заменяем пропущенные значения в столбцах с названием трека и исполнителя на строку 'unknown'. После этой операции нужно убедиться, что таблица больше не содержит пропусков.


In [44]:
# <замена пропущенных значений в столбце 'track_name' на строку 'unknown' специальным методом замены>
df['track_name'] = df['track_name'].fillna('unknown')
# <замена пропущенных значений в столбце 'artist_name' на строку 'unknown' специальным методом замены>
df['artist'] = df['artist'].fillna('unknown')

In [45]:
# <проверка: вычисление суммарного количества пропусков, выявленных в таблице df>
df.isna().sum()

user_id          0
track_name       0
artist           0
genre_name    1198
city             0
time             0
day              0
dtype: int64

Удаляем в столбце с жанрами пустые значения; убеждаемся, что их больше не осталось.

In [46]:
# <удаление пропущенных значений в столбце 'genre_name'>
df.dropna(subset=['genre_name'], inplace=True)
# <проверка>
df.isna().sum()

user_id       0
track_name    0
artist        0
genre_name    0
city          0
time          0
day           0
dtype: int64

Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [47]:
# <получение суммарного количества дубликатов в таблице df>
df.duplicated().sum()
# <удаление всех дубликатов из таблицы df специальным методом>
df.drop_duplicates(inplace=True)
# <проверка на отсутствие>
df.duplicated().sum()
df['time'] = pd.to_timedelta(df['time'])

Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

Сохраняем список уникальных значений столбца с жанрами в переменной genres_list.

Объявим функцию find_genre() для поиска неявных дубликатов в столбце с жанрами. Например, когда название одного и того же жанра написано разными словами.


In [48]:
# <сохранение в переменной genres_list списка уникальных значений, 
# выявленных специальным методом в столбце 'genre_name'>
genres_list = df['genre_name'].unique()
print(genres_list)

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'tatar' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'shanson' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'contemporary' 'new' 'soul' 'holiday' 'german'
 'tropical' 'fairytail' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'chanson'
 'numetal' 'vocal' 'estrada' 'russian' 'classicmetal' 'dubstep' 'club'
 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french' 'disco'
 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'breaks' 'eurofolk'
 'stonerrock' 'industrial' 'fu

In [49]:
# <создание функции find_genre()>
# функция принимает как параметр строку с названием искомого жанра
# в теле объявляется переменная-счётчик, ей присваивается значение 0,
# затем цикл for проходит по списку уникальных значений
# если очередной элемент списка равен параметру функции, 
# то значение счётчика увеличивается на 1
# по окончании работы цикла функция возвращает значение счётчика
def find_genre(genre: str):
    genre_count = 0
    for name in genres_list:
        if name == genre:
            genre_count += 1
    return genre_count


Вызов функции find_genre() для поиска различных вариантов названия жанра хип-хоп в таблице.

Правильное название — hiphop. Поищем другие варианты:

•	hip

•	hop

•	hip-hop


In [50]:
# <вызовом функции find_genre() проверяется наличие варианта 'hip'>
print(find_genre('hip'))

1


In [51]:
# <проверяется наличие варианта 'hop'>
print(find_genre('hop'))

1


In [52]:
# <проверяется наличие варианта 'hip-hop'>
print(find_genre('hip-hop'))

1


Объявим функцию find_hip_hop(), которая заменяет неправильное название этого жанра в столбце 'genre_name' на 'hiphop' и проверяет успешность выполнения замены.

Так исправляем все варианты написания, которые выявила проверка.


In [53]:
# <создание функции find_hip_hop()>
# функция принимает как параметры таблицу df и неверное название
# к столбцу 'genre_name' применяется специальный метод, 
# который заменяет второй параметр на строку 'hiphop'
# результат работы равен подсчитанному методом count() числу
#значений столбца, 
# которые равны второму параметру
# функция возвращает результат
def find_hip_hop(df_func: pd.DataFrame, invalid_name: str):
    df_func.replace({f'{invalid_name}': 'hiphop'}, inplace=True)
    return df_func.get(f'{invalid_name}', 0)

In [54]:
# <замена одного неверного варианта на hiphop вызовом функции find_hip_hop()>
print(find_hip_hop(df, 'hip'))

0


Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

In [55]:
# <получение общей информации о данных таблицы df>
df.info()


<class 'pandas.core.frame.DataFrame'>
Index: 60126 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype          
---  ------      --------------  -----          
 0   user_id     60126 non-null  object         
 1   track_name  60126 non-null  object         
 2   artist      60126 non-null  object         
 3   genre_name  60126 non-null  object         
 4   city        60126 non-null  object         
 5   time        60126 non-null  timedelta64[ns]
 6   day         60126 non-null  object         
dtypes: object(6), timedelta64[ns](1)
memory usage: 3.7+ MB


## Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с названиями столбцов, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. Поскольку сведения о жанрах важно сохранить для анализа, не просто удаляем все пропущенные значения, но заполним пропущенные имена исполнителей и названия треков. Имена столбцов теперь корректны и удобны для дальнейшей работы.


# Действительно ли музыку в разных городах слушают по-разному?

Была выдвинута гипотеза, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному. Проверяем это предположение по данным о трёх днях недели — понедельнике, среде и пятнице.

Для каждого города устанавливаем количество прослушанных в эти дни композиций с известным жанром, и сравниваем результаты.
Группируем данные по городу и вызовом метода count() подсчитываем композиции, для которых известен жанр.


In [56]:
# <группировка данных таблицы df по столбцу 'city' и подсчёт количества значений столбца 'genre_name'>
city_group = df.groupby('city')
city_group['genre_name'].count()

city
Moscow              41892
Saint-Petersburg    18234
Name: genre_name, dtype: int64

В Москве прослушиваний больше, чем в Санкт-Петербурге, но это не значит, что Москва более активна. У Яндекс.Музыки в целом больше пользователей в Москве, поэтому величины сопоставимы.
Сгруппируем данные по дню недели и подсчитаем прослушанные в понедельник, среду и пятницу композиции, для которых известен жанр.


In [57]:
# <группировка данных по столбцу 'weekday' и подсчёт количества значений столбца 'genre_name'>
weekday_group = df.groupby('day')
weekday_group['genre_name'].count()

day
Friday       21482
Monday       20866
Wednesday    17778
Name: genre_name, dtype: int64

Понедельник и пятница — время для музыки; по средам пользователи немного больше вовлечены в работу.

Создаём функцию number_tracks(), которая принимает как параметры таблицу, день недели и название города, а возвращает количество прослушанных композиций, для которых известен жанр. Проверяем количество прослушанных композиций для каждого города и понедельника, затем среды и пятницы.


In [58]:
# <создание функции number_tracks()>
# объявляется функция с тремя параметрами: df, day, city
# в переменной track_list сохраняются те строки таблицы df, для которых 
# значение в столбце 'weekday' равно параметру day
# и одновременно значение в столбце 'city' равно параметру city
# в переменной track_list_count сохраняется число значений столбца 'genre_name',
# рассчитанное методом count() для таблицы track_list
# функция возвращает значение track_list_count
def number_tracks(df_func: pd.DataFrame, day: str, city: str):
    track_list = df_func[(df_func['day'] == day) & (df_func['city'] == city)]
    #print(track_list.info())
    track_list_count = track_list['genre_name'].count()
    return track_list_count
    


In [59]:
# <список композиций для Москвы в понедельник>
moscow = ['Moscow']
moscow.append(number_tracks(df, 'Monday', 'Moscow'))
number_tracks(df, 'Monday', 'Moscow')

15347

In [60]:
# <список композиций для Санкт-Петербурга в понедельник>
peter =['Saint-Petersburg']
peter.append(number_tracks(df, 'Monday', 'Saint-Petersburg'))
number_tracks(df, 'Monday', 'Saint-Petersburg')

5519

In [61]:
# <список композиций для Москвы в среду>
moscow.append(number_tracks(df, 'Wednesday', 'Moscow'))
number_tracks(df, 'Wednesday', 'Moscow')

10865

In [62]:
# <список композиций для Санкт-Петербурга в среду>
peter.append(number_tracks(df, 'Wednesday', 'Saint-Petersburg'))
number_tracks(df, 'Wednesday', 'Saint-Petersburg')

6913

In [63]:
# <список композиций для Москвы в пятницу>
moscow.append(number_tracks(df, 'Friday', 'Moscow'))
number_tracks(df, 'Friday', 'Moscow')

15680

In [64]:
# <список композиций для Санкт-Петербурга в пятницу>
peter.append(number_tracks(df, 'Friday', 'Saint-Petersburg'))
number_tracks(df, 'Friday', 'Saint-Petersburg')
total = [moscow, peter]

Сведём полученную информацию в одну таблицу, где ['city', 'monday', 'wednesday', 'friday'] названия столбцов.

In [65]:
# <таблица с полученными данными>
total_cases = pd.DataFrame(data=total, columns=['city', 'monday', 'wednesday', 'friday'])
print(total_cases)

               city  monday  wednesday  friday
0            Moscow   15347      10865   15680
1  Saint-Petersburg    5519       6913    5802


## Вывод

*Запишите здесь ваши выводы.Опишите закономерности, которые вы наблюдаете по дням недели и городам*

# Утро понедельника и вечер пятницы — разная музыка или одна и та же?

Ищем ответ на вопрос, какие жанры преобладают в разных городах в понедельник утром и в пятницу вечером. Есть предположение, что в понедельник утром пользователи слушают больше бодрящей музыки (например, жанра поп), а вечером пятницы — больше танцевальных (например, электронику).
Получим таблицы данных по Москве moscow_general и по Санкт-Петербургу spb_general.


In [66]:
# получение таблицы moscow_general из тех строк таблицы df, 
# для которых значение в столбце 'city' равно 'Moscow'
moscow_general = df[df['city'] == 'Moscow']
# <получение таблицы spb_general>
spb_general = df[df['city'] == 'Saint-Petersburg']

Создаём функцию genre_weekday(), которая возвращает список жанров по запрошенному дню недели и времени суток с такого-то часа по такой-то.

In [74]:
# объявление функции genre_weekday() с параметрами df, day, time1, time2
# в переменной genre_list сохраняются те строки df, для которых одновременно:
# 1) значение в столбце 'weekday' равно параметру day,
# 2) значение в столбце 'time' больше time1 и
# 3) меньше time2.
# в переменной genre_list_sorted сохраняются в порядке убывания  
# первые 10 значений Series, полученной подсчётом числа значений 'genre_name'
# сгруппированной по столбцу 'genre_name' таблицы genre_list
# функция возвращает значение genre_list_sorted
def genre_weekday(df_func: pd.DataFrame, day: str, time1, time2):
    genre_list = df_func[(df_func['day'] == day) & (df_func['time'] >= time1) & (df_func['time'] <= time2)]#.sort_values(by='time')
    # genre_list_sorted = genres_list.sotr_values(by='genre_name').head(10)
    return genre_list.head(10)
    

Cравниваем полученные результаты по таблице для Москвы и Санкт-Петербурга в понедельник утром (с 7 до 11) и в пятницу вечером (с 17 до 23).

In [75]:
# <вызов функции для утра понедельника в Москве (вместо df таблица moscow_general)>
print(genre_weekday(moscow_general, 'Monday', pd.to_timedelta('06:00:00'), pd.to_timedelta('12:00:00')))

      user_id           track_name  \
4    E2DC1FAE          Soul People   
12   FF3FD2BD  Мина син генэ кирэк   
20   201CF2A8     Ya'll In Trouble   
37   C800FA98            Body Talk   
50   3DBEB447             Entrance   
52   C9EAF7B7             Giratina   
59   3A64204B           Притоптать   
60   E2F8BE12                Banga   
89   4D278386            Ave Maria   
108   8674CB2     Upsidedown Intro   

                                                artist  genre_name    city  \
4                                           Space Echo       dance  Moscow   
12                                      Ильдар Хакимов         pop  Moscow   
20   Lil Tee Chill Tank Young Buck Brother Mohammed...      hiphop  Moscow   
37                                                Ratt        rock  Moscow   
50                                        Sun Electric       dance  Moscow   
52                                             Dimatik  electronic  Moscow   
59                                 

In [76]:
# <вызов функции для утра понедельника в Петербурге (вместо df таблица spb_general)>
print(genre_weekday(spb_general, 'Monday', pd.to_timedelta('06:00:00'), pd.to_timedelta('12:00:00')))

      user_id                track_name          artist  genre_name  \
3    A3DD03C9     Dragons in the Sunset      Fire + Ice        folk   
40   77979A66     Верните в моду любовь          Hazard      rusrap   
116  B16E75A7  Я буду красивой невестой      Республика      ruspop   
144  E9106B06              Time to Kill     The Rescues        rock   
170  20F4ECCA                       Сны   Михаил Грубов     shanson   
239  239B6D90         The Road to Epoli  Evin Wolverton        folk   
241  729DEBB8                  Go Again    Khari Mateen        soul   
253  B7CC7D58                  Only 4 U      Rivergazer  electronic   
298  FFB692EC                     Bells    Seth Lakeman       world   
316  5AD137F2              Living Water            Alob   spiritual   

                 city            time     day  
3    Saint-Petersburg 0 days 08:37:09  Monday  
40   Saint-Petersburg 0 days 08:45:43  Monday  
116  Saint-Petersburg 0 days 08:07:51  Monday  
144  Saint-Petersburg 0 da

In [77]:
# <вызов функции для вечера пятницы в Москве>
print(genre_weekday(moscow_general, 'Friday', pd.to_timedelta('16:00:00'), pd.to_timedelta('23:59:59')))

      user_id                      track_name                artist  \
13   CC782B0F            After School Special  Detroit Grand Pubahs   
43   9A22399C                   Sweet October    Ministers of Music   
46   825997A5                Glorious Feeling            Joelistics   
56   8B14ACB3                 Senses Overload               unknown   
61   B5496034                     Jealous Man  The Marcus King Band   
65   DBA2327A                   Run Bobby Run           Lesley Gore   
67   9F93EEC8                   Believe in Me             Bluesolar   
72   8B9DEC72   It Sends My Heart into a Spin        Vanishing Twin   
132  2B11DB56                     A New Error                Enyris   
153  DFABA255  He Fought as Legend (No Choir)         Infinitescore   

       genre_name    city            time     day  
13          dance  Moscow 0 days 20:04:12  Friday  
43          dance  Moscow 0 days 20:32:33  Friday  
46         hiphop  Moscow 0 days 21:46:34  Friday  
56        

In [78]:
# <вызов функции для вечера пятницы в Питере>
print(genre_weekday(spb_general, 'Friday', pd.to_timedelta('16:00:00'), pd.to_timedelta('23:59:59')))

      user_id                     track_name                 artist  \
31   F6A44469            Veritas Universalis              Devathorn   
38   14FBD1E5                       Solteras           Beauty Brain   
49   2A35001B  Can You Feel the Love Tonight  Disney Peaceful Piano   
53   CDB46D40                    Renaissance          Soeur Sourire   
101  B5B48EC1                        Lighter    Sound of the Future   
163  646049D0        Theme For The Eulipions    Rahsaan Roland Kirk   
176  109A4BF7               Dance Sing Fight                Arborea   
179  2523A570                           Done          Sasha Holiday   
180  8E7577C5           Let the Magic Unfold                unknown   
181  3A6BABDC                Never on Sunday       Helmut Zacharias   

       genre_name              city            time     day  
31          metal  Saint-Petersburg 0 days 20:19:42  Friday  
38          dance  Saint-Petersburg 0 days 20:33:11  Friday  
49   instrumental  Saint-Petersb

Популярные жанры в понедельник утром в Питере и Москве оказались похожи: везде, как и предполагалось, популярен *(вставьте сюда название жанра)*. Несмотря на это, концовка топ-10 для двух городов различается: в Питере в топ-10 входит джаз и русский рэп, а в Москве жанр world.

*(Опишите здесь, меняется ли ситуация в музыкальными предпочтениями в конце недели, заметна ли разница в концовке ТОП-10)*

## Вывод
Жанр *(вставьте сюда название жанра)* безусловный лидер, а топ-5 в целом не различается в обеих столицах. При этом видно, что концовка списка более «живая»: для каждого города выделяются более характерные жанры, которые действительно меняют свои позиции в зависимости от дня недели и времени.


# Москва и Питер — две разные столицы, два разных направления в музыке. Правда?

Гипотеза: Питер богат своей рэп-культурой, поэтому это направление там слушают чаще, а Москва — город контрастов, но основная масса пользователей слушает попсу.

Сгруппируем таблицу moscow_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице moscow_genres.

Просмотрим первые 10 строк этой новой таблицы.


In [92]:
# одной строкой: группировка таблицы moscow_general по столбцу 'genre_name', 
# подсчёт числа значений 'genre_name' в этой группировке методом count(), 
# сортировка Series в порядке убывания и сохранение в moscow_genres 
moscow_genres = moscow_general.groupby('genre_name')['genre_name'].count().sort_values(ascending=False)


In [93]:
# <просмотр первых 10 строк moscow_genres>
moscow_genres.head(10)

genre_name
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2094
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre_name, dtype: int64

Сгруппируем таблицу spb_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице spb_genres.

Просматриваем первые 10 строк этой таблицы. Теперь можно сравнивать два города.


In [94]:
# <группировка таблицы spb_general, расчёт, сохранение в spb_genres>
spb_genres = spb_general.groupby('genre_name')['genre_name'].count().sort_values(ascending=False)

In [95]:
# <просмотр первых 10 строк spb_genres>
spb_genres.head(10)

genre_name
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre_name, dtype: int64

## Вывод
В Москве, кроме абсолютно популярного жанра поп, есть направление русской популярной музыки. Значит, что интерес к этому жанру шире. А рэп, вопреки предположению, занимает в обоих городах близкие позиции.


# Результаты исследования

Рабочие гипотезы:

•	музыку в двух городах — Москве и Санкт-Петербурге — слушают в разном режиме;

•	списки десяти самых популярных жанров утром в понедельник и вечером в пятницу имеют характерные отличия;

•	население двух городов предпочитает разные музыкальные жанры.

**Общие результаты**

Москва и Петербург сходятся во вкусах: везде преобладает популярная музыка. При этом зависимости предпочтений от дня недели в каждом отдельном городе нет — люди постоянно слушают то, что им нравится. Но между городами в разрезе дней неделей наблюдается зеркальность относительно среды: Москва больше слушает в понедельник и пятницу, а Петербург наоборот - больше в среду, но меньше в понедельник и пятницу.
В результате первая гипотеза *подтверждена / не подтверждена*, вторая гипотеза *подтверждена / не подтверждена* и третья не подтверждена >.*подтверждена / не подтверждена*
