# Музыка

Сравнение Москвы и Петербурга окружено мифами. Например:
 * Москва — мегаполис, подчинённый жёсткому ритму рабочей недели;
 * Петербург — культурная столица, со своими вкусами.

На данных Музыки вы сравните поведение пользователей двух столиц.

**Цель исследования** — проверьте три гипотезы:
1. Активность пользователей зависит от дня недели. Причём в Москве и Петербурге это проявляется по-разному.
2. В понедельник утром в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города. 
3. Москва и Петербург предпочитают разные жанры музыки. В Москве чаще слушают поп-музыку, в Петербурге — русский рэп.

**Ход исследования**

Данные о поведении пользователей вы получите из файла `yandex_music_project.csv`. О качестве данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. 

Вы проверите данные на ошибки и оцените их влияние на исследование. Затем, на этапе предобработки вы поищете возможность исправить самые критичные ошибки данных.
 
Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных.
 3. Проверка гипотез.



## Обзор данных

Составьте первое представление о данных Яндекс Музыки.




**Задание 1**

Основной инструмент аналитика — `pandas`. Импортируйте эту библиотеку.

In [2]:
import pandas as pd

**Задание 2**

Прочитайте файл `yandex_music_project.csv` из папки `/datasets` и сохраните его в переменной `df`:

In [3]:
df = pd.read_csv(r"C:\Users\VITYA\OneDrive\Рабочий стол\╨г╤А╨╛╨║ 5. ╨Я╤А╨╛╨╡╨║╤В\yandex_music_project.csv")

**Задание 3**


Выведите на экран первые десять строк таблицы:

In [4]:
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


**Задание 4**


Одной командой получить общую информацию о таблице c помощью метода `info()`:

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


**Задание 5**

**Вопрос со свободной формой ответа**

В названиях колонок видны нарушения стиля:
* Строчные буквы сочетаются с прописными.
* Встречаются пробелы.

Какое третье нарушение?

In [6]:
df = df.rename(columns = {"  userID":"userID"})#camel case
df = df.rename(columns = {"Day":"day"})
df = df.rename(columns = {"Track":"track"})
df = df.rename(columns = {"  City  ":"city"})

   



**Выводы**

В каждой строке таблицы — данные о прослушанном треке. Часть колонок описывает саму композицию: название, исполнителя и жанр. Остальные данные рассказывают о пользователе: из какого он города, когда он слушал музыку. 

Предварительно можно утверждать, что данных достаточно для проверки гипотез. Но встречаются пропуски в данных, а в названиях колонок — расхождения с хорошим стилем.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных
Исправьте стиль в заголовках столбцов, исключите пропуски. Затем проверьте данные на дубликаты.

### Стиль заголовков

**Задание 6**

Выведите на экран названия столбцов:

In [7]:
df = df.rename(columns= {"  City": "City"})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   userID  65079 non-null  object
 1   track   63848 non-null  object
 2   artist  57876 non-null  object
 3   genre   63881 non-null  object
 4   city    65079 non-null  object
 5   time    65079 non-null  object
 6   day     65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


**Задание 7**


Приведите названия в соответствие с хорошим стилем:
* несколько слов в названии запишите в «змеином_регистре»,
* все символы сделайте строчными,
* устраните пробелы.

Для этого переименуйте колонки так:
* `'  userID'` → `'user_id'`;
* `'Track'` → `'track'`;
* `'  City  '` → `'city'`;
* `'Day'` → `'day'`.

In [40]:
df = df.rename(columns = {"userID":"user_id" })

**Задание 8**


Проверьте результат. Для этого ещё раз выведите на экран названия столбцов:

In [9]:
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Пропуски значений

**Задание 9**

Сначала посчитайте, сколько в таблице пропущенных значений. Для этого достаточно двух методов `pandas`:

In [10]:
df.isna().sum()

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64

Не все пропущенные значения влияют на исследование. Так в `track` и `artist` пропуски не важны для вашей работы. Достаточно заменить их явными обозначениями.

Но пропуски в `genre` могут помешать сравнению музыкальных вкусов в Москве и Санкт-Петербурге. На практике было бы правильно установить причину пропусков и восстановить данные. Такой возможности нет в учебном проекте. Придётся:
* заполнить и эти пропуски явными обозначениями;
* оценить, насколько они повредят расчётам. 

**Задание 10**

Замените пропущенные значения в столбцах `track`, `artist` и `genre` на строку `'unknown'`. Для этого создайте список `columns_to_replace`, переберите его элементы циклом `for` и для каждого столбца выполните замену пропущенных значений:

In [11]:

columns_to_replace = ["track", "artist", "genre"]
for i in columns_to_replace:
    df[i] = df[i].fillna("unknown")


**Задание 11**

Убедитесь, что в таблице не осталось пропусков. Для этого ещё раз посчитайте пропущенные значения.

In [12]:
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Дубликаты

**Задание 12**

Посчитайте явные дубликаты в таблице одной командой:

In [13]:
df.duplicated().sum()


np.int64(3826)

**Задание 13**

Вызовите специальный метод `pandas`, чтобы удалить явные дубликаты:

In [41]:
df.drop_duplicates(inplace = True)

**Задание 14**

Ещё раз посчитайте явные дубликаты в таблице — убедитесь, что полностью от них избавились:

In [42]:
df.duplicated().sum()

np.int64(0)

Теперь избавьтесь от неявных дубликатов в колонке `genre`. Например, название одного и того же жанра может быть записано немного по-разному. Такие ошибки тоже повлияют на результат исследования.

**Задание 15**

Выведите на экран список уникальных названий жанров, отсортированный в алфавитном порядке. Для этого:
1. извлеките нужный столбец датафрейма; 
2. примените к нему метод сортировки;
3. для отсортированного столбца вызовите метод, который вернёт уникальные значения из столбца.

In [16]:
df["genre"].sort_values()

32883           acid
31548       acoustic
39129       acoustic
14811       acoustic
3650        acoustic
            ...     
3292           world
28665      worldbeat
40493      worldbeat
8514             ïîï
6501     электроника
Name: genre, Length: 65079, dtype: object

**Задание 16**

Просмотрите список и найдите неявные дубликаты названия `hiphop`. Это могут быть названия с ошибками или альтернативные названия того же жанра.

Вы увидите следующие неявные дубликаты:
* *hip*,
* *hop*,
* *hip-hop*.

Чтобы очистить от них таблицу используйте метод `replace()` с двумя аргументами: списком строк-дубликатов (включащий *hip*, *hop* и *hip-hop*) и строкой с правильным значением. Вам нужно исправить колонку `genre` в таблице `df`: заменить каждое значение из списка дубликатов на верное. Вместо `hip`, `hop` и `hip-hop` в таблице должно быть значение `hiphop`:

In [17]:
df.loc[(df["genre"] == "hip") | (df["genre"] == "hop")|(df["genre"] == "hip-hop"), "genre"] = "hiphop"
df["genre"].tail(30)

65049           dance
65050             pop
65051     alternative
65052          hiphop
65053           metal
65054             pop
65055       caucasian
65056             pop
65057     alternative
65058             rnb
65059      electronic
65060            rock
65061             rnb
65062            punk
65063            film
65064      electronic
65065           world
65066        postrock
65067            rock
65068            jazz
65069      electronic
65070           dance
65071          techno
65072    extrememetal
65073    extrememetal
65074             rnb
65075          hiphop
65076      industrial
65077            rock
65078         country
Name: genre, dtype: object

**Задание 17**

Проверьте, что заменили неправильные названия:

*   hip,
*   hop,
*   hip-hop.

Выведите отсортированный список уникальных значений столбца `genre`:

In [18]:
df["genre"].unique()

array(['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world',
       'electronic', 'unknown', 'alternative', 'children', 'rnb',
       'hiphop', 'jazz', 'postrock', 'latin', 'classical', 'metal',
       'reggae', 'tatar', 'blues', 'instrumental', 'rusrock', 'dnb',
       'türk', 'post', 'country', 'psychedelic', 'conjazz', 'indie',
       'posthardcore', 'local', 'avantgarde', 'punk', 'videogame',
       'techno', 'house', 'christmas', 'melodic', 'caucasian',
       'reggaeton', 'soundtrack', 'singer', 'ska', 'shanson', 'ambient',
       'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal',
       'minimal', 'contemporary', 'new', 'soul', 'holiday', 'german',
       'tropical', 'fairytail', 'spiritual', 'urban', 'gospel', 'nujazz',
       'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore',
       'progressive', 'chanson', 'numetal', 'vocal', 'estrada', 'russian',
       'classicmetal', 'dubstep', 'club', 'deep', 'southern', 'black',
       'folkrock', 'fitness'

**Выводы**

Предобработка обнаружила три проблемы в данных:

- нарушения в стиле заголовков,
- пропущенные значения,
- дубликаты — явные и неявные.

Вы исправили заголовки, чтобы упростить работу с таблицей. Без дубликатов исследование станет более точным.

Пропущенные значения вы заменили на `'unknown'`. Ещё предстоит увидеть, не повредят ли исследованию пропуски в колонке `genre`.

Теперь можно перейти к проверке гипотез. 

## Проверка гипотез

### Сравнение поведения пользователей двух столиц

Первая гипотеза утверждает, что пользователи по-разному слушают музыку в Москве и Санкт-Петербурге. Проверьте это предположение по данным о трёх днях недели — понедельнике, среде и пятнице. Для этого:

* Разделите пользователей Москвы и Санкт-Петербурга.
* Сравните, сколько треков послушала каждая группа пользователей в понедельник, среду и пятницу.


**Задание 18**

Для тренировки сначала выполните каждый из расчётов по отдельности. 

Оцените активность пользователей в каждом городе. Сгруппируйте данные по городу и посчитайте прослушивания в каждой группе.



In [19]:
spb = df.loc[df["city"] == "Saint-Petersburg", ["track", "genre", "city", "artist"]]

msc = df.loc[df["city"] == "Moscow", ["track", "genre", "city", "artist"]]

msc.groupby("city")["track"].count()
spb.groupby("city")["track"].count()




city
Saint-Petersburg    19719
Name: track, dtype: int64

В Москве прослушиваний больше, чем в Петербурге. Из этого не следует, что московские пользователи чаще слушают музыку. Просто самих пользователей в Москве больше.

**Задание 19**

Теперь сгруппируйте данные по дню недели и посчитайте прослушивания в понедельник, среду и пятницу. Учтите, что в данных есть информация о прослушиваниях только за эти дни.


In [None]:
spb = df.loc[df["city"] == "Saint-Petersburg" ,["track", "genre", "city", "artist", "day"]]
spb.groupby("day")["track"].count()
msc = df.loc[df["city"] == "Moscow" ,["track", "genre", "city", "artist", "day"]]
msc.groupby("day")["track"].count()


city
Saint-Petersburg    7478
Name: track, dtype: int64

В среднем пользователи из двух городов менее активны по средам. Но картина может измениться, если рассмотреть каждый город в отдельности.

**Задание 20**


Вы видели, как работает группировка по городу и по дням недели. Теперь напишите функцию, которая объединит два эти расчёта.

Создайте функцию `number_tracks()`, которая посчитает прослушивания для заданного дня и города. Ей понадобятся два параметра:
* день недели,
* название города.

В функции сохраните в переменную строки исходной таблицы, у которых значение:
  * в колонке `day` равно параметру `day`,
  * в колонке `city` равно параметру `city`.

Для этого примените последовательную фильтрацию с логической индексацией (или сложные логические выражения в одну строку, если вы уже знакомы с ними).

Затем посчитайте значения в столбце `user_id` получившейся таблицы. Результат сохраните в новую переменную. Верните эту переменную из функции.

In [21]:

day = "Wednesday"
city = "Moscow"
def number_track(day, city, df):
    filtered_df = df[(df['day'] == day) & (df['city'] == city)]
    track_count = filtered_df['user_id'].count()
    return track_count
number_track(day, city,df)




np.int64(11755)

**Задание 21**

Вызовите `number_tracks()` шесть раз, меняя значение параметров — так, чтобы получить данные для каждого города в каждый из трёх дней.

In [None]:
day = "Monday"
city = "Moscow"
def number_track(day, city, df):
    filtered_df = df[(df['day'] == day) & (df['city'] == city)]
    track_count = filtered_df['user_id'].count()
    return track_count
number_track(day,city,df)
day = "Wednesday"
city = "Moscow"

number_track(day,city,df)
day = "Friday"
city = "Moscow"

number_track(day,city,df)
day = "Monday"
city = "Saint-Petersburg"

number_track(day,city,df)
day = "Wednesday"
city = "Saint-Petersburg"

number_track(day,city,df)
day = "Monday"
city = "Saint-Petersburg"

number_track(day,city,df)


np.int64(5982)

**Задание 22**

Создайте c помощью конструктора `pd.DataFrame` таблицу, где
* названия колонок — `['city', 'monday', 'wednesday', 'friday']`;
* данные — результаты, которые вы получили с помощью `number_tracks`.

In [23]:
pd.DataFrame({
    "city":["SPB" , "Moscow"],
    "monday":[5982,16715],
    "wednesday":[7478,11755 ],
    "friday":[6259,16890]


})


Unnamed: 0,city,monday,wednesday,friday
0,SPB,5982,7478,6259
1,Moscow,16715,11755,16890


**Выводы**

Данные показывают разницу поведения пользователей:

- В Москве пик прослушиваний приходится на понедельник и пятницу, а в среду заметен спад.
- В Петербурге, наоборот, больше слушают музыку по средам. Активность в понедельник и пятницу здесь почти в равной мере уступает среде.

Значит, данные говорят в пользу первой гипотезы.

### Музыка в начале и в конце недели

Согласно второй гипотезе, утром в понедельник в Москве преобладают одни жанры, а в Петербурге — другие. Так же и вечером пятницы преобладают разные жанры — в зависимости от города.

**Задание 23**

Сохраните таблицы с данными в две переменные:
* по Москве — в `moscow_general`;
* по Санкт-Петербургу — в `spb_general`.

In [26]:
moscow_general =  df.loc[df["city"] =="Moscow",  ]
moscow_general

Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,unknown,ruspop,Moscow,09:17:40,Friday
...,...,...,...,...,...,...,...
65073,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Moscow,21:07:12,Monday
65074,729CBB09,My Name,McLean,rnb,Moscow,13:32:28,Wednesday
65076,C5E3A0D5,Jalopiina,unknown,industrial,Moscow,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Moscow,21:43:59,Friday


In [27]:
spb_general =  df.loc[df["city"] =="Saint-Petersburg",  ]
spb_general

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Saint-Petersburg,21:20:49,Wednesday
...,...,...,...,...,...,...,...
65064,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Saint-Petersburg,21:06:50,Monday
65065,29E04611,Bre Petrunko,Perunika Trio,world,Saint-Petersburg,13:56:00,Monday
65066,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Saint-Petersburg,09:22:13,Monday
65067,F1B93F29,Poison Kiss,Centerstone,rock,Saint-Petersburg,22:00:29,Monday


Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday


**Задание 24**

Создайте функцию `genre_weekday()` с четырьмя параметрами:
* таблица (датафрейм) с данными,
* день недели,1
* начальная временная метка в формате 'hh:mm', 
* последняя временная метка в формате 'hh:mm'.

Функция должна вернуть информацию о топ-10 жанров тех треков, которые прослушивали в указанный день, в промежутке между двумя отметками времени.

In [None]:
day = "Monday"
time2 = "20:28:33"
time1 = "08:37:09"
city = "Moscow"
def genre_weekday(df, day,time1, time2 ):
    fil_df = df.loc[(df["time"]  > time1)& ( df["time"] < time2)& (df["day"] == day) ]

    
    return  fil_df["genre"].value_counts().head(10)
genre_weekday(df,day,time1, time2)


genre
pop            2003
dance          1599
rock           1398
electronic     1340
hiphop          746
classical       548
world           492
alternative     469
ruspop          448
rusrap          432
Name: count, dtype: int64

**Задание 25**


Cравните результаты функции `genre_weekday()` для Москвы и Санкт-Петербурга в понедельник утром (с 7:00 до 11:00) и в пятницу вечером (с 17:00 до 23:00):

In [54]:
day = "Monday"
time1 = "07:00:00"
time2 = "11:00:00"
city = "Moscow"
def genre_weekday(df, day,time1, time2,city ):
    fil_df = df.loc[(df["time"]  > time1)& ( df["time"] < time2)& (df["day"] == day)& (df["city"] == city) ]

    
    return  fil_df["genre"].value_counts().head(10)
genre_weekday(df,day,time1, time2,city)

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: count, dtype: int64

In [None]:
day = "Friday"
time1 = "17:00:00"
time2 = "23:00:00"
city = "Saint-Petersburg"
def genre_weekday(df, day,time1, time2 ):
    fil_df = df.loc[(df["time"]  > time1)& ( df["time"] < time2)& (df["day"] == day) & (df["city"] == city)]

    
    return  fil_df["genre"].value_counts().head(10)
genre_weekday(df,day,time1, time2,city)

genre
pop            969
rock           733
dance          705
electronic     698
hiphop         370
world          262
alternative    226
classical      223
ruspop         217
rusrap         201
Name: count, dtype: int64

In [None]:
day = "Friday"
time1 = "17:00:00"
time2 = "23:00:00"
city = "Moscow"
def genre_weekday(df, day,time1, time2 ):
    fil_df = df.loc[(df["time"]  > time1)& ( df["time"] < time2)& (df["day"] == day)& (df["city"] == city) ]

    
    return  fil_df["genre"].value_counts().head(10)
genre_weekday(df,day,time1, time2,city)

genre
pop            1040
rock            776
dance           742
electronic      737
hiphop          385
world           280
alternative     243
classical       235
ruspop          233
rusrap          217
Name: count, dtype: int64

In [None]:
day = "Monday"
time1 = "07:00:00"
time2 = "11:00:00"
city = "Saint-Petersburg"
def genre_weekday(df, day,time1, time2 ):
    fil_df = df.loc[(df["time"]  > time1)& ( df["time"] < time2)& (df["day"] == day)& (df["city"] == city) ]

    
    return  fil_df["genre"].value_counts().head(10)
genre_weekday(df,day,time1, time2,city)

genre
pop            1068
dance           781
rock            684
electronic      655
hiphop          399
ruspop          271
rusrap          244
alternative     240
world           229
classical       209
Name: count, dtype: int64

**Выводы**

Если сравнить топ-10 жанров в понедельник утром, можно сделать такие выводы:

1. В Москве и Петербурге слушают похожую музыку. Единственное отличие — в московский рейтинг вошёл жанр “world”, а в петербургский — джаз и классика.

2. В Москве пропущенных значений оказалось так много, что значение `'unknown'` заняло десятое место среди самых популярных жанров. Значит, пропущенные значения занимают существенную долю в данных и угрожают достоверности исследования.

Вечер пятницы не меняет эту картину. Некоторые жанры поднимаются немного выше, другие спускаются, но в целом топ-10 остаётся тем же самым.

Таким образом, вторая гипотеза подтвердилась лишь частично:
* Пользователи слушают похожую музыку в начале недели и в конце.
* Разница между Москвой и Петербургом не слишком выражена. В Москве чаще слушают русскую популярную музыку, в Петербурге — джаз.

Однако пропуски в данных ставят под сомнение этот результат. В Москве их так много, что рейтинг топ-10 мог бы выглядеть иначе, если бы не утерянные  данные о жанрах.

### Жанровые предпочтения в Москве и Петербурге

Гипотеза: Петербург — столица рэпа, музыку этого жанра там слушают чаще, чем в Москве.  А Москва — город контрастов, в котором, тем не менее, преобладает поп-музыка.

**Задание 26**

Сгруппируйте таблицу `moscow_general` по жанру и посчитайте прослушивания треков каждого жанра методом `count()`. Затем отсортируйте результат в порядке убывания и сохраните его в таблице `moscow_genres`.

In [34]:
moscow_genres= moscow_general["genre"].value_counts()
moscow_genres

genre
pop                6253
dance              4707
rock               4188
electronic         4010
hiphop             2215
                   ... 
rockalternative       1
forró                 1
popdance              1
dirty                 1
regional              1
Name: count, Length: 267, dtype: int64

**Задание 27**

Выведите на экран первые десять строк `moscow_genres`:

In [35]:
moscow_genres.head(10)

genre
pop            6253
dance          4707
rock           4188
electronic     4010
hiphop         2215
classical      1712
world          1516
alternative    1466
ruspop         1453
rusrap         1239
Name: count, dtype: int64

**Задание 28**


Теперь повторите то же и для Петербурга.

Сгруппируйте таблицу `spb_general` по жанру. Посчитайте прослушивания треков каждого жанра. Результат отсортируйте в порядке убывания и сохраните в таблице `spb_genres`:


In [37]:
spb_genres= spb_general["genre"].value_counts()
spb_genres

genre
pop            2597
dance          2054
rock           2004
electronic     1842
hiphop         1020
               ... 
orchestral        1
ram               1
mandopop          1
idm               1
traditional       1
Name: count, Length: 211, dtype: int64

**Задание 29**

Выведите на экран первые десять строк `spb_genres`:

In [56]:
spb_genres.head(10)

genre
pop            2597
dance          2054
rock           2004
electronic     1842
hiphop         1020
alternative     700
classical       684
rusrap          604
ruspop          565
world           553
Name: count, dtype: int64

**Выводы**

Гипотеза частично подтвердилась:
* Поп-музыка — самый популярный жанр в Москве, как и предполагала гипотеза. Более того, в топ-10 жанров встречается близкий жанр — русская популярная музыка.
* Вопреки ожиданиям, рэп одинаково популярен в Москве и Петербурге. 


## Итоги исследования

Вы проверили три гипотезы и установили:

1. День недели по-разному влияет на активность пользователей в Москве и Петербурге. 

Первая гипотеза полностью подтвердилась.

2. Музыкальные предпочтения не сильно меняются в течение недели — будь то Москва или Петербург. Небольшие различия заметны в начале недели, по понедельникам:
* в Москве слушают музыку жанра “world”,
* в Петербурге — джаз и классику.

Таким образом, вторая гипотеза подтвердилась лишь отчасти. Этот результат мог оказаться иным, если бы не пропуски в данных.

3. Во вкусах пользователей Москвы и Петербурга больше общего чем различий. Вопреки ожиданиям, предпочтения жанров в Петербурге напоминают московские.

Третья гипотеза не подтвердилась. Если различия в предпочтениях и существуют, на основной массе пользователей они незаметны.

**На практике исследования содержат проверки статистических гипотез.**
Из данных одного сервиса не всегда можно сделать вывод о всех жителях города.
Проверки статистических гипотез покажут, насколько они достоверны, исходя из имеющихся данных. 
С методами проверок гипотез вы ещё познакомитесь в следующих темах.