# Добро пожаловать в самостоятельный проект

Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python. 

Проект выполняется в пять этапов:

•	Постановка задачи

•	Получение данных

•	Предобработка данных

•	Анализ данных

•	Оформление результатов

Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.

**Исследование: Музыка больших городов**

Яндекс.Музыка — это крупный продукт с огромным запасом данных для исследований. Команды таких сервисов для поддержания интереса к продукту и привлечения новых пользователей часто проводят исследования про пользователей. Чтобы удержать клиентов и привлечь новых, сделать бренд более узнаваемым, команда сервиса проводит исследования аудитории, и публикует интересные результаты. Например, интересно сравнить тексты, сочинённые нейросетью, с произведениями настоящих рэперов.
Есть исследование, которое напоминает наше: о музыкальных предпочтениях в разных городах России.
Итак, вопрос вам: как музыка, которая звучит по дороге на работу в понедельник утром, отличается от той, что играет в среду или в конце рабочей недели? Возьмите данные для Москвы и Петербурга. Сравните, что и в каком режиме слушают их жители.

План исследования

1.	Получение данных. Прочитайте данные, ознакомьтесь с ними.

2.	Предобработка данных. Избавьтесь от дубликатов, проблем с названиями столбцов и пропусками.

3.	Анализ данных. Ответьте на основные вопросы исследования, подготовьте отчётную таблицу или опишите полученный результат.

4.	Подведение итогов. Просмотрите выполненную работу и сформулируйте выводы.


# Этап 1. Получение данных

Изучим данные, предоставленные сервисом для проекта.

Прочитайте файл music_project.csv и сохраните его в переменной df.

Получите  первых 10 строк таблицы, а также общую информацию о данных таблицы df.

In [8]:
import pandas as pd

df = pd.read_csv('yandex_music (3).csv')
print(df.head(10))
print(df.info)


     userID                        Track            artist   genre   
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock  \
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                    Преданная         IMPERVTOR  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE     И вновь продолжается бой               NaN  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

             City        time        Day  
0  Saint-Petersburg  20:28:33  Wednesday  
1            Moscow  14:07:09     Friday  
2  Saint-Petersburg  20:58:07  Wednesday  
3  Saint-Petersburg  08:37:09     Monday  
4            M

Рассмотрим полученную информацию подробнее.
Всего в таблице 7 столбцов, тип данных у каждого столбца - строка.
Подробно разберём, какие в df столбцы и какую информацию они содержат:
•	userID — идентификатор пользователя;
•	Track — название трека;
•	artist — имя исполнителя;
•	genre — название жанра;
•	City — город, в котором происходило прослушивание;
•	time — время, в которое пользователь слушал трек;
•	Day — день недели.
Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


## Выводы: 

Каждая строка таблицы содержит информацию о композициях определённого жанра в определённом исполнении, которые пользователи слушали в одном из городов в определённое время и день недели. Две проблемы, которые нужно решать: пропуски и некачественные названия столбцов. Для проверки рабочих гипотез особенно ценны столбцы (*вставьте сюда названия столбцов, наиболее существенных, на ва взгляд*. Данные из столбца *название столбца*  позволят узнать самые популярные жанры.

# Этап 2. Предобработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

Получаем перечень названий столбцов. Какая наблюдается проблема — кроме тех, что уже были названы ранее?


In [11]:
# <перечень названий столбцов таблицы df>
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'Day'], dtype='object')

В названиях столбцов есть пробелы, которые могут затруднять доступ к данным.

Переименуем столбцы для удобства дальнейшей работы. Проверим результат.


In [12]:
df.rename(columns={'  userID': 'user_id', 'Track': 'track', '  City  ': 'city'}, inplace=True)
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'Day'], dtype='object')

Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [14]:
# <суммарное количество пропусков, выявленных методом isnull() в таблице df>
sum_of_null = df.isnull().sum()
print(sum_of_null)

user_id       0
track      1231
artist     7203
genre      1198
city          0
time          0
Day           0
dtype: int64


Пустые значения свидетельствуют, что для некоторых треков доступна не вся информация. Причины могут быть разные: скажем, не назван конкретный исполнитель народной песни. Хуже, если проблемы с записью данных. Каждый отдельный случай необходимо разобрать и выявить причину.

Заменяем пропущенные значения в столбцах с названием трека и исполнителя на строку 'unknown'. После этой операции нужно убедиться, что таблица больше не содержит пропусков.


In [17]:
# <замена пропущенных значений в столбце 'track_name' на строку 'unknown' специальным методом замены>
# <замена пропущенных значений в столбце 'artist_name' на строку 'unknown' специальным методом замены>
df['track'] = df['track'].fillna('unknown')
df['artist'] = df['artist'].fillna('unknown')

In [18]:
# <проверка: вычисление суммарного количества пропусков, выявленных в таблице df>
sum_of_null = df.isnull().sum()
print(sum_of_null)

user_id       0
track         0
artist        0
genre      1198
city          0
time          0
Day           0
dtype: int64


Удаляем в столбце с жанрами пустые значения; убеждаемся, что их больше не осталось.

In [19]:
# <удаление пропущенных значений в столбце 'genre_name'>
# <проверка>
df['genre'] = df['genre'].fillna('unknown')
sum_of_null = df.isnull().sum()
print(sum_of_null)

user_id    0
track      0
artist     0
genre      0
city       0
time       0
Day        0
dtype: int64


Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [20]:
# <получение суммарного количества дубликатов в таблице df>
# <удаление всех дубликатов из таблицы df специальным методом>
# <проверка на отсутствие>
duplicate  = df.duplicated().sum()
print(duplicate)


3826


In [23]:
df = df.drop_duplicates()
no_duplicates = not df.duplicated().any()
print(f"Дубликаты отсутствуют: {no_duplicates}")


Дубликаты отсутствуют: True


Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

Сохраняем список уникальных значений столбца с жанрами в переменной genres_list.

Объявим функцию find_genre() для поиска неявных дубликатов в столбце с жанрами. Например, когда название одного и того же жанра написано разными словами.


In [25]:
# <сохранение в переменной genres_list списка уникальных значений, 
# выявленных специальным методом в столбце 'genre_name'>
genres_list = df['genre'].unique().tolist()

print(genres_list)


['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world', 'electronic', 'unknown', 'alternative', 'children', 'rnb', 'hip', 'jazz', 'postrock', 'latin', 'classical', 'metal', 'reggae', 'tatar', 'blues', 'instrumental', 'rusrock', 'dnb', 'türk', 'post', 'country', 'psychedelic', 'conjazz', 'indie', 'posthardcore', 'local', 'avantgarde', 'punk', 'videogame', 'techno', 'house', 'christmas', 'melodic', 'caucasian', 'reggaeton', 'soundtrack', 'singer', 'ska', 'shanson', 'ambient', 'film', 'western', 'rap', 'beats', "hard'n'heavy", 'progmetal', 'minimal', 'contemporary', 'new', 'soul', 'holiday', 'german', 'tropical', 'fairytail', 'spiritual', 'urban', 'gospel', 'nujazz', 'folkmetal', 'trance', 'miscellaneous', 'anime', 'hardcore', 'progressive', 'chanson', 'numetal', 'vocal', 'estrada', 'russian', 'classicmetal', 'dubstep', 'club', 'deep', 'southern', 'black', 'folkrock', 'fitness', 'french', 'disco', 'religious', 'hiphop', 'drum', 'extrememetal', 'türkçe', 'experimental', 'easy', 'meta

In [29]:
# <создание функции find_genre()>
# функция принимает как параметр строку с названием искомого жанра
# в теле объявляется переменная-счётчик, ей присваивается значение 0,
# затем цикл for проходит по списку уникальных значений
# если очередной элемент списка равен параметру функции, 
# то значение счётчика увеличивается на 1
# по окончании работы цикла функция возвращает значение счётчика
def find_genre(genre_name):
    count = 0
    
    for genre in genres_list:
        if genre == genre_name:
            count += 1
    
    return count
result = find_genre('rock')
print(result)

1


Вызов функции find_genre() для поиска различных вариантов названия жанра хип-хоп в таблице.

Правильное название — hiphop. Поищем другие варианты:

•	hip

•	hop

•	hip-hop


In [30]:
# <вызовом функции find_genre() проверяется наличие варианта 'hip'>
result_hip = find_genre('hip')
print(f"Количество жанров 'hip': {result_hip}")


Количество жанров 'hip': 1


In [31]:
# <проверяется наличие варианта 'hop'>
result_hop = find_genre('hop')
print(f"Количество жанров 'hop': {result_hop}")


Количество жанров 'hop': 1


In [32]:
# <проверяется наличие варианта 'hip-hop'>
result_hiphop_dash = find_genre('hip-hop')
print(f"Количество жанров 'hip-hop': {result_hiphop_dash}")


Количество жанров 'hip-hop': 1


Объявим функцию find_hip_hop(), которая заменяет неправильное название этого жанра в столбце 'genre_name' на 'hiphop' и проверяет успешность выполнения замены.

Так исправляем все варианты написания, которые выявила проверка.


In [42]:
# <создание функции find_hip_hop()>
# функция принимает как параметры таблицу df и неверное название
# к столбцу 'genre_name' применяется специальный метод, 
# который заменяет второй параметр на строку 'hiphop'
# результат работы равен подсчитанному методом count() числу
#значений столбца, 
# которые равны второму параметру
# функция возвращает результат
def find_hip_hop(df, incorrect_name):
    df['genre'] = df['genre'].replace(incorrect_name, 'hiphop')
    count_incorrect = df['genre'].value_counts().get(incorrect_name, 0)
    return count_incorrect

result = find_hip_hop(df, 'hiphop')
print(f"Количество неверного названия 'hip-hop': {result}")

Количество неверного названия 'hip-hop': 3055


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['genre'] = df['genre'].replace(incorrect_name, 'hiphop')


In [43]:
# <замена одного неверного варианта на hiphop вызовом функции find_hip_hop()>
result = find_hip_hop(df, 'hiphop')
print(f"Количество неверного названия 'hip-hop' до замены: {result}")


Количество неверного названия 'hip-hop' до замены: 3055


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['genre'] = df['genre'].replace(incorrect_name, 'hiphop')


Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

In [44]:
# <получение общей информации о данных таблицы df>
print(df)

        user_id                              track            artist   
0      FFB692EC                  Kamigata To Boots  The Mass Missile  \
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
65074  729CBB09                            My Name            McLean   
65075  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
65076  C5E3A0D5                          Jalopiina           unknown   
65077  321D0506                      Freight Train     Chas McDevitt   
65078  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre              city      time        Day  
0            rock  Saint-Petersburg  20:28:33  Wednesday  
1            rock

## Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с названиями столбцов, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. Поскольку сведения о жанрах важно сохранить для анализа, не просто удаляем все пропущенные значения, но заполним пропущенные имена исполнителей и названия треков. Имена столбцов теперь корректны и удобны для дальнейшей работы.


# Действительно ли музыку в разных городах слушают по-разному?

Была выдвинута гипотеза, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному. Проверяем это предположение по данным о трёх днях недели — понедельнике, среде и пятнице.

Для каждого города устанавливаем количество прослушанных в эти дни композиций с известным жанром, и сравниваем результаты.
Группируем данные по городу и вызовом метода count() подсчитываем композиции, для которых известен жанр.


In [46]:
# <группировка данных таблицы df по столбцу 'city' и подсчёт количества значений столбца 'genre_name'>
# Группировка данных по столбцу 'city' и подсчёт количества значений в столбце 'genre_name'
grouped_data = df.groupby('city')['genre'].count()
print(grouped_data)


city
Moscow              42741
Saint-Petersburg    18512
Name: genre, dtype: int64


В *(вставьте название города)* прослушиваний больше, чем в *(вставьте название города)*, но это не значит, что *(вставьте название города)* более активна. У Яндекс.Музыки в целом больше пользователей в Москве, поэтому величины сопоставимы.
Сгруппируем данные по дню недели и подсчитаем прослушанные в понедельник, среду и пятницу композиции, для которых известен жанр.


In [52]:
# <группировка данных по столбцу 'weekday' и подсчёт количества значений столбца 'genre_name'>
# Группировка данных по 'weekday' и подсчёт количества значений в 'genre_name'
df.columns
grouped_weekday = df.groupby('Day')['genre'].count()

print(grouped_weekday)


Day
Friday       21840
Monday       21354
Wednesday    18059
Name: genre, dtype: int64


Понедельник и пятница — время для музыки; по средам пользователи немного больше вовлечены в работу.

Создаём функцию number_tracks(), которая принимает как параметры таблицу, день недели и название города, а возвращает количество прослушанных композиций, для которых известен жанр. Проверяем количество прослушанных композиций для каждого города и понедельника, затем среды и пятницы.


In [61]:
# <создание функции number_tracks()>
# объявляется функция с тремя параметрами: df, day, city
# в переменной track_list сохраняются те строки таблицы df, для которых 
# значение в столбце 'weekday' равно параметру day
# и одновременно значение в столбце 'city' равно параметру city
# в переменной track_list_count сохраняется число значений столбца 'genre_name',
# рассчитанное методом count() для таблицы track_list
def number_tracks(df, day, city):
    track_list = df[(df['Day'] == day) & (df['city'] == city)]
    
    track_titles = track_list['genre'].tolist()
    
    return track_titles



In [62]:
# <список композиций для Москвы в понедельник>
moscow_monday_tracks = number_tracks(df, 'Monday', 'Moscow')
print(f"Количество композиций для Москвы в понедельник: {moscow_monday_tracks}")


Количество композиций для Москвы в понедельник: ['dance', 'world', 'electronic', 'pop', 'unknown', 'hiphop', 'rock', 'jazz', 'latin', 'dance', 'unknown', 'rock', 'dance', 'electronic', 'pop', 'dnb', 'pop', 'indie', 'hiphop', 'classical', 'pop', 'videogame', 'rock', 'electronic', 'ruspop', 'reggae', 'blues', 'rock', 'pop', 'posthardcore', 'electronic', 'pop', 'rnb', 'punk', 'alternative', 'hiphop', 'ruspop', 'classical', 'unknown', 'soundtrack', 'hiphop', 'electronic', 'rock', 'ruspop', 'jazz', 'dance', 'western', 'pop', 'soundtrack', 'rusrap', 'classical', 'classical', 'pop', 'unknown', 'beats', 'unknown', 'folk', 'new', 'classical', 'dance', 'rusrock', 'dance', 'electronic', 'electronic', 'pop', 'pop', 'electronic', 'hiphop', 'rnb', 'electronic', 'alternative', 'pop', 'rusrap', 'electronic', 'ruspop', 'pop', 'electronic', 'techno', 'electronic', 'dance', 'electronic', 'pop', 'electronic', 'dance', 'pop', 'house', 'jazz', 'gospel', 'classical', 'electronic', 'rusrap', 'folkmetal', 'pos

In [63]:
# <список композиций для Санкт-Петербурга в понедельник>
spb_monday_tracks = number_tracks(df, 'Monday', 'Saint-Petersburg')
print(f"Количество композиций для Санкт-Петербурга в понедельник: {spb_monday_tracks}")


Количество композиций для Санкт-Петербурга в понедельник: ['folk', 'alternative', 'folk', 'children', 'pop', 'alternative', 'rusrap', 'rnb', 'dance', 'electronic', 'pop', 'hiphop', 'posthardcore', 'punk', 'ruspop', 'pop', 'punk', 'rock', 'world', 'world', 'jazz', 'shanson', 'postrock', 'ambient', 'pop', 'film', 'folk', 'soul', 'classical', 'electronic', 'world', 'electronic', 'world', "hard'n'heavy", 'spiritual', 'hiphop', 'pop', 'latin', 'hiphop', 'world', 'rock', 'rusrock', 'pop', 'posthardcore', 'dance', 'dance', 'electronic', 'hiphop', 'rock', 'progressive', 'ambient', 'dance', 'dance', 'indie', 'progmetal', 'dance', 'dance', 'singer', 'hiphop', 'pop', 'dance', 'classical', 'world', 'urban', 'classical', 'dance', 'rock', 'black', 'film', 'punk', 'electronic', 'blues', 'disco', 'electronic', 'hiphop', 'unknown', 'pop', 'pop', 'dance', 'dance', 'dance', 'electronic', 'pop', 'dubstep', 'rock', 'pop', 'rusrap', 'unknown', 'rock', 'dance', 'children', 'rock', 'rock', 'world', 'jazz', 'h

In [64]:
# <список композиций для Москвы в среду>
moscow_wednesday_tracks = number_tracks(df, 'Wednesday', 'Moscow')
print(f"Количество композиций для Москвы в среду: {moscow_wednesday_tracks}")


Количество композиций для Москвы в среду: ['dance', 'dance', 'rnb', 'pop', 'reggae', 'pop', 'rusrock', 'türk', 'country', 'electronic', 'metal', 'ruspop', 'pop', 'electronic', 'house', 'rusrap', 'world', 'pop', 'children', 'dance', 'reggaeton', 'soundtrack', 'world', 'singer', 'rusrock', 'rusrock', 'ska', 'pop', 'unknown', 'dance', 'latin', 'dance', 'rap', 'rock', 'dance', 'electronic', 'dance', 'jazz', 'reggae', 'holiday', 'dance', 'rock', 'rock', 'electronic', 'ruspop', 'german', 'pop', 'rusrock', 'hiphop', 'pop', 'children', 'hiphop', 'rock', 'new', 'electronic', 'classical', 'ruspop', 'dance', 'hiphop', 'pop', 'nujazz', 'rock', 'miscellaneous', 'pop', 'metal', 'rap', 'ruspop', 'folk', 'dance', 'hardcore', 'pop', 'classical', 'posthardcore', 'ruspop', 'jazz', 'ruspop', 'electronic', 'ruspop', 'ruspop', 'rusrap', 'chanson', 'dance', 'classical', 'rap', 'pop', 'ambient', 'tropical', 'hiphop', 'hiphop', 'fairytail', 'shanson', 'children', 'ruspop', 'dance', 'pop', 'classical', 'rock', 

In [68]:
# <список композиций для Санкт-Петербурга в среду>
spb_wednesday_tracks = number_tracks(df, 'Wednesday', 'Saint-Petersburg')
print(f"Список композиций для Санкт-Петербурга в среду: {spb_wednesday_tracks}")


Список композиций для Санкт-Петербурга в среду: ['rock', 'pop', 'dance', 'pop', 'folk', 'postrock', 'jazz', 'classical', 'alternative', 'post', 'electronic', 'hiphop', 'electronic', 'rnb', 'rock', 'electronic', 'alternative', 'electronic', 'rnb', 'dance', 'electronic', 'pop', 'dance', 'dance', 'progmetal', 'minimal', 'contemporary', 'rnb', 'electronic', 'dance', 'jazz', 'electronic', 'rock', 'reggae', 'jazz', 'dance', 'rock', 'urban', 'rap', 'electronic', 'rock', 'videogame', 'pop', 'pop', 'pop', 'reggae', 'electronic', 'electronic', 'rusrap', 'rusrock', 'dance', 'pop', 'indie', 'rock', 'world', 'dance', 'estrada', 'pop', 'hiphop', 'electronic', 'ruspop', 'pop', 'rock', 'electronic', 'dance', 'ambient', 'pop', 'rusrap', 'pop', 'house', 'hiphop', 'extrememetal', 'punk', 'pop', 'rock', 'dance', 'electronic', 'hiphop', 'pop', 'rock', 'alternative', 'jazz', 'rock', 'pop', 'miscellaneous', 'rock', 'trance', 'hiphop', 'rock', 'dance', 'pop', 'ruspop', 'rock', 'jazz', 'numetal', 'rock', 'alte

In [65]:
# <список композиций для Москвы в пятницу>
moscow_friday_tracks = number_tracks(df, 'Friday', 'Moscow')
print(f"Количество композиций для Москвы в пятницу: {moscow_friday_tracks}")


Количество композиций для Москвы в пятницу: ['rock', 'ruspop', 'dance', 'ruspop', 'tatar', 'dance', 'pop', 'hiphop', 'blues', 'unknown', 'dance', 'dance', 'rock', 'pop', 'dance', 'instrumental', 'psychedelic', 'electronic', 'conjazz', 'reggae', 'electronic', 'avantgarde', 'dance', 'techno', 'rusrap', 'christmas', 'latin', 'folk', 'melodic', 'hiphop', 'indie', 'world', 'rusrap', 'caucasian', 'metal', 'instrumental', 'tatar', 'classical', 'children', 'pop', 'rock', 'classical', 'caucasian', 'electronic', 'ruspop', 'hiphop', 'pop', 'dance', 'electronic', 'rusrap', 'western', 'rusrap', 'hiphop', 'ambient', 'jazz', 'rock', "hard'n'heavy", 'rnb', 'dance', 'new', 'electronic', 'ambient', 'electronic', 'hiphop', 'electronic', 'world', 'country', 'dance', 'metal', 'unknown', 'world', 'indie', 'unknown', 'alternative', 'electronic', 'tropical', 'classical', 'rock', 'fairytail', 'electronic', 'hiphop', 'world', 'rock', 'pop', 'punk', 'jazz', 'reggae', 'hiphop', 'pop', 'pop', 'dance', 'metal', 'si

In [66]:
# <список композиций для Санкт-Петербурга в пятницу>
spb_friday_tracks = number_tracks(df, 'Friday', 'Saint-Petersburg')
print(f"Количество композиций для Санкт-Петербурга в пятницу: {spb_friday_tracks}")


Количество композиций для Санкт-Петербурга в пятницу: ['rusrap', 'world', 'metal', 'dance', 'instrumental', 'jazz', 'pop', 'local', 'reggae', 'rusrap', 'world', 'ruspop', 'jazz', 'punk', 'dance', 'folk', 'dance', 'dance', 'classical', 'rap', 'electronic', 'soundtrack', 'shanson', 'film', 'electronic', 'jazz', 'hiphop', 'hiphop', 'videogame', 'electronic', 'rock', 'electronic', 'classical', 'classical', 'indie', 'classical', 'rap', 'rock', 'pop', 'electronic', 'holiday', 'pop', 'ruspop', 'rock', 'hiphop', 'pop', 'rusrap', 'classical', 'rock', 'pop', 'soundtrack', 'alternative', 'rock', 'latin', 'techno', 'urban', 'ruspop', 'electronic', 'folk', 'world', 'jazz', 'rock', 'electronic', 'pop', 'pop', 'pop', 'pop', 'metal', 'rock', 'metal', 'pop', 'jazz', 'pop', 'world', 'deep', 'dance', 'world', 'numetal', 'world', 'punk', 'holiday', 'soundtrack', 'metal', 'rap', 'rusrap', 'unknown', 'russian', 'folk', 'folk', 'instrumental', 'rusrock', 'hiphop', 'dance', 'electronic', 'alternative', 'dance

Сведём полученную информацию в одну таблицу, где ['city', 'monday', 'wednesday', 'friday'] названия столбцов.

In [69]:
# <таблица с полученными данными>
cities = df['city'].unique()  
summary_data = []

for city in cities:
    monday_tracks = number_tracks(df, 'Monday', city)
    wednesday_tracks = number_tracks(df, 'Wednesday', city)
    friday_tracks = number_tracks(df, 'Friday', city)
    

    summary_data.append({
        'city': city,
        'monday': len(monday_tracks),    
        'wednesday': len(wednesday_tracks),
        'friday': len(friday_tracks)       
    })


summary_df = pd.DataFrame(summary_data)

print(summary_df)

               city  monday  wednesday  friday
0  Saint-Petersburg    5614       7003    5895
1            Moscow   15740      11056   15945


## Вывод

*Запишите здесь ваши выводы.Опишите закономерности, которые вы наблюдаете по дням недели и городам*

# Утро понедельника и вечер пятницы — разная музыка или одна и та же?

Ищем ответ на вопрос, какие жанры преобладают в разных городах в понедельник утром и в пятницу вечером. Есть предположение, что в понедельник утром пользователи слушают больше бодрящей музыки (например, жанра поп), а вечером пятницы — больше танцевальных (например, электронику).
Получим таблицы данных по Москве moscow_general и по Санкт-Петербургу spb_general.


In [73]:
# получение таблицы moscow_general из тех строк таблицы df, 
# для которых значение в столбце 'city' равно 'Moscow'
# <получение таблицы spb_general>

moscow_general = df[df['city'] == 'Moscow']

spb_general = df[df['city'] == 'Saint-Petersburg']

print("Таблица moscow_general:")
print(moscow_general)

Таблица moscow_general:
        user_id                          track                   artist   
1      55204538    Delayed Because of Accident         Andreas Rönnberg  \
4      E2DC1FAE                    Soul People               Space Echo   
6      4CB90AA5                           True             Roman Messer   
7      F03E1C1F               Feeling This Way          Polina Griffith   
8      8FA1D3BE       И вновь продолжается бой                  unknown   
...         ...                            ...                      ...   
65073  83A474E7  I Worship Only What You Bleed  The Black Dahlia Murder   
65074  729CBB09                        My Name                   McLean   
65076  C5E3A0D5                      Jalopiina                  unknown   
65077  321D0506                  Freight Train            Chas McDevitt   
65078  3A64EF84      Tell Me Sweet Little Lies             Monica Lopez   

              genre    city      time        Day  
1              rock  Mos

In [74]:

print("\nТаблица spb_general:")
print(spb_general)


Таблица spb_general:
        user_id                              track              artist   
0      FFB692EC                  Kamigata To Boots    The Mass Missile  \
2        20EC38                  Funiculì funiculà         Mario Lanza   
3      A3DD03C9              Dragons in the Sunset          Fire + Ice   
5      842029A1                          Преданная           IMPERVTOR   
9      E772D5C0                          Pessimist             unknown   
...         ...                                ...                 ...   
65063  D94F810B        Theme from the Walking Dead  Proyecto Halloween   
65064  BC8EC5CF       Red Lips: Gta (Rover Rework)               Rover   
65065  29E04611                       Bre Petrunko       Perunika Trio   
65066  1B91C621             (Hello) Cloud Mountain     sleepmakeswaves   
65075  D08D4A55  Maybe One Day (feat. Black Spade)         Blu & Exile   

            genre              city      time        Day  
0            rock  Saint-Peter

Создаём функцию genre_weekday(), которая возвращает список жанров по запрошенному дню недели и времени суток с такого-то часа по такой-то.

In [84]:
# объявление функции genre_weekday() с параметрами df, day, time1, time2
# в переменной genre_list сохраняются те строки df, для которых одновременно:
# 1) значение в столбце 'weekday' равно параметру day,
# 2) значение в столбце 'time' больше time1 и
# 3) меньше time2.
# в переменной genre_list_sorted сохраняются в порядке убывания  
# первые 10 значений Series, полученной подсчётом числа значений 'genre_name'
# сгруппированной по столбцу 'genre_name' таблицы genre_list
# функция возвращает значение genre_list_sorted
def genre_weekday(df, day, time1, time2):
    genre_list = df[(df['Day'] == day) & (df['time'] > time1) & (df['time'] < time2)]
    
    genre_list_sorted = genre_list['genre'].value_counts().head(10)
    
    return genre_list_sorted

Cравниваем полученные результаты по таблице для Москвы и Санкт-Петербурга в понедельник утром (с 7 до 11) и в пятницу вечером (с 17 до 23).

In [85]:
# <вызов функции для утра понедельника в Москве (вместо df таблица moscow_general)>
moscow_monday_morning_genres = genre_weekday(moscow_general, 'Monday', '07:00:00', '11:00:00')

moscow_monday_morning_genres

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         285
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: count, dtype: int64

In [86]:
# <вызов функции для утра понедельника в Петербурге (вместо df таблица spb_general)>
spb_monday_morning_genres = genre_weekday(spb_general, 'Monday', '07:00:00', '11:00:00')

spb_monday_morning_genres

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: count, dtype: int64

In [87]:
# <вызов функции для вечера пятницы в Москве>
moscow_friday_evening_genres = genre_weekday(moscow_general, 'Friday', '17:00:00', '23:00:00')

moscow_friday_evening_genres

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
Name: count, dtype: int64

In [88]:
# <вызов функции для вечера пятницы в Питере>
spb_friday_evening_genres = genre_weekday(spb_general, 'Friday', '17:00:00', '23:00:00')

spb_friday_evening_genres

genre
pop            256
electronic     216
rock           216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: count, dtype: int64

Популярные жанры в понедельник утром в Питере и Москве оказались похожи: везде, как и предполагалось, популярен *(вставьте сюда название жанра)*. Несмотря на это, концовка топ-10 для двух городов различается: в Питере в топ-10 входит джаз и русский рэп, а в Москве жанр world.

*(Опишите здесь, меняется ли ситуация в музыкальными предпочтениями в конце недели, заметна ли разница в концовке ТОП-10)*

## Вывод
Жанр *(вставьте сюда название жанра)* безусловный лидер, а топ-5 в целом не различается в обеих столицах. При этом видно, что концовка списка более «живая»: для каждого города выделяются более характерные жанры, которые действительно меняют свои позиции в зависимости от дня недели и времени.


# Москва и Питер — две разные столицы, два разных направления в музыке. Правда?

Гипотеза: Питер богат своей рэп-культурой, поэтому это направление там слушают чаще, а Москва — город контрастов, но основная масса пользователей слушает попсу.

Сгруппируем таблицу moscow_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице moscow_genres.

Просмотрим первые 10 строк этой новой таблицы.


In [90]:
# одной строкой: группировка таблицы moscow_general по столбцу 'genre_name', 
# подсчёт числа значений 'genre_name' в этой группировке методом count(), 
# сортировка Series в порядке убывания и сохранение в moscow_genres 
moscow_genres = moscow_general.groupby('genre').size().sort_values(ascending=False)

moscow_genres

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2095
               ... 
mood              1
metalcore         1
marschmusik       1
malaysian         1
ïîï               1
Length: 268, dtype: int64

In [91]:
# <просмотр первых 10 строк moscow_genres>
moscow_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2095
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
dtype: int64

Сгруппируем таблицу spb_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице spb_genres.

Просматриваем первые 10 строк этой таблицы. Теперь можно сравнивать два города.


In [93]:
# <группировка таблицы spb_general, расчёт, сохранение в spb_genres>
spb_genres = spb_general.groupby('genre').size().sort_values(ascending=False)

spb_genres

genre
pop              2431
dance            1932
rock             1879
electronic       1736
hiphop            960
                 ... 
international       1
independent         1
idm                 1
gypsy               1
электроника         1
Length: 211, dtype: int64

In [94]:
# <просмотр первых 10 строк spb_genres>

spb_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
dtype: int64

## Вывод
В Москве, кроме абсолютно популярного жанра поп, есть направление русской популярной музыки. Значит, что интерес к этому жанру шире. А рэп, вопреки предположению, занимает в обоих городах близкие позиции.


# Результаты исследования

Рабочие гипотезы:

•	музыку в двух городах — Москве и Санкт-Петербурге — слушают в разном режиме;

•	списки десяти самых популярных жанров утром в понедельник и вечером в пятницу имеют характерные отличия;

•	население двух городов предпочитает разные музыкальные жанры.

**Общие результаты**

Москва и Петербург сходятся во вкусах: везде преобладает популярная музыка. При этом зависимости предпочтений от дня недели в каждом отдельном городе нет — люди постоянно слушают то, что им нравится. Но между городами в разрезе дней неделей наблюдается зеркальность относительно среды: Москва больше слушает в понедельник и пятницу, а Петербург наоборот - больше в среду, но меньше в понедельник и пятницу.
В результате первая гипотеза *подтверждена / не подтверждена*, вторая гипотеза *подтверждена / не подтверждена* и третья не подтверждена >.*подтверждена / не подтверждена*
