# Добро пожаловать в самостоятельный проект

Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python. 

Проект выполняется в пять этапов:

•	Постановка задачи

•	Получение данных

•	Предобработка данных

•	Анализ данных

•	Оформление результатов

Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.

**Исследование: Музыка больших городов**

Яндекс.Музыка — это крупный продукт с огромным запасом данных для исследований. Команды таких сервисов для поддержания интереса к продукту и привлечения новых пользователей часто проводят исследования про пользователей. Чтобы удержать клиентов и привлечь новых, сделать бренд более узнаваемым, команда сервиса проводит исследования аудитории, и публикует интересные результаты. Например, интересно сравнить тексты, сочинённые нейросетью, с произведениями настоящих рэперов.
Есть исследование, которое напоминает наше: о музыкальных предпочтениях в разных городах России.
Итак, вопрос вам: как музыка, которая звучит по дороге на работу в понедельник утром, отличается от той, что играет в среду или в конце рабочей недели? Возьмите данные для Москвы и Петербурга. Сравните, что и в каком режиме слушают их жители.

План исследования

1.	Получение данных. Прочитайте данные, ознакомьтесь с ними.

2.	Предобработка данных. Избавьтесь от дубликатов, проблем с названиями столбцов и пропусками.

3.	Анализ данных. Ответьте на основные вопросы исследования, подготовьте отчётную таблицу или опишите полученный результат.

4.	Подведение итогов. Просмотрите выполненную работу и сформулируйте выводы.


# Этап 1. Получение данных

Изучим данные, предоставленные сервисом для проекта.

Прочитайте файл music_project.csv и сохраните его в переменной df.

Получите  первых 10 строк таблицы, а также общую информацию о данных таблицы df.

In [1]:
import pandas as pd

df = pd.read_csv('yandex_music.csv')
print(df.head(10))
print(df.info())
print(df.describe())


     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                    Преданная         IMPERVTOR  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE     И вновь продолжается бой               NaN  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

             City        time        Day  
0  Saint-Petersburg  20:28:33  Wednesday  
1            Moscow  14:07:09     Friday  
2  Saint-Petersburg  20:58:07  Wednesday  
3  Saint-Petersburg  08:37:09     Monday  
4            M

Рассмотрим полученную информацию подробнее.
Всего в таблице 7 столбцов, тип данных у каждого столбца - строка.
Подробно разберём, какие в df столбцы и какую информацию они содержат:
•	userID — идентификатор пользователя;
•	Track — название трека;
•	artist — имя исполнителя;
•	genre — название жанра;
•	City — город, в котором происходило прослушивание;
•	time — время, в которое пользователь слушал трек;
•	Day — день недели.
Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


## Выводы: 

Каждая строка таблицы содержит информацию о композициях определённого жанра в определённом исполнении, которые пользователи слушали в одном из городов в определённое время и день недели. Две проблемы, которые нужно решать: пропуски и некачественные названия столбцов. Для проверки рабочих гипотез особенно ценны столбцы (*вставьте сюда названия столбцов, наиболее существенных, на ва взгляд*. Данные из столбца *название столбца*  позволят узнать самые популярные жанры.

# Этап 2. Предобработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

Получаем перечень названий столбцов. Какая наблюдается проблема — кроме тех, что уже были названы ранее?


In [2]:
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


В названиях столбцов есть пробелы, которые могут затруднять доступ к данным.

Переименуем столбцы для удобства дальнейшей работы. Проверим результат.


In [5]:
new_names = ['user_id', 'track_name', 'artist_name', 'genre_name', 'city', 'total_play_seconds', 'day']
df = df.set_axis(new_names, axis='columns')
df.dropna(subset=['genre_name'], inplace=True)
print(df.columns)

Index(['user_id', 'track_name', 'artist_name', 'genre_name', 'city',
       'total_play_seconds', 'day'],
      dtype='object')


Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [6]:
print(df.isnull().sum())

user_id                  0
track_name             570
artist_name           6372
genre_name               0
city                     0
total_play_seconds       0
day                      0
dtype: int64


Пустые значения свидетельствуют, что для некоторых треков доступна не вся информация. Причины могут быть разные: скажем, не назван конкретный исполнитель народной песни. Хуже, если проблемы с записью данных. Каждый отдельный случай необходимо разобрать и выявить причину.

Заменяем пропущенные значения в столбцах с названием трека и исполнителя на строку 'unknown'. После этой операции нужно убедиться, что таблица больше не содержит пропусков.


In [9]:
df['track_name'] = df['track_name'].fillna('unknown')
df['artist_name'] = df['artist_name'].fillna('unknown')

In [10]:
print(df.isnull().sum())

user_id               0
track_name            0
artist_name           0
genre_name            0
city                  0
total_play_seconds    0
day                   0
Track                 0
artist                0
dtype: int64


Удаляем в столбце с жанрами пустые значения; убеждаемся, что их больше не осталось.

In [12]:
df.dropna(subset=['genre_name'], inplace=True)

print(df['genre_name'].isnull().sum())

0


Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [13]:
print(df.duplicated().sum())

df.drop_duplicates(inplace=True)

print(df.duplicated().sum())

3755
0


Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

Сохраняем список уникальных значений столбца с жанрами в переменной genres_list.

Объявим функцию find_genre() для поиска неявных дубликатов в столбце с жанрами. Например, когда название одного и того же жанра написано разными словами.


In [15]:
genres_list = df['genre_name'].unique().tolist()


In [16]:
def find_genre(genre_name):
    count = 0
    for genre in genres_list:
        if genre.lower() == genre_name.lower():
            count += 1
    return count


Вызов функции find_genre() для поиска различных вариантов названия жанра хип-хоп в таблице.

Правильное название — hiphop. Поищем другие варианты:

•	hip

•	hop

•	hip-hop


In [17]:
print(find_genre('hip'))

1


In [18]:
print(find_genre('hop'))

1


In [19]:
print(find_genre('hip-hop'))

1


Объявим функцию find_hip_hop(), которая заменяет неправильное название этого жанра в столбце 'genre_name' на 'hiphop' и проверяет успешность выполнения замены.

Так исправляем все варианты написания, которые выявила проверка.


In [20]:
def find_hip_hop(df, wrong_name):
    df['genre'] = df['genre'].replace(wrong_name, 'hiphop')
    return df['genre'].value_counts()[wrong_name]

In [26]:
# <замена одного неверного варианта на hiphop вызовом функции find_hip_hop()>

Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

In [21]:
print(df.head()) 
print(df.info())  
print(df.describe()) 


    user_id                   track_name       artist_name genre_name  \
0  FFB692EC            Kamigata To Boots  The Mass Missile       rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg       rock   
2    20EC38            Funiculì funiculà       Mario Lanza        pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice       folk   
4  E2DC1FAE                  Soul People        Space Echo      dance   

               city total_play_seconds        day  \
0  Saint-Petersburg           20:28:33  Wednesday   
1            Moscow           14:07:09     Friday   
2  Saint-Petersburg           20:58:07  Wednesday   
3  Saint-Petersburg           08:37:09     Monday   
4            Moscow           08:34:34     Monday   

                         Track            artist  
0            Kamigata To Boots  The Mass Missile  
1  Delayed Because of Accident  Andreas Rönnberg  
2            Funiculì funiculà       Mario Lanza  
3        Dragons in the Sunset        

## Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с названиями столбцов, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. Поскольку сведения о жанрах важно сохранить для анализа, не просто удаляем все пропущенные значения, но заполним пропущенные имена исполнителей и названия треков. Имена столбцов теперь корректны и удобны для дальнейшей работы.


# Действительно ли музыку в разных городах слушают по-разному?

Была выдвинута гипотеза, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному. Проверяем это предположение по данным о трёх днях недели — понедельнике, среде и пятнице.

Для каждого города устанавливаем количество прослушанных в эти дни композиций с известным жанром, и сравниваем результаты.
Группируем данные по городу и вызовом метода count() подсчитываем композиции, для которых известен жанр.


In [23]:
city_genre_count = df.groupby('city')['genre_name'].count()
print(city_genre_count)

city
Moscow              41892
Saint-Petersburg    18234
Name: genre_name, dtype: int64


В *(вставьте название города)* прослушиваний больше, чем в *(вставьте название города)*, но это не значит, что *(вставьте название города)* более активна. У Яндекс.Музыки в целом больше пользователей в Москве, поэтому величины сопоставимы.
Сгруппируем данные по дню недели и подсчитаем прослушанные в понедельник, среду и пятницу композиции, для которых известен жанр.


In [24]:
df_grouped = df.groupby('day')['genre_name'].count()
print(df_grouped)

day
Friday       21482
Monday       20866
Wednesday    17778
Name: genre_name, dtype: int64


Понедельник и пятница — время для музыки; по средам пользователи немного больше вовлечены в работу.

Создаём функцию number_tracks(), которая принимает как параметры таблицу, день недели и название города, а возвращает количество прослушанных композиций, для которых известен жанр. Проверяем количество прослушанных композиций для каждого города и понедельника, затем среды и пятницы.


In [28]:
def number_tracks(df, day, city):
    track_list = df[(df['day'] == day) & (df['city'] == city)]
    track_list_count = track_list['genre_name'].count()
    return track_list_count

In [29]:
print(number_tracks(df, 'Monday', 'Moscow'))

15347


In [30]:
print(number_tracks(df, 'Monday', 'Saint-Petersburg'))

5519


In [31]:
print(number_tracks(df, 'Wednesday', 'Moscow'))

10865


In [32]:
print(number_tracks(df, 'Wednesday', 'Saint-Petersburg'))

6913


In [33]:
print(number_tracks(df, 'Friday', 'Moscow'))

15680


In [34]:
print(number_tracks(df, 'Friday', 'Saint-Petersburg'))

5802


Сведём полученную информацию в одну таблицу, где ['city', 'monday', 'wednesday', 'friday'] названия столбцов.

In [41]:
result_df = pd.DataFrame(columns=['city', 'Monday', 'Wednesday', 'Friday'])

data = []

data.append({'city': 'Moscow', 'Monday': number_tracks(df, 'Monday', 'Moscow'), 
             'Wednesday': number_tracks(df, 'Wednesday', 'Moscow'), 
             'Friday': number_tracks(df, 'Friday', 'Moscow')})

data.append({'city': 'Saint-Petersburg', 
             'Monday': number_tracks(df, 'Monday', 'Saint-Petersburg'), 
             'Wednesday': number_tracks(df, 'Wednesday', 'Saint-Petersburg'), 
             'Friday': number_tracks(df, 'Friday', 'Saint-Petersburg')})

result_df = pd.DataFrame(data)

print(result_df)

               city  Monday  Wednesday  Friday
0            Moscow   15347      10865   15680
1  Saint-Petersburg    5519       6913    5802


## Вывод

*Запишите здесь ваши выводы.Опишите закономерности, которые вы наблюдаете по дням недели и городам*

# Утро понедельника и вечер пятницы — разная музыка или одна и та же?

Ищем ответ на вопрос, какие жанры преобладают в разных городах в понедельник утром и в пятницу вечером. Есть предположение, что в понедельник утром пользователи слушают больше бодрящей музыки (например, жанра поп), а вечером пятницы — больше танцевальных (например, электронику).
Получим таблицы данных по Москве moscow_general и по Санкт-Петербургу spb_general.


In [42]:
df.head(5)

Unnamed: 0,user_id,track_name,artist_name,genre_name,city,total_play_seconds,day,Track,artist
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday,Kamigata To Boots,The Mass Missile
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday,Delayed Because of Accident,Andreas Rönnberg
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday,Funiculì funiculà,Mario Lanza
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday,Dragons in the Sunset,Fire + Ice
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday,Soul People,Space Echo


Создаём функцию genre_weekday(), которая возвращает список жанров по запрошенному дню недели и времени суток с такого-то часа по такой-то.

In [48]:
moscow_general = df[df['city'] == 'Moscow']
spb_general = df[df['city'] == 'Saint-Petersburg']

moscow_grouped = moscow_general.groupby(['day', 'total_play_seconds'])['genre_name'].value_counts()
spb_grouped = spb_general.groupby(['day', 'total_play_seconds'])['genre_name'].value_counts()

print(moscow_grouped)
print(spb_grouped)

def genre_weekday(df, day, time1, time2):
    genre_list = df[(df['day'] == day) & (df['total_play_seconds'] > time1) & (df['total_play_seconds'] < time2)]
    genre_list_sorted = genre_list['genre_name'].value_counts().head(10)
    return genre_list_sorted


day        total_play_seconds  genre_name 
Friday     08:00:03            dubstep        1
                               rusrock        1
           08:00:04            classical      1
           08:00:05            rock           1
           08:00:08            rock           1
                                             ..
Wednesday  22:00:41            rock           1
           22:00:43            electronic     1
           22:00:54            hip            1
           22:00:56            pop            1
           22:00:59            alternative    1
Name: count, Length: 41073, dtype: int64
day        total_play_seconds  genre_name 
Friday     08:00:00            dance          1
           08:00:04            spiritual      1
           08:00:07            alternative    1
           08:00:17            electronic     1
           08:00:31            world          1
                                             ..
Wednesday  22:00:46            electronic     1
         

Cравниваем полученные результаты по таблице для Москвы и Санкт-Петербурга в понедельник утром (с 7 до 11) и в пятницу вечером (с 17 до 23).

In [49]:
moscow_mon_morning = genre_weekday(moscow_general, 'Monday', '07:00', '11:00')
print(moscow_mon_morning)

genre_name
pop            781
dance          549
electronic     480
rock           474
hip            281
ruspop         186
world          181
rusrap         175
alternative    164
classical      157
Name: count, dtype: int64


In [50]:
spb_mon_morning = genre_weekday(spb_general, 'Monday', '07:00', '11:00')
print(spb_mon_morning)

genre_name
pop            218
dance          182
rock           162
electronic     147
hip             79
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: count, dtype: int64


In [51]:
moscow_fri_evening = genre_weekday(moscow_general, 'Friday', '17:00', '23:00')
print(moscow_fri_evening)

genre_name
pop            713
rock           517
dance          495
electronic     482
hip            267
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
Name: count, dtype: int64


In [53]:
spb_fri_evening = genre_weekday(spb_general, 'Friday', '17:00', '23:00')
print(spb_fri_evening)

genre_name
pop            256
electronic     216
rock           216
dance          210
hip             94
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: count, dtype: int64


Популярные жанры в понедельник утром в Питере и Москве оказались похожи: везде, как и предполагалось, популярен *(вставьте сюда название жанра)*. Несмотря на это, концовка топ-10 для двух городов различается: в Питере в топ-10 входит джаз и русский рэп, а в Москве жанр world.

*(Опишите здесь, меняется ли ситуация в музыкальными предпочтениями в конце недели, заметна ли разница в концовке ТОП-10)*

## Вывод
Жанр *(вставьте сюда название жанра)* безусловный лидер, а топ-5 в целом не различается в обеих столицах. При этом видно, что концовка списка более «живая»: для каждого города выделяются более характерные жанры, которые действительно меняют свои позиции в зависимости от дня недели и времени.


# Москва и Питер — две разные столицы, два разных направления в музыке. Правда?

Гипотеза: Питер богат своей рэп-культурой, поэтому это направление там слушают чаще, а Москва — город контрастов, но основная масса пользователей слушает попсу.

Сгруппируем таблицу moscow_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице moscow_genres.

Просмотрим первые 10 строк этой новой таблицы.


In [55]:
moscow_genres = df.groupby('genre_name').size()

moscow_genres = moscow_genres.sort_values(ascending=False)

print(moscow_genres.head(10))


genre_name
pop            8323
dance          6367
rock           5844
electronic     5522
hip            2975
classical      2262
alternative    2028
world          1947
ruspop         1910
rusrap         1725
dtype: int64


genre_name
pop            8323
dance          6367
rock           5844
electronic     5522
hip            2975
classical      2262
alternative    2028
world          1947
ruspop         1910
rusrap         1725
dtype: int64


Сгруппируем таблицу spb_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице spb_genres.

Просматриваем первые 10 строк этой таблицы. Теперь можно сравнивать два города.


In [58]:
spb_genres = df.groupby('genre_name').size()

spb_genres = spb_genres.sort_values(ascending=False)

print(spb_genres.head(10))

genre_name
pop            8323
dance          6367
rock           5844
electronic     5522
hip            2975
classical      2262
alternative    2028
world          1947
ruspop         1910
rusrap         1725
dtype: int64


In [47]:
# <просмотр первых 10 строк spb_genres>

## Вывод
В Москве, кроме абсолютно популярного жанра поп, есть направление русской популярной музыки. Значит, что интерес к этому жанру шире. А рэп, вопреки предположению, занимает в обоих городах близкие позиции.


# Результаты исследования

Рабочие гипотезы:

•	музыку в двух городах — Москве и Санкт-Петербурге — слушают в разном режиме;

•	списки десяти самых популярных жанров утром в понедельник и вечером в пятницу имеют характерные отличия;

•	население двух городов предпочитает разные музыкальные жанры.

**Общие результаты**

Москва и Петербург сходятся во вкусах: везде преобладает популярная музыка. При этом зависимости предпочтений от дня недели в каждом отдельном городе нет — люди постоянно слушают то, что им нравится. Но между городами в разрезе дней неделей наблюдается зеркальность относительно среды: Москва больше слушает в понедельник и пятницу, а Петербург наоборот - больше в среду, но меньше в понедельник и пятницу.
В результате первая гипотеза *подтверждена / не подтверждена*, вторая гипотеза *подтверждена / не подтверждена* и третья не подтверждена >.*подтверждена / не подтверждена*
