# Добро пожаловать в самостоятельный проект

Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python. 

Проект выполняется в пять этапов:

•	Постановка задачи

•	Получение данных

•	Предобработка данных

•	Анализ данных

•	Оформление результатов

Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.

**Исследование: Музыка больших городов**

Яндекс.Музыка — это крупный продукт с огромным запасом данных для исследований. Команды таких сервисов для поддержания интереса к продукту и привлечения новых пользователей часто проводят исследования про пользователей. Чтобы удержать клиентов и привлечь новых, сделать бренд более узнаваемым, команда сервиса проводит исследования аудитории, и публикует интересные результаты. Например, интересно сравнить тексты, сочинённые нейросетью, с произведениями настоящих рэперов.
Есть исследование, которое напоминает наше: о музыкальных предпочтениях в разных городах России.
Итак, вопрос вам: как музыка, которая звучит по дороге на работу в понедельник утром, отличается от той, что играет в среду или в конце рабочей недели? Возьмите данные для Москвы и Петербурга. Сравните, что и в каком режиме слушают их жители.

План исследования

1.	Получение данных. Прочитайте данные, ознакомьтесь с ними.

2.	Предобработка данных. Избавьтесь от дубликатов, проблем с названиями столбцов и пропусками.

3.	Анализ данных. Ответьте на основные вопросы исследования, подготовьте отчётную таблицу или опишите полученный результат.

4.	Подведение итогов. Просмотрите выполненную работу и сформулируйте выводы.


# Этап 1. Получение данных

Изучим данные, предоставленные сервисом для проекта.

Прочитайте файл music_project.csv и сохраните его в переменной df.

Получите  первых 10 строк таблицы, а также общую информацию о данных таблицы df.

In [47]:
import pandas as pd
# <чтение файла с данными с сохранением в df>
df = pd.read_csv('yandex_music.csv')
# <получение первых 10 строк таблицы df>
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


In [48]:
# <получение общей информации о данных в таблице df>
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14286 entries, 0 to 14285
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  14286 non-null  object
 1   Track     14017 non-null  object
 2   artist    12723 non-null  object
 3   genre     14038 non-null  object
 4     City    14286 non-null  object
 5   time      14285 non-null  object
 6   Day       14285 non-null  object
dtypes: object(7)
memory usage: 781.4+ KB


Рассмотрим полученную информацию подробнее.
Всего в таблице 7 столбцов, тип данных у каждого столбца - строка.
Подробно разберём, какие в df столбцы и какую информацию они содержат:
•	userID — идентификатор пользователя;
•	Track — название трека;
•	artist — имя исполнителя;
•	genre — название жанра;
•	City — город, в котором происходило прослушивание;
•	time — время, в которое пользователь слушал трек;
•	Day — день недели.
Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


## Выводы: 

Каждая строка таблицы содержит информацию о композициях определённого жанра в определённом исполнении, которые пользователи слушали в одном из городов в определённое время и день недели. Две проблемы, которые нужно решать: пропуски и некачественные названия столбцов. Для проверки рабочих гипотез особенно ценны столбцы 'City', 'time', 'Day'. Данные из столбца 'genre'  позволят узнать самые популярные жанры.

# Этап 2. Предобработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

Получаем перечень названий столбцов. Какая наблюдается проблема — кроме тех, что уже были названы ранее?


In [49]:
# <перечень названий столбцов таблицы df>
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

В названиях столбцов есть пробелы, которые могут затруднять доступ к данным.

Переименуем столбцы для удобства дальнейшей работы. Проверим результат.


In [50]:
# <переименование столбцов>
new_names = ['user_id', 'track_name', 'artist_name', 'genre_name', 'city', 'time', 'weekday']
df.set_axis(new_names, axis = 'columns', inplace = True)
# <проверка результатов - перечень названий столбцов>
df.columns

Index(['user_id', 'track_name', 'artist_name', 'genre_name', 'city', 'time',
       'weekday'],
      dtype='object')

Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [51]:
# <суммарное количество пропусков, выявленных методом isnull() в таблице df>
df.isnull().sum()

user_id           0
track_name      269
artist_name    1563
genre_name      248
city              0
time              1
weekday           1
dtype: int64

Пустые значения свидетельствуют, что для некоторых треков доступна не вся информация. Причины могут быть разные: скажем, не назван конкретный исполнитель народной песни. Хуже, если проблемы с записью данных. Каждый отдельный случай необходимо разобрать и выявить причину.

Заменяем пропущенные значения в столбцах с названием трека и исполнителя на строку 'unknown'. После этой операции нужно убедиться, что таблица больше не содержит пропусков.


In [52]:
# <замена пропущенных значений в столбце 'track_name' на строку 'unknown' специальным методом замены>
df['track_name'] = df['track_name'].fillna('unknown')
# <замена пропущенных значений в столбце 'artist_name' на строку 'unknown' специальным методом замены>
df['artist_name'] = df['artist_name'].fillna('unknown')

In [53]:
# <проверка: вычисление суммарного количества пропусков, выявленных в таблице df>
df.isnull().sum()

user_id          0
track_name       0
artist_name      0
genre_name     248
city             0
time             1
weekday          1
dtype: int64

Удаляем в столбце с жанрами пустые значения; убеждаемся, что их больше не осталось.

In [54]:
# <удаление пропущенных значений в столбце 'genre_name'>
df.dropna(subset=['genre_name'],inplace=True)
# <проверка>
df.isnull().sum()

user_id        0
track_name     0
artist_name    0
genre_name     0
city           0
time           1
weekday        1
dtype: int64

Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [55]:
# <получение суммарного количества дубликатов в таблице df>
df.duplicated().sum()

180

In [56]:
# <удаление всех дубликатов из таблицы df специальным методом>
df = df.drop_duplicates().reset_index(drop = True)
# <проверка на отсутствие>
df.duplicated().sum()

0

Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

Сохраняем список уникальных значений столбца с жанрами в переменной genres_list.

Объявим функцию find_genre() для поиска неявных дубликатов в столбце с жанрами. Например, когда название одного и того же жанра написано разными словами.


In [57]:
# <сохранение в переменной genres_list списка уникальных значений, 
# выявленных специальным методом в столбце 'genre_name'>
genres_list = df['genre_name'].unique()

In [58]:
# <создание функции find_genre()>
# функция принимает как параметр строку с названием искомого жанра
# в теле объявляется переменная-счётчик, ей присваивается значение 0,
# затем цикл for проходит по списку уникальных значений
# если очередной элемент списка равен параметру функции, 
# то значение счётчика увеличивается на 1
# по окончании работы цикла функция возвращает значение счётчика
def find_genre(genreName):
  count = 0
  for elem in genres_list:
    if elem == genreName:
      count += 1
  return count


Вызов функции find_genre() для поиска различных вариантов названия жанра хип-хоп в таблице.

Правильное название — hiphop. Поищем другие варианты:

•	hip

•	hop

•	hip-hop


In [59]:
# <вызовом функции find_genre() проверяется наличие варианта 'hip'>
find_genre('hip')

1

In [60]:
# <проверяется наличие варианта 'hop'>
find_genre('hop')

1

In [61]:
# <проверяется наличие варианта 'hip-hop'>
find_genre('hip-hop')

1

Объявим функцию find_hip_hop(), которая заменяет неправильное название этого жанра в столбце 'genre_name' на 'hiphop' и проверяет успешность выполнения замены.

Так исправляем все варианты написания, которые выявила проверка.


In [62]:
# <создание функции find_hip_hop()>
# функция принимает как параметры таблицу df и неверное название
# к столбцу 'genre_name' применяется специальный метод, 
# который заменяет второй параметр на строку 'hiphop'
# результат работы равен подсчитанному методом count() числу
#значений столбца, 
# которые равны второму параметру
# функция возвращает результат
def find_hip_hop(df, name):
  df['genre_name'] = df['genre_name'].replace(name, 'hiphop')
  count = df.loc[ df.loc[:,'genre_name'] == 'wrong' ]['genre_name'].count()
  return count


In [63]:
# <замена одного неверного варианта на hiphop вызовом функции find_hip_hop()>
find_hip_hop(df, 'hip-hop')

0

Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

In [64]:
# <получение общей информации о данных таблицы df>
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13858 entries, 0 to 13857
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      13858 non-null  object
 1   track_name   13858 non-null  object
 2   artist_name  13858 non-null  object
 3   genre_name   13858 non-null  object
 4   city         13858 non-null  object
 5   time         13857 non-null  object
 6   weekday      13857 non-null  object
dtypes: object(7)
memory usage: 758.0+ KB


## Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с названиями столбцов, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. Поскольку сведения о жанрах важно сохранить для анализа, не просто удаляем все пропущенные значения, но заполним пропущенные имена исполнителей и названия треков. Имена столбцов теперь корректны и удобны для дальнейшей работы.


# Действительно ли музыку в разных городах слушают по-разному?

Была выдвинута гипотеза, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному. Проверяем это предположение по данным о трёх днях недели — понедельнике, среде и пятнице.

Для каждого города устанавливаем количество прослушанных в эти дни композиций с известным жанром, и сравниваем результаты.
Группируем данные по городу и вызовом метода count() подсчитываем композиции, для которых известен жанр.


In [65]:
# <группировка данных таблицы df по столбцу 'city' и подсчёт количества значений столбца 'genre_name'>
df.groupby('city')['genre_name'].count()

city
Moscow              9611
Saint-Petersburg    4247
Name: genre_name, dtype: int64

В Moscow прослушиваний больше, чем в Saint-Petersburg, но это не значит, что Moscow более активна. У Яндекс.Музыки в целом больше пользователей в Москве, поэтому величины сопоставимы.
Сгруппируем данные по дню недели и подсчитаем прослушанные в понедельник, среду и пятницу композиции, для которых известен жанр.


In [66]:
# <группировка данных по столбцу 'weekday' и подсчёт количества значений столбца 'genre_name'>
df.groupby('weekday')['genre_name'].count()

weekday
Friday       4936
Monday       4809
Wednesday    4112
Name: genre_name, dtype: int64

Понедельник и пятница — время для музыки; по средам пользователи немного больше вовлечены в работу.

Создаём функцию number_tracks(), которая принимает как параметры таблицу, день недели и название города, а возвращает количество прослушанных композиций, для которых известен жанр. Проверяем количество прослушанных композиций для каждого города и понедельника, затем среды и пятницы.


In [67]:
# <создание функции number_tracks()>
# объявляется функция с тремя параметрами: df, day, city
# в переменной track_list сохраняются те строки таблицы df, для которых 
# значение в столбце 'weekday' равно параметру day
# и одновременно значение в столбце 'city' равно параметру city
# в переменной track_list_count сохраняется число значений столбца 'genre_name',
# рассчитанное методом count() для таблицы track_list
# функция возвращает значение track_list_count
def number_tracks(df, day, city):
  track_list = df[(df['weekday'] == day) & (df['city'] == city)]
  track_list_count = track_list['genre_name'].count()
  return track_list_count

In [68]:
# <список композиций для Москвы в понедельник>
number_tracks(df, 'Monday', 'Moscow')

3556

In [69]:
# <список композиций для Санкт-Петербурга в понедельник>
number_tracks(df, 'Monday', 'Saint-Petersburg')

1253

In [70]:
# <список композиций для Москвы в среду>
number_tracks(df, 'Wednesday', 'Moscow')

2457

In [71]:
# <список композиций для Санкт-Петербурга в среду>
number_tracks(df, 'Wednesday', 'Saint-Petersburg')

1655

In [72]:
# <список композиций для Москвы в пятницу>
number_tracks(df, 'Friday', 'Moscow')

3598

In [73]:
# <список композиций для Санкт-Петербурга в пятницу>
number_tracks(df, 'Friday', 'Saint-Petersburg')

1338

Сведём полученную информацию в одну таблицу, где ['city', 'monday', 'wednesday', 'friday'] названия столбцов.

In [74]:
# <таблица с полученными данными>
data = [
        ['Moscow', number_tracks(df, 'Monday', 'Moscow'), number_tracks(df, 'Wednesday', 'Moscow'), number_tracks(df, 'Friday', 'Moscow')],
        ['Saint-Petersburg', number_tracks(df, 'Monday', 'Saint-Petersburg'), number_tracks(df, 'Wednesday', 'Saint-Petersburg'), number_tracks(df, 'Friday', 'Saint-Petersburg')]
        ]
columns = ['city','monday','wednesday','friday']
table = pd.DataFrame(data = data, columns = columns)
print(table)

               city  monday  wednesday  friday
0            Moscow    3556       2457    3598
1  Saint-Petersburg    1253       1655    1338


## Вывод

Проанализировав данные можно с увереностью сказать, что гипотиза (которую выдвигали ранее) подтвердилась. В Москве пик слушателей приходятся на понедельник и пятницу, а Санкт-Петербурге наблюдается пик слушателей в среду. Отсюда можно сделать вывод, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному.

# Утро понедельника и вечер пятницы — разная музыка или одна и та же?

Ищем ответ на вопрос, какие жанры преобладают в разных городах в понедельник утром и в пятницу вечером. Есть предположение, что в понедельник утром пользователи слушают больше бодрящей музыки (например, жанра поп), а вечером пятницы — больше танцевальных (например, электронику).
Получим таблицы данных по Москве moscow_general и по Санкт-Петербургу spb_general.


In [75]:
# получение таблицы moscow_general из тех строк таблицы df, 
# для которых значение в столбце 'city' равно 'Moscow'
moscow_general = df[df['city'] == 'Moscow']
# <получение таблицы spb_general>
spb_general = df[df['city']=='Saint-Petersburg']

Создаём функцию genre_weekday(), которая возвращает список жанров по запрошенному дню недели и времени суток с такого-то часа по такой-то.

In [77]:
# объявление функции genre_weekday() с параметрами df, day, time1, time2
# в переменной genre_list сохраняются те строки df, для которых одновременно:
# 1) значение в столбце 'weekday' равно параметру day,
# 2) значение в столбце 'time' больше time1 и
# 3) меньше time2.
# в переменной genre_list_sorted сохраняются в порядке убывания  
# первые 10 значений Series, полученной подсчётом числа значений 'genre_name'
# сгруппированной по столбцу 'genre_name' таблицы genre_list
# функция возвращает значение genre_list_sorted
def genre_weekday(df, day, time1, time2):
  genre_list = df[(df['weekday'] == day) & (df['time'] > time1) & (df['time'] < time2)]
  genre_list_sorted = genre_list.groupby('genre_name')['genre_name'].count().sort_values(ascending = False).head(10)
  return genre_list_sorted


Cравниваем полученные результаты по таблице для Москвы и Санкт-Петербурга в понедельник утром (с 7 до 11) и в пятницу вечером (с 17 до 23).

In [78]:
# <вызов функции для утра понедельника в Москве (вместо df таблица moscow_general)>
genre_weekday(moscow_general, 'Monday', '07:00:00', '11:00:00')

genre_name
pop            181
dance          134
electronic     116
rock           115
hip             59
world           51
ruspop          49
alternative     44
classical       41
rusrap          33
Name: genre_name, dtype: int64

In [79]:
# <вызов функции для утра понедельника в Петербурге (вместо df таблица spb_general)>
genre_weekday(spb_general, 'Monday', '07:00:00', '11:00:00')

genre_name
pop            52
rock           35
dance          34
electronic     31
ruspop         18
hip            15
jazz           12
alternative    11
rusrap         11
rap            10
Name: genre_name, dtype: int64

In [80]:
# <вызов функции для вечера пятницы в Москве>
genre_weekday(moscow_general, 'Friday', '17:00:00', '23:00:00')

genre_name
pop            161
rock           117
dance          109
electronic      97
hip             61
world           59
alternative     43
rusrap          37
ruspop          37
classical       37
Name: genre_name, dtype: int64

In [81]:
# <вызов функции для вечера пятницы в Питере>
genre_weekday(spb_general, 'Friday', '17:00:00', '23:00:00')

genre_name
electronic     56
dance          47
pop            45
rock           42
hip            25
rusrap         20
jazz           19
classical      15
alternative    12
world          12
Name: genre_name, dtype: int64

Популярные жанры в понедельник утром в Питере и Москве оказались похожи: везде, как и предполагалось, популярен pop. Несмотря на это, концовка топ-10 для двух городов различается: в Питере в топ-10 входит джаз и русский рэп, а в Москве жанр world.

В конце недели pop музыка остается популярной в Москве, в Санкт-Петербурге лидером становиться electronic. ТОП-10 в конце недели отличается не только в разных городах, но и с началом текущей недели.

## Вывод
Жанр pop безусловный лидер, а топ-5 в целом не различается в обеих столицах. При этом видно, что концовка списка более «живая»: для каждого города выделяются более характерные жанры, которые действительно меняют свои позиции в зависимости от дня недели и времени.


# Москва и Питер — две разные столицы, два разных направления в музыке. Правда?

Гипотеза: Питер богат своей рэп-культурой, поэтому это направление там слушают чаще, а Москва — город контрастов, но основная масса пользователей слушает попсу.

Сгруппируем таблицу moscow_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице moscow_genres.

Просмотрим первые 10 строк этой новой таблицы.


In [82]:
# одной строкой: группировка таблицы moscow_general по столбцу 'genre_name', 
# подсчёт числа значений 'genre_name' в этой группировке методом count(), 
# сортировка Series в порядке убывания и сохранение в moscow_genres 
moscow_genres = moscow_general.groupby('genre_name')['genre_name'].count().sort_values(ascending = False)

In [83]:
# <просмотр первых 10 строк moscow_genres>
moscow_genres.head(10)

genre_name
pop            1377
dance          1041
rock            917
electronic      867
hip             447
world           367
alternative     350
classical       346
ruspop          315
rusrap          264
Name: genre_name, dtype: int64

Сгруппируем таблицу spb_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице spb_genres.

Просматриваем первые 10 строк этой таблицы. Теперь можно сравнивать два города.


In [84]:
# <группировка таблицы spb_general, расчёт, сохранение в spb_genres>
spb_genres = spb_general.groupby('genre_name')['genre_name'].count().sort_values(ascending = False)

In [85]:
# <просмотр первых 10 строк spb_genres>
spb_genres.head(10)

genre_name
pop            600
dance          449
rock           424
electronic     417
hip            230
classical      150
alternative    142
world          126
rusrap         122
jazz           114
Name: genre_name, dtype: int64

## Вывод
В Москве, кроме абсолютно популярного жанра поп, есть направление русской популярной музыки. Значит, что интерес к этому жанру шире. А рэп, вопреки предположению, занимает в обоих городах близкие позиции.


# Результаты исследования

Рабочие гипотезы:

•	музыку в двух городах — Москве и Санкт-Петербурге — слушают в разном режиме;

•	списки десяти самых популярных жанров утром в понедельник и вечером в пятницу имеют характерные отличия;

•	население двух городов предпочитает разные музыкальные жанры.

**Общие результаты**

Москва и Петербург сходятся во вкусах: везде преобладает популярная музыка. При этом зависимости предпочтений от дня недели в каждом отдельном городе нет — люди постоянно слушают то, что им нравится. Но между городами в разрезе дней неделей наблюдается зеркальность относительно среды: Москва больше слушает в понедельник и пятницу, а Петербург наоборот - больше в среду, но меньше в понедельник и пятницу.
В результате первая гипотеза подтверждена, вторая гипотеза подтверждена и третья не подтверждена >. не подтверждена
