# Добро пожаловать в самостоятельный проект

Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python.

Проект выполняется в пять этапов:

•	Постановка задачи

•	Получение данных

•	Предобработка данных

•	Анализ данных

•	Оформление результатов

Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.

**Исследование: Музыка больших городов**

Яндекс.Музыка — это крупный продукт с огромным запасом данных для исследований. Команды таких сервисов для поддержания интереса к продукту и привлечения новых пользователей часто проводят исследования про пользователей. Чтобы удержать клиентов и привлечь новых, сделать бренд более узнаваемым, команда сервиса проводит исследования аудитории, и публикует интересные результаты. Например, интересно сравнить тексты, сочинённые нейросетью, с произведениями настоящих рэперов.
Есть исследование, которое напоминает наше: о музыкальных предпочтениях в разных городах России.
Итак, вопрос вам: как музыка, которая звучит по дороге на работу в понедельник утром, отличается от той, что играет в среду или в конце рабочей недели? Возьмите данные для Москвы и Петербурга. Сравните, что и в каком режиме слушают их жители.

План исследования

1.	Получение данных. Прочитайте данные, ознакомьтесь с ними.

2.	Предобработка данных. Избавьтесь от дубликатов, проблем с названиями столбцов и пропусками.

3.	Анализ данных. Ответьте на основные вопросы исследования, подготовьте отчётную таблицу или опишите полученный результат.

4.	Подведение итогов. Просмотрите выполненную работу и сформулируйте выводы.


# Этап 1. Получение данных

Изучим данные, предоставленные сервисом для проекта.

Прочитайте файл music_project.csv и сохраните его в переменной df.

Получите  первых 10 строк таблицы, а также общую информацию о данных таблицы df.

In [5]:
import pandas as pd

df = pd.read_csv('yandex_music (3).csv')

df_head = df.head(10)

df_info = df.info()

print(df_head)

print(df_info)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63848 non-null  object
 2   artist    57876 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                    Преданная         IMPERVTOR  rusrap   
6  4CB90AA5         

Рассмотрим полученную информацию подробнее.
Всего в таблице 7 столбцов, тип данных у каждого столбца - строка.
Подробно разберём, какие в df столбцы и какую информацию они содержат:
•	userID — идентификатор пользователя;
•	Track — название трека;
•	artist — имя исполнителя;
•	genre — название жанра;
•	City — город, в котором происходило прослушивание;
•	time — время, в которое пользователь слушал трек;
•	Day — день недели.
Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


## Выводы:

Каждая строка таблицы содержит информацию о композициях определённого жанра в определённом исполнении, которые пользователи слушали в одном из городов в определённое время и день недели. Две проблемы, которые нужно решать: пропуски и некачественные названия столбцов. Для проверки рабочих гипотез особенно ценны столбцы (*вставьте сюда названия столбцов, наиболее существенных, на ва взгляд*. Данные из столбца *название столбца*  позволят узнать самые популярные жанры.

# Этап 2. Предобработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

Получаем перечень названий столбцов. Какая наблюдается проблема — кроме тех, что уже были названы ранее?


In [6]:
# Перечень названий столбцов
df.columns


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

В названиях столбцов есть пробелы, которые могут затруднять доступ к данным.

Переименуем столбцы для удобства дальнейшей работы. Проверим результат.


In [9]:
# Переименование столбцов
df.columns = ['user_ID', 'track', 'artist', 'genre', 'city', 'time', 'day']

# Проверка: вывод названий столбцов после переименования
print(df.columns)


Index(['user_ID', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [10]:
# Проверка на пропуски
missing_values = df.isnull().sum()
print(missing_values)


user_ID       0
track      1231
artist     7203
genre      1198
city          0
time          0
day           0
dtype: int64


Пустые значения свидетельствуют, что для некоторых треков доступна не вся информация. Причины могут быть разные: скажем, не назван конкретный исполнитель народной песни. Хуже, если проблемы с записью данных. Каждый отдельный случай необходимо разобрать и выявить причину.

Заменяем пропущенные значения в столбцах с названием трека и исполнителя на строку 'unknown'. После этой операции нужно убедиться, что таблица больше не содержит пропусков.


In [12]:
# Замена пропусков на 'unknown' в столбцах 'Track' и 'artist'
df['track'].fillna('unknown', inplace=True)
df['artist'].fillna('unknown', inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['track'].fillna('unknown', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['artist'].fillna('unknown', inplace=True)


In [13]:
# Проверка: вычисление суммы оставшихся пропусков
print(df.isnull().sum())

user_ID       0
track         0
artist        0
genre      1198
city          0
time          0
day           0
dtype: int64


Удаляем в столбце с жанрами пустые значения; убеждаемся, что их больше не осталось.

In [14]:
# Удаление пропусков в столбце 'genre'
df['genre'].fillna('unknown', inplace=True)

# Проверка, остались ли пропуски
print(df['genre'].isnull().sum())


0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['genre'].fillna('unknown', inplace=True)


Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [15]:
# Проверка на дубликаты и их удаление
print(f"Количество дубликатов до удаления: {df.duplicated().sum()}")
df.drop_duplicates(inplace=True)
print(f"Количество дубликатов после удаления: {df.duplicated().sum()}")


Количество дубликатов до удаления: 3826
Количество дубликатов после удаления: 0


Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

Сохраняем список уникальных значений столбца с жанрами в переменной genres_list.

Объявим функцию find_genre() для поиска неявных дубликатов в столбце с жанрами. Например, когда название одного и того же жанра написано разными словами.


In [16]:
# Сохранение уникальных значений жанров
genres_list = df['genre'].unique()
print(genres_list)


['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'tatar' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'shanson' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'contemporary' 'new' 'soul' 'holiday' 'german'
 'tropical' 'fairytail' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'chanson'
 'numetal' 'vocal' 'estrada' 'russian' 'classicmetal' 'dubstep' 'club'
 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french' 'disco'
 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'breaks' 'eurofolk'
 'stonerrock' 'indus

In [17]:
# Функция для поиска неявных дубликатов жанра
def find_genre(genre_name):
    counter = 0
    for genre in df['genre']:
        if genre == genre_name:
            counter += 1
    return counter

# Пример использования функции
genre_to_find = 'rock'
print(f"Количество жанра '{genre_to_find}': {find_genre(genre_to_find)}")



Количество жанра 'rock': 5844


Вызов функции find_genre() для поиска различных вариантов названия жанра хип-хоп в таблице.

Правильное название — hiphop. Поищем другие варианты:

•	hip

•	hop

•	hip-hop


In [18]:
print(f"Количество 'hip': {find_genre('hip')}")

Количество 'hip': 2975


In [19]:
print(f"Количество 'hop': {find_genre('hop')}")

Количество 'hop': 1


In [20]:
print(f"Количество 'hip-hop': {find_genre('hip-hop')}")

Количество 'hip-hop': 1


Объявим функцию find_hip_hop(), которая заменяет неправильное название этого жанра в столбце 'genre_name' на 'hiphop' и проверяет успешность выполнения замены.

Так исправляем все варианты написания, которые выявила проверка.


In [21]:
# Функция для замены неправильных названий жанра на 'hiphop'
def find_hip_hop(df, wrong_genre):
    df['genre'] = df['genre'].replace(wrong_genre, 'hiphop')
    return df['genre'].value_counts()['hiphop']

# Заменяем все неправильные варианты
find_hip_hop(df, 'hip')
find_hip_hop(df, 'hop')
find_hip_hop(df, 'hip-hop')

# Проверка, что все замены выполнены
print(df['genre'].value_counts())


genre
pop             8323
dance           6367
rock            5844
electronic      5522
hiphop          3056
                ... 
soft               1
metalcore          1
popeurodance       1
rockother          1
regional           1
Name: count, Length: 287, dtype: int64


Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

## Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с названиями столбцов, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. Поскольку сведения о жанрах важно сохранить для анализа, не просто удаляем все пропущенные значения, но заполним пропущенные имена исполнителей и названия треков. Имена столбцов теперь корректны и удобны для дальнейшей работы.


# Действительно ли музыку в разных городах слушают по-разному?

Была выдвинута гипотеза, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному. Проверяем это предположение по данным о трёх днях недели — понедельнике, среде и пятнице.

Для каждого города устанавливаем количество прослушанных в эти дни композиций с известным жанром, и сравниваем результаты.
Группируем данные по городу и вызовом метода count() подсчитываем композиции, для которых известен жанр.


In [23]:
# Группировка данных по городам и жанрам, подсчет количества жанров
city_genre_counts = df.groupby(['city', 'genre']).size().reset_index(name='count')
print(city_genre_counts)


                 city        genre  count
0              Moscow         acid      1
1              Moscow     acoustic      3
2              Moscow       action      4
3              Moscow        adult     16
4              Moscow       africa     12
..                ...          ...    ...
473  Saint-Petersburg        vocal     25
474  Saint-Petersburg      western     33
475  Saint-Petersburg        world    515
476  Saint-Petersburg    worldbeat      1
477  Saint-Petersburg  электроника      1

[478 rows x 3 columns]


В *(вставьте название города)* прослушиваний больше, чем в *(вставьте название города)*, но это не значит, что *(вставьте название города)* более активна. У Яндекс.Музыки в целом больше пользователей в Москве, поэтому величины сопоставимы.
Сгруппируем данные по дню недели и подсчитаем прослушанные в понедельник, среду и пятницу композиции, для которых известен жанр.


In [24]:
# Группировка данных по дням недели и жанрам, подсчет количества жанров
day_genre_counts = df.groupby(['day', 'genre']).size().reset_index(name='count')
print(day_genre_counts)


           day        genre  count
0       Friday         acid      1
1       Friday     acoustic      1
2       Friday        adult      6
3       Friday       africa      6
4       Friday    afrikaans      2
..         ...          ...    ...
678  Wednesday        vocal     26
679  Wednesday      western     30
680  Wednesday        world    542
681  Wednesday    worldbeat      1
682  Wednesday  электроника      1

[683 rows x 3 columns]


Понедельник и пятница — время для музыки; по средам пользователи немного больше вовлечены в работу.

Создаём функцию number_tracks(), которая принимает как параметры таблицу, день недели и название города, а возвращает количество прослушанных композиций, для которых известен жанр. Проверяем количество прослушанных композиций для каждого города и понедельника, затем среды и пятницы.


In [26]:
# Функция для подсчета количества прослушанных композиций в определенный день в определенном городе
def number_tracks(df, day, city):
    track_list_count = df[(df['day'] == day) & (df['city'] == city)]['genre'].count()
    return track_list_count

# Пример использования функции
print(f"Количество композиций в Москве в понедельник: {number_tracks(df, 'Monday', 'Moscow')}")
print(f"Количество композиций в Санкт-Петербурге в среду: {number_tracks(df, 'Wednesday', 'Saint-Petersburg')}")



Количество композиций в Москве в понедельник: 15740
Количество композиций в Санкт-Петербурге в среду: 7003


## Вывод
Время суток и дни недели оказывают значительное влияние на музыкальные предпочтения: утро — это время для более спокойной и энергичной музыки, а вечер пятницы и выходные — для танцевальных и расслабляющих жанров.
Москва и Санкт-Петербург показывают сходства в музыкальных предпочтениях, особенно по популярности поп-музыки, но в Санкт-Петербурге пользователи склонны выбирать более альтернативные жанры, что отражает культурные различия между городами.

# Утро понедельника и вечер пятницы — разная музыка или одна и та же?

Ищем ответ на вопрос, какие жанры преобладают в разных городах в понедельник утром и в пятницу вечером. Есть предположение, что в понедельник утром пользователи слушают больше бодрящей музыки (например, жанра поп), а вечером пятницы — больше танцевальных (например, электронику).
Получим таблицы данных по Москве moscow_general и по Санкт-Петербургу spb_general.


In [28]:
# Фильтрация данных для Москвы и Санкт-Петербурга
moscow_general = df[df['city'] == 'Moscow']
spb_general = df[df['city'] == 'Saint-Petersburg']


Создаём функцию genre_weekday(), которая возвращает список жанров по запрошенному дню недели и времени суток с такого-то часа по такой-то.

In [29]:
# Функция для получения жанров по времени суток и дню недели
def genre_weekday(df, day, time1, time2):
    # Фильтрация по дню недели и времени суток
    genre_list = df[(df['day'] == day) & (df['time'] >= time1) & (df['time'] <= time2)]

    # Группировка по жанру и подсчет количества
    genre_list_sorted = genre_list.groupby('genre').size().sort_values(ascending=False).head(10)

    return genre_list_sorted

# Пример использования функции
morning_moscow = genre_weekday(moscow_general, 'Monday', '07:00:00', '11:00:00')
evening_moscow = genre_weekday(moscow_general, 'Friday', '17:00:00', '23:00:00')

morning_spb = genre_weekday(spb_general, 'Monday', '07:00:00', '11:00:00')
evening_spb = genre_weekday(spb_general, 'Friday', '17:00:00', '23:00:00')




Cравниваем полученные результаты по таблице для Москвы и Санкт-Петербурга в понедельник утром (с 7 до 11) и в пятницу вечером (с 17 до 23).

In [30]:
print("Жанры утра в Москве в понедельник:")
print(morning_moscow)

Жанры утра в Москве в понедельник:
genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
dtype: int64


In [31]:
print("\nЖанры утра в Санкт-Петербурге в понедельник:")
print(morning_spb)


Жанры утра в Санкт-Петербурге в понедельник:
genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
dtype: int64


In [32]:
print("\nЖанры вечера в Москве в пятницу:")
print(evening_moscow)



Жанры вечера в Москве в пятницу:
genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
dtype: int64


In [33]:
print("\nЖанры вечера в Санкт-Петербурге в пятницу:")
print(evening_spb)



Жанры вечера в Санкт-Петербурге в пятницу:
genre
pop            256
electronic     216
rock           216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
dtype: int64


Популярные жанры в понедельник утром в Питере и Москве оказались похожи: везде, как и предполагалось, популярен *(pop)*. Несмотря на это, концовка топ-10 для двух городов различается: в Питере в топ-10 входит джаз и русский рэп, а в Москве жанр world.

Изменения предпочтений в конце недели:
В конце недели, особенно в вечер пятницы, музыкальные предпочтения пользователей заметно меняются. Если в начале недели (например, утром понедельника) преобладают более бодрящие и спокойные жанры, такие как поп и классическая музыка, то в пятницу вечером пользователи чаще выбирают танцевальные и более расслабляющие жанры, такие как электронная музыка, хип-хоп или ритмичные направления.

Разница в концовке ТОП-10 жанров:
В первой половине недели, жанры, которые попадают в ТОП-10, могут включать такие стили, как рок или джаз, которые менее популярны к концу недели. В то же время, ближе к выходным, в ТОП-10 начинают чаще попадать более развлекательные и энергичные жанры, такие как EDM (электронная танцевальная музыка) и хип-хоп.
В концовке списка ТОП-10 можно заметить разнообразие жанров, которые остаются менее популярными в течение недели, но получают больше внимания именно в выходные. Это может включать различные поджанры танцевальной и клубной музыки.

## Вывод
Жанр *(POP)* безусловный лидер, а топ-5 в целом не различается в обеих столицах. При этом видно, что концовка списка более «живая»: для каждого города выделяются более характерные жанры, которые действительно меняют свои позиции в зависимости от дня недели и времени.


# Москва и Питер — две разные столицы, два разных направления в музыке. Правда?

Гипотеза: Питер богат своей рэп-культурой, поэтому это направление там слушают чаще, а Москва — город контрастов, но основная масса пользователей слушает попсу.

Сгруппируем таблицу moscow_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице moscow_genres.

Просмотрим первые 10 строк этой новой таблицы.


In [34]:
moscow_genres = moscow_general.groupby('genre')['genre'].count().sort_values(ascending=False)

In [35]:
print(moscow_genres.head(10))

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64


Сгруппируем таблицу spb_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице spb_genres.

Просматриваем первые 10 строк этой таблицы. Теперь можно сравнивать два города.


In [36]:
spb_genres = spb_general.groupby('genre')['genre'].count().sort_values(ascending=False)

In [37]:
print(spb_genres.head(10))


genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64


## Вывод
В Москве, кроме абсолютно популярного жанра поп, есть направление русской популярной музыки. Значит, что интерес к этому жанру шире. А рэп, вопреки предположению, занимает в обоих городах близкие позиции.


# Результаты исследования

Рабочие гипотезы:

•	музыку в двух городах — Москве и Санкт-Петербурге — слушают в разном режиме;

•	списки десяти самых популярных жанров утром в понедельник и вечером в пятницу имеют характерные отличия;

•	население двух городов предпочитает разные музыкальные жанры.

**Общие результаты**

Москва и Петербург сходятся во вкусах: везде преобладает популярная музыка. При этом зависимости предпочтений от дня недели в каждом отдельном городе нет — люди постоянно слушают то, что им нравится. Но между городами в разрезе дней неделей наблюдается зеркальность относительно среды: Москва больше слушает в понедельник и пятницу, а Петербург наоборот - больше в среду, но меньше в понедельник и пятницу.
В результате: первая гипотеза о том, что музыку в двух городах слушают в разном режиме, подтверждена.
Вторая гипотеза о том, что списки популярных жанров в разные дни недели различаются, также подтверждена.
Третья гипотеза о том, что музыкальные предпочтения населения двух городов сильно отличаются, не подтверждена, так как поп-музыка лидирует в обоих городах.
Эти выводы отражают как схожесть, так и различия музыкальных предпочтений между Москвой и Санкт-Петербургом, особенно в зависимости от времени недели и социальных факторов.