# Добро пожаловать в самостоятельный проект

Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python. 

Проект выполняется в пять этапов:

•	Постановка задачи

•	Получение данных

•	Предобработка данных

•	Анализ данных

•	Оформление результатов

Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.

**Исследование: Музыка больших городов**

Яндекс.Музыка — это крупный продукт с огромным запасом данных для исследований. Команды таких сервисов для поддержания интереса к продукту и привлечения новых пользователей часто проводят исследования про пользователей. Чтобы удержать клиентов и привлечь новых, сделать бренд более узнаваемым, команда сервиса проводит исследования аудитории, и публикует интересные результаты. Например, интересно сравнить тексты, сочинённые нейросетью, с произведениями настоящих рэперов.
Есть исследование, которое напоминает наше: о музыкальных предпочтениях в разных городах России.
Итак, вопрос вам: как музыка, которая звучит по дороге на работу в понедельник утром, отличается от той, что играет в среду или в конце рабочей недели? Возьмите данные для Москвы и Петербурга. Сравните, что и в каком режиме слушают их жители.

План исследования

1.	Получение данных. Прочитайте данные, ознакомьтесь с ними.

2.	Предобработка данных. Избавьтесь от дубликатов, проблем с названиями столбцов и пропусками.

3.	Анализ данных. Ответьте на основные вопросы исследования, подготовьте отчётную таблицу или опишите полученный результат.

4.	Подведение итогов. Просмотрите выполненную работу и сформулируйте выводы.


# Этап 1. Получение данных

Изучим данные, предоставленные сервисом для проекта.

Прочитайте файл music_project.csv и сохраните его в переменной df.

Получите  первых 10 строк таблицы, а также общую информацию о данных таблицы df.

In [3]:
import pandas as pd

# Чтение данных из файла
df = pd.read_csv('yandex_music.csv')

# Получение первых 10 строк таблицы
print("Первые 10 строк таблицы:")
print(df.head(10))

# Получение общей информации о данных таблицы
print("\nОбщая информация о данных:")
print(df.info())



Первые 10 строк таблицы:
     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                    Преданная         IMPERVTOR  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE     И вновь продолжается бой               NaN  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

             City        time        Day  
0  Saint-Petersburg  20:28:33  Wednesday  
1            Moscow  14:07:09     Friday  
2  Saint-Petersburg  20:58:07  Wednesday  
3  Saint-Petersburg  08:37:09   

Рассмотрим полученную информацию подробнее.
Всего в таблице 7 столбцов, тип данных у каждого столбца - строка.
Подробно разберём, какие в df столбцы и какую информацию они содержат:
•	userID — идентификатор пользователя;
•	Track — название трека;
•	artist — имя исполнителя;
•	genre — название жанра;
•	City — город, в котором происходило прослушивание;
•	time — время, в которое пользователь слушал трек;
•	Day — день недели.
Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


## Выводы: 

Каждая строка таблицы содержит информацию о композициях определённого жанра в определённом исполнении, которые пользователи слушали в одном из городов в определённое время и день недели. Две проблемы, которые нужно решать: пропуски и некачественные названия столбцов. Для проверки рабочих гипотез особенно ценны столбцы (*вставьте сюда названия столбцов, наиболее существенных, на ва взгляд*. Данные из столбца *название столбца*  позволят узнать самые популярные жанры.

# Этап 2. Предобработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

Получаем перечень названий столбцов. Какая наблюдается проблема — кроме тех, что уже были названы ранее?


In [7]:
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


В названиях столбцов есть пробелы, которые могут затруднять доступ к данным.

Переименуем столбцы для удобства дальнейшей работы. Проверим результат.


In [9]:
# Переименование столбцов
df.columns = ['userID', 'Track', 'artist', 'genre', 'City', 'time', 'Day']

# Проверка названий столбцов после переименования
print("Перечень названий столбцов после переименования:")
print(df.columns)

Перечень названий столбцов после переименования:
Index(['userID', 'Track', 'artist', 'genre', 'City', 'time', 'Day'], dtype='object')


Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [11]:
# Суммарное количество пропусков в таблице
print("\nСуммарное количество пропусков:")
print(df.isnull().sum())


Суммарное количество пропусков:
userID       0
Track     1231
artist    7203
genre     1198
City         0
time         0
Day          0
dtype: int64


Пустые значения свидетельствуют, что для некоторых треков доступна не вся информация. Причины могут быть разные: скажем, не назван конкретный исполнитель народной песни. Хуже, если проблемы с записью данных. Каждый отдельный случай необходимо разобрать и выявить причину.

Заменяем пропущенные значения в столбцах с названием трека и исполнителя на строку 'unknown'. После этой операции нужно убедиться, что таблица больше не содержит пропусков.


In [13]:
# Замена пропущенных значений в столбцах 'Track' и 'artist' на 'unknown'
df['Track'].fillna('unknown', inplace=True)
df['artist'].fillna('unknown', inplace=True)

In [14]:
# Проверка суммарного количества пропусков после замены
print("\nСуммарное количество пропусков после замены:")
print(df.isnull().sum())


Суммарное количество пропусков после замены:
userID       0
Track        0
artist       0
genre     1198
City         0
time         0
Day          0
dtype: int64


Удаляем в столбце с жанрами пустые значения; убеждаемся, что их больше не осталось.

In [16]:
# Удаление пропущенных значений в столбце 'genre'
df.dropna(subset=['genre'], inplace=True)

# Проверка наличия пропусков в столбце 'genre'
print("\nОставшиеся пропуски в столбце 'genre':")
print(df['genre'].isnull().sum())


Оставшиеся пропуски в столбце 'genre':
0


Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [18]:
# Проверка наличия дубликатов
print("\nКоличество дубликатов:")
print(df.duplicated().sum())

# Удаление дубликатов
df.drop_duplicates(inplace=True)

# Проверка на отсутствие дубликатов
print("\nПроверка на отсутствие дубликатов после удаления:")
print(df.duplicated().sum())


Количество дубликатов:
3755

Проверка на отсутствие дубликатов после удаления:
0


Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

Сохраняем список уникальных значений столбца с жанрами в переменной genres_list.

Объявим функцию find_genre() для поиска неявных дубликатов в столбце с жанрами. Например, когда название одного и того же жанра написано разными словами.


In [20]:
# Сохранение уникальных значений жанров в переменной
genres_list = df['genre'].unique()
print("\nСписок уникальных жанров:")
print(genres_list)


Список уникальных жанров:
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'tatar' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'shanson' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'contemporary' 'new' 'soul' 'holiday' 'german'
 'tropical' 'fairytail' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'chanson'
 'numetal' 'vocal' 'estrada' 'russian' 'classicmetal' 'dubstep' 'club'
 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french' 'disco'
 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'breaks' 'eurofolk'
 's

In [21]:
# Функция для поиска неявных дубликатов жанров
def find_genre(genre_name):
    count = 0
    for genre in genres_list:
        if genre_name in genre:
            count += 1
    return count


Вызов функции find_genre() для поиска различных вариантов названия жанра хип-хоп в таблице.

Правильное название — hiphop. Поищем другие варианты:

•	hip

•	hop

•	hip-hop


In [23]:
# Поиск различных вариантов названия жанра 'hiphop'
print("\nПоиск жанра 'hip':", find_genre('hip'))


Поиск жанра 'hip': 3


In [24]:
print("Поиск жанра 'hop':", find_genre('hop'))

Поиск жанра 'hop': 4


In [25]:
print("Поиск жанра 'hip-hop':", find_genre('hip-hop'))

Поиск жанра 'hip-hop': 1


Объявим функцию find_hip_hop(), которая заменяет неправильное название этого жанра в столбце 'genre_name' на 'hiphop' и проверяет успешность выполнения замены.

Так исправляем все варианты написания, которые выявила проверка.


In [27]:
# Функция для замены неправильного названия жанра на 'hiphop'
def find_hip_hop(df, incorrect_name):
    count_before = df['genre'].str.contains(incorrect_name).sum()
    df['genre'] = df['genre'].replace(incorrect_name, 'hiphop')
    count_after = df['genre'].str.contains(incorrect_name).sum()
    return count_before - count_after


In [28]:
# Замена вариантов написания на 'hiphop'
print("\nЗамена 'hip' на 'hiphop':", find_hip_hop(df, 'hip'))
print("Замена 'hop' на 'hiphop':", find_hip_hop(df, 'hop'))
print("Замена 'hip-hop' на 'hiphop':", find_hip_hop(df, 'hip-hop'))


Замена 'hip' на 'hiphop': 0
Замена 'hop' на 'hiphop': 0
Замена 'hip-hop' на 'hiphop': 1


Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

In [30]:
# Получение общей информации о данных после предобработки
print("\nОбщая информация о данных после предобработки:")
print(df.info())



Общая информация о данных после предобработки:
<class 'pandas.core.frame.DataFrame'>
Index: 60126 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   userID  60126 non-null  object
 1   Track   60126 non-null  object
 2   artist  60126 non-null  object
 3   genre   60126 non-null  object
 4   City    60126 non-null  object
 5   time    60126 non-null  object
 6   Day     60126 non-null  object
dtypes: object(7)
memory usage: 3.7+ MB
None


## Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с названиями столбцов, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. Поскольку сведения о жанрах важно сохранить для анализа, не просто удаляем все пропущенные значения, но заполним пропущенные имена исполнителей и названия треков. Имена столбцов теперь корректны и удобны для дальнейшей работы.


# Действительно ли музыку в разных городах слушают по-разному?

Была выдвинута гипотеза, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному. Проверяем это предположение по данным о трёх днях недели — понедельнике, среде и пятнице.

Для каждого города устанавливаем количество прослушанных в эти дни композиций с известным жанром, и сравниваем результаты.
Группируем данные по городу и вызовом метода count() подсчитываем композиции, для которых известен жанр.


In [33]:
# Группировка по городу и подсчёт количества треков с известным жанром
city_genre_count = df.groupby('City')['genre'].count()
print("\nКоличество прослушиваний с известным жанром по городам:")
print(city_genre_count)


Количество прослушиваний с известным жанром по городам:
City
Moscow              41892
Saint-Petersburg    18234
Name: genre, dtype: int64


В *(вставьте название города)* прослушиваний больше, чем в *(вставьте название города)*, но это не значит, что *(вставьте название города)* более активна. У Яндекс.Музыки в целом больше пользователей в Москве, поэтому величины сопоставимы.
Сгруппируем данные по дню недели и подсчитаем прослушанные в понедельник, среду и пятницу композиции, для которых известен жанр.


In [35]:
# Группировка по дню недели и подсчёт количества треков с известным жанром
day_genre_count = df.groupby('Day')['genre'].count()
print("\nКоличество прослушиваний с известным жанром по дням недели:")
print(day_genre_count)



Количество прослушиваний с известным жанром по дням недели:
Day
Friday       21482
Monday       20866
Wednesday    17778
Name: genre, dtype: int64


Понедельник и пятница — время для музыки; по средам пользователи немного больше вовлечены в работу.

Создаём функцию number_tracks(), которая принимает как параметры таблицу, день недели и название города, а возвращает количество прослушанных композиций, для которых известен жанр. Проверяем количество прослушанных композиций для каждого города и понедельника, затем среды и пятницы.


In [37]:
def number_tracks(df, day, city):
    track_list = df[(df['Day'] == day) & (df['City'] == city)]
    track_list_count = track_list['genre'].count()
    return track_list_count


In [38]:
# Получение данных по дням недели и городам
tracks_moscow_monday = number_tracks(df, 'Monday', 'Moscow')

In [39]:
tracks_spb_monday = number_tracks(df, 'Monday', 'Saint-Petersburg')

In [40]:
tracks_moscow_wednesday = number_tracks(df, 'Wednesday', 'Moscow')

In [41]:
tracks_spb_wednesday = number_tracks(df, 'Wednesday', 'Saint-Petersburg')

In [42]:
tracks_moscow_friday = number_tracks(df, 'Friday', 'Moscow')

In [43]:
tracks_spb_friday = number_tracks(df, 'Friday', 'Saint-Petersburg')

Сведём полученную информацию в одну таблицу, где ['city', 'monday', 'wednesday', 'friday'] названия столбцов.

In [45]:
# Создание таблицы с результатами
results = pd.DataFrame({
    'City': ['Moscow', 'Saint-Petersburg'],
    'Monday': [tracks_moscow_monday, tracks_spb_monday],
    'Wednesday': [tracks_moscow_wednesday, tracks_spb_wednesday],
    'Friday': [tracks_moscow_friday, tracks_spb_friday]
})

print("\nТаблица с количеством прослушиваний по дням недели и городам:")
print(results)


Таблица с количеством прослушиваний по дням недели и городам:
               City  Monday  Wednesday  Friday
0            Moscow   15347      10865   15680
1  Saint-Petersburg    5519       6913    5802


## Вывод

В Москве общее количество прослушиваний с известным жанром больше, чем в Санкт-Петербурге. Это может быть связано с большим числом пользователей в Москве.
В понедельник и пятницу наблюдается большее количество прослушиваний, что может быть связано с тем, что пользователи чаще слушают музыку в начале и конце рабочей недели.
В среду количество прослушиваний меньше, что может указывать на большую занятость пользователей в середине недели.
Сравнение данных по дням недели для каждого города позволяет увидеть, как меняется музыкальная активность в зависимости от дня недели и места проживания.
Из полученной информации можно сделать вывод, что музыкальные предпочтения и активность в прослушивании могут отличаться в зависимости от дня недели и города

# Утро понедельника и вечер пятницы — разная музыка или одна и та же?

Ищем ответ на вопрос, какие жанры преобладают в разных городах в понедельник утром и в пятницу вечером. Есть предположение, что в понедельник утром пользователи слушают больше бодрящей музыки (например, жанра поп), а вечером пятницы — больше танцевальных (например, электронику).
Получим таблицы данных по Москве moscow_general и по Санкт-Петербургу spb_general.


In [48]:
# Фильтрация данных по городам
moscow_general = df[df['City'] == 'Moscow']
spb_general = df[df['City'] == 'Saint-Petersburg']


Создаём функцию genre_weekday(), которая возвращает список жанров по запрошенному дню недели и времени суток с такого-то часа по такой-то.

In [50]:
def genre_weekday(df, day, time1, time2):
    genre_list = df[(df['Day'] == day) & (df['time'] >= time1) & (df['time'] <= time2)]
    genre_list_sorted = genre_list['genre'].value_counts().head(10)
    return genre_list_sorted



Cравниваем полученные результаты по таблице для Москвы и Санкт-Петербурга в понедельник утром (с 7 до 11) и в пятницу вечером (с 17 до 23).

In [52]:
moscow_monday_morning = genre_weekday(moscow_general, 'Monday', '07:00:00', '11:00:00')


In [53]:
spb_monday_morning = genre_weekday(spb_general, 'Monday', '07:00:00', '11:00:00')


In [54]:
moscow_friday_evening = genre_weekday(moscow_general, 'Friday', '17:00:00', '23:00:00')


In [103]:
spb_friday_evening = genre_weekday(spb_general, 'Friday', '17:00:00', '23:00:00')
print("Популярные жанры в понедельник утром в Москве:")
print(moscow_monday_morning)
print("\nПопулярные жанры в понедельник утром в Санкт-Петербурге:")
print(spb_monday_morning)

print("\nПопулярные жанры в пятницу вечером в Москве:")
print(moscow_friday_evening)
print("\nПопулярные жанры в пятницу вечером в Санкт-Петербурге:")
print(spb_friday_evening)

Популярные жанры в понедельник утром в Москве:
genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
classical      157
Name: count, dtype: int64

Популярные жанры в понедельник утром в Санкт-Петербурге:
genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: count, dtype: int64

Популярные жанры в пятницу вечером в Москве:
genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
Name: count, dtype: int64

Популярные жанры в пятницу вечером в Санкт-Петербурге:
genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz   

Популярные жанры в понедельник утром в Питере и Москве оказались похожи: везде, как и предполагалось, популярен pop. Несмотря на это, концовка топ-10 для двух городов различается: в Питере в топ-10 входит джаз и русский рэп, а в Москве жанр world.

Понедельник утром:

Москва и Санкт-Петербург оба отдают предпочтение pop-музыке, но в Москве этот жанр более популярен.
В Москве также заметно больше прослушиваний dance и electronic.
В Петербурге присутствуют дополнительные жанры, такие как jazz и ruspop, которые не входят в топ-5 в Москве.

Пятница вечером:

Москва сохраняет лидерство pop и добавляет больше rock и dance в пятницу вечером.
В Санкт-Петербурге pop всё ещё на первом месте, но rock и electronic занимают равные позиции.
В Петербурге появляются жанры jazz и alternative в концовке топ-10, что не так выражено в Москве.

Поп-музыка является доминирующим жанром как в Москве, так и в Санкт-Петербурге в разные дни недели, но Москва показывает более высокие показатели по всем основным жанрам.
В пятницу вечером в Москве наблюдается более широкий спектр жанров в топ-10, что может указывать на разнообразие музыкальных предпочтений в конце рабочей недели.
В Санкт-Петербурге также наблюдается устойчивость pop-музыки, но в концовке топ-10 появляются жанры, которые менее популярны в Москве.

## Вывод
Жанр pop безусловный лидер, а топ-5 в целом не различается в обеих столицах. При этом видно, что концовка списка более «живая»: для каждого города выделяются более характерные жанры, которые действительно меняют свои позиции в зависимости от дня недели и времени.


# Москва и Питер — две разные столицы, два разных направления в музыке. Правда?

Гипотеза: Питер богат своей рэп-культурой, поэтому это направление там слушают чаще, а Москва — город контрастов, но основная масса пользователей слушает попсу.

Сгруппируем таблицу moscow_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице moscow_genres.

Просмотрим первые 10 строк этой новой таблицы.


In [58]:
# одной строкой: группировка таблицы moscow_general по столбцу 'genre_name', 
# подсчёт числа значений 'genre_name' в этой группировке методом count(), 
# сортировка Series в порядке убывания и сохранение в moscow_genres 


In [59]:
# <просмотр первых 10 строк moscow_genres>

Сгруппируем таблицу spb_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице spb_genres.

Просматриваем первые 10 строк этой таблицы. Теперь можно сравнивать два города.


In [61]:
# <группировка таблицы spb_general, расчёт, сохранение в spb_genres>

In [62]:
# <просмотр первых 10 строк spb_genres>

## Вывод
В Москве, кроме абсолютно популярного жанра поп, есть направление русской популярной музыки. Значит, что интерес к этому жанру шире. А рэп, вопреки предположению, занимает в обоих городах близкие позиции.


# Результаты исследования

Рабочие гипотезы:

•	музыку в двух городах — Москве и Санкт-Петербурге — слушают в разном режиме;

•	списки десяти самых популярных жанров утром в понедельник и вечером в пятницу имеют характерные отличия;

•	население двух городов предпочитает разные музыкальные жанры.

**Общие результаты**

Москва и Петербург сходятся во вкусах: везде преобладает популярная музыка. При этом зависимости предпочтений от дня недели в каждом отдельном городе нет — люди постоянно слушают то, что им нравится. Но между городами в разрезе дней неделей наблюдается зеркальность относительно среды: Москва больше слушает в понедельник и пятницу, а Петербург наоборот - больше в среду, но меньше в понедельник и пятницу.
В результате первая гипотеза *подтверждена / не подтверждена*, вторая гипотеза *подтверждена / не подтверждена* и третья не подтверждена >.*подтверждена / не подтверждена*
