# Добро пожаловать в самостоятельный проект

Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python.

Проект выполняется в пять этапов:

•	Постановка задачи

•	Получение данных

•	Предобработка данных

•	Анализ данных

•	Оформление результатов

Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.

**Исследование: Музыка больших городов**

Яндекс.Музыка — это крупный продукт с огромным запасом данных для исследований. Команды таких сервисов для поддержания интереса к продукту и привлечения новых пользователей часто проводят исследования про пользователей. Чтобы удержать клиентов и привлечь новых, сделать бренд более узнаваемым, команда сервиса проводит исследования аудитории, и публикует интересные результаты. Например, интересно сравнить тексты, сочинённые нейросетью, с произведениями настоящих рэперов.
Есть исследование, которое напоминает наше: о музыкальных предпочтениях в разных городах России.
Итак, вопрос вам: как музыка, которая звучит по дороге на работу в понедельник утром, отличается от той, что играет в среду или в конце рабочей недели? Возьмите данные для Москвы и Петербурга. Сравните, что и в каком режиме слушают их жители.

План исследования

1.	Получение данных. Прочитайте данные, ознакомьтесь с ними.

2.	Предобработка данных. Избавьтесь от дубликатов, проблем с названиями столбцов и пропусками.

3.	Анализ данных. Ответьте на основные вопросы исследования, подготовьте отчётную таблицу или опишите полученный результат.

4.	Подведение итогов. Просмотрите выполненную работу и сформулируйте выводы.


# Этап 1. Получение данных

Изучим данные, предоставленные сервисом для проекта.

Прочитайте файл music_project.csv и сохраните его в переменной df.

Получите  первых 10 строк таблицы, а также общую информацию о данных таблицы df.

In [1]:
import pandas as pd

df = pd.read_csv("yandex_music (1).csv")
print(df.head(10))
print(df.info())


     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                    Преданная         IMPERVTOR  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE     И вновь продолжается бой               NaN  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

             City        time        Day  
0  Saint-Petersburg  20:28:33  Wednesday  
1            Moscow  14:07:09     Friday  
2  Saint-Petersburg  20:58:07  Wednesday  
3  Saint-Petersburg  08:37:09     Monday  
4            M

Рассмотрим полученную информацию подробнее.
Всего в таблице 7 столбцов, тип данных у каждого столбца - строка.
Подробно разберём, какие в df столбцы и какую информацию они содержат:
•	userID — идентификатор пользователя;
•	Track — название трека;
•	artist — имя исполнителя;
•	genre — название жанра;
•	City — город, в котором происходило прослушивание;
•	time — время, в которое пользователь слушал трек;
•	Day — день недели.
Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.


## Выводы:

Каждая строка таблицы содержит информацию о композициях определённого жанра в определённом исполнении, которые пользователи слушали в одном из городов в определённое время и день недели. Две проблемы, которые нужно решать: пропуски и некачественные названия столбцов. Для проверки рабочих гипотез особенно ценны столбцы (*вставьте сюда названия столбцов, наиболее существенных, на ва взгляд*. Данные из столбца *название столбца*  позволят узнать самые популярные жанры.

# Этап 2. Предобработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

Получаем перечень названий столбцов. Какая наблюдается проблема — кроме тех, что уже были названы ранее?


In [2]:
print(df.columns.tolist())

['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day']


В названиях столбцов есть пробелы, которые могут затруднять доступ к данным.

Переименуем столбцы для удобства дальнейшей работы. Проверим результат.


In [3]:
df.columns = (
    df.columns
      .str.strip()
      .str.lower()
      .str.replace(r"\s+", "_", regex=True)
)

print(df.columns.tolist())
df = df.rename(columns={
    "userid": "user_id",
    "track": "track_name",
    "artist": "artist_name",
    "genre": "genre_name",
    "city": "city",
    "time": "timestamp",
    "day": "day_of_week",
})
print(df.columns.tolist())

['userid', 'track', 'artist', 'genre', 'city', 'time', 'day']
['user_id', 'track_name', 'artist_name', 'genre_name', 'city', 'timestamp', 'day_of_week']


Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [4]:
print(df.isnull().sum())
print("Всего пропусков:", df.isnull().sum().sum())


user_id           0
track_name     1231
artist_name    7203
genre_name     1198
city              0
timestamp         0
day_of_week       0
dtype: int64
Всего пропусков: 9632


Пустые значения свидетельствуют, что для некоторых треков доступна не вся информация. Причины могут быть разные: скажем, не назван конкретный исполнитель народной песни. Хуже, если проблемы с записью данных. Каждый отдельный случай необходимо разобрать и выявить причину.

Заменяем пропущенные значения в столбцах с названием трека и исполнителя на строку 'unknown'. После этой операции нужно убедиться, что таблица больше не содержит пропусков.


In [5]:
df["track_name"]  = df["track_name"].fillna("unknown")
df["artist_name"] = df["artist_name"].fillna("unknown")

print(df[["track_name", "artist_name"]].isnull().sum())


track_name     0
artist_name    0
dtype: int64


In [6]:
print("Всего пропусков в таблице:", df.isnull().sum().sum())

Всего пропусков в таблице: 1198


Удаляем в столбце с жанрами пустые значения; убеждаемся, что их больше не осталось.

In [7]:
df = df.dropna(subset=["genre_name"])

print("Пропусков в genre_name:", df["genre_name"].isnull().sum())

Пропусков в genre_name: 0


Необходимо установить наличие дубликатов. Если найдутся, удаляем, и проверяем, все ли удалились.

In [8]:
dup_count = df.duplicated().sum()
print("Количество дубликатов до удаления:", dup_count)

df = df.drop_duplicates().reset_index(drop=True)

dup_count_after = df.duplicated().sum()
print("Количество дубликатов после удаления:", dup_count_after)


Количество дубликатов до удаления: 3755
Количество дубликатов после удаления: 0


Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

Сохраняем список уникальных значений столбца с жанрами в переменной genres_list.

Объявим функцию find_genre() для поиска неявных дубликатов в столбце с жанрами. Например, когда название одного и того же жанра написано разными словами.


In [9]:
genres_list = df["genre_name"].dropna().unique().tolist()
print(len(genres_list), "уникальных жанров")
print(genres_list[:30])


289 уникальных жанров
['rock', 'pop', 'folk', 'dance', 'rusrap', 'ruspop', 'world', 'electronic', 'alternative', 'children', 'rnb', 'hip', 'jazz', 'postrock', 'latin', 'classical', 'metal', 'reggae', 'tatar', 'blues', 'instrumental', 'rusrock', 'dnb', 'türk', 'post', 'country', 'psychedelic', 'conjazz', 'indie', 'posthardcore']


In [10]:
def find_genre(genre_name: str) -> int:
    count = 0
    for g in genres_list:
        if g == genre_name:
            count += 1
    return count

Вызов функции find_genre() для поиска различных вариантов названия жанра хип-хоп в таблице.

Правильное название — hiphop. Поищем другие варианты:

•	hip

•	hop

•	hip-hop


In [11]:
print("hip :", find_genre("hip"))

hip : 1


In [12]:
print("hop :", find_genre("hop"))

hop : 1


In [13]:
print("hip-hop :", find_genre("hip-hop"))

hip-hop : 1


Объявим функцию find_hip_hop(), которая заменяет неправильное название этого жанра в столбце 'genre_name' на 'hiphop' и проверяет успешность выполнения замены.

Так исправляем все варианты написания, которые выявила проверка.


In [14]:
def find_hip_hop(df, wrong_name):
    df["genre_name"] = df["genre_name"].replace(wrong_name, "hiphop")
    result = (df["genre_name"] == wrong_name).sum()
    return result

In [15]:
remaining = find_hip_hop(df, "hip-hop")
print("Осталось 'hip-hop' после замены:", remaining)

Осталось 'hip-hop' после замены: 0


Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

In [16]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60126 entries, 0 to 60125
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      60126 non-null  object
 1   track_name   60126 non-null  object
 2   artist_name  60126 non-null  object
 3   genre_name   60126 non-null  object
 4   city         60126 non-null  object
 5   timestamp    60126 non-null  object
 6   day_of_week  60126 non-null  object
dtypes: object(7)
memory usage: 3.2+ MB
None


## Вывод

На этапе предобработки в данных обнаружились не только пропуски и проблемы с названиями столбцов, но и всяческие виды дубликатов. Их удаление позволит провести анализ точнее. Поскольку сведения о жанрах важно сохранить для анализа, не просто удаляем все пропущенные значения, но заполним пропущенные имена исполнителей и названия треков. Имена столбцов теперь корректны и удобны для дальнейшей работы.


# Действительно ли музыку в разных городах слушают по-разному?

Была выдвинута гипотеза, что в Москве и Санкт-Петербурге пользователи слушают музыку по-разному. Проверяем это предположение по данным о трёх днях недели — понедельнике, среде и пятнице.

Для каждого города устанавливаем количество прослушанных в эти дни композиций с известным жанром, и сравниваем результаты.
Группируем данные по городу и вызовом метода count() подсчитываем композиции, для которых известен жанр.


In [17]:
city_genre_count = df.groupby("city")["genre_name"].count()

print(city_genre_count)


city
Moscow              41892
Saint-Petersburg    18234
Name: genre_name, dtype: int64


В Москве прослушиваний больше, чем в Санкт-Петербурге, но это не значит, что Москва более активна. У Яндекс.Музыки в целом больше пользователей в Москве, поэтому величины сопоставимы.
Сгруппируем данные по дню недели и подсчитаем прослушанные в понедельник, среду и пятницу композиции, для которых известен жанр.


In [18]:
weekday_genre_count = df.groupby("day_of_week")["genre_name"].count()

print(weekday_genre_count)

day_of_week
Friday       21482
Monday       20866
Wednesday    17778
Name: genre_name, dtype: int64


Понедельник и пятница — время для музыки; по средам пользователи немного больше вовлечены в работу.

Создаём функцию number_tracks(), которая принимает как параметры таблицу, день недели и название города, а возвращает количество прослушанных композиций, для которых известен жанр. Проверяем количество прослушанных композиций для каждого города и понедельника, затем среды и пятницы.


In [19]:
def number_tracks(df, day, city):
    track_list = df[(df["day_of_week"] == day) & (df["city"] == city)]
    track_list_count = track_list["genre_name"].count()
    return track_list_count

In [20]:
print("Москва, Monday:", number_tracks(df, "Monday","Moscow"))

Москва, Monday: 15347


In [21]:
print("Санкт-Петербург, Monday:", number_tracks(df, "Monday", "Saint-Petersburg"))

Санкт-Петербург, Monday: 5519


In [22]:
print("Москва, Wednesday:",number_tracks(df, "Wednesday", "Moscow"))

Москва, Wednesday: 10865


In [23]:
print("Санкт-Петербург (Saint-Petersburg), Wednesday:", number_tracks(df, "Wednesday", "Saint-Petersburg"))

Санкт-Петербург (Saint-Petersburg), Wednesday: 6913


In [24]:
print("Москва (Moscow), Friday:", number_tracks(df, "Friday", "Moscow"))

Москва (Moscow), Friday: 15680


In [25]:
print("Санкт-Петербург, Friday:", number_tracks(df, "Friday", "Saint-Petersburg"))

Санкт-Петербург, Friday: 5802


Сведём полученную информацию в одну таблицу, где ['city', 'monday', 'wednesday', 'friday'] названия столбцов.

In [26]:
import pandas as pd

data = {
    "city": ["Moscow", "Saint-Petersburg"],
    "monday": [
        number_tracks(df, "Monday", "Moscow"),
        number_tracks(df, "Monday", "Saint-Petersburg"),
    ],
    "wednesday": [
        number_tracks(df, "Wednesday", "Moscow"),
        number_tracks(df, "Wednesday", "Saint-Petersburg"),
    ],
    "friday": [
        number_tracks(df, "Friday", "Moscow"),
        number_tracks(df, "Friday", "Saint-Petersburg"),
    ],
}

summary_table = pd.DataFrame(data)
print(summary_table)

               city  monday  wednesday  friday
0            Moscow   15347      10865   15680
1  Saint-Petersburg    5519       6913    5802


## Вывод

В Москве пик в понедельник и в пятницу, среда заметно ниже.

А Санкт-Петербург наоборот.

# Утро понедельника и вечер пятницы — разная музыка или одна и та же?

Ищем ответ на вопрос, какие жанры преобладают в разных городах в понедельник утром и в пятницу вечером. Есть предположение, что в понедельник утром пользователи слушают больше бодрящей музыки (например, жанра поп), а вечером пятницы — больше танцевальных (например, электронику).
Получим таблицы данных по Москве moscow_general и по Санкт-Петербургу spb_general.


In [27]:
moscow_general = df[df["city"] == "Moscow"]

spb_general = df[df["city"] == "Saint-Petersburg"]

print("Москва:", moscow_general.shape)
print("Санкт-Петербург:", spb_general.shape)


Москва: (41892, 7)
Санкт-Петербург: (18234, 7)


Создаём функцию genre_weekday(), которая возвращает список жанров по запрошенному дню недели и времени суток с такого-то часа по такой-то.

In [30]:
import pandas as pd
import numpy as np

def _ensure_hour(series):
    if pd.api.types.is_numeric_dtype(series):
        return pd.to_numeric(series, errors="coerce").astype("float")

    def parse_hour(x):
        if pd.isna(x):
            return np.nan
        s = str(x).strip()
        if ":" in s:
            parts = s.split(":")
            try:
                h = int(parts[0])
                return float(h)
            except:
                return np.nan
        try:
            return float(s)
        except:
            return np.nan

    return series.map(parse_hour)

def genre_weekday(df, day, time1, time2):
    tmp = df.loc[:, ["day_of_week", "timestamp", "genre_name"]].copy()

    tmp["hour"] = _ensure_hour(tmp["timestamp"])

    mask = (tmp["day_of_week"] == day) & (tmp["hour"].notna()) & (tmp["hour"] > time1) & (tmp["hour"] < time2)

    filtered = tmp.loc[mask].copy()
    filtered = filtered[filtered["genre_name"].notna()]

    counts = filtered.groupby("genre_name")["genre_name"].count()
    counts_sorted = counts.sort_values(ascending=False)

    return counts_sorted.head(10)

Cравниваем полученные результаты по таблице для Москвы и Санкт-Петербурга в понедельник утром (с 7 до 11) и в пятницу вечером (с 17 до 23).

In [31]:
moscow_mon_morning_7_11 = genre_weekday(moscow_general, "Monday", 7, 11)
print("Москва — понедельник утром (7-11):")
print(moscow_mon_morning_7_11)

Москва — понедельник утром (7-11):
genre_name
pop            781
dance          549
electronic     480
rock           474
hip            281
ruspop         186
world          181
rusrap         175
alternative    164
classical      157
Name: genre_name, dtype: int64


In [32]:
spb_mon_morning_7_11 = genre_weekday(spb_general, "Monday", 7, 11)
print("\nСанкт-Петербург — понедельник утром (7-11):")
print(spb_mon_morning_7_11)


Санкт-Петербург — понедельник утром (7-11):
genre_name
pop            218
dance          182
rock           162
electronic     147
hip             79
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: genre_name, dtype: int64


In [33]:
moscow_fri_evening_17_23 = genre_weekday(moscow_general, "Friday", 17, 23)
print("\nМосква — пятница вечером (17-23):")
print(moscow_fri_evening_17_23)


Москва — пятница вечером (17-23):
genre_name
pop            713
rock           517
dance          495
electronic     482
hip            267
world          208
ruspop         170
alternative    163
classical      163
rusrap         142
Name: genre_name, dtype: int64


In [34]:
spb_fri_evening_17_23 = genre_weekday(spb_general, "Friday", 17, 23)
print("\nСанкт-Петербург — пятница вечером (17-23):")
print(spb_fri_evening_17_23)


Санкт-Петербург — пятница вечером (17-23):
genre_name
pop            256
rock           216
electronic     216
dance          210
hip             94
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: genre_name, dtype: int64


Популярные жанры в понедельник утром в Питере и Москве оказались похожи: везде, как и предполагалось, популярен Поп. Несмотря на это, концовка топ-10 для двух городов различается: в Питере в топ-10 входит джаз и русский рэп, а в Москве жанр world.

В целом, к концу недели ситуация не сильно меняется. Для Питера из топ-10 выпадает жанр ruspop, вместо него приходить world. Для москва нет сильных изменений, dance и electronic поднимаются по топу, обозначая конец рабочей недели.

## Вывод
Жанр pop безусловный лидер, а топ-5 в целом не различается в обеих столицах. При этом видно, что концовка списка более «живая»: для каждого города выделяются более характерные жанры, которые действительно меняют свои позиции в зависимости от дня недели и времени.

# Москва и Питер — две разные столицы, два разных направления в музыке. Правда?

Гипотеза: Питер богат своей рэп-культурой, поэтому это направление там слушают чаще, а Москва — город контрастов, но основная масса пользователей слушает попсу.

Сгруппируем таблицу moscow_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице moscow_genres.

Просмотрим первые 10 строк этой новой таблицы.


In [35]:
moscow_genres = moscow_general.groupby("genre_name")["genre_name"].count().sort_values(ascending=False)

In [36]:
print(moscow_genres.head(10))

genre_name
pop            5892
dance          4435
rock           3965
electronic     3786
hip            2041
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre_name, dtype: int64


Сгруппируем таблицу spb_general по жанру, сосчитаем численность композиций каждого жанра методом count(), отсортируем в порядке убывания и сохраним результат в таблице spb_genres.

Просматриваем первые 10 строк этой таблицы. Теперь можно сравнивать два города.


In [37]:
spb_genres = spb_general.groupby("genre_name")["genre_name"].count().sort_values(ascending=False)

In [38]:
print(spb_genres.head(10))

genre_name
pop            2431
dance          1932
rock           1879
electronic     1736
hip             934
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre_name, dtype: int64


## Вывод
В Москве, кроме абсолютно популярного жанра поп, есть направление русской популярной музыки. Значит, что интерес к этому жанру шире. А рэп, вопреки предположению, занимает в обоих городах близкие позиции.


# Результаты исследования

Рабочие гипотезы:

•	музыку в двух городах — Москве и Санкт-Петербурге — слушают в разном режиме;

•	списки десяти самых популярных жанров утром в понедельник и вечером в пятницу имеют характерные отличия;

•	население двух городов предпочитает разные музыкальные жанры.

**Общие результаты**

Москва и Петербург сходятся во вкусах: везде преобладает популярная музыка. При этом зависимости предпочтений от дня недели в каждом отдельном городе нет — люди постоянно слушают то, что им нравится. Но между городами в разрезе дней неделей наблюдается зеркальность относительно среды: Москва больше слушает в понедельник и пятницу, а Петербург наоборот - больше в среду, но меньше в понедельник и пятницу.
В результате первая гипотеза подтверждена , вторая гипотеза не подтверждена и третья не подтверждена
