Импорты библиотек:

In [1]:
import pandas as pd
import numpy as np

# Обработка данных

Загрузим датасет 5music.csv с помощью библиотеки pandas в Jupyter-ноутбуке и выведем первые 20 строк при помощи команды head:

In [2]:
music_df = pd.read_csv('C:/Users/dmitr/Downloads/5music.csv')
display(music_df.head(20))

Unnamed: 0,userID,trackname,Artistname,genre,City,time,Dayweek;;
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday;;
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday;;
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday;;
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday;;
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday;;
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday;;
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday;;
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday;;
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday;;
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday;;


Файл 5music.csv содержит информацию о прослушанных треках пользователя: 
1. userID - идентификатор пользователя; 
2. Trackname - название трека; 
3. Artistname - имя исполнителя; 
4. Genre - название жанра; 
5. City - город пользователя; 
6. Time - время начала прослушивания; 
7. Dayweek – день недели.

С помощью метода .info оценим данные:

In [3]:
music_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65215 entries, 0 to 65214
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0     userID    65215 non-null  object
 1   trackname   63256 non-null  object
 2   Artistname  57330 non-null  object
 3   genre       63292 non-null  object
 4     City      64487 non-null  object
 5   time        64487 non-null  object
 6   Dayweek;;   64485 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Выведем на экран названия столбцов с помощью df.columns:

In [4]:
music_df.columns

Index(['  userID', 'trackname', 'Artistname', 'genre', '  City  ', 'time',
       'Dayweek;;'],
      dtype='object')

Все названия столбцов были приведены к общему виду, были удалены пробелы, из заголовка Dayweek;; были убраны лишние символы:

In [5]:
music_df = music_df.rename(columns={'  userID': 'userID', 'Artistname':
'artistname', '  City  ': 'city', 'Dayweek;;': 'dayweek'})
music_df.columns

Index(['userID', 'trackname', 'artistname', 'genre', 'city', 'time',
       'dayweek'],
      dtype='object')

Также уберём все “;” из последнего столбца:

In [6]:
music_df['dayweek'] = music_df['dayweek'].str.replace(';', '')
music_df.head(5)

Unnamed: 0,userID,trackname,artistname,genre,city,time,dayweek
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday


Просмотрим количество пропущеных значений в столбцах:

In [7]:
music_df.isna().sum()

userID           0
trackname     1959
artistname    7885
genre         1923
city           728
time           728
dayweek        730
dtype: int64

Удалим строки с пропусками в столбцах “genre” и “dayweek”, так как данные в данных столбцах могут быть важными для обработки. Данные строки включают все пропуски столбцов “city” и “time”:

In [8]:
music_df = music_df.dropna(subset=['genre', 'dayweek'])
print(music_df.isna().sum())

userID           0
trackname      570
artistname    6326
genre            0
city             0
time             0
dayweek          0
dtype: int64


После заменим пропущенные значения в столбцах “artistname” и “trackname” на “uncnown”, поскольку это позволит обрабатывать данные, как неизвестные:

In [9]:
music_df['artistname'] = music_df['artistname'].fillna("unknown")
music_df['trackname'] = music_df['trackname'].fillna("unknown")
print(music_df.isna().sum())

userID        0
trackname     0
artistname    0
genre         0
city          0
time          0
dayweek       0
dtype: int64


Проверим данные на наличие дубликатов:

In [10]:
print(music_df.duplicated().sum())

3724


Удалим все явные дубликаты:

In [11]:
music_df = music_df.drop_duplicates().reset_index()
print(music_df.duplicated().sum())

0


Проверим столбцы "city", "dayweek" и "genre" на наличие неявных дубликатов:

In [12]:
print(music_df['city'].unique())
print(music_df['dayweek'].unique())
print(music_df['genre'].unique())

['Saint-Petersburg' 'Moscow']
['Wednesday' 'Friday' 'Monday']
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'tatar' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'shanson' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'contemporary' 'new' 'soul' 'holiday' 'german'
 'tropical' 'fairytail' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'chanson'
 'numetal' 'vocal' 'estrada' 'russian' 'classicmetal' 'dubstep' 'club'
 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french' 'disco'
 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinet

Все типы данных соответствуют действительности За исключением столбца time, который имеет текстово-символьный тип данных "object". К сожалению, pandas не содержит тип данных для обозначение времени без даты. Поскольку даты нам не даны мы не можем использовать тип данных datetime. Использовать стандартные даты мы также не можем так-как в наборе дан столбец с днями недели:

In [13]:
music_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59566 entries, 0 to 59565
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   index       59566 non-null  int64 
 1   userID      59566 non-null  object
 2   trackname   59566 non-null  object
 3   artistname  59566 non-null  object
 4   genre       59566 non-null  object
 5   city        59566 non-null  object
 6   time        59566 non-null  object
 7   dayweek     59566 non-null  object
dtypes: int64(1), object(7)
memory usage: 3.6+ MB


In [14]:
music_df['time'] = pd.to_datetime(music_df['time'], format='%H:%M:%S')
music_df['time'] = music_df['time'].dt.time
music_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59566 entries, 0 to 59565
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   index       59566 non-null  int64 
 1   userID      59566 non-null  object
 2   trackname   59566 non-null  object
 3   artistname  59566 non-null  object
 4   genre       59566 non-null  object
 5   city        59566 non-null  object
 6   time        59566 non-null  object
 7   dayweek     59566 non-null  object
dtypes: int64(1), object(7)
memory usage: 3.6+ MB


Данные обработаны:

In [15]:
music_df.head(5)

Unnamed: 0,index,userID,trackname,artistname,genre,city,time,dayweek
0,0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday


# Анализ данных

Создадим сводную таблицу, содержащую минимальное время прослушивания музыки для каждого дня в городах:

In [16]:
pd.pivot_table(music_df, index='city', columns='dayweek', values='time', aggfunc='min')

dayweek,Friday,Monday,Wednesday
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Moscow,08:00:03,08:00:03,08:00:04
Saint-Petersburg,08:00:00,08:00:00,08:00:02


Все минимальные времена находятся возле восьми часов. Вероятно, данные отсчитывались именно от этого времени.

Сгруппируем данные по жанру с применением агрегатной функции sum, чтобы вывести топ 10 прослушиваний каждого жанра:

In [17]:
music_df.groupby('genre')['index'].count().sort_values(ascending = False).head(10)

genre
pop            8250
dance          6363
rock           5831
electronic     5518
hip            2974
alternative    2024
classical      2009
world          1936
ruspop         1903
rusrap         1724
Name: index, dtype: int64

Самым популярным жанром является pop

Создадим сводную таблицу, показывающую количество прослушиваний по дням недели:

In [18]:
pd.pivot_table(music_df, index='dayweek', values='index', aggfunc='count')

Unnamed: 0_level_0,index
dayweek,Unnamed: 1_level_1
Friday,21265
Monday,20696
Wednesday,17605


**Вывод:**
В ходе выполнения лабораторной работы были получены навыки обработки данных и их первичного анализа. Для обработки при помощи библиотеки pandas был загружен набор данных с прослушанными треками пользователя. Были удалены пропуски в данных, исправлены названия столбцов и удалены дубликаты. Были придуманы и построены две сводные таблицы и произведена группировка данных по жанру. Из сводной таблицы минимальных времён прослушивания музыки для каждого дня в городах видно, что как правило это значения возле 8 часов. Скорее всего в это время начинался сбор информации. Из группировки данных по жанру с применением агрегатной функции sum мы узнали, что самым популярным жанром ожидаемо является “pop”. Из сводной таблицы, показывающей количество прослушиваний по дням недели можно увидеть, что чаще всего пользователи прослушивали музыку в пятницу.

# Дополнительное задание
#### выберите топ 5 жанров по кол-ву прослушиваний и создайте сводную таблицу с количеством прослушиваний этих жанров для каждого города

Выберем топ 5 жанров по количеству прослушиваний:

In [19]:
top_genre_df = music_df.groupby('genre')['index'].count().sort_values(ascending = False).head(5)
top_genres = top_genre_df.index.values.tolist()
top_genre_df.to_frame()

Unnamed: 0_level_0,index
genre,Unnamed: 1_level_1
pop,8250
dance,6363
rock,5831
electronic,5518
hip,2974


Создадим сводную таблицу с количеством прослушиваний топа 5 жанров для каждого города:

In [20]:
pd.pivot_table(music_df[music_df.genre.isin(top_genres)], index=['genre', 'city'], values='index', aggfunc='count')

Unnamed: 0_level_0,Unnamed: 1_level_0,index
genre,city,Unnamed: 2_level_1
dance,Moscow,4432
dance,Saint-Petersburg,1931
electronic,Moscow,3784
electronic,Saint-Petersburg,1734
hip,Moscow,2040
hip,Saint-Petersburg,934
pop,Moscow,5840
pop,Saint-Petersburg,2410
rock,Moscow,3956
rock,Saint-Petersburg,1875
