# Лабораторная работа №1
# Предварительный анализ данных

**Цель работы**: осуществить предварительную обработку данных csv-файла,
выявить и устранить проблемы в этих данных.

В начале, импортируем библиотеки, необходимые для работы с датафреймами

In [166]:
import pandas as pd

Затем, импортируем csv файл, и превратим его в датафрейм с выводом первых 20 строк

In [167]:
df = pd.read_csv('5music.csv')
df.head(20)

Unnamed: 0,userID,trackname,Artistname,genre,City,time,Dayweek;;
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday;;
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday;;
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday;;
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday;;
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday;;
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday;;
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday;;
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday;;
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday;;
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday;;


Как видно, данный датасет описывает какую музыку слушают те или иные пользователи. Имеется ID пользователя, название трека, автор, жанр, город и время, в котором слушалась музыка и день недели. Таким образом, при помощи данного датасета можно анализировать какую музыку слушают в разных городах, с какой частотой и насколько популярны та или иная группа.

Далее, была представлена информация по данному датафрейму. Отображатся первые и последние строки датафрейма

In [168]:
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65215 entries, 0 to 65214
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0     userID    65215 non-null  object
 1   trackname   63256 non-null  object
 2   Artistname  57330 non-null  object
 3   genre       63292 non-null  object
 4     City      64487 non-null  object
 5   time        64487 non-null  object
 6   Dayweek;;   64485 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


По информаци видно, что имеется 65215 строк, однако, кроме ID пользоватея, не имеются столбцы со всеми заполненными строками. В связи с этим, необходимо избавится от пустых мест.
Далее, рассмотрим названия столбцов и их тип данных

In [169]:
df.columns

Index(['  userID', 'trackname', 'Artistname', 'genre', '  City  ', 'time',
       'Dayweek;;'],
      dtype='object')

Видно, что названия столбцов не приведены к единому виду. Какие-то столбцы начинаются с большой буквы, какие-то имеют во втором составном слове заглавную букву, и так далее. Переименуем столбцы таким образом, чтобы все они начинались с заглавной буквы, а если название имеет несколько слов, каждое начиналось с заглавной буквы. Также, например, у userID имеется два пустых ненужных пробела.

In [170]:
df = df.rename(columns={'  userID':'userID', 'trackname':'trackName','Artistname':'artistName','  City  ':'city',
                       'time':'time','Dayweek;;':'dayWeek'})
df.columns

Index(['userID', 'trackName', 'artistName', 'genre', 'city', 'time',
       'dayWeek'],
      dtype='object')

Затем, необходимо отформатировать некоторые столбцы для последующего корректного анализа. В начале, найдем неявные дубликаты для столбца с днями недели.

In [171]:
print(df['dayWeek'].unique())

['Wednesday;;' 'Friday;;' 'Monday;;' nan 'Friday;' 'Monday;' 'Wednesday;'
 'Monday']


Таким образом видно, что у дней недели имеются лишние точки с запятой, которые необходимо исправить

In [172]:
df['dayWeek'] = df['dayWeek'].replace(to_replace='Monday;;',value ='Monday')
df['dayWeek'] = df['dayWeek'].replace(to_replace='Friday;;',value ='Friday')
df['dayWeek'] = df['dayWeek'].replace(to_replace='Wednesday;;',value ='Wednesday')
df['dayWeek'] = df['dayWeek'].replace(to_replace='Monday;',value ='Monday')
df['dayWeek'] = df['dayWeek'].replace(to_replace='Friday;',value ='Friday')
df['dayWeek'] = df['dayWeek'].replace(to_replace='Wednesday;',value ='Wednesday')
df.head(20)

Unnamed: 0,userID,trackName,artistName,genre,city,time,dayWeek
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Saint-Petersburg,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Moscow,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Saint-Petersburg,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Saint-Petersburg,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Moscow,08:34:34,Monday
5,842029A1,Преданная,IMPERVTOR,rusrap,Saint-Petersburg,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Moscow,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Moscow,20:47:49,Wednesday
8,8FA1D3BE,И вновь продолжается бой,,ruspop,Moscow,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Saint-Petersburg,21:20:49,Wednesday


Далее, был изменен тип данных для поля с временем на Date, причем было явно указано, что в данном поле отображается только время без даты. Изменение типа данных на время производится при помощи to_datetime()

In [173]:
df['time']=pd.to_datetime(df['time'], format='%H:%M:%S').dt.time
df.info(verbose = True)

ValueError: time data 'Friday";' does not match format '%H:%M:%S' (match)

Видно, что была выдана ошибка т.к. в столбце появился день недели, чего быть не должно. В связи с этим, если встречается не дата, то она преобразовывается в пустое значение. Это дотстигается при помощи параметра errors.

In [174]:
df['time']=pd.to_datetime(df['time'], format='%H:%M:%S',errors='coerce').dt.time
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65215 entries, 0 to 65214
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   userID      65215 non-null  object
 1   trackName   63256 non-null  object
 2   artistName  57330 non-null  object
 3   genre       63292 non-null  object
 4   city        64487 non-null  object
 5   time        64485 non-null  object
 6   dayWeek     64485 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Видно, что дата была успешно преобразована. Далее, необходимо избавиться от пропусков во всех строках. Так как заменить пропуски без серьезного анализа существующего набора данных невозможно, а название песен, дни недели и жанр восстановить невозможно, все строки с пропусками удаляются.

In [175]:
df = df.dropna(subset=['trackName','artistName','city','genre','dayWeek','time'])
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 56964 entries, 0 to 65214
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   userID      56964 non-null  object
 1   trackName   56964 non-null  object
 2   artistName  56964 non-null  object
 3   genre       56964 non-null  object
 4   city        56964 non-null  object
 5   time        56964 non-null  object
 6   dayWeek     56964 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


После, необходимо избавится от полных дубликатов. Так как дубликаты могут повлиять на итоговую статистику, дубликаты нужно убирать. Это можно сделать при помощи метода df.drop_duplicates()

In [176]:
df = df.drop_duplicates()
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 53621 entries, 0 to 65214
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   userID      53621 non-null  object
 1   trackName   53621 non-null  object
 2   artistName  53621 non-null  object
 3   genre       53621 non-null  object
 4   city        53621 non-null  object
 5   time        53621 non-null  object
 6   dayWeek     53621 non-null  object
dtypes: object(7)
memory usage: 3.3+ MB


Таким образом. получился итоговый датафрейм без лишних строк и пустых значений, которые могут мешать при анализе полученных данных. Создадим сводную таблицу, которая будет отображать количество слушающих музыку по жанрам. Результат отсортирован при поиощи метода sort_values

In [177]:
data_pivot = df.pivot_table(index=['genre'], values = ['time'],aggfunc='count', fill_value =0)
data_pivot.sort_values(by='time',ascending = False)

Unnamed: 0_level_0,time
genre,Unnamed: 1_level_1
pop,7671
rock,5606
dance,5120
electronic,4885
hip,2732
...,...
malaysian,1
lovers,1
loungeelectronic,1
laiko,1


Кроме этого, можно расширить сводную таблицу, добавив города по каждому жанру и учитывая отдельно каждый из городов.

In [178]:
data_pivot = df.pivot_table(index=['genre','city'], values = ['time'],aggfunc='count', fill_value =0)
data_pivot.sort_values(by='time',ascending = False)

Unnamed: 0_level_0,Unnamed: 1_level_0,time
genre,city,Unnamed: 2_level_1
pop,Moscow,5432
rock,Moscow,3801
dance,Moscow,3564
electronic,Moscow,3340
pop,Saint-Petersburg,2239
...,...,...
mood,Saint-Petersburg,1
mpb,Saint-Petersburg,1
native,Saint-Petersburg,1
neoklassik,Moscow,1


Наконец, можно проследить количество прослушиваний в каждый день недели по городам.

In [179]:
data_pivot = df.pivot_table(index=['dayWeek','city'], values = ['time'],aggfunc='count', fill_value =0)
data_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,time
dayWeek,city,Unnamed: 2_level_1
Friday,Moscow,13995
Friday,Saint-Petersburg,5201
Monday,Moscow,13703
Monday,Saint-Petersburg,4899
Wednesday,Moscow,9654
Wednesday,Saint-Petersburg,6169


Кроме создания сводных таблиц, можно сделать группировку по параметру. Далее представлен пример группировки по исполнителям и количеству прослушиваний по исполнителю.

In [180]:
df.groupby(by=['artistName']).count().sort_values(by='userID',ascending = False)

Unnamed: 0_level_0,userID,trackName,genre,city,time,dayWeek
artistName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sasha,6,6,6,6,6,6
Aura,5,5,5,5,5,5
Sleeper,5,5,5,5,5,5
Lila,5,5,5,5,5,5
Amir,5,5,5,5,5,5
...,...,...,...,...,...,...
Jacoo,1,1,1,1,1,1
Jacquees,1,1,1,1,1,1
Jacqueline Du Pre,1,1,1,1,1,1
Jacqueline Francois,1,1,1,1,1,1
