In [1]:
import pandas as pd

In [3]:
data_frame = pd.read_csv('data.csv')

In [5]:
data_frame.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,86B70CE8,Every Little Bit Hurts,Brenda Holloway,rnb,Saint-Petersburg,20:29:24,Wednesday
1,B0A0BCBF,Along for the Ride,Striking Matches,rock,Saint-Petersburg,21:22:51,Monday
2,39DA43B,Kesh Jig,Celtica,world,Moscow,13:51:17,Monday
3,73E10B80,Starlight,Unkle Adams,hip,Moscow,09:41:09,Wednesday
4,F1EB302A,Pushin' Too Hard,The Seeds,rock,Saint-Petersburg,09:19:10,Monday
5,8A794B2C,In This Life,Karen Savoca,folk,Moscow,21:05:27,Monday
6,72575ACE,Drunk,Anteros,indie,Saint-Petersburg,14:18:14,Friday
7,B4CC84F9,Almost A Kiss,The Twilight Saga: New Moon,film,Moscow,08:30:54,Wednesday
8,9F9AAE02,Analisys,Garnier Solair,dance,Saint-Petersburg,14:22:24,Monday
9,F47076B6,Never Say Never,Basement Jaxx,dance,Saint-Petersburg,13:39:20,Monday


## Предобработка данных

In [6]:
data_frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   userID  65079 non-null  object
 1   Track   63736 non-null  object
 2   artist  57512 non-null  object
 3    genre  63881 non-null  object
 4   City    65079 non-null  object
 5    time   65079 non-null  object
 6   Day     65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


### Преобразование названий столбцов

Переименуем столбцы в единую форму

In [7]:
data_frame.columns

Index(['userID', 'Track ', 'artist', ' genre', 'City', ' time ', 'Day'], dtype='object')

In [11]:
data_frame = data_frame.rename(columns={'userID' : 'user_id', 'Track ' : 'track', ' genre' : 'genre', 'City' : 'city', ' time ' : 'time',
                                       'Day' : 'day'})

In [12]:
data_frame.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Удаление NaN-ов

Все пропущенные значения (NaN) заменяем на 'unknown' для того, чтобы облегчить себе работу с датафреймом

In [16]:
data_frame.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

In [17]:
names_list = ['track', 'artist', 'genre']

In [18]:
for i in names_list:
    data_frame[i] = data_frame[i].fillna('unknown')

In [20]:
data_frame.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Удаление дупликатов

Исключаем все дублирующиеся значения из датафрейма

In [21]:
data_frame.duplicated().sum()

3826

In [57]:
data_frame = data_frame.drop_duplicates().reset_index(drop=True)
data_frame.duplicated().sum()

0

In [26]:
sorted(data_frame['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

В столбце остались дублирующиеся названия жанров. Заменим эти названия на единое

In [28]:
data_frame['genre'] = data_frame['genre'].replace(['hip', 'hop', 'hip-hop'], 'hiphop')
sorted(data_frame['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

## Проверка гипотез

Проверить гипотезы:
1. Пользовательская активность меняется в зависимости от дня недели, и это
проявляется по-разному в Москве и Петербурге.
2. Утром понедельника в Москве преобладают определенные музыкальные
жанры, в то время как в Петербурге - другие. То же самое наблюдается и
вечером пятницы, где преобладают различные музыкальные стили в
зависимости от города.
3. Москва и Петербург предпочитают разные музыкальные жанры: в Москве
чаще слушают поп-музыку, а в Петербурге - русский рэп.

In [29]:
city_groups = data_frame.groupby('city')[['user_id']].count()
city_groups

Unnamed: 0_level_0,user_id
city,Unnamed: 1_level_1
Moscow,42741
Saint-Petersburg,18512


In [31]:
city_groups = data_frame.groupby('day')[['user_id']].count()
city_groups

Unnamed: 0_level_0,user_id
day,Unnamed: 1_level_1
Friday,21840
Monday,21354
Wednesday,18059


In [32]:
def number_of_tracks(day, city):
    track_list = data_frame[data_frame['day'] == day]
    track_list = track_list[data_frame['city'] == city]
    track_list_count = track_list['user_id'].count()
    return track_list_count

In [34]:
print(number_of_tracks('Monday', 'Moscow'), number_of_tracks('Wednesday', 'Moscow'), number_of_tracks('Friday', 'Moscow'))
print(number_of_tracks('Monday', 'Saint-Petersburg'), number_of_tracks('Wednesday', 'Saint-Petersburg'), number_of_tracks('Friday', 'Saint-Petersburg'))

  track_list = track_list[data_frame['city'] == city]


15740 11056 15945
5614 7003 5895


Гипотеза 1 принимается. Проверим 2-ую гипотезу

In [54]:
moscow_values = data_frame[data_frame['city'] == 'Moscow']
spb_values = data_frame[data_frame['city'] == 'Saint-Petersburg']

In [43]:
def genre_weekday(table, day, time_1, time_2):
    genre_df = table[table['day'] == day]
    genre_df = genre_df[genre_df['time'] > time_1]
    genre_df = genre_df[genre_df['time'] < time_2]
    genre_df_count = genre_df.groupby('genre')['artist'].count()
    genre_df_sorted = genre_df_count.sort_values(ascending=False)
    return genre_df_sorted.head(10)

In [50]:
print(str(genre_weekday(moscow_values, 'Monday', '07:00', '11:00')) + '\n-----------------------')
print(str(genre_weekday(spb_values, 'Monday', '07:00', '11:00')) + '\n-----------------------')
print(str(genre_weekday(moscow_values, 'Friday', '17:00', '23:00')) + '\n-----------------------')
print(str(genre_weekday(spb_values, 'Friday', '17:00', '23:00'))  + '\n-----------------------')

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
Name: artist, dtype: int64
-----------------------
genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
Name: artist, dtype: int64
-----------------------
genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
Name: artist, dtype: int64
-----------------------
genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
Name: artist, dtype: int64
-----------------------


Вторая гипотеза подтвердилась частично. Разница не слишком существенна.

Проверим третью гипотезу.

In [55]:
moscow_values = moscow_values.groupby('genre')['genre'].count().sort_values(ascending=False).head(10)
moscow_values

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

In [56]:
spb_values = spb_values.groupby('genre')['genre'].count().sort_values(ascending=False).head(10)
spb_values

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

Третья гипотеза подтвердилась частично.