## 1. Загрузка и очистка датасетов

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [22]:
df_exp_ratings = pd.read_csv('dataverse_files/explicit_ratings_en.csv') 
df_imp_ratings = pd.read_csv('dataverse_files/implicit_ratings_en.csv')
df_users = pd.read_csv('dataverse_files/users_en.csv')
df_items = pd.read_csv('dataverse_files/items_en.csv')


### 1.1 Явные оценки

In [27]:
df_exp_ratings.head()

Unnamed: 0,user_id,item_id,watch_percentage,created_at,rating
0,224557,510,100,2018-09-28 16:18:29,10
1,224557,615,100,2018-09-28 16:22:22,10
2,224557,7680,100,2018-09-28 16:23:34,10
3,224293,510,100,2018-09-28 17:20:30,10
4,224293,515,100,2018-09-28 17:40:02,10


`item_id` - Идентификтор курса <br/>
`user_id` - Идентификатор пользователя <br/>
`watch_percentage` - Процент прохождения курса пользователем <br/>
`created_at` - дата и время (видимо, занесения данных в базу, т.е. оценки курса)<br/>
`rating` - Оценка курса пользователем по шкале от 1 до 10

In [28]:
df_exp_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3659 entries, 0 to 3658
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   user_id           3659 non-null   int64 
 1   item_id           3659 non-null   int64 
 2   watch_percentage  3659 non-null   int64 
 3   created_at        3659 non-null   object
 4   rating            3659 non-null   int64 
dtypes: int64(4), object(1)
memory usage: 143.1+ KB


In [34]:
print(f'Кол-во уникальных пользователей: {df_exp_ratings.user_id.nunique()}')
print(f'Кол-во уникальных курсов: {df_exp_ratings.item_id.nunique()}')


Кол-во уникальных пользователей: 822
Кол-во уникальных курсов: 776


### 1.2 Неявные оценки

In [24]:
df_imp_ratings.head()

Unnamed: 0,item_id,user_id,created_at
0,510,4287,2016-11-02 20:59:23
1,510,4287,2017-06-20 00:33:46
2,511,4287,2017-06-20 00:44:42
3,512,4287,2017-06-20 00:52:11
4,513,4287,2017-06-20 00:54:41


`item_id` - Идентификтор курса <br/>
`user_id` - Идентификатор пользователя <br/>
`created_at` - Время просмотра пользователем страницы курса

In [29]:
df_imp_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21908 entries, 0 to 21907
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   item_id     21908 non-null  int64 
 1   user_id     21908 non-null  int64 
 2   created_at  21908 non-null  object
dtypes: int64(2), object(1)
memory usage: 513.6+ KB


In [36]:
print(f'Кол-во уникальных пользователей: {df_imp_ratings.user_id.nunique()}')
print(f'Кол-во уникальных курсов: {df_imp_ratings.item_id.nunique()}')

Кол-во уникальных пользователей: 3007
Кол-во уникальных курсов: 957


### 1.3 Курсы

In [None]:
df_items.head()

Unnamed: 0,item_id,language,name,nb_views,description,created_at,Difficulty,Job,Software,Theme,duration,type
0,510,en,What is OneDrive for Business?,1114.0,OneDrive for Businessis an online libraryto st...,2016,Beginner,[],['OneDrive'],['Discover'],42.0,tutorial
1,511,en,"Add, restore, delete documents on OneDrive",547.0,"To create a new document in OneDriveclick New,...",2016,Beginner,[],['OneDrive'],"['Share', 'Produce', 'Organize']",122.0,tutorial
2,512,en,Share documents,607.0,"By default, all content is private, so you don...",2016,Beginner,[],['OneDrive'],"['Share', 'Collaborate']",176.0,tutorial
3,513,en,Recycle bin,278.0,"When you delete a file or afolder, OneDrive gi...",2016,Beginner,"['Accounting', 'Financial', 'Human resources',...",['OneDrive'],"['Produce', 'Organize']",46.0,tutorial
4,514,en,Sync OneDrive for Business to your computer (W...,312.0,The one drive synchronization application is a...,2016,Beginner,[],['OneDrive'],"['Produce', 'Organize']",163.0,tutorial


In [30]:
df_items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1167 entries, 0 to 1166
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   item_id      1167 non-null   int64  
 1   language     1167 non-null   object 
 2   name         1167 non-null   object 
 3   nb_views     1119 non-null   float64
 4   description  1009 non-null   object 
 5   created_at   1167 non-null   int64  
 6   Difficulty   475 non-null    object 
 7   Job          1167 non-null   object 
 8   Software     1167 non-null   object 
 9   Theme        1167 non-null   object 
 10  duration     1167 non-null   float64
 11  type         1167 non-null   object 
dtypes: float64(2), int64(2), object(8)
memory usage: 109.5+ KB


`item_id` - Идентификтор курса <br/>
`language` - Язык курса (в данном случае - английский) <br/>
`name` - Название <br/>
`nb_views` - Количество просмотров курса <br/>
`description` - Описание содержания <br/>
`created_at` - Год создания курса <br/>
`Difficulty` - Уровень сложности (`Beginner`, `Intermediate`, `Advanced`, `nan`) <br/>
`Job` - Список сфер деятельности, для которых курс сделан <br/>
`Software` - ПО (видимо, которое нужно для прохождения курса) <br/>
`Theme` - тема курса (не связана с проф. навыками) <br/>
`Duration` - Продолжительность курса в секундах (курс - это почти всегда одно короткое видео, как оказалось) <br/>
`Type` - Тип курса (`Tutorial`, `webcast`, `use_case`)

### 1.4 Пользователи

In [26]:
df_users

Unnamed: 0,user_id,job
0,384,
1,421,
2,530,
3,672,
4,752,
...,...,...
9897,610347,accounting
9898,610368,product & service marketing
9899,610459,
9900,610460,


`user_id` - Идентификатор пользователя <br/>
`job` - Работа, указанная пользователем

In [31]:
df_users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9902 entries, 0 to 9901
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  9902 non-null   int64 
 1   job      1409 non-null   object
dtypes: int64(1), object(1)
memory usage: 154.8+ KB
