# Профориентация "Аналитик данных"

## Установка зависимостей

Python обладает встроенными функциями, однако, для работы с наборами данных требуются дополнительные функции, которые можно найти в сторонних модулях, которые мы и установим.

In [1]:
!pip install pandasql
!pip install pandas



## Импортируем установленные модули

In [2]:
import pandas as pd
import pandasql as ps

## Загрузка данных в среду разработки

Данные хранятся в виде csv-файла (таблицы). Такую таблицу можно с легкостью открыть при помощи того же Excel. Но мы загрузим ее при помощи специальной функции из модуля pandas.

In [3]:
data = pd.read_csv('movielens.csv')

### Посмотрим на данные

При помощи модуля pandas

In [4]:
data

Unnamed: 0,userid,movieid,rating,movienm,genreid
0,1,1193,5,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,661,3,James and the Giant Peach (1996),"Animation, Childrens, Musical"
2,1,914,3,My Fair Lady (1964),"Musical, Romance"
3,1,3408,4,Erin Brockovich (2000),Drama
4,1,2355,5,"Bug's Life, A (1998)","Animation, Childrens, Comedy"
...,...,...,...,...,...
90491,600,2716,5,Ghostbusters (1984),"Comedy, Horror"
90492,600,1959,4,Out of Africa (1985),"Drama, Romance"
90493,600,2917,3,Body Heat (1981),"Crime, Thriller"
90494,600,1997,4,"Exorcist, The (1973)",Horror


При помощи модуля pandasql

In [5]:
ps.sqldf("select * from data")

Unnamed: 0,userid,movieid,rating,movienm,genreid
0,1,1193,5,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,661,3,James and the Giant Peach (1996),"Animation, Childrens, Musical"
2,1,914,3,My Fair Lady (1964),"Musical, Romance"
3,1,3408,4,Erin Brockovich (2000),Drama
4,1,2355,5,"Bug's Life, A (1998)","Animation, Childrens, Comedy"
...,...,...,...,...,...
90491,600,2716,5,Ghostbusters (1984),"Comedy, Horror"
90492,600,1959,4,Out of Africa (1985),"Drama, Romance"
90493,600,2917,3,Body Heat (1981),"Crime, Thriller"
90494,600,1997,4,"Exorcist, The (1973)",Horror


Итак, из чего состоит датасет?

* __userid__ - идентификатор пользователя, можно сказать его имя
* __movieid__ - идентификатор фильма
* __rating__ - рейтинг, который пользователь поставил фильму
* __movienm__ - название фильма
* __genreid__ - жанры фильма

## Проведем исследовательский анализ данных

При помощи SQL и модуля pandasql, попробуем узнать что-то интересное о данных. Для этого нам нужно сформулировать, что мы хотим узнать, и правильно составить для этого запрос.

Например:

* Количество взаимодействий всех пользователей со всеми фильмами (количество строк)
* Количество уникальных фильмов (без повторений)
* Количество уникальных пользователей
* Максимальный, минимальный и средний рейтинг среди всех фильмов
* Средний рейтинг для каждого пользователя
* Средний рейтинг для каждого фильма

### Количество взаимодействий всех пользователей со всеми фильмами (количество строк)

In [6]:
ps.sqldf("select count(movieid) from data")

Unnamed: 0,count(movieid)
0,90496


In [7]:
len(data)

90496

### Количество уникальных фильмов (без повторений)

In [8]:
ps.sqldf("select distinct movieid from data")

Unnamed: 0,movieid
0,1193
1,661
2,914
3,3408
4,2355
...,...
3229,297
3230,1558
3231,1565
3232,3588


In [9]:
ps.sqldf("select count(distinct movieid) from data")

Unnamed: 0,count(distinct movieid)
0,3234


In [10]:
data.movieid.nunique()

3234

### Количество уникальных пользователей

Упражнение для вас

In [None]:
ps.sqldf("")

In [None]:
data.

### Максимальный, минимальный и средний рейтинг

Максимальный

In [11]:
ps.sqldf("select max(rating) from data")

Unnamed: 0,max(rating)
0,5


In [12]:
data.rating.max()

5

Минимальный

In [13]:
ps.sqldf("select min(rating) from data")

Unnamed: 0,min(rating)
0,1


In [14]:
data.rating.min()

1

Средний

In [15]:
ps.sqldf("select avg(rating) from data")

Unnamed: 0,avg(rating)
0,3.617298


In [16]:
data.rating.mean()

3.6172980021216405

### Средний рейтинг для каждого пользователя

In [17]:
ps.sqldf("select avg(rating) from data group by userid")

Unnamed: 0,avg(rating)
0,4.188679
1,3.713178
2,3.901961
3,4.190476
4,3.146465
...,...
595,2.952381
596,4.473684
597,3.315789
598,3.851852


In [18]:
data.groupby('userid').rating.mean()

userid
1      4.188679
2      3.713178
3      3.901961
4      4.190476
5      3.146465
         ...   
596    2.952381
597    4.473684
598    3.315789
599    3.851852
600    3.652174
Name: rating, Length: 600, dtype: float64

### Средний рейтинг для каждого фильма

Упражнение для вас

In [75]:
ps.sqldf("")

In [None]:
data.groupby('').rating.

## Алгоритм рекомендаций

### Рекомендация самых популярных фильмов

Для начала нам нужно посчитать какой фильм сколько раз просматривался

In [19]:
data.movienm.value_counts()

American Beauty (1999)                                   359
Star Wars: Episode V - The Empire Strikes Back (1980)    302
Star Wars: Episode VI - Return of the Jedi (1983)        295
Star Wars: Episode IV - A New Hope (1977)                290
Jurassic Park (1993)                                     289
                                                        ... 
Crow: Salvation, The (2000)                                1
Among Giants (1998)                                        1
Light It Up (1999)                                         1
Julien Donkey-Boy (1999)                                   1
Rough Magic (1995)                                         1
Name: movienm, Length: 3234, dtype: int64

Сохраним список из топ-100 самых популярных фильмов

In [20]:
top100_popular = data.movienm.value_counts().index.values[:100]
top100_popular[:10]

array(['American Beauty (1999)',
       'Star Wars: Episode V - The Empire Strikes Back (1980)',
       'Star Wars: Episode VI - Return of the Jedi (1983)',
       'Star Wars: Episode IV - A New Hope (1977)',
       'Jurassic Park (1993)', 'Saving Private Ryan (1998)',
       'Matrix, The (1999)', 'Raiders of the Lost Ark (1981)',
       'Gladiator (2000)', 'Men in Black (1997)'], dtype=object)

Создадим рекомендации из 10 фильмов для случайного пользователя. Однако, не будем забывать, что пользователь уже смотрел какие-то фильмы, поэтому их нужно исключить.

In [21]:
data[data.userid == 2]

Unnamed: 0,userid,movieid,rating,movienm,genreid
53,2,1357,5,Shine (1996),"Drama, Romance"
54,2,3068,4,"Verdict, The (1982)",Drama
55,2,1537,4,Shall We Dance? (Shall We Dansu?) (1996),Comedy
56,2,647,3,Courage Under Fire (1996),"Drama, War"
57,2,2194,4,"Untouchables, The (1987)","Action, Crime, Drama"
...,...,...,...,...,...
177,2,356,5,Forrest Gump (1994),"Comedy, Romance, War"
178,2,1245,2,Miller's Crossing (1990),Drama
179,2,1246,5,Dead Poets Society (1989),Drama
180,2,3893,1,Nurse Betty (2000),"Comedy, Thriller"


Создадим список уже просмотренных фильмов.

In [22]:
seen_movies = data[data.userid == 2].movienm.values

Создадим список еще не просмотренных фильмов.

In [23]:
popular_not_seen_movies = [x for x in top100_popular if x not in seen_movies]
len(popular_not_seen_movies)

68

Выведем 10 рекомендаций из еще не просмотренных фильмов

In [24]:
popular_recommendations = popular_not_seen_movies[:10]
popular_recommendations

['Star Wars: Episode IV - A New Hope (1977)',
 'Men in Black (1997)',
 'Sixth Sense, The (1999)',
 'Princess Bride, The (1987)',
 'Back to the Future (1985)',
 "Schindler's List (1993)",
 'Fargo (1996)',
 'L.A. Confidential (1997)',
 'E.T. the Extra-Terrestrial (1982)',
 'X-Men (2000)']

### Рекомендация самых рейтинговых фильмов

Попрактикуемся, сделав рекомендации фильмов с лучшим рейтингом.

Для начала нам нужно посчитать рейтинги для каждого фильма и отсортировать их по убыванию.

In [25]:
data.groupby('movienm').rating.mean().sort_values(ascending=False)

movienm
World of Apu, The (Apur Sansar) (1959)         5.0
Saltmen of Tibet, The (1997)                   5.0
Chushingura (1962)                             5.0
Curdled (1996)                                 5.0
Big Combo, The (1955)                          5.0
                                              ... 
Two or Three Things I Know About Her (1966)    1.0
Another Day in Paradise (1998)                 1.0
Devil Rides Out, The (1968)                    1.0
Frogs for Snakes (1998)                        1.0
Turbo: A Power Rangers Movie (1997)            1.0
Name: rating, Length: 3234, dtype: float64

А теперь исключим фильмы с низким количеством просмотров. Для этого возьмем метод, который мы использовали для расчета популярности.

In [26]:
movies_popularity = data.movienm.value_counts()
enough_views_movies = movies_popularity[movies_popularity > 50].index.values
len(enough_views_movies)

557

In [27]:
best_movies = data[data.movienm.isin(enough_views_movies)] \
                  .groupby('movienm').rating.mean().sort_values(ascending=False)
best_movies

movienm
Wrong Trousers, The (1993)          4.571429
Schindler's List (1993)             4.566964
Shawshank Redemption, The (1994)    4.555046
Usual Suspects, The (1995)          4.536585
Close Shave, A (1995)               4.492537
                                      ...   
Wild Wild West (1999)               2.534884
Mission to Mars (2000)              2.454545
Batman & Robin (1997)               2.433333
Congo (1995)                        2.425926
Judge Dredd (1995)                  2.166667
Name: rating, Length: 557, dtype: float64

Сохраним список из топ-100 самых лучших фильмов

In [28]:
top100_best = best_movies.index.values[:100]
top100_best[:10]

array(['Wrong Trousers, The (1993)', "Schindler's List (1993)",
       'Shawshank Redemption, The (1994)', 'Usual Suspects, The (1995)',
       'Close Shave, A (1995)', 'To Kill a Mockingbird (1962)',
       'Godfather, The (1972)', 'Raiders of the Lost Ark (1981)',
       'Star Wars: Episode IV - A New Hope (1977)',
       'Maltese Falcon, The (1941)'], dtype=object)

Создадим рекомендации из 10 фильмов для случайного пользователя. Однако, не будем забывать, что пользователь уже смотрел какие-то фильмы, поэтому их нужно исключить.

In [29]:
data[data.userid == 2]

Unnamed: 0,userid,movieid,rating,movienm,genreid
53,2,1357,5,Shine (1996),"Drama, Romance"
54,2,3068,4,"Verdict, The (1982)",Drama
55,2,1537,4,Shall We Dance? (Shall We Dansu?) (1996),Comedy
56,2,647,3,Courage Under Fire (1996),"Drama, War"
57,2,2194,4,"Untouchables, The (1987)","Action, Crime, Drama"
...,...,...,...,...,...
177,2,356,5,Forrest Gump (1994),"Comedy, Romance, War"
178,2,1245,2,Miller's Crossing (1990),Drama
179,2,1246,5,Dead Poets Society (1989),Drama
180,2,3893,1,Nurse Betty (2000),"Comedy, Thriller"


Создадим список уже просмотренных фильмов.

In [30]:
seen_movies = data[data.userid == 2].movienm.values

Создадим список еще не просмотренных фильмов.

In [31]:
best_not_seen_movies = [x for x in top100_best if x not in seen_movies]
len(best_not_seen_movies)

75

Выведем 10 рекомендаций из еще не просмотренных фильмов

In [32]:
best_recommendations = best_not_seen_movies[:10]
best_recommendations

['Wrong Trousers, The (1993)',
 "Schindler's List (1993)",
 'Usual Suspects, The (1995)',
 'Close Shave, A (1995)',
 'Godfather, The (1972)',
 'Star Wars: Episode IV - A New Hope (1977)',
 'Maltese Falcon, The (1941)',
 'Life Is Beautiful (La Vita è bella) (1997)',
 'Rear Window (1954)',
 'Dr. Strangelove or: How I Learned to Stop Worrying and Love the Bomb (1963)']

### Сравним рекомендации

In [33]:
popular_recommendations

['Star Wars: Episode IV - A New Hope (1977)',
 'Men in Black (1997)',
 'Sixth Sense, The (1999)',
 'Princess Bride, The (1987)',
 'Back to the Future (1985)',
 "Schindler's List (1993)",
 'Fargo (1996)',
 'L.A. Confidential (1997)',
 'E.T. the Extra-Terrestrial (1982)',
 'X-Men (2000)']

In [34]:
best_recommendations

['Wrong Trousers, The (1993)',
 "Schindler's List (1993)",
 'Usual Suspects, The (1995)',
 'Close Shave, A (1995)',
 'Godfather, The (1972)',
 'Star Wars: Episode IV - A New Hope (1977)',
 'Maltese Falcon, The (1941)',
 'Life Is Beautiful (La Vita è bella) (1997)',
 'Rear Window (1954)',
 'Dr. Strangelove or: How I Learned to Stop Worrying and Love the Bomb (1963)']