## Исследовательская группа GroupLens Research (http.j/www.g,·ouplens.org/node/73) предлагает несколько наборов данных о рейтингах фильмов, проставленных поль­ зователями сайта MovieLeнs в конце 1990-х - начале 2000-х. Наборы содержат рейтинги фильмов, метаданные о фильмах (жанр и год выхода) и демографиче­ ские данные о пользователях (возраст, почтовый индекс, пол и род занятий). Та­ кие данные часто представляют интерес для разработки систем рекомендования, основанных на алгоритмах машинного обучения. И хотя в этой книге методы ма­ шинного обучения не рассматриваются, я все же покажу, как формировать про­ дольные и поперечные срезы таких наборов данных с целью привести их к нуж­ ному виду.
Набор MovieLens 1М содержит 1 миллион рейтингов 4000 фильмов, простав­ ленных 6000 пользователей. Данные распределены по трем таблицам: рейтинги, информация о пользователях и информация о фильмах. После распаковки ziр­ файла каждую таблицу можно загрузить в отдельный объект DataFrame с помо­ щью метода pandas. read_taЫe:

In [1]:
import pandas as pd

In [2]:
unames = ['user_id', 'gender' , 'age', 'occupation', 'zip']

In [3]:
users = pd.read_table('pydata-book/datasets/movielens/users.dat', sep='::', header=None, names = unames)

  """Entry point for launching an IPython kernel.


In [4]:
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']

In [5]:
ratings = pd.read_table('pydata-book/datasets/movielens/ratings.dat', sep='::', header = None,
names=rnames)

  


In [6]:
mnames=['movie_id', 'title', 'genres']


In [7]:
movies = pd.read_table('pydata-book/datasets/movielens/movies.dat', sep='::', header=None, names=mnames)

  """Entry point for launching an IPython kernel.


## Проверить, все ли прошло удачно, можно, посмотрев на первые несколько строк каждого DataFrame с помощью встроенного в Python синтаксиса вырезания:

In [8]:
users[:5]

Unnamed: 0,user_id,gender,age,occupation,zip
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,2460
4,5,M,25,20,55455


In [9]:
ratings[:5]

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


In [10]:
movies[:5]

Unnamed: 0,movie_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [11]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000209 entries, 0 to 1000208
Data columns (total 4 columns):
user_id      1000209 non-null int64
movie_id     1000209 non-null int64
rating       1000209 non-null int64
timestamp    1000209 non-null int64
dtypes: int64(4)
memory usage: 30.5 MB


## Отметим, что возраст и род занятий кодируются целыми числами, а расшиф­ ровка приведена в прилагаемом к набору данных файлу README. Анализ данных, хранящихся в трех таблицах, - непростая задача. Пусть, например, требуется вы­ числить средние рейтинги для конкретного фильма в разрезе пола и возраста.
## Как мы увидим, это гораздо легче сделать, если предварительно объединить все данные в одну таблицу. Применяя функцию merge из библиотеки pandas, мы сна­ чала объединим ratings с users, а затем результат объединим с movies. Pandas определяем, по каким столбцам объединять (или соединять), ориентируясь на со­ впадение имен:

In [15]:
data = pd.merge(pd.merge(ratings, users), movies)

In [17]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000209 entries, 0 to 1000208
Data columns (total 10 columns):
user_id       1000209 non-null int64
movie_id      1000209 non-null int64
rating        1000209 non-null int64
timestamp     1000209 non-null int64
gender        1000209 non-null object
age           1000209 non-null int64
occupation    1000209 non-null int64
zip           1000209 non-null object
title         1000209 non-null object
genres        1000209 non-null object
dtypes: int64(6), object(4)
memory usage: 83.9+ MB


In [18]:
data.iloc[0]

user_id                                            1
movie_id                                        1193
rating                                             5
timestamp                                  978300760
gender                                             F
age                                                1
occupation                                        10
zip                                            48067
title         One Flew Over the Cuckoo's Nest (1975)
genres                                         Drama
Name: 0, dtype: object

## В таком виде агрегирование рейтингов, сгруппированных по одному или не­ скольким атрибутам пользователя или фильма, для человека, хоть немного знако­ мого с pandas, не представляет никаких трудностей. Чтобы получить средние рей­ тинги фильмов при группировке по полу, воспользуемся методом pivot_taЫe:

In [19]:
data.head()

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama


In [24]:
#                               по этому признаку  смотрю сюда        разбиваю на колонки
mean_ratings = data.pivot_table('rating',index=['title'], columns=['gender'], aggfunc='mean')

In [28]:
mean_ratings.head()


gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"$1,000,000 Duck (1971)",3.375,2.761905
'Night Mother (1986),3.388889,3.352941
'Til There Was You (1997),2.675676,2.733333
"'burbs, The (1989)",2.793478,2.962085
...And Justice for All (1979),3.828571,3.689024


## Сначала я оставлю только фильмы, полу­ чившие не менее 250 оценок (число выбрано совершенно произвольно); для это­ го сгруппирую данные по названию и с помощью метода size () получу объект Scries, содержащий размеры групп для каждого наименования:

In [29]:
ratings_by_title = data.groupby('title').size()

In [35]:
ratings_by_title[:10]

title
$1,000,000 Duck (1971)                37
'Night Mother (1986)                  70
'Til There Was You (1997)             52
'burbs, The (1989)                   303
...And Justice for All (1979)        199
1-900 (1994)                           2
10 Things I Hate About You (1999)    700
101 Dalmatians (1961)                565
101 Dalmatians (1996)                364
12 Angry Men (1957)                  616
dtype: int64

In [37]:
active_titles = ratings_by_title.index[ratings_by_title >= 250]

In [39]:
active_titles[:10]

Index([''burbs, The (1989)', '10 Things I Hate About You (1999)',
       '101 Dalmatians (1961)', '101 Dalmatians (1996)', '12 Angry Men (1957)',
       '13th Warrior, The (1999)', '2 Days in the Valley (1996)',
       '20,000 Leagues Under the Sea (1954)', '2001: A Space Odyssey (1968)',
       '2010 (1984)'],
      dtype='object', name='title')

## Затем для отбора строк из приведенного выше объекта mean_ratings воспользуемся индексом фильмов, получивших не менее 250 оценок:

In [42]:
mean_ratings = mean_ratings.loc[active_titles]

In [44]:
mean_ratings.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1216 entries, 'burbs, The (1989) to eXistenZ (1999)
Data columns (total 2 columns):
F    1216 non-null float64
M    1216 non-null float64
dtypes: float64(2)
memory usage: 28.5+ KB


## Чтобы найти фильмы, оказавшиеся на первом месте у зрителей-женщин, мы можем отсортировать результат по столбцу F в порядке убывания:

In [46]:
top_female_ratings = mean_ratings.sort_values(by= 'F', ascending=False)

In [48]:
top_female_ratings[:10]

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"Close Shave, A (1995)",4.644444,4.473795
"Wrong Trousers, The (1993)",4.588235,4.478261
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950),4.57265,4.464589
Wallace & Gromit: The Best of Aardman Animation (1996),4.563107,4.385075
Schindler's List (1993),4.562602,4.491415
"Shawshank Redemption, The (1994)",4.539075,4.560625
"Grand Day Out, A (1992)",4.537879,4.293255
To Kill a Mockingbird (1962),4.536667,4.372611
Creature Comforts (1990),4.513889,4.272277
"Usual Suspects, The (1995)",4.513317,4.518248


# Измерение несогласия в оценках

### Допустим, мы хотим найти фильмы, по которым мужчины и женщины сильнее всего разошлись в оценках. Для этого можно добавить столбец mean_ratings, со­ держащий разность средних, а затем отсортировать по нему:

In [49]:
mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']

In [51]:
mean_ratings.head()

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"'burbs, The (1989)",2.793478,2.962085,0.168607
10 Things I Hate About You (1999),3.646552,3.311966,-0.334586
101 Dalmatians (1961),3.791444,3.5,-0.291444
101 Dalmatians (1996),3.24,2.911215,-0.328785
12 Angry Men (1957),4.184397,4.328421,0.144024


## Сортировка по столбцу · di f f • дает фильмы с наибольшей разностью оценок, которые больше нравятся женщинам:

In [54]:
sorted_by_diff = mean_ratings.sort_values(by='diff')

In [56]:
sorted_by_diff.head()

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Dirty Dancing (1987),3.790378,2.959596,-0.830782
Jumpin' Jack Flash (1986),3.254717,2.578358,-0.676359
Grease (1978),3.975265,3.367041,-0.608224
Little Women (1994),3.870588,3.321739,-0.548849
Steel Magnolias (1989),3.901734,3.365957,-0.535777


## Изменив порядок строк на противоположный и снова отобрав первые 15 строк, мы получим фильмы, которым мужчины поставили высокие, а женщины - низкие оценки:

In [60]:
sorted_by_diff[::-1][:5]

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Good, The Bad and The Ugly, The (1966)",3.494949,4.2213,0.726351
"Kentucky Fried Movie, The (1977)",2.878788,3.555147,0.676359
Dumb & Dumber (1994),2.697987,3.336595,0.638608
"Longest Day, The (1962)",3.411765,4.031447,0.619682
"Cable Guy, The (1996)",2.25,2.863787,0.613787


## А теперь допустим, что нас интересуют фильмы, вызвавшие наибольшее раз­ ногласие у зрителей независимо от пола. Разногласие можно изменить с помощью дисперсии или стандартного отклонения оценок: 

In [61]:
# Стандартное отклонение оценок, сгруппированных по названию

In [62]:
rating_std_by_title = data.groupby('title')['rating'].std()

In [64]:
rating_std_by_title.head()

title
$1,000,000 Duck (1971)           1.092563
'Night Mother (1986)             1.118636
'Til There Was You (1997)        1.020159
'burbs, The (1989)               1.107760
...And Justice for All (1979)    0.878110
Name: rating, dtype: float64

In [None]:
# Оставляем только active_titles

In [66]:
rating_std_by_title = rating_std_by_title.loc[active_titles]

In [68]:
rating_std_by_title.head()

title
'burbs, The (1989)                   1.107760
10 Things I Hate About You (1999)    0.989815
101 Dalmatians (1961)                0.982103
101 Dalmatians (1996)                1.098717
12 Angry Men (1957)                  0.812731
Name: rating, dtype: float64

In [69]:
# Упорядочиваем Series по значению в порядке убывания

In [71]:
rating_std_by_title.sort_values(ascending=False)[:10]

title
Dumb & Dumber (1994)                     1.321333
Blair Witch Project, The (1999)          1.316368
Natural Born Killers (1994)              1.307198
Tank Girl (1995)                         1.277695
Rocky Horror Picture Show, The (1975)    1.260177
Eyes Wide Shut (1999)                    1.259624
Evita (1996)                             1.253631
Billy Madison (1995)                     1.249970
Fear and Loathing in Las Vegas (1998)    1.246408
Bicentennial Man (1999)                  1.245533
Name: rating, dtype: float64