In [2]:
import pandas as pd
movies_db = pd.read_csv('data/movies.csv', sep=',')
movies = movies_db.copy()


movies['title'].nunique()

9737

In [3]:
rating1_db = pd.read_csv('data/ratings1.csv', sep=',')
rating2_db = pd.read_csv('data/ratings2.csv', sep=',')
rating1 = rating1_db.copy()
rating2 = rating2_db.copy()
rating1['userId'].nunique()

274

In [4]:
dates_db = pd.read_csv('data/dates.csv', sep=',')
dates = dates_db.copy()
dates['date'] = pd.to_datetime(dates['date'])
dates['year'] = dates['date'].dt.year
year_counts = dates['year'].value_counts()
# display(year_counts)
dates.head(5)


Unnamed: 0,date,year
0,2000-07-30 18:45:03,2000
1,2000-07-30 18:20:47,2000
2,2000-07-30 18:37:04,2000
3,2000-07-30 19:03:35,2000
4,2000-07-30 18:48:51,2000


In [5]:
ratings = pd.concat([rating1, rating2],ignore_index=True)
ratings = ratings.drop_duplicates(ignore_index=True)
display(ratings)


Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100831,610,166534,4.0
100832,610,168248,5.0
100833,610,168250,5.0
100834,610,168252,5.0


In [6]:
ratings_dates = pd.concat([ratings, dates],axis=1)
display(ratings_dates.head(5))

Unnamed: 0,userId,movieId,rating,date,year
0,1,1,4.0,2000-07-30 18:45:03,2000
1,1,3,4.0,2000-07-30 18:20:47,2000
2,1,6,4.0,2000-07-30 18:37:04,2000
3,1,47,5.0,2000-07-30 19:03:35,2000
4,1,50,5.0,2000-07-30 18:48:51,2000


In [7]:
joined = ratings_dates.join(movies.set_index('movieId'), on='movieId', how='left')
display(joined.head())

Unnamed: 0,userId,movieId,rating,date,year,title,genres
0,1,1,4.0,2000-07-30 18:45:03,2000,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,2000,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,2000-07-30 18:37:04,2000,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,2000-07-30 19:03:35,2000,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,2000-07-30 18:48:51,2000,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


In [8]:
merged = ratings_dates.merge(movies, on='movieId', how='left')
display(merged.head())

Unnamed: 0,userId,movieId,rating,date,year,title,genres
0,1,1,4.0,2000-07-30 18:45:03,2000,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,2000,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,2000-07-30 18:37:04,2000,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,2000-07-30 19:03:35,2000,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,2000-07-30 18:48:51,2000,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


Проверим, что число строк в таблице ratings_dates совпадает с числом строк в результирующей таблице merged:

In [9]:
print('Число строк в таблице ratings_dates: ', ratings_dates.shape[0])
print('Число строк в таблице merged: ', merged.shape[0])
print(ratings_dates.shape[0] == merged.shape[0])

Число строк в таблице ratings_dates:  100836
Число строк в таблице merged:  100836
True


 Метод merge() с внешним (outer) типом объединения может использоваться как аналог метода concat() при объединении таблиц с одинаковой структурой (одинаковые количество и названия столбцов) по строкам. В таком случае все одноимённые столбцы таблиц будут считаться ключевыми.
Рассмотрим пример: объединим таблицы ratings1 и ratings2, как мы уже делали раньше, но теперь используем метод merge():




In [10]:
merge_ratings = rating1.merge(rating2, how='outer')
print('Число строк в таблице merge_ratings: ', merge_ratings.shape[0])
display(merge_ratings)

Число строк в таблице merge_ratings:  100836


Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100831,610,166534,4.0
100832,610,168248,5.0
100833,610,168250,5.0
100834,610,168252,5.0


Обратите внимание, что при использовании метода merge() для склейки двух таблиц у нас автоматически пропали дубликаты, которые мы видели при использовании метода concat(). Это особенность метода merge() — автоматическое удаление дублей.

Даны две исходные таблицы:
a = pd.DataFrame({'A': ['a', 'b', 'c'], 'B': [103, 214, 124], 'C': [1, 4, 2]})
b = pd.DataFrame({'V': ['d', 'b', 'c'], 'U': [1393.7, 9382.2, 1904.5], 'C': [1, 3, 2]})
Какой из перечисленных вариантов кода позволяет получить представленный ниже результат?

In [11]:
a = pd.DataFrame({'A': ['a', 'b', 'c'], 'B': [103, 214, 124], 'C': [1, 4, 2]})
b = pd.DataFrame({'V': ['d', 'b', 'c'], 'U': [1393.7, 9382.2, 1904.5], 'C': [1, 3, 2]})
display(a)
display(b)
c = a.merge(b, how='right', on='C')
display(c)


Unnamed: 0,A,B,C
0,a,103,1
1,b,214,4
2,c,124,2


Unnamed: 0,V,U,C
0,d,1393.7,1
1,b,9382.2,3
2,c,1904.5,2


Unnamed: 0,A,B,C,V,U
0,a,103.0,1,d,1393.7
1,,,3,b,9382.2
2,c,124.0,2,c,1904.5


Информация в таблицах представлена в виде следующих столбцов:

item_id — идентификатор модели;
vendor — производитель модели;
stock_count — имеющееся на складе количество данных моделей (в штуках);
purchase_id — идентификатор покупки;
price — стоимость модели в покупке.
Вам необходимо сделать следующее:

Сформируйте DataFrame merged, так чтобы после объединения purchase_df и items_df остались модели, которые учтены на складе и имели продажи.

На основе таблицы merged найдите суммарную выручку, которую можно было бы получить от продажи всех товаров, имеющихся на складе. Результат занесите в переменную income.

In [12]:
items_df = pd.DataFrame({
            'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 100132, 312394],
            'vendor': ['Samsung', 'LG', 'Apple', 'Apple', 'LG', 'Apple', 'Samsung', 'Samsung', 'LG', 'ZTE'],
            'stock_count': [54, 33, 122, 18, 102, 43, 77, 143, 60, 19]
        })

purchase_df = pd.DataFrame({
            'purchase_id': [101, 101, 101, 112, 121, 145, 145, 145, 145, 221],
            'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 103845, 100132],
            'price': [13900, 5330, 38200, 49990, 9890, 33000, 67500, 34500, 89900, 11400]
        })
display(items_df)
display(purchase_df)

Unnamed: 0,item_id,vendor,stock_count
0,417283,Samsung,54
1,849734,LG,33
2,132223,Apple,122
3,573943,Apple,18
4,19475,LG,102
5,3294095,Apple,43
6,382043,Samsung,77
7,302948,Samsung,143
8,100132,LG,60
9,312394,ZTE,19


Unnamed: 0,purchase_id,item_id,price
0,101,417283,13900
1,101,849734,5330
2,101,132223,38200
3,112,573943,49990
4,121,19475,9890
5,145,3294095,33000
6,145,382043,67500
7,145,302948,34500
8,145,103845,89900
9,221,100132,11400


In [13]:
merged= purchase_df.merge(items_df,on='item_id', how='inner')
display(merged)
income = (merged['price'] * merged['stock_count']).sum()
print(income)

Unnamed: 0,purchase_id,item_id,price,vendor,stock_count
0,101,417283,13900,Samsung,54
1,101,849734,5330,LG,33
2,101,132223,38200,Apple,122
3,112,573943,49990,Apple,18
4,121,19475,9890,LG,102
5,145,3294095,33000,Apple,43
6,145,382043,67500,Samsung,77
7,145,302948,34500,Samsung,143
8,221,100132,11400,LG,60


19729490


Для решения задач нам понадобится выделить из признака title год выпуска фильма. Для этого напишем функцию get_year_release(arg).

#библиотека для регулярных выражений
import re 
def get_year_release(arg):
    #находим все слова по шаблону "(DDDD)"
    candidates = re.findall(r'\(\d{4}\)', arg) 
    # проверяем число вхождений
    if len(candidates) > 0:
        #если число вхождений больше 0,
	#очищаем строку от знаков "(" и ")"
        year = candidates[0].replace('(', '')
        year = year.replace(')', '')
        return int(year)
    else:
        #если год не указан, возвращаем None
        return None

In [14]:
rating_movies_db = pd.read_csv('data/ratings_movies.csv', sep=',')

display(rating_movies_db)

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres
0,0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance
2,2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller
3,3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
...,...,...,...,...,...,...,...
100831,100831,610,166534,4.0,2017-05-03 21:53:22,Split (2017),Drama|Horror|Thriller
100832,100832,610,168248,5.0,2017-05-03 22:21:31,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,100833,610,168250,5.0,2017-05-08 19:50:47,Get Out (2017),Horror
100834,100834,610,168252,5.0,2017-05-03 21:19:12,Logan (2017),Action|Sci-Fi


In [15]:
import re
def get_year_release(arg):
    #находим все слова по шаблону "(DDDD)"
    candidates = re.findall(r'\(\d{4}\)', arg) 
    # проверяем число вхождений
    if len(candidates) > 0:
        #если число вхождений больше 0,
	#очищаем строку от знаков "(" и ")"
        year = candidates[0].replace('(', '')
        year = year.replace(')', '')
        return int(year)
    else:
        #если год не указан, возвращаем None
        return None
rating_movies_db['year_release'] = rating_movies_db['title'].apply(get_year_release)
missed =rating_movies_db['year_release'].isna().sum()
display(missed)

18

Какой фильм, выпущенный в 1999 году, получил наименьшую среднюю оценку зрителей?
В качестве ответа запишите название этого фильма без указания года его выпуска.

In [16]:
mask = rating_movies_db['year_release'] == 1999
filtered_films = rating_movies_db[mask]
display(filtered_films)

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres,year_release
162,162,1,2502,5.0,2000-07-30 18:21:18,Office Space (1999),Comedy|Crime,1999.0
166,166,1,2571,5.0,2000-07-30 18:31:28,"Matrix, The (1999)",Action|Sci-Fi|Thriller,1999.0
167,167,1,2580,5.0,2000-07-30 18:50:00,Go (1999),Comedy|Crime,1999.0
170,170,1,2617,2.0,2000-07-30 18:43:08,"Mummy, The (1999)",Action|Adventure|Comedy|Fantasy|Horror|Thriller,1999.0
171,171,1,2628,4.0,2000-07-30 18:08:43,Star Wars: Episode I - The Phantom Menace (1999),Action|Adventure|Sci-Fi,1999.0
...,...,...,...,...,...,...,...,...
100090,100090,610,27317,4.0,2016-11-19 08:48:51,Audition (Ôdishon) (1999),Drama|Horror|Mystery|Romance|Thriller,1999.0
100169,100169,610,41712,4.0,2016-11-19 08:53:53,"Room for Romeo Brass, A (1999)",Comedy|Drama,1999.0
100677,100677,610,110281,4.0,2016-11-19 08:00:36,King of Comedy (Hei kek ji wong) (1999),Comedy|Drama|Romance,1999.0
100797,100797,610,145951,0.5,2017-05-03 22:03:39,Bloodsport: The Dark Kumite (1999),Action|Thriller,1999.0


In [17]:
min_id = filtered_films.groupby('movieId')['rating'].mean().idxmin()
display(filtered_films.groupby('movieId')['rating'].mean())
result = filtered_films[filtered_films['movieId'] == min_id]
display(result)

movieId
2436      4.250000
2445      2.687500
2446      2.000000
2447      3.266667
2448      2.666667
            ...   
145745    2.500000
145951    0.500000
147936    4.500000
158721    3.500000
170355    3.750000
Name: rating, Length: 261, dtype: float64

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres,year_release
100797,100797,610,145951,0.5,2017-05-03 22:03:39,Bloodsport: The Dark Kumite (1999),Action|Thriller,1999.0


Какое сочетание жанров фильмов (genres), выпущенных в 2010 году, получило наименьшую среднюю оценку (rating)?
Запишите сочетание так же, как оно указано в таблице (через разделитель |, без пробелов).

In [18]:
filtered_2010 = rating_movies_db[rating_movies_db['year_release']==2010]
display(filtered_2010)
id_min = filtered_2010.groupby('genres')['rating'].mean().idxmin()
display(id_min)


Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres,year_release
244,244,2,74458,4.0,2015-10-24 19:28:46,Shutter Island (2010),Drama|Mystery|Thriller,2010.0
245,245,2,77455,3.0,2015-10-24 19:29:01,Exit Through the Gift Shop (2010),Comedy|Documentary,2010.0
246,246,2,79132,4.0,2015-10-24 19:27:21,Inception (2010),Action|Crime|Drama|Mystery|Sci-Fi|Thriller|IMAX,2010.0
247,247,2,80489,4.5,2015-10-24 19:35:40,"Town, The (2010)",Crime|Drama|Thriller,2010.0
248,248,2,80906,5.0,2015-10-24 19:32:52,Inside Job (2010),Documentary,2010.0
...,...,...,...,...,...,...,...,...
100521,100521,610,89028,3.5,2017-05-03 21:56:46,Don't Be Afraid of the Dark (2010),Horror|Thriller,2010.0
100522,100522,610,89072,4.0,2017-05-03 21:55:45,Stake Land (2010),Horror,2010.0
100524,100524,610,89281,3.5,2017-05-03 22:02:14,Birdemic: Shock and Terror (2010),Romance|Thriller,2010.0
100525,100525,610,89582,4.5,2016-11-19 08:50:03,Cold Fish (Tsumetai nettaigyo) (2010),Drama|Thriller,2010.0


'Action|Sci-Fi'

Какой пользователь (userId) посмотрел наибольшее количество различных (уникальных) комбинаций жанров (genres) фильмов? 
В качестве ответа запишите идентификатор этого пользователя.

In [19]:
display(rating_movies_db.groupby('userId')['genres'].agg(
    		['nunique', set]
).sort_values(by='nunique'))





Unnamed: 0_level_0,nunique,set
userId,Unnamed: 1_level_1,Unnamed: 2_level_1
214,13,"{Drama, Action|Adventure|Mystery|Thriller, Com..."
85,13,"{Drama, Comedy, Drama|Thriller, Drama|War, Com..."
245,13,"{Crime|Drama, Drama, Comedy, Drama|Thriller, C..."
494,15,"{Crime|Drama, Action|Adventure|Sci-Fi, Action|..."
578,15,"{Comedy|Drama|Romance, Drama|Fantasy|Horror|Ro..."
...,...,...
474,395,"{Film-Noir|Mystery|Thriller, Adventure|Animati..."
380,399,{Adventure|Animation|Children|Comedy|Fantasy|R...
448,403,"{Action|Crime|Mystery, Action|Adventure|Thrill..."
414,482,"{Comedy|Crime|Drama|Mystery|Thriller, Adventur..."


Найдите пользователя, который выставил наименьшее количество оценок, но его средняя оценка фильмам наибольшая.
В качестве ответа укажите идентификатор этого пользователя.
Чтобы рассчитать несколько параметров для каждого пользователя (количество оценок и среднюю оценку), можно воспользоваться методом agg() на сгруппированных данных.

In [20]:
display(rating_movies_db.groupby('userId')['rating'].agg([
  'count', 'mean'
]).sort_values(by=['count','mean'], ascending=[True,False]))

Unnamed: 0_level_0,count,mean
userId,Unnamed: 1_level_1,Unnamed: 2_level_1
53,20,5.000000
595,20,4.200000
189,20,4.100000
569,20,4.000000
278,20,3.875000
...,...,...
274,1346,3.235884
448,1864,2.847371
474,2108,3.398956
599,2478,2.642050


Найдите сочетание жанров (genres) за 2018 год, которое имеет наибольший средний рейтинг (среднее по столбцу rating), и при этом число выставленных ему оценок (количество значений в столбце rating) больше 10.
Запишите сочетание так же, как оно указано в таблице (через разделитель |, без пробелов).


In [21]:
filtered_2018 = rating_movies_db[rating_movies_db['year_release']==2018]
display(filtered_2018)

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres,year_release
4031,4031,25,122912,5.0,2018-08-28 15:34:21,Avengers: Infinity War - Part I (2018),Action|Adventure|Sci-Fi,2018.0
4036,4036,25,187541,4.0,2018-08-28 15:34:32,Incredibles 2 (2018),Action|Adventure|Animation|Children,2018.0
4037,4037,25,187593,5.0,2018-08-28 15:35:34,Deadpool 2 (2018),Action|Comedy|Sci-Fi,2018.0
7420,7420,50,188301,3.0,2018-08-03 13:17:57,Ant-Man and the Wasp (2018),Action|Adventure|Comedy|Fantasy|Sci-Fi,2018.0
7421,7421,50,190183,3.5,2018-08-03 13:13:41,The Darkest Minds (2018),Sci-Fi|Thriller,2018.0
...,...,...,...,...,...,...,...,...
90255,90255,586,187595,5.0,2018-06-25 04:05:56,Solo: A Star Wars Story (2018),Action|Adventure|Children|Sci-Fi,2018.0
92108,92108,596,122912,4.0,2018-08-30 11:06:55,Avengers: Infinity War - Part I (2018),Action|Adventure|Sci-Fi,2018.0
92156,92156,596,183635,3.5,2018-08-31 09:59:53,Maze Runner: The Death Cure (2018),Action|Mystery|Sci-Fi|Thriller,2018.0
92157,92157,596,184997,4.0,2018-09-01 19:03:49,"Love, Simon (2018)",Comedy|Drama,2018.0


теперб группируем по жанру и смотрим макс сред рейтинг

In [22]:
display(filtered_2018.groupby('genres')['rating'].agg(['count','mean']).sort_values(by=['mean','count'], ascending=[False,True]))

Unnamed: 0_level_0,count,mean
genres,Unnamed: 1_level_1,Unnamed: 2_level_1
Adventure|Comedy|Fantasy,1,4.5
Adventure|Thriller,1,4.5
Comedy|Fantasy|Sci-Fi,1,4.5
Comedy|Romance,1,4.5
Action|Comedy|Crime|Horror,1,4.0
Action|Crime|Drama|Thriller,1,4.0
Documentary,2,4.0
Action|Adventure|Sci-Fi,14,3.928571
Action|Adventure|Children|Sci-Fi,5,3.9
Action|Comedy|Sci-Fi,12,3.875


Добавьте в таблицу новый признак year_rating — год выставления оценки.
 Создайте сводную таблицу, которая иллюстрирует зависимость среднего рейтинга фильма от года выставления оценки и жанра. 
 Выберите верные варианты ответа, исходя из построенной таблицы:

In [42]:
# display(rating_movies_db)
# rating_movies_db['year_rating'] = rating_movies_db['date'].dt.year
year_rating = pd.to_datetime(rating_movies_db['date']).dt.year
rating_movies_db['year_rating'] = year_rating
display(rating_movies_db)

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres,year_release,year_rating
0,0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1995.0,2000
1,1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance,1995.0,2000
2,2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller,1995.0,2000
3,3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller,1995.0,2000
4,4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller,1995.0,2000
...,...,...,...,...,...,...,...,...,...
100831,100831,610,166534,4.0,2017-05-03 21:53:22,Split (2017),Drama|Horror|Thriller,2017.0,2017
100832,100832,610,168248,5.0,2017-05-03 22:21:31,John Wick: Chapter Two (2017),Action|Crime|Thriller,2017.0,2017
100833,100833,610,168250,5.0,2017-05-08 19:50:47,Get Out (2017),Horror,2017.0,2017
100834,100834,610,168252,5.0,2017-05-03 21:19:12,Logan (2017),Action|Sci-Fi,2017.0,2017


In [54]:
pvt = rating_movies_db.pivot_table(
  values='rating',
  index='year_rating',
  columns='genres',fill_value=0,aggfunc='mean'
).round(1)
display(pvt)

# display(pvt['Action|Adventure|Animation|Children|Comedy|IMAX'])
display(pvt['Comedy'])

genres,(no genres listed),Action,Action|Adventure,Action|Adventure|Animation,Action|Adventure|Animation|Children,Action|Adventure|Animation|Children|Comedy,Action|Adventure|Animation|Children|Comedy|Fantasy,Action|Adventure|Animation|Children|Comedy|IMAX,Action|Adventure|Animation|Children|Comedy|Romance,Action|Adventure|Animation|Children|Comedy|Sci-Fi,...,Romance|Thriller,Romance|War,Romance|Western,Sci-Fi,Sci-Fi|IMAX,Sci-Fi|Thriller,Sci-Fi|Thriller|IMAX,Thriller,War,Western
year_rating,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1996,0.0,2.7,3.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,2.7,0.0,3.8,0.0,3.1
1997,0.0,3.5,4.2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,3.4,0.0,3.9,0.0,3.0
1998,0.0,0.0,4.2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.8,0.0,0.0
1999,0.0,0.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,2.0,0.0,0.0,0.0,0.0,4.0,0.0,3.7,4.5,4.0
2000,0.0,2.6,3.7,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,4.0,0.0,3.0,3.4,0.0,2.1,0.0,3.1,3.0,4.1
2001,0.0,3.0,3.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,3.0,2.5,0.0,2.5,0.0,3.5,3.0,3.1
2002,0.0,2.8,4.3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,3.0,0.0,0.0,3.8,0.0,3.6,0.0,3.6,3.5,3.0
2003,0.0,3.8,3.3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,3.4,2.5,0.0,2.3,0.0,3.1,0.0,3.2,3.0,4.0
2004,0.0,2.7,4.1,0.0,0.0,4.0,0.0,0.0,0.0,0.0,...,3.0,3.0,3.5,2.1,0.0,0.0,0.0,3.5,3.0,3.8
2005,0.0,3.4,3.4,0.0,0.0,4.1,0.0,0.0,0.0,0.0,...,2.0,0.0,0.0,3.0,0.0,2.8,0.0,3.4,0.0,4.5


year_rating
1996    3.2
1997    3.4
1998    3.0
1999    3.6
2000    3.1
2001    3.3
2002    3.2
2003    3.1
2004    3.4
2005    3.0
2006    3.3
2007    2.9
2008    3.4
2009    3.3
2010    3.2
2011    3.2
2012    3.5
2013    3.5
2014    3.3
2015    3.1
2016    3.4
2017    2.9
2018    3.1
Name: Comedy, dtype: float64

✍ А теперь поговорим о заказах в интернет-магазине.

Дано два файла:

orders.csv, содержащий данные о заказах;
products.csv, содержащий данные о товарах.

In [63]:
orders = pd.read_csv('data/orders.csv', sep=';')
products = pd.read_csv('data/products.csv', sep=';')
display(orders)
display(products)


Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3


Unnamed: 0,Product_ID,Name,Price,CURRENCY
0,47,Шатны Полосатый рейс,2999,RUR
1,51,Платье Аленький цветочек,4999,RUR
2,53,Штаны Цветочная Поляна,4999,RUR
3,71,Платье Ночная Жизнь,7999,RUR
4,74,Платье Ночная Жизнь XXXL,8999,RUR
5,86,"Носки Простые, муж",45,RUR
6,91,"Носки Честные, муж",50,RUR
7,103,"Носки Подарочные, муж",199,RUR
8,104,"Носки Подарочные, жен",249,RUR
9,124,Носки беговые Camino,999,RUR


Объедините заданные таблицы в таблицу orders_products, чтобы в результирующей таблице оказалась информация обо всех заказах,
но не оказалось информации о продуктах, на которых заказов ещё не поступало. 

In [65]:
orders_products = pd.merge(orders, products, how='left', left_on='ID товара', right_on='Product_ID')
display(orders_products)

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество,Product_ID,Name,Price,CURRENCY
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103.0,"Носки Подарочные, муж",199.0,RUR
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100,86.0,"Носки Простые, муж",45.0,RUR
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10,104.0,"Носки Подарочные, жен",249.0,RUR
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7,104.0,"Носки Подарочные, жен",249.0,RUR
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5,104.0,"Носки Подарочные, жен",249.0,RUR
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103.0,"Носки Подарочные, муж",199.0,RUR
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1,124.0,Носки беговые Camino,999.0,RUR
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1,91.0,"Носки Честные, муж",50.0,RUR
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3,103.0,"Носки Подарочные, муж",199.0,RUR
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3,104.0,"Носки Подарочные, жен",249.0,RUR


добавим колонку с выручкой

In [71]:
orders_products['value'] = orders_products['Количество'] * orders_products['Price'] 
orders_products.loc[orders_products['Отменен'] == 'Да'] = 0
display(orders_products)

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество,Product_ID,Name,Price,CURRENCY,value
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103.0,"Носки Подарочные, муж",199.0,RUR,995.0
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100,86.0,"Носки Простые, муж",45.0,RUR,4500.0
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10,104.0,"Носки Подарочные, жен",249.0,RUR,2490.0
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7,104.0,"Носки Подарочные, жен",249.0,RUR,1743.0
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5,104.0,"Носки Подарочные, жен",249.0,RUR,1245.0
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103.0,"Носки Подарочные, муж",199.0,RUR,995.0
6,0,0,0,0,0,0,0,0,0,0.0,0,0.0,0,0.0
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1,91.0,"Носки Честные, муж",50.0,RUR,50.0
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3,103.0,"Носки Подарочные, муж",199.0,RUR,597.0
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3,104.0,"Носки Подарочные, жен",249.0,RUR,747.0


Какой покупатель принёс наибольшую суммарную прибыль интернет-магазину за указанный период?
В ответ запишите идентификатор этого покупателя (ID Покупателя).
Прибыль состоит только из оплаченных заказов и рассчитывается как количество купленного товара, умноженное на его цену.

In [74]:
orders_products.groupby('ID Покупателя')['value'].sum().idxmax()

7