
**ratings1** и **ratings2** — таблицы с данными о выставленных пользователями оценках фильмов. Они имеют одинаковую структуру и типы данных — на самом деле это две части одной таблицы с оценками фильмов.
- userId — уникальный идентификатор пользователя, который выставил оценку;
- movieId — уникальный идентификатор фильма;
- rating — рейтинг фильма.

**dates** — таблица с датами выставления всех оценок.
- date — дата и время выставления оценки фильму.

**movies** — таблица с информацией о фильмах.
- movieId — уникальный идентификатор фильма;
- title — название фильма и год его выхода;
- genres — жанры фильма.



In [1]:
import pandas as pd 
dates = pd.read_csv('data/dates.csv')
ratings1 = pd.read_csv('data/ratings1.csv')
ratings2 = pd.read_csv('data/ratings2.csv')
movies = pd.read_csv('data/movies.csv')


### Объединение DataFrame: concat

Основные параметры функции concat()


- objs — список объектов DataFrame ([df1, df2,…]), которые должны быть сконкатенированы;

- axis — ось определяет направление конкатенации: 0 — конкатенация по строкам (по умолчанию), 1 — конкатенация по столбцам;

- join — либо inner (пересечение), либо outer (объединение); рассмотрим этот момент немного позже;

- ignore_index — по умолчанию установлено значение False, которое позволяет значениям индекса оставаться такими, какими они были в исходных данных. Если установлено значение 
- True, параметр будет игнорировать исходные значения и повторно назначать значения индекса в последовательном порядке.

In [2]:
ratings =pd.concat(
    [ratings1,ratings2],
    ignore_index=True
)
ratings


Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100832,610,166534,4.0
100833,610,168248,5.0
100834,610,168250,5.0
100835,610,168252,5.0


In [3]:
ratings1['userId'].nunique()

274

In [4]:
dates

Unnamed: 0,date
0,2000-07-30 18:45:03
1,2000-07-30 18:20:47
2,2000-07-30 18:37:04
3,2000-07-30 19:03:35
4,2000-07-30 18:48:51
...,...
100831,2017-05-03 21:53:22
100832,2017-05-03 22:21:31
100833,2017-05-08 19:50:47
100834,2017-05-03 21:19:12


In [5]:
dates['date'] = pd.to_datetime(dates['date'])
dates['date'].dt.year.value_counts().index[0]


2000

In [6]:
display(ratings.shape[0])
display(dates.shape[0])

100837

100836

In [7]:
display(ratings1.tail(1))
display(ratings2.head(1))

Unnamed: 0,userId,movieId,rating
40000,274,5621,2.0


Unnamed: 0,userId,movieId,rating
0,274,5621,2.0


Чтобы очистить таблицу от дублей, мы можем воспользоваться методом DataFrame drop_duplicates(), который удаляет повторяющиеся строки в таблице. Не забываем обновить индексы после удаления дублей, выставив параметр ignore_index в методе drop_duplicates() на значение True:

In [8]:
ratings = ratings.drop_duplicates(ignore_index=True)
ratings.shape[0]
ratings_dates = pd.concat([ratings,dates],axis=1)
ratings_dates.tail(7)

Unnamed: 0,userId,movieId,rating,date
100829,610,164179,5.0,2017-05-03 21:07:11
100830,610,166528,4.0,2017-05-04 06:29:25
100831,610,166534,4.0,2017-05-03 21:53:22
100832,610,168248,5.0,2017-05-03 22:21:31
100833,610,168250,5.0,2017-05-08 19:50:47
100834,610,168252,5.0,2017-05-03 21:19:12
100835,610,170875,3.0,2017-05-03 21:20:15


In [9]:
import pandas as pd
import os
def concat_user_files(path):
    data = pd.DataFrame()
    list_names = os.listdir(path)
    list_names.sort()
    for i in list_names:
        date = pd.read_csv(path + '/' + i)
        data = pd.concat([data,date],axis=0,ignore_index=True)
    data = data.drop_duplicates()
    return data

Основные параметры метода join()


- other — таблица, которую мы присоединяем. При объединении она является «правой», а исходная таблица, от имени которой вызывается метод, является «левой».

- how — параметр типа объединения. Он может принимать значения 'inner', 'left' (left outer), 'right' (right outer), и 'outer' (full outer). По умолчанию параметр установлен на 'left'.

- on — параметр, который определяет, по какому столбцу в «левой» таблице происходит объединение по индексам из «правой».

- lsuffix и rsuffix — дополнения (суффиксы) к названиям одноимённых столбцов в «левой» и «правой» таблицах.

In [10]:
joined_false = ratings_dates.join(
    movies.set_index('movieId'),
    how='left',
    on='movieId'
)
display(joined_false)

Unnamed: 0,userId,movieId,rating,date,title,genres
0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
...,...,...,...,...,...,...
100831,610,166534,4.0,2017-05-03 21:53:22,Split (2017),Drama|Horror|Thriller
100832,610,168248,5.0,2017-05-03 22:21:31,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,610,168250,5.0,2017-05-08 19:50:47,Get Out (2017),Horror
100834,610,168252,5.0,2017-05-03 21:19:12,Logan (2017),Action|Sci-Fi


МЕТОД ОБЪЕДИНЕНИЯ MERGE

Аналогично предыдущему, метод merge() предназначен для слияния двух таблиц по ключевым столбцам или по индексам. Однако, в отличие от join(), метод merge() предлагает более гибкий способ управления объединением, благодаря чему является более популярным.

Основные параметры метода merge()


- right — присоединяемая таблица. По умолчанию она является «правой».

- how — параметр типа объединения. По умолчанию принимает значение 'inner'.

- on — параметр, который определяет, по какому столбцу происходит объединение. Определяется автоматически, но рекомендуется указывать вручную.

- left_on — если названия столбцов в «левой» и «правой» таблицах не совпадают, то данный параметр отвечает за наименования ключевого столбца исходной таблицы.

- right_on — аналогично предыдущему, параметр отвечает за наименование ключевого столбца присоединяемой таблицы.

In [11]:
merged = ratings_dates.merge(
    movies,
    how='left',
)
display(merged.info())
display(movies.shape[0])

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100836 entries, 0 to 100835
Data columns (total 6 columns):
 #   Column   Non-Null Count   Dtype         
---  ------   --------------   -----         
 0   userId   100836 non-null  int64         
 1   movieId  100836 non-null  int64         
 2   rating   100836 non-null  float64       
 3   date     100836 non-null  datetime64[ns]
 4   title    100836 non-null  object        
 5   genres   100836 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 5.4+ MB


None

9742

In [12]:
merge_ratings = ratings1.merge(ratings2,how='outer')
merge_ratings

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100831,610,166534,4.0
100832,610,168248,5.0
100833,610,168250,5.0
100834,610,168252,5.0


In [13]:
items_df = pd.DataFrame({
    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 100132, 312394], 
    'vendor': ['Samsung', 'LG', 'Apple', 'Apple', 'LG', 'Apple', 'Samsung', 'Samsung', 'LG', 'ZTE'],
    'stock_count': [54, 33, 122, 18, 102, 43, 77, 143, 60, 19]
})
purchase_df = pd.DataFrame({
    'purchase_id': [101, 101, 101, 112, 121, 145, 145, 145, 145, 221],
    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 103845, 100132], 
    'price': [13900, 5330, 38200, 49990, 9890, 33000, 67500, 34500, 89900, 11400]
})

Информация в таблицах представлена в виде следующих столбцов:


- item_id — идентификатор модели;

- vendor — производитель модели;

- stock_count — имеющееся на складе количество данных моделей (в штуках);

- purchase_id — идентификатор покупки;

- price — стоимость модели в покупке.

Сформируйте DataFrame merged, в котором в результате объединения purchase_df и items_df останутся модели, которые учтены на складе и имели продажи.
Из таблицы merged найдите суммарную выручку, которую можно было бы получить от продажи всех товаров, которые учтены на складе и имели продажи. Результат занесите в переменную income.

In [14]:
merged1 = items_df.merge(purchase_df,how='inner')
income = merged1['stock_count'] * merged1['price']
income = income.sum()

In [15]:
import re 
def get_year_release(arg):
    #находим все слова по шаблону "(DDDD)"
    candidates = re.findall(r'\(\d{4}\)', arg) 
    # проверяем число вхождений
    if len(candidates) > 0:
        #если число вхождений больше 0,
	#очищаем строку от знаков "(" и ")"
        year = candidates[0].replace('(', '')
        year = year.replace(')', '')
        return int(year)
    else:
        #если год не указан, возвращаем None
        return None
merged['year_release'] = merged['title'].apply(get_year_release)
merged['year_release'].info()
merged['year_release']

<class 'pandas.core.series.Series'>
Int64Index: 100836 entries, 0 to 100835
Series name: year_release
Non-Null Count   Dtype  
--------------   -----  
100818 non-null  float64
dtypes: float64(1)
memory usage: 1.5 MB


0         1995.0
1         1995.0
2         1995.0
3         1995.0
4         1995.0
           ...  
100831    2017.0
100832    2017.0
100833    2017.0
100834    2017.0
100835    2017.0
Name: year_release, Length: 100836, dtype: float64

Какой фильм, выпущенный в 1999 году, получил наименьшую среднюю оценку зрителей?

In [16]:
merged

Unnamed: 0,userId,movieId,rating,date,title,genres,year_release
0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1995.0
1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance,1995.0
2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller,1995.0
3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller,1995.0
4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller,1995.0
...,...,...,...,...,...,...,...
100831,610,166534,4.0,2017-05-03 21:53:22,Split (2017),Drama|Horror|Thriller,2017.0
100832,610,168248,5.0,2017-05-03 22:21:31,John Wick: Chapter Two (2017),Action|Crime|Thriller,2017.0
100833,610,168250,5.0,2017-05-08 19:50:47,Get Out (2017),Horror,2017.0
100834,610,168252,5.0,2017-05-03 21:19:12,Logan (2017),Action|Sci-Fi,2017.0


In [17]:
merged[merged['year_release'] == 1999].groupby('title',as_index=False)['rating'].mean().sort_values('rating',ignore_index=True)


Unnamed: 0,title,rating
0,Bloodsport: The Dark Kumite (1999),0.5
1,Simon Sez (1999),1.0
2,Chill Factor (1999),1.0
3,"Source, The (1999)",1.0
4,Trippin' (1999),1.0
...,...,...
256,Trailer Park Boys (1999),5.0
257,Larry David: Curb Your Enthusiasm (1999),5.0
258,Sun Alley (Sonnenallee) (1999),5.0
259,George Carlin: You Are All Diseased (1999),5.0


Какое сочетание жанров фильмов (genres), выпущенных в 2010 году, получило наименьшую среднюю оценку (rating)?

In [18]:
merged[merged['year_release'] == 2010].groupby('genres',as_index=False)['rating'].mean().sort_values('rating',ignore_index=True)

Unnamed: 0,genres,rating
0,Action|Sci-Fi,1.000000
1,Action|Adventure|Horror,1.500000
2,Action|Drama|Fantasy,1.500000
3,Crime|Romance,1.500000
4,Adventure|Comedy|Fantasy,1.833333
...,...,...
114,Crime,4.750000
115,Comedy|Musical,5.000000
116,Animation|Drama|Fantasy|Mystery,5.000000
117,Adventure|Children|Comedy|Mystery,5.000000


Какой пользователь (userId) посмотрел наибольшее количество различных (уникальных) комбинаций жанров (genres) фильмов? В качестве ответа запишите идентификатор этого пользователя.

In [19]:
merged.groupby('userId',as_index=False)['genres'].nunique().sort_values('genres',ascending=False,ignore_index=True)

Unnamed: 0,userId,genres
0,599,524
1,414,482
2,448,403
3,380,399
4,474,395
...,...,...
605,578,15
606,12,15
607,85,13
608,214,13


Найдите пользователя, который выставил наименьшее количество оценок, но его средняя оценка фильмам наибольшая.

In [20]:
merged.groupby('userId')['rating'].agg(['count','mean']).sort_values(['count','mean'],ascending=[True,False]).index[0]

53

Найдите сочетание жанров (genres) за 2018 году, которое имеет наибольший средний рейтинг (среднее по столбцу rating), и при этом число выставленных ему оценок (количество значений в столбце rating) больше 10.

In [21]:
df = merged[merged['year_release'] == 2018].groupby('genres',as_index=False)['rating'].agg(['mean','count'])#.sort_values('rating',ignore_index=True)
df[df['count'] > 10].sort_values('mean',ascending=False).index[0]

'Action|Adventure|Sci-Fi'

Добавьте в таблицу новый признак year_rating — год выставления оценки. Создайте сводную таблицу, которая иллюстрирует зависимость среднего рейтинга фильма от года выставления оценки и жанра. Выберите верные варианты ответа, исходя из построенной таблицы:

In [22]:
merged['year_rating'] = merged['date'].dt.year
pivot_df = merged.pivot_table(
    index= 'year_rating',
    columns= 'genres',
    values= 'rating',
    aggfunc='mean'
)
pivot_df['Comedy']

year_rating
1996    3.228571
1997    3.409091
1998    3.000000
1999    3.606061
2000    3.141291
2001    3.318408
2002    3.198556
2003    3.120066
2004    3.356877
2005    2.963325
2006    3.347534
2007    2.928187
2008    3.426667
2009    3.273292
2010    3.179825
2011    3.232877
2012    3.478477
2013    3.489474
2014    3.271429
2015    3.106183
2016    3.373431
2017    2.852668
2018    3.121296
Name: Comedy, dtype: float64

In [31]:
orders = pd.read_csv('data/orders.csv',sep=';')
products = pd.read_csv('data/products.csv',sep=';')
products['ID товара'] = products['Product_ID']
products.pop('Product_ID')
display(orders)
display(products)

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3


Unnamed: 0,Name,Price,CURRENCY,ID товара
0,Шатны Полосатый рейс,2999,RUR,47
1,Платье Аленький цветочек,4999,RUR,51
2,Штаны Цветочная Поляна,4999,RUR,53
3,Платье Ночная Жизнь,7999,RUR,71
4,Платье Ночная Жизнь XXXL,8999,RUR,74
5,"Носки Простые, муж",45,RUR,86
6,"Носки Честные, муж",50,RUR,91
7,"Носки Подарочные, муж",199,RUR,103
8,"Носки Подарочные, жен",249,RUR,104
9,Носки беговые Camino,999,RUR,124


In [40]:
orders_products = orders.merge(products,how='left',on='ID товара')
orders_products[orders_products['Статус'] == 'Отменён']['Name']

6    Носки беговые Camino
Name: Name, dtype: object

In [45]:
orders_products.groupby('ID Покупателя')['Price'].mean().sort_values(ascending=False).index[0]

7

In [46]:
orders_products

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество,Name,Price,CURRENCY
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,"Носки Подарочные, муж",199.0,RUR
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100,"Носки Простые, муж",45.0,RUR
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10,"Носки Подарочные, жен",249.0,RUR
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7,"Носки Подарочные, жен",249.0,RUR
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5,"Носки Подарочные, жен",249.0,RUR
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,"Носки Подарочные, муж",199.0,RUR
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1,Носки беговые Camino,999.0,RUR
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1,"Носки Честные, муж",50.0,RUR
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3,"Носки Подарочные, муж",199.0,RUR
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3,"Носки Подарочные, жен",249.0,RUR
