In [1]:
import pandas as pd

In [2]:
ratings1 = pd.read_csv('data/ratings1.csv')
ratings2 = pd.read_csv('data/ratings2.csv')
movies = pd.read_csv('data/movies.csv')
dates = pd.read_csv('data/dates.csv')

In [3]:
ratings1_df = ratings1.copy()
ratings2_df = ratings2.copy()
movies_df = movies.copy()
dates_df = dates.copy()

In [4]:
# Сколько уникальных фильмов представлено в таблице movies?
movies_df.nunique()

movieId    9742
title      9737
genres      951
dtype: int64

In [5]:
# Сколько уникальных пользователей в таблице ratings1
ratings1_df['userId'].nunique()

274

In [6]:
# В каком году было выставлено больше всего оценок?
pd.to_datetime(dates_df['date']).dt.year.value_counts()

2000    10061
2017     8198
2007     7114
2016     6703
2015     6616
2018     6418
1996     6040
2005     5813
2012     4656
2008     4351
2009     4158
2006     4059
2003     4014
2001     3922
2002     3478
2004     3279
1999     2439
2010     2301
1997     1916
2011     1690
2013     1664
2014     1439
1998      507
Name: date, dtype: int64

In [7]:
ratings_df = pd.concat([ratings1_df, ratings2_df], ignore_index=True)

In [8]:
ratings_df

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100832,610,166534,4.0
100833,610,168248,5.0
100834,610,168250,5.0
100835,610,168252,5.0


In [9]:
ratings_df.shape[0]

100837

In [10]:
dates_df.shape[0]

100836

In [11]:
# количество записей в ratings_df и dates_df не соответствуют друг-другу? удаляю дубликаты
ratings_df.drop_duplicates(ignore_index=True, inplace=True)

In [12]:
# Теперь все ок
ratings_df.shape[0]

100836

In [13]:
# Объединяю в единую таблицу рейтинги с датами
ratings_dates_df = pd.concat([ratings_df, dates_df], axis=1)

In [14]:
ratings_dates_df['date'] = pd.to_datetime(ratings_dates_df['date'])

In [15]:
ratings_dates_df

Unnamed: 0,userId,movieId,rating,date
0,1,1,4.0,2000-07-30 18:45:03
1,1,3,4.0,2000-07-30 18:20:47
2,1,6,4.0,2000-07-30 18:37:04
3,1,47,5.0,2000-07-30 19:03:35
4,1,50,5.0,2000-07-30 18:48:51
...,...,...,...,...
100831,610,166534,4.0,2017-05-03 21:53:22
100832,610,168248,5.0,2017-05-03 22:21:31
100833,610,168250,5.0,2017-05-08 19:50:47
100834,610,168252,5.0,2017-05-03 21:19:12


In [16]:
movies_df

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [17]:
joined_false = ratings_dates_df.join(
    movies_df.set_index('movieId'),
    on='movieId',
    how='left'
)

In [18]:
joined_false

Unnamed: 0,userId,movieId,rating,date,title,genres
0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
...,...,...,...,...,...,...
100831,610,166534,4.0,2017-05-03 21:53:22,Split (2017),Drama|Horror|Thriller
100832,610,168248,5.0,2017-05-03 22:21:31,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,610,168250,5.0,2017-05-08 19:50:47,Get Out (2017),Horror
100834,610,168252,5.0,2017-05-03 21:19:12,Logan (2017),Action|Sci-Fi


In [19]:
merged = ratings_dates_df.merge(
    movies_df,
    on='movieId',
    how='left'
)

In [20]:
merged

Unnamed: 0,userId,movieId,rating,date,title,genres
0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
...,...,...,...,...,...,...
100831,610,166534,4.0,2017-05-03 21:53:22,Split (2017),Drama|Horror|Thriller
100832,610,168248,5.0,2017-05-03 22:21:31,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,610,168250,5.0,2017-05-08 19:50:47,Get Out (2017),Horror
100834,610,168252,5.0,2017-05-03 21:19:12,Logan (2017),Action|Sci-Fi


In [21]:
# Осталось только проверить, что число строк в таблице ratings_dates совпадает с числом строк в результирующей таблице merged
print('Число строк в таблице ratings_dates: ', ratings_dates_df.shape[0])
print('Число строк в таблице merged: ', merged.shape[0])
print(ratings_dates_df.shape[0] == merged.shape[0])

Число строк в таблице ratings_dates:  100836
Число строк в таблице merged:  100836
True


In [22]:
# Даны две исходные таблицы:
a = pd.DataFrame({'A': ['a', 'b', 'c'], 'B': [103, 214, 124], 'C': [1, 4, 2]})
b = pd.DataFrame({'V': ['d', 'b', 'c'], 'U': [1393.7, 9382.2, 1904.5], 'C': [1, 3, 2]})

In [23]:
a

Unnamed: 0,A,B,C
0,a,103,1
1,b,214,4
2,c,124,2


In [24]:
b

Unnamed: 0,V,U,C
0,d,1393.7,1
1,b,9382.2,3
2,c,1904.5,2


In [25]:
a.merge(b, how='right', on='C')

Unnamed: 0,A,B,C,V,U
0,a,103.0,1,d,1393.7
1,,,3,b,9382.2
2,c,124.0,2,c,1904.5


In [26]:
# Даны две таблицы: items_df, в которой содержится информация о наличии товаров на складе, 
# и purchase_df — с данными о покупках товаров

# Информация в таблицах представлена в виде следующих столбцов:

# item_id — идентификатор модели
# vendor — производитель модели
# stock_count — имеющееся на складе количество данных моделей (в штуках)
# purchase_id — идентификатор покупки
# price — стоимость модели в покупке

items_df = pd.DataFrame({
    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 100132, 312394], 
    'vendor': ['Samsung', 'LG', 'Apple', 'Apple', 'LG', 'Apple', 'Samsung', 'Samsung', 'LG', 'ZTE'],
    'stock_count': [54, 33, 122, 18, 102, 43, 77, 143, 60, 19]
})

purchase_df = pd.DataFrame({
    'purchase_id': [101, 101, 101, 112, 121, 145, 145, 145, 145, 221],
    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 103845, 100132], 
    'price': [13900, 5330, 38200, 49990, 9890, 33000, 67500, 34500, 89900, 11400]
})

In [27]:
items_df

Unnamed: 0,item_id,vendor,stock_count
0,417283,Samsung,54
1,849734,LG,33
2,132223,Apple,122
3,573943,Apple,18
4,19475,LG,102
5,3294095,Apple,43
6,382043,Samsung,77
7,302948,Samsung,143
8,100132,LG,60
9,312394,ZTE,19


In [28]:
purchase_df

Unnamed: 0,purchase_id,item_id,price
0,101,417283,13900
1,101,849734,5330
2,101,132223,38200
3,112,573943,49990
4,121,19475,9890
5,145,3294095,33000
6,145,382043,67500
7,145,302948,34500
8,145,103845,89900
9,221,100132,11400


In [38]:
# Сформируйте DataFrame merged, в котором в результате объединения purchase_df 
# и items_df останутся модели, которые учтены на складе и имели продажи.
# Из таблицы merged найдите суммарную выручку, которую можно было бы получить 
# от продажи всех товаров, которые учтены на складе и имели продажи.  INNER - пересечение надо использовать!
# Результат занесите в переменную income.
merged = items_df.merge(purchase_df, on='item_id', how='inner')

In [39]:
merged

Unnamed: 0,item_id,vendor,stock_count,purchase_id,price
0,417283,Samsung,54,101,13900
1,849734,LG,33,101,5330
2,132223,Apple,122,101,38200
3,573943,Apple,18,112,49990
4,19475,LG,102,121,9890
5,3294095,Apple,43,145,33000
6,382043,Samsung,77,145,67500
7,302948,Samsung,143,145,34500
8,100132,LG,60,221,11400


In [40]:
merged['total'] = merged['stock_count'] * merged['price']

In [41]:
volume.sum()

19729490.0