# Объединение таблиц

In [1]:
import pandas as pd

In [2]:
ratings = pd.read_csv('ratings.csv')
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [3]:
movies = pd.read_csv("movies.csv")
movies.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


## Сколько строк в файле рейтингов, не считая строки заголовка (подсказка: количество непустых значений соответствует количеству строк)? 

In [4]:
len(ratings)

100836

## Какое количество жанров имеют фильмы в датасете movies?

Каждый фильм может относиться как к одному, так и к нескольким жанрам

## В каком столбце датасета модуля можно найти год производства фильма?

Файл movies.csv, столбец title 

## Какое минимальное значение принимает выставленная оценка в датасете ratings?

In [5]:
min_rating = ratings["rating"].min()
min_rating

0.5

## Какое максимальное значение принимает выставленная оценка в датасете ratings?

In [6]:
max_rating = ratings["rating"].max()
max_rating

5.0

# 5. Структура и требования

## При каких условиях использование внешнего словаря приводит к экономии места на диске, если учесть, что создание еще одной таблицы — это расходование места?

- если числовые идентификаторы занимают меньше места, чем их строковые аналоги
- если заменяемые на идентификаторы значения повторяются в столбце
- если получающийся словарь для расшифровки идентификаторов значительно меньше исходной таблицы 

# 6. Информация про данные

# Значения какого столбца из таблицы ratings можно расшифровать с помощью таблицы movies?

movieId

# Сколько фильмов в таблице movies

In [7]:
ids = movies["movieId"]
ids.count()

9742

# 7. Информация про данные

In [8]:
joined = ratings.merge(movies, on="movieId", how="left")
joined.head(10)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,964981247,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,964982224,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,964983815,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,964982931,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
5,1,70,3.0,964982400,From Dusk Till Dawn (1996),Action|Comedy|Horror|Thriller
6,1,101,5.0,964980868,Bottle Rocket (1996),Adventure|Comedy|Crime|Romance
7,1,110,4.0,964982176,Braveheart (1995),Action|Drama|War
8,1,151,5.0,964984041,Rob Roy (1995),Action|Drama|Romance|War
9,1,157,5.0,964984100,Canadian Bacon (1995),Comedy|War


In [9]:
# проверим что нет дубликатов
len(ratings) == len(joined)

True

# В каких случаях при объединении датафреймов с помощью merge возникают дубликаты?

Когда одной строке первого датафрейма соответствует несколько строк из второго

## При каком значении параметра how метода merge в результате объединения останутся только те строки, которые есть в обоих датафреймах? Введите значение параметра в качестве ответа.

inner

# 8. Трудности объединения датафреймов


In [38]:
rate_example = pd.read_csv('ratings_example.txt', sep='\t')
display(rate_example)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144


In [39]:
movies_example = pd.read_csv('movies_example.txt', sep='\t')
display(movies_example)

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
2,31,Dangerous Minds (1995),Drama


## В текущей версии датасета movies значение movieId = 31 встречается дважды, а movieId = 32 - один раз. Определите, при каких типах объединения датафреймов ratings и movies по столбцу movieId в итоговом датафрейме останутся оба значения movieId, при условии использования следующего синтаксиса:

In [49]:
test = rate_example.merge(movies_example, on = "movieId", how = "right")
display(test)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
1,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
2,,32,,,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


In [41]:
test = rate_example.merge(movies_example, on = "movieId", how = "outer")
display(test)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
1,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
2,,32,,,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


- right
- outer

# 9. Дубликаты строк

In [42]:
# исходное состояние movies_example
display(movies_example)

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
2,31,Dangerous Minds (1995),Drama


In [43]:
processed = movies_example.drop_duplicates(subset="movieId", keep='first') # implace=True
processed

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


## При каком типе объединения таблиц с помощью метода merge (т. е. при каком значении параметра how) не могут возникать дубликаты строк? В качестве примера можете использовать объединение датафреймов ratings и movies из этого шага

# 10. Задания

В этой серии заданий мы разберемся с данными новых поступлений интернет-магазина. 
В словаре items_dict (который мы переведем в датафрейм) содержится информация о наличии товара на складе:
А в словаре purchase_log — данные о покупках товаров:

In [50]:
items_dict = {
    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 100132, 312394], 
    'vendor': ['Samsung', 'LG', 'Apple', 'Apple', 'LG', 'Apple', 'Samsung', 'Samsung', 'LG', 'ZTE'],
    'stock_count': [54, 33, 122, 18, 102, 43, 77, 143, 60, 19]
}

In [51]:
purchase_log = {
    'purchase_id': [101, 101, 101, 112, 121, 145, 145, 145, 145, 221],
    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 103845, 100132], 
    'price': [13900, 5330, 38200, 49990, 9890, 33000, 67500, 34500, 89900, 11400]
}

In [55]:
items_df = pd.DataFrame(items_dict)
purchase_df = pd.DataFrame(purchase_log)

## Объедините получившиеся датафреймы по столбцу item_id с типом outer.

Определите, модель с каким item_id есть в статистике продаж purchase_df, но не учтена на складе (подсказка: подумайте, какой датафрейм должен быть "левым", а какой "правым", чтобы получить необходимые данные). Введите ответ в виде целого числа.

In [64]:
merge = purchase_df.merge(items_df, on='item_id', how="outer")
merge

Unnamed: 0,purchase_id,item_id,price,vendor,stock_count
0,101.0,417283,13900.0,Samsung,54.0
1,101.0,849734,5330.0,LG,33.0
2,101.0,132223,38200.0,Apple,122.0
3,112.0,573943,49990.0,Apple,18.0
4,121.0,19475,9890.0,LG,102.0
5,145.0,3294095,33000.0,Apple,43.0
6,145.0,382043,67500.0,Samsung,77.0
7,145.0,302948,34500.0,Samsung,143.0
8,145.0,103845,89900.0,,
9,221.0,100132,11400.0,LG,60.0


Блять. Оказывается, что не учтена на складе - нет колличества. Логично )))
Т.е. мы берём множество складской хуйни и отображаем на мно-во проданной хуйни. Т.е. мы объединяем таблицы по отсутствующим элементам(нет и в А и в Б). То, будет NaN

Не учтено на складе - множество складской хуйни не однозначно не отображается на...

## Задание 2

### Решите обратную задачу: модель с каким item_id есть на складе, но не имела ни одной продажи? Введите ответ в виде целого числа.

In [76]:
merge = items_df.merge(purchase_df, on='item_id', how="outer")
merge

Unnamed: 0,item_id,vendor,stock_count,purchase_id,price
0,417283,Samsung,54.0,101.0,13900.0
1,849734,LG,33.0,101.0,5330.0
2,132223,Apple,122.0,101.0,38200.0
3,573943,Apple,18.0,112.0,49990.0
4,19475,LG,102.0,121.0,9890.0
5,3294095,Apple,43.0,145.0,33000.0
6,382043,Samsung,77.0,145.0,67500.0
7,302948,Samsung,143.0,145.0,34500.0
8,100132,LG,60.0,221.0,11400.0
9,312394,ZTE,19.0,,


## Задание 3

### Сформируйте датафрейм merged, в котором в результате объединения purchase_df и items_df останутся модели, которые учтены на складе и имели продажи. Сколько всего таких моделей?

In [77]:
merge = items_df.merge(purchase_df, on='item_id', how="inner")
merge

Unnamed: 0,item_id,vendor,stock_count,purchase_id,price
0,417283,Samsung,54,101,13900
1,849734,LG,33,101,5330
2,132223,Apple,122,101,38200
3,573943,Apple,18,112,49990
4,19475,LG,102,121,9890
5,3294095,Apple,43,145,33000
6,382043,Samsung,77,145,67500
7,302948,Samsung,143,145,34500
8,100132,LG,60,221,11400


## Задание 4 

### Посчитайте объем выручки для каждой модели, которую можно получить, распродав все остатки на складе. Модель с каким item_id имеет максимальное значение выручки после распродажи остатков? Ответ дайте в виде целого числа.