### 7.2 С какими данными работаем
#### Данные о выставленных оценках фильмов

In [25]:
import pandas as pd
from IPython.display import display

ratings = pd.read_csv('./file/ratings.csv')
display(ratings.head(1))

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703


### Расшифровка идентификаторов фильмов

In [26]:
movies = pd.read_csv('./file/movies.csv')
display(movies.head(1))

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy


### Структура и требования

### 7.7 Объединяем таблицы
#### Метод merge

In [50]:
joined = ratings.merge(movies,on='movieId',how='left')
display('=== Left Ratings ===')
display(joined.head(1))

display('=== Right Movies ===')
joinMovies = movies.merge(ratings,on='movieId',how='inner')
display(joinMovies.head(1))

display(len(ratings) == len(joinMovies))

'=== Left Ratings ==='

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy


'=== Right Movies ==='

Unnamed: 0,movieId,title,genres,userId,rating,timestamp
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1,4.0,964982703


True

### 7.8 Трудности объединения датафреймов

In [99]:
ratingTxt = pd.read_csv('./file/ratings_example.txt',sep='\t')
display(ratingTxt.head())

moviesTxt = pd.read_csv('./file/movies_example.txt',sep='\t')
display(moviesTxt.head())

joinMoviesTxt = moviesTxt.merge(ratingTxt,on='movieId',how='left')
display(joinMoviesTxt.head())

joinRatingsTxt = ratingTxt.merge(moviesTxt,on='movieId',how='outer')
display(joinRatingsTxt)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144


Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
2,31,Dangerous Minds (1995),Drama


Unnamed: 0,movieId,title,genres,userId,rating,timestamp
0,31,Dangerous Minds (1995),Drama,1.0,2.5,1260759000.0
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller,,,
2,31,Dangerous Minds (1995),Drama,1.0,2.5,1260759000.0


Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
1,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
2,,32,,,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


## 7.9 Дубликаты строк

In [95]:
joinRatingsTxt = ratingTxt.merge(moviesTxt,on='movieId',how='outer')
display(joinRatingsTxt)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
1,,32,,,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


### Удаляем дубликаты

In [100]:
moviesTxt.drop_duplicates(subset='movieId',keep='first',inplace=True)
display(moviesTxt.head())

joinRatingsTxt = ratingTxt.merge(moviesTxt,how='left',on='movieId')
display(joinRatingsTxt)

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama


## 7.10 Задания

In [106]:
# инфо о наличии товара на складе - info product store
items_dict = {
    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 100132, 312394], 
    'vendor': ['Samsung', 'LG', 'Apple', 'Apple', 'LG', 'Apple', 'Samsung', 'Samsung', 'LG', 'ZTE'],
    'stock_count': [54, 33, 122, 18, 102, 43, 77, 143, 60, 19]
}

# Данные о покупках
purchase_log = {
    'purchase_id': [101, 101, 101, 112, 121, 145, 145, 145, 145, 221],
    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 103845, 100132], 
    'price': [13900, 5330, 38200, 49990, 9890, 33000, 67500, 34500, 89900, 11400]
}

items_df = pd.DataFrame(items_dict)
purchase_df = pd.DataFrame(purchase_log)

joinItems = items_df.merge(purchase_df,on='item_id',how='outer')
display(joinItems)

joinPurchase = purchase_df.merge(items_df,on='item_id',how='outer')
display(joinPurchase)

Unnamed: 0,item_id,vendor,stock_count,purchase_id,price
0,417283,Samsung,54.0,101.0,13900.0
1,849734,LG,33.0,101.0,5330.0
2,132223,Apple,122.0,101.0,38200.0
3,573943,Apple,18.0,112.0,49990.0
4,19475,LG,102.0,121.0,9890.0
5,3294095,Apple,43.0,145.0,33000.0
6,382043,Samsung,77.0,145.0,67500.0
7,302948,Samsung,143.0,145.0,34500.0
8,100132,LG,60.0,221.0,11400.0
9,312394,ZTE,19.0,,


Unnamed: 0,purchase_id,item_id,price,vendor,stock_count
0,101.0,417283,13900.0,Samsung,54.0
1,101.0,849734,5330.0,LG,33.0
2,101.0,132223,38200.0,Apple,122.0
3,112.0,573943,49990.0,Apple,18.0
4,121.0,19475,9890.0,LG,102.0
5,145.0,3294095,33000.0,Apple,43.0
6,145.0,382043,67500.0,Samsung,77.0
7,145.0,302948,34500.0,Samsung,143.0
8,145.0,103845,89900.0,,
9,221.0,100132,11400.0,LG,60.0


### Сформируйте датафрейм merged, в котором в результате объединения purchase_df и items_df останутся модели, которые учтены на складе и имели продажи. Сколько всего таких моделей?

In [112]:
merged = items_df.merge(purchase_df,on='item_id',how='inner')
display(merged)
display(merged.count())

Unnamed: 0,item_id,vendor,stock_count,purchase_id,price
0,417283,Samsung,54,101,13900
1,849734,LG,33,101,5330
2,132223,Apple,122,101,38200
3,573943,Apple,18,112,49990
4,19475,LG,102,121,9890
5,3294095,Apple,43,145,33000
6,382043,Samsung,77,145,67500
7,302948,Samsung,143,145,34500
8,100132,LG,60,221,11400


item_id        9
vendor         9
stock_count    9
purchase_id    9
price          9
dtype: int64

## Задание 4
### Посчитайте объем выручки для каждой модели, которую можно получить, распродав все остатки на складе. Модель с каким item_id имеет максимальное значение выручки после распродажи остатков? Ответ дайте в виде целого числа.

In [167]:
pivotMerged = merged.loc[merged.stock_count.isin(merged.stock_count)].pivot_table(values=['price'],
                                                                            index=['vendor'],
                                                                            columns=['stock_count'],
                                                                            aggfunc=['sum'],
                                                                            fill_value=0,
                                                                            margins=True)
#display(merged.stock_count)
listMerged = {}

for k in range(0, len(merged.stock_count)):
    listMerged[merged.item_id[k]] = merged.stock_count[k] * merged.price[k]

seriesMerged = pd.Series(data=listMerged,index=merged.item_id);


display(seriesMerged.sort_values(ascending=False))
#display(pivotMerged.loc['Apple'])
#display(merged)

item_id
382043     5197500
302948     4933500
132223     4660400
3294095    1419000
19475      1008780
573943      899820
417283      750600
100132      684000
849734      175890
dtype: int64

## Задание 5
### Посчитайте итоговую выручку из прошлого задания по всем моделям. Ответ дайте в виде целого числа.

In [169]:
display(seriesMerged.sum())

19729490

## 7.11 Объединяем выгрузки

In [None]:
import os

### Для получения списка файлов метод listdir библиотеки os

In [171]:
files = os.listdir('./data/')
display(files)

['ratings_1.txt',
 'ratings_10.txt',
 'ratings_2.txt',
 'ratings_3.txt',
 'ratings_4.txt',
 'ratings_5.txt',
 'ratings_6.txt',
 'ratings_7.txt',
 'ratings_8.txt',
 'ratings_9.txt']

## Задание
### Создайте на основе списка files новый список data, в который поместите только файлы, содержащие в названии "txt".

In [None]:
taskFiles = ['setup.py', 'ratings.txt', 'stock_stats.txt', 'movies.txt', 'run.sh', 'game_of_thrones.mov']

## 7.12 Выгрузка из вложенных файлов
### Получить имена вложенных папок отдельно от названий файлов можно с помощью метода walk

In [172]:
for root, dirs, files in os.walk('data'):
    display(root,dirs,files)

'data'

[]

['ratings_1.txt',
 'ratings_10.txt',
 'ratings_2.txt',
 'ratings_3.txt',
 'ratings_4.txt',
 'ratings_5.txt',
 'ratings_6.txt',
 'ratings_7.txt',
 'ratings_8.txt',
 'ratings_9.txt']

## 7.13 Склеивание датафреймов
### метод concatenate

In [180]:
data = pd.DataFrame(columns=['userId','movieId','rating','timestamp'])

for root, dirs, files in os.walk('data'):
    for filename in files:
        temp = pd.read_csv(os.path.join('./data/',filename),names=['userId','movieId','tating','timestamp'])
        data = pd.concat([data,temp])

display(data.count())

userId       100004
movieId      100004
rating            0
timestamp    100004
tating       100004
dtype: int64

In [181]:
display(ratings[ratings.rating == 0.5].count())

userId       1370
movieId      1370
rating       1370
timestamp    1370
dtype: int64

In [183]:
rMovie = movies.merge(ratings,how='outer',on='movieId')
display(rMovie.count())

movieId      100854
title        100854
genres       100854
userId       100836
rating       100836
timestamp    100836
dtype: int64

In [185]:
display(movies[movies.movieId == 3456])
display(ratings[ratings.movieId == 3456])

Unnamed: 0,movieId,title,genres
2587,3456,"Color of Paradise, The (Rang-e khoda) (1999)",Drama


Unnamed: 0,userId,movieId,rating,timestamp
