In [2]:
import pandas as pd

In [4]:
ratings = pd.read_csv('ratings.csv')
ratings.head(5)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


- userId — идентификатор пользователя, который поставил фильму оценку
- movieId — идентификатор фильма
- rating — выставленная оценка
- timestamp — время (в формате unix time), когда была выставлена оценка

In [5]:
movies = pd.read_csv('movies.csv')
movies.head(5)

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


- movieId — идентификатор фильма
- title — название фильма
- genres — список жанров, к которым относится фильм

In [6]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
userId       100836 non-null int64
movieId      100836 non-null int64
rating       100836 non-null float64
timestamp    100836 non-null int64
dtypes: float64(1), int64(3)
memory usage: 3.1 MB


In [7]:
ratings.rating.min()

0.5

In [8]:
len(movies.movieId.unique())

9742

У датафреймов ratings и movies есть общий столбец movieId. Значит, мы можем объединить эти датафреймы в одну таблицу. Используем метод merge:

In [9]:
joined = ratings.merge(movies, on='movieId', how='left')
joined.head() 

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,964981247,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,964982224,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,964983815,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,964982931,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


- left_df / right_df — датафреймы, которые мы объединяем. К "правому" датафрейму присоединяем "левый" (в нашем примере "левый" датафрейм — ratings, "правый" — movies). 

- how — параметр объединения записей. Он может иметь четыре значения: left, right, inner и outer. При значении left берем все записи (movieId) из "левого" датафрейма (ratings) и ищем их соответствия в "правом" (movies). В итоговом датафрейме останутся только те значения, которым были найдены соответствия, то есть только значения из ratings. Аналогично при параметре right остаются только значения из "правого" датафрейма. Если совпадений между таблицами нет, то ставим нулевое значение. Значение inner оставляет только те записи (movieId), которые есть в обоих датафреймах, outer объединяет все варианты movieId в обоих датафреймах. 

- on определяет, по какому столбцу происходит объединение. Для объединения по нескольким столбцам используйте on = ['col1', 'col2'] или left_on и right_on.

После объединения датафреймов лучше проверять, что не возникло дубликатов. О возможных проблемах метода merge мы поговорим в следующем блоке. Сейчас убедимся в том, что число строк объединенного датафрейма совпадает с исходным:

In [10]:
len(ratings) == len(joined)

True

In [11]:
import pandas as pd
ratings_example = pd.read_csv('ratings_example.txt', sep = '\t')
ratings_example.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144


In [12]:
movies_example = pd.read_csv('movies_example.txt', sep = '\t')
movies_example.head()

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
2,31,Dangerous Minds (1995),Drama


В текущей версии датасета ratings значение movieId = 31 встречается дважды, а movieId = 32 - один раз. Определите, при каких типах объединения датафреймов ratings и movies по столбцу movieId в итоговом датафрейме останутся оба значения movieId при условии использования следующего синтаксиса:

ratings.merge(movies, on = 'movieId', how = ...)

In [13]:
ratings_example.merge(movies_example, on = 'movieId', how ='outer')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
1,1.0,31,2.5,1260759000.0,Dangerous Minds (1995),Drama
2,,32,,,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


Answer:
    - outer
    - right

Если вы хотите избежать подобной ситуации, необходимо удалить дубликаты из таблицы movies. Для этого подходит метод drop_duplicates. В параметре subset указываем один или несколько столбцов, по комбинации которых хотим удалить дубликаты.

С помощью параметра keep указываем, какой из встречающихся дубликатов оставить (например, первый или последний). Параметр inplace указывает, что изменения нужно сохранить в датафрейме, к которому применяется метод (в нашем случае — в датафрейме movies):

In [14]:
movies_example.drop_duplicates(subset = 'movieId', keep = 'first', inplace = True)
movies_example.head()

Unnamed: 0,movieId,title,genres
0,31,Dangerous Minds (1995),Drama
1,32,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller


Теперь объединение таблиц будет корректным:

In [15]:
ratings_example.merge(movies_example, how = 'left', on = 'movieId')

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,31,2.5,1260759144,Dangerous Minds (1995),Drama


В этой серии заданий мы разберемся с данными новых поступлений интернет-магазина. В словаре items_dict (который мы переведем в датафрейм) содержится информация о наличии товара на складе:

In [16]:
items_dict = {

    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 100132, 312394], 

    'vendor': ['Samsung', 'LG', 'Apple', 'Apple', 'LG', 'Apple', 'Samsung', 'Samsung', 'LG', 'ZTE'],

    'stock_count': [54, 33, 122, 18, 102, 43, 77, 143, 60, 19]

}

А в словаре purchase_log — данные о покупках товаров:

In [17]:
purchase_log = {

    'purchase_id': [101, 101, 101, 112, 121, 145, 145, 145, 145, 221],

    'item_id': [417283, 849734, 132223, 573943, 19475, 3294095, 382043, 302948, 103845, 100132], 

    'price': [13900, 5330, 38200, 49990, 9890, 33000, 67500, 34500, 89900, 11400]

}

- item_id — идентификатор модели (по этому столбцу будем объединять датафреймы)
- vendor — производитель модели
- stock_count — имеющееся на складе количество данных моделей (в штуках)
- purchase_id — идентификатор покупки
- price — стоимость модели в покупке

Переведем сначала эти словари в датафреймы для удобства работы:

In [18]:
items_df = pd.DataFrame(items_dict)
purchase_df = pd.DataFrame(purchase_log)

Объедините получившиеся датафреймы по столбцу item_id с типом outer.

Определите, модель с каким item_id есть в статистике продаж purchase_df, но не учтена на складе (подсказка: подумайте, какой датафрейм должен быть "левым", а какой "правым", чтобы получить необходимые данные). Введите ответ в виде целого числа.

In [19]:
df_complete = items_df.merge(purchase_df, how = 'outer', on = 'item_id')

In [20]:
df_complete

Unnamed: 0,item_id,vendor,stock_count,purchase_id,price
0,417283,Samsung,54.0,101.0,13900.0
1,849734,LG,33.0,101.0,5330.0
2,132223,Apple,122.0,101.0,38200.0
3,573943,Apple,18.0,112.0,49990.0
4,19475,LG,102.0,121.0,9890.0
5,3294095,Apple,43.0,145.0,33000.0
6,382043,Samsung,77.0,145.0,67500.0
7,302948,Samsung,143.0,145.0,34500.0
8,100132,LG,60.0,221.0,11400.0
9,312394,ZTE,19.0,,


Решите обратную задачу: модель с каким item_id есть на складе, но не имела ни одной продажи? Введите ответ в виде целого числа.

In [21]:
df_complete = purchase_df.merge(items_df, how = 'outer', on = 'item_id')

In [22]:
df_complete

Unnamed: 0,purchase_id,item_id,price,vendor,stock_count
0,101.0,417283,13900.0,Samsung,54.0
1,101.0,849734,5330.0,LG,33.0
2,101.0,132223,38200.0,Apple,122.0
3,112.0,573943,49990.0,Apple,18.0
4,121.0,19475,9890.0,LG,102.0
5,145.0,3294095,33000.0,Apple,43.0
6,145.0,382043,67500.0,Samsung,77.0
7,145.0,302948,34500.0,Samsung,143.0
8,145.0,103845,89900.0,,
9,221.0,100132,11400.0,LG,60.0


Сформируйте датафрейм merged, в котором в результате объединения purchase_df и items_df останутся модели, которые учтены на складе и имели продажи. Сколько всего таких моделей?

In [23]:
df_complete = items_df.merge(purchase_df, how = 'inner', on = 'item_id')

In [24]:
df_complete

Unnamed: 0,item_id,vendor,stock_count,purchase_id,price
0,417283,Samsung,54,101,13900
1,849734,LG,33,101,5330
2,132223,Apple,122,101,38200
3,573943,Apple,18,112,49990
4,19475,LG,102,121,9890
5,3294095,Apple,43,145,33000
6,382043,Samsung,77,145,67500
7,302948,Samsung,143,145,34500
8,100132,LG,60,221,11400


Посчитайте объем выручки для каждой модели, которую можно получить, распродав все остатки на складе. Модель с каким item_id имеет максимальное значение выручки после распродажи остатков? Ответ дайте в виде целого числа.

Примечание: перемножение столбцов датафрейма можно производить разными способами, но самый простой - перемножение "в лоб" вида df['col1'] = df['col2'] * df['col3']. Для присоединения новых данных к датафрейму тоже можно использовать различные методы, включая функцию .append(), которая позволяет присоединять к датафрейму другой датафрейм, серии или словари.

In [25]:
df_complete = purchase_df.merge(items_df, how = 'right', on = 'item_id')
df_complete['gain_sum'] = df_complete['price'] * df_complete['stock_count']
df_complete.item_id[df_complete.gain_sum == df_complete.gain_sum.max()]

6    382043
Name: item_id, dtype: int64

Посчитайте итоговую выручку из прошлого задания по всем моделям. Ответ дайте в виде целого числа.

In [26]:
df_complete['gain_sum'].sum()

19729490.0

Данные могут приходить к нам в самом различном виде. Часто это не один файл, а целая папка с множеством файлов и не всегда предсказуемыми/совпадающими именами. Объединить набор файлов в один датафрейм, нам поможет библиотека os.

In [27]:
import os

In [31]:
files = os.listdir('data')
files

['ratings_1.txt',
 'ratings_10.txt',
 'ratings_2.txt',
 'ratings_3.txt',
 'ratings_4.txt',
 'ratings_5.txt',
 'ratings_6.txt',
 'ratings_7.txt',
 'ratings_8.txt',
 'ratings_9.txt']

После чтения папки список файлов оказался следующим:

files = ['setup.py', 'ratings.txt', 'stock_stats.txt', 'movies.txt', 'run.sh', 'game_of_thrones.mov']

Создайте на основе списка files новый список data, в который поместите только файлы, содержащие в названии "txt".

In [29]:
files = ['setup.py', 'ratings.txt', 'stock_stats.txt', 'movies.txt', 'run.sh', 'game_of_thrones.mov']
data = []
for file in files:
    if '.txt' in file:
        data.append(file)
data

['ratings.txt', 'stock_stats.txt', 'movies.txt']

Если бы в папке 'data' содержались вложенные папки, то получить их имена отдельно от названий файлов можно было бы с помощью метода walk.

Представим, что в основной папке 'data' лежит подпапка 'subfolder' с файлом 'file_in_subfolder.txt'. Тогда с помощью вызова метода os.walk('data') для каждой вложенной папки получим три значения: имя корневой папки, список вложенных папок и названия файлов. Запишем эти значения в переменные, которые назовем root, dirs и files:м:

for root, dirs, files in os.walk('data'):
    print(root, dirs, files)

In [30]:
data = pd.DataFrame(columns = ['userId', 'movieId', 'rating', 'timestamp'])

In [32]:
for filename in files:
    temp = pd.read_csv( os.path.join('data', filename), names = ['userId', 'movieId', 'rating', 'timestamp'] )
    data = pd.concat([data, temp])

In [35]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100004 entries, 0 to 9999
Data columns (total 4 columns):
userId       100004 non-null object
movieId      100004 non-null object
rating       100004 non-null float64
timestamp    100004 non-null object
dtypes: float64(1), object(3)
memory usage: 3.8+ MB


Объедините датафреймы ratings и movies, используя параметр how='outer'.

Сколько строк в получившемся датафрейме?

In [44]:
df_ratings_and_movies = ratings.merge(movies, how = 'outer', on = 'movieId')
df_ratings_and_movies

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,1,4.0,9.649827e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,5.0,1,4.0,8.474350e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,7.0,1,4.5,1.106636e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
3,15.0,1,2.5,1.510578e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
4,17.0,1,4.5,1.305696e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
5,18.0,1,3.5,1.455210e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
6,19.0,1,4.0,9.657056e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
7,21.0,1,3.5,1.407619e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
8,27.0,1,3.0,9.626853e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
9,31.0,1,5.0,8.504666e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy


Найдите в датафрейме movies фильм с movieId=3456.

Какой у него год выпуска?

P. S. Попробуйте найти movieId этого фильма в датафрейме ratings. Это будет ключом к ответу на следующее задание

In [45]:
df_ratings_and_movies[df_ratings_and_movies.movieId == 3456]

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
100839,,3456,,,"Color of Paradise, The (Rang-e khoda) (1999)",Drama


In [46]:
df_ratings_and_movies.drop_duplicates()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1.0,1,4.0,9.649827e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,5.0,1,4.0,8.474350e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,7.0,1,4.5,1.106636e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
3,15.0,1,2.5,1.510578e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
4,17.0,1,4.5,1.305696e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
5,18.0,1,3.5,1.455210e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
6,19.0,1,4.0,9.657056e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
7,21.0,1,3.5,1.407619e+09,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
8,27.0,1,3.0,9.626853e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
9,31.0,1,5.0,8.504666e+08,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy


### Букмекерская контора

##### Предобработка состоит из следующих этапов:

Загрузка.
Очистка.
Обогащение / feature engineering.
Анализ.

###### read_csv
Важно помнить, что у него есть ряд дополнительных параметров, которые могут быть полезными:

header = None — загрузить без строки с заголовком,
skiprows=n — пропустить n строк (часто у документов бывает техническая «шапка»),
encoding — загрузить в конкретной кодировке,
na_values — список значений, который нужно заменить на NaN (специальный объект, обозначающий пропущенное значение).

In [165]:
log = pd.read_csv('log.csv', header=None)

In [166]:
log.columns = ['user_id', 'time', 'bet', 'win']

In [97]:
users = pd.read_csv('users.csv', encoding='koi8_r', sep='\t')

In [99]:
users.columns = ['user_id', 'email', 'geo']

##### Очистка данных
Перейдём к очистке данных. На этом этапе нужно тщательно изучить сами данные, а именно:

формат представления данных,
ошибки в данных,
пропущенные значения,
дубликаты,
типы данных (числа, строки, даты).

In [100]:
log.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
user_id    1000 non-null object
time       985 non-null object
bet        485 non-null float64
win        138 non-null float64
dtypes: float64(2), object(2)
memory usage: 31.3+ KB


In [101]:
users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
user_id    100 non-null object
email      99 non-null object
geo        97 non-null object
dtypes: object(3)
memory usage: 2.4+ KB


##### Функция query

С помощью функции query найдите тех, у кого ставка меньше 2000, а выигрыш больше 0. Сохраните в новый датафрейм log2.

In [111]:
log2 = log.query('bet < 2000 & win > 0')
log2

Unnamed: 0,user_id,time,bet,win
151,Запись пользователя № - user_982,[2019-01-16 21:54:22,100.0,4749.0
189,Запись пользователя № - user_964,[2019-01-21 18:34:44,200.0,4667.0
205,Запись пользователя № - user_931,[2019-01-22 5:26:59,300.0,4319.0
232,Запись пользователя № - user_998,[2019-01-25 8:57:20,500.0,5069.0
265,Запись пользователя № - user_998,[2019-01-29 10:37:55,500.0,6294.0
294,Запись пользователя № - user_931,[2019-02-02 12:34:44,700.0,6516.0
348,Запись пользователя № - user_900,[2019-02-08 10:36:47,200.0,5290.0
360,Запись пользователя № - user_921,[2019-02-09 23:20:21,400.0,6067.0
367,Запись пользователя № - user_943,[2019-02-10 11:09:24,100.0,5456.0
376,Запись пользователя № - user_903,[2019-02-10 20:23:10,700.0,6726.0


In [113]:
sample.City.str.contains("о", na=False) 

0      True
1      True
2      True
3      True
4     False
5      True
6     False
7      True
8      True
9     False
10    False
Name: City, dtype: bool

Сохраните в переменную new_log датафрейм, из которого удалены записи с ошибкой в поле user_id:

In [167]:
log = log[~log.user_id.str.contains('#error', na=False)]

Преобразуем поле user_id в датафрейме log, оставив только идентификатор пользователя. Например, вместо "Запись пользователя № — user_974" должно остаться только "user_974".

На месте записей с ошибками в user_id должна быть пустая строка "". Сделайте это через apply и новую функцию, которую вы создадите. Результат сохраните в log:

In [169]:
def change_user_id(user_id):
    if 'user' in user_id:
        return user_id.split(' ')[-1]
    else:
        return ""
    
new_log['user_id'] = new_log.apply(lambda x: change_user_id(x.user_id), axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  import sys


In [170]:
new_log['time'] = new_log.apply(lambda x: x.time[1:], axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


Соединим всё, что мы делали, и очистим файл log.csv. А именно:

прочитаем файл в переменную log;
добавим названия колонок user_id, time, bet, win;
удалим строки, которые содержат значения user_id с ошибками;
оставим в user_id только значения идентификатора;
уберём начальную скобку из поля time.

In [175]:
log = pd.read_csv('log.csv', header=None)
log.columns = ['user_id', 'time', 'bet', 'win']
log = log[~log.user_id.str.contains('#error', na=False)]
log['user_id'] = log.apply(lambda x: x.user_id.split(' ')[-1], axis=1)
log['time'] = log['time'].str.replace('[', '')