# Простые фильтры строк в одну команду

При работе с датафреймами часто требуется применять к ним различные фильтры. Типов фильтров очень много, но на ближайших занятиях мы изучим основные подходы, которые позволят фильтровать данные по признакам почти любой сложности:

В прошлых блоках мы уже применяли числовые фильтры, когда выводили рейтинги фильмов одного пользователя. Напомним один из примеров:

In [8]:
import pandas as pd
data = pd.read_csv('ratings.csv')

In [9]:
data[ data['userId'] == 123 ]

Unnamed: 0,userId,movieId,rating,timestamp
18600,123,233,4.0,994021026
18601,123,288,5.0,994015967
18602,123,407,5.0,994021077
18603,123,785,5.0,994021092
18604,123,968,3.0,994021141
18605,123,1968,4.0,994015836
18606,123,1976,4.0,994015911
18607,123,2003,4.0,994015911
18608,123,2369,3.0,994021000
18609,123,2378,1.0,994015880


В этом блоке мы рассмотрим фильтры и другие операции, которые применяются для строк. Это позволит в одну строчку выполнять довольно сложные операции. Без помощи Pandas пришлось бы писать громоздкие циклы, но сейчас это займет у нас всего несколько строк. 

In [10]:
movies = pd.read_csv('movies.csv')

Представим, что из списка фильмов нам надо отсортировать комедии. 

Итак, на текущем шаге наша задача будет получить список фильмов датафрейма movies, которые содержат в названии слово 'Comedy'. Для этого достаточно воспользоваться методом str.contains, который позволяет опередить наличие подстроки на каждой строчке одного из столбцов датафрейма movies:

In [12]:
comedy = movies[movies['genres'].str.contains('Comedy')]
comedy.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
6,7,Sabrina (1995),Comedy|Romance


Чтобы избежать это ошибки используйте параметр na:

df[ df['date'].str.contains('04', na = False) ]

# Распределение фильмов по году выпуска

В предыдущих модулях для преобразования строки в лист мы использовали оператор split. А для замены буквы или последовательности символов на другие - replace. Для упрощения этих операций в Pandas есть методы str.split и str.replace. Давайте с помощью них получим распределение фильмов по году выпуска.

Год выпуска фильма возьмем из заголовка.

Напомним структуру нашего файла:

Чтобы получить год можно сначала разделить заголовок каждого фильма title на две части с помощью str.split. Разделителем будет открывающая скобка. Т. е. строку 'Toy Story (1995)' мы хотим разделить на две части: 'Toy Story ' и '1995)'. В результате должны получить лист из двух элементов: ['Toy Story ', '1995)'].

Посмотрим что из этого выйдет:

In [13]:
movies['title'].str.split('(').head()

0                      [Toy Story , 1995)]
1                        [Jumanji , 1995)]
2               [Grumpier Old Men , 1995)]
3              [Waiting to Exhale , 1995)]
4    [Father of the Bride Part II , 1995)]
Name: title, dtype: object

Сейчас мы получили столбец, каждый элемент которого представляет собой лист из двух значений. Давайте оставим только второе значение. Добавим параметр expand = True, который запишет каждый элемент получившегося листа в отдельный столбец:

In [17]:
years_dataframe = movies['title'].str.split('(', expand = True)
years_dataframe

Unnamed: 0,0,1,2,3,4
0,Toy Story,1995),,,
1,Jumanji,1995),,,
2,Grumpier Old Men,1995),,,
3,Waiting to Exhale,1995),,,
4,Father of the Bride Part II,1995),,,
5,Heat,1995),,,
6,Sabrina,1995),,,
7,Tom and Huck,1995),,,
8,Sudden Death,1995),,,
9,GoldenEye,1995),,,


Видим, что в столбцов получилось больше, чем мы ожидали. В некоторых заголовках стоит более одной открывающей скобки, поэтому с этими фильмами надо поработать отдельно. Можем проверить так ли это: посмотрим что за фильмы содержат на три скобки больше:

In [16]:
years_dataframe[ ~years_dataframe[4].isnull() ]

Unnamed: 0,0,1,2,3,4
792,"Yes, Madam",a.k.a. Police Assassins),a.k.a. In the Line of Duty 2),Huang gu shi jie),1985)
1874,Godzilla 1985: The Legend Is Reborn,Gojira),Godzilla),"Return of Godzilla, The)",1984)
2482,Bicycle Thieves,a.k.a. The Bicycle Thief),a.k.a. The Bicycle Thieves),Ladri di biciclette),1948)
2845,Empire of Passion,a.k.a. In the Realm of Passion),a.k.a. Phantom Love),Ai No Borei),1978)
4000,Burial Ground,a.k.a. Zombie Horror),a.k.a. Zombie 3),"Notti del Terrore, Le)",1981)


Проверим в исходном датафрейме movies строчку с индексом 1874:

In [18]:
movies[1874:1875].title

1874    Godzilla 1985: The Legend Is Reborn (Gojira) (...
Name: title, dtype: object

Наконец, выведем заголовок этой строчки полностью. Для этого переведем датафрейм movies[1874:1875] в строку, указав с помощью метода iloc "первую строку" и "второй столбец" в нем:

In [19]:
movies[1874:1875].iloc[0, 1]

'Godzilla 1985: The Legend Is Reborn (Gojira) (Godzilla) (Return of Godzilla, The) (1984)'

Действительно, эти фильмы содержат много открывающих скобок. Поэтому для них такое простое разделение одной скобкой не подойдет. Сейчас для простоты не будем учитывать такие фильмы.

Теперь осталось удалить из года выпуска фильма правую закрывающую скобку. Используем для этого метод str.replace:

In [20]:
production_year = years_dataframe[1].str.replace(')', '')
production_year.head()

0    1995
1    1995
2    1995
3    1995
4    1995
Name: 1, dtype: object

# Подготавливаем столбец с необходимыми метриками

Конечной целью этого блока будет построение алгоритма определения фильмов с нужными жанрами. Будем действовать постепенно, сначала научимся добавлять столбцы. Это будет важным шагом в построении нашей рекомендательной системы.

Очень большим преимуществом Pandas Dataframe перед другими структурами данных является возможность быстрого расчета нужных метрик с помощью добавления еще одного столбца в таблицу. В этом столбце можно сохранить необходимый нам показатель (например, сумму всех показателей в строчке), что упростит дальнейшую работу. Простой пример: у нас есть данные по выручке четырех регионов:

----

В зависимости от сложности преобразования существуют несколько способов сделать такой расчет.

Рассмотрим сначала самый простой на примере рейтингов фильмов.

In [22]:
ratings = pd.read_csv('ratings.csv')

Рейтинги фильмов в нашем файле могут принимать значения от 0.5 до 5.0. Допустим, мы хотим избавиться от нецелых значений рейтинга. Как это сделать? Очень просто! Мы можем умножить столбец rating на 2, и тогда все рейтинги перейдут в диапазон от 1 до 10 с шагом 1. 

Для этого заведем столбец rating_10 следующим образом:

In [23]:
ratings['rating_10'] = ratings['rating'] * 2
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp,rating_10
0,1,31,2.5,1260759144,5.0
1,1,1029,3.0,1260759179,6.0
2,1,1061,3.0,1260759182,6.0
3,1,1129,2.0,1260759185,4.0
4,1,1172,4.0,1260759205,8.0


# Быстрая классификация по рейтингу

Пример с арифметическими действиями довольно простой. На практике обычно вычисления гораздо сложнее. Например, нам нужно классифицировать все рейтинги фильмов на три категории:

Рейтинг от 0.5 до 2.0 считать как "низкий"
От 2.5 до 3.5 - как "средний"
От 4.0 до 5.0 - как "высокий"
Это позволит нам упростить классификацию фильмов на более понятные категории.

Уберем столбец rating_10, чтобы он не мешал нам в решении задачи:

In [24]:
del ratings['rating_10']

Так можно удалить и другие столбцы, если они вам мешают. 

Чтобы учесть такие условия можно воспользоваться так называемой лямбда функцией. Это функции, которые можно записать без использования стандартной записи в def и return. Для простых функций это отличный способ сократить количество строк кода. Например, если ваша функция f должна переводить температуру из шкалы Фаренгейта в градусы по Цельсию. С помощью лямбда-функции такую функцию можно записать в одну строку:

In [26]:
f = lambda T: (T-32) * 5 / 9

f(98)

36.666666666666664

Запишем пример такого вычисления на первом условии задачи: если рейтинг ниже 2 баллов, то в столбец 'type' пишем 'низкий'. Во всех остальных случаях пока пишем просто 'другой':

In [27]:
ratings['type'] = ratings['rating'].apply(lambda x: 'низкий' if x <= 2 else 'другой')
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp,type
0,1,31,2.5,1260759144,другой
1,1,1029,3.0,1260759179,другой
2,1,1061,3.0,1260759182,другой
3,1,1129,2.0,1260759185,низкий
4,1,1172,4.0,1260759205,другой


Когда мы пишем ratings['rating'].apply(lambda x:...), то алгоритм берет каждое значение столбца 'rating' и записывает его как переменную x (название переменной можно выбрать любое). Далее в строке "'низкий' if x <= 2 else 'другой'" производится проверка как в обычном коде на питоне: если рейтинг (т. е. значение x) меньше 2 баллов, то в столбец 'type' подставляется 'низкий'. В противном случае - подставляется 'другой'.

Давайте допишем второе условие (если рейтинг от 2.5 до 3.5). Теперь вместо else надо дописать проверку "если рейтинг больше двух, то проверяем не превышает ли он значение 3.5":

In [28]:
ratings['type'] = ratings['rating'].apply(lambda x: 'низкий' if x <= 2 else ('средний' if x <= 3.5 else 'высокий'))

ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp,type
0,1,31,2.5,1260759144,средний
1,1,1029,3.0,1260759179,средний
2,1,1061,3.0,1260759182,средний
3,1,1129,2.0,1260759185,низкий
4,1,1172,4.0,1260759205,высокий


Теперь можем построить классификацию рейтингов по обновленной версии:

In [29]:
ratings['type'].value_counts()

высокий    51568
средний    35051
низкий     13385
Name: type, dtype: int64

# Фильтрация фильмов с нужными жанрами

На прошлом шаге мы усложнили расчет значений для нового столбца. Но код получился довольно громоздким, а условия были не такими уж и сложными.

Как же обобщить расчет нового столбца для строки, чтобы можно было строить расчет любой сложности и при это учитывать все ячейки строки?

Для этого служит метод apply с использованием внешней функции. Давайте решим задачу, которая будет одним из шагов в построении нашей рекомендательной системы.

Дан список жанров user_genres, который нравится пользователю. Нам необходимо отфильтровать датафрейм movies, оставив в нем только те фильмы, жанры которых есть в листе user_genres.

In [30]:
user_genres = ['Adventure', 'Romance']

Итак, нам нужно пройтись по всем строкам столбца 'genres' и определить есть ли в них жанры из листа user_genres. Напишем функцию genres_matching, которая будет принимать на вход очередную строчку. И будет возвращать значения True и False в зависимости от того есть ли в ней жанр из листа user_genres:

In [31]:
def genres_matching(row):   
    # делим набор жанров из столбца 'genres' на отдельные жанры
    genres_list_from_row = row['genres'].split('|')
    # проверяем есть ли в получившемся листе жанр из листа user_genres
    for genre in genres_list_from_row:
        if genre in user_genres:
            return True
    return False

Теперь осталось сформировать новый столбец в датафрейме movies и проверить работу функции. Для этого воспользуемся методом apply, в котором укажем используемую функцию. Параметр axis = 1 указывает на то, что в функцию передается строка. Если поставить axis = 0, то будет обрабатываться столбец.

In [32]:
movies['user_match'] = movies.apply(genres_matching, axis = 1)

movies.head(10)

Unnamed: 0,movieId,title,genres,user_match
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,True
1,2,Jumanji (1995),Adventure|Children|Fantasy,True
2,3,Grumpier Old Men (1995),Comedy|Romance,True
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,True
4,5,Father of the Bride Part II (1995),Comedy,False
5,6,Heat (1995),Action|Crime|Thriller,False
6,7,Sabrina (1995),Comedy|Romance,True
7,8,Tom and Huck (1995),Adventure|Children,True
8,9,Sudden Death (1995),Action,False
9,10,GoldenEye (1995),Action|Adventure|Thriller,True


Важным преимуществом такой схемы с внешней функцией является то, что мы передаем всю строку целиком. Т. е. если нам, например, для расчетов понадобился бы столбец movieId, то мы можем обратиться к его значению в функции genres_matching просто написав row['movieId'].

# Работа с множеством файлов выгрузок

Как объединить множество выгрузок в одну?

Данные могут приходить к нам в самом различном виде. Часто это не один файл, а целая папка с множеством файлов и не всегда предсказуемыми/совпадающими именами.

Чтобы объединить набор файлов в один датафрейм, нам поможет библиотека os.

На этом шаге мы получим лист всех имен файлов в папке с данными. Что позволит нам считывать данные в датафрейм, не обращая внимания на имена файлов.

Для решения задачи работаем с архивной папкой с выгрузками данных (data.zip).

В папке содержится набор из 10 файлов. В текущем примере это знакомый нам ratings.csv, разбитый на 10 частей.

В теории мы можем создать 10 датафреймов с 10 именами, загрузить в каждый по файлу и далее заняться их объединением. Но такой подход крайне непрактичен: что, если в следующий раз выгрузка будет состоять из 100 файлов? А может из сотен тысяч?

Давайте автоматизируем этот процесс. Для удобства разархивируйте data.zip в папку data, а файл с кодом оставьте вне этой папки.

Скопируйте архив к своему скрипту и разархивируйте файл data.zip. Т. е. в папке вашего скрипта должна быть папка data, внутри которой 10 файлов с рейтингами.

Импортируем библиотеку os:

In [33]:
import os

Для получения списка файлов воспользуемся методом listdir. В качестве аргумента указываем папку 'data':

In [35]:
files = os.listdir('data')
files

['ratings_1.txt',
 'ratings_10.txt',
 'ratings_2.txt',
 'ratings_3.txt',
 'ratings_4.txt',
 'ratings_5.txt',
 'ratings_6.txt',
 'ratings_7.txt',
 'ratings_8.txt',
 'ratings_9.txt']

Выгрузка из вложенных папок
Если бы в папке 'data' содержались бы вложенные папки, то получить их имена отдельно от названий файлов можно было бы с помощью метода walk.

Представим, что в основной папке 'data' лежит подпапка 'subfolder' с файлом 'file_in_subfolder.txt'. Тогда, с помощью вызова метода os.walk('data') для каждой вложенной папки получим три значения: имя корневой папки, список вложенных папок и названия файлов. Запишем эти значения в переменные, которые назовем root, dirs и files:

In [36]:
for root, dirs, files in os.walk('data'):

    print(root, dirs, files)

data [] ['ratings_1.txt', 'ratings_10.txt', 'ratings_2.txt', 'ratings_3.txt', 'ratings_4.txt', 'ratings_5.txt', 'ratings_6.txt', 'ratings_7.txt', 'ratings_8.txt', 'ratings_9.txt']


# Автоматическое чтение файлов в папке

Обратите внимание, что мы ни разу не задавали имя файла, т. к. получали его автоматически. Это очень удобный прием, когда вам заранее неизвестны названия файлов с данными. В следующем шаге мы объединим все файлы из папки в один датафрейм. Давайте сначала запишем первый файл из папки в датафрейм.

Поскольку мы получили только имена файлов, то нам теперь надо указывать методу pd.read_csv не только на имя файла, но и папку 'data', в которой лежит файл. Для того, чтобы объединять названия папок и имена файлов, можно воспользоваться удобным методом os.path.join (в нашем простом случае можно было объединить их через слэш, но в случае длинных адресов этот метод сэкономит вам много времени):

In [37]:
print(os.path.join('data', 'ratings_1.txt'))

data\ratings_1.txt


Проверим такой алгоритм на первом файле (обратите внимание, что мы ставим первый элемент листа с названиями файлов files[0]):

In [38]:
data = pd.read_csv( os.path.join('data', files[0]) )

data.head()

Unnamed: 0,1,31,2.5,1260759144
0,1,1029,3.0,1260759179
1,1,1061,3.0,1260759182
2,1,1129,2.0,1260759185
3,1,1172,4.0,1260759205
4,1,1263,2.0,1260759151


Добавим заголовки:

In [40]:
data = pd.read_csv( os.path.join('data', files[0]), names = ['userId', 'movieId', 'rating', 'timestamp'] )

data.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144
1,1,1029,3.0,1260759179
2,1,1061,3.0,1260759182
3,1,1129,2.0,1260759185
4,1,1172,4.0,1260759205


# Размер данных в папке

С помощью библиотеки os можно автоматизировать огромное количество операций с файлами. Например, можно быстро оценить размер папки, из которой мы собираемся брать данные. В случае больших файлов это очень важно, т. к. при чтении файла в датафрейм (без опции построчного чтения) весь объем файла пишется в оперативную память компьютера. С помощью метода getsize можно получить размер файлов в байтах:

In [41]:
from os.path import join, getsize

In [42]:
for root, dirs, files in os.walk('data'):

    print(sum(getsize(join(root, name)) for name in files))

2438233


# Склеивание датафреймов через concatenate

На прошлом шаге мы получили список файлов в папке и прочитали первый в датафрейм data.Давайте повторим процедуру для всех файлов и склеим все выгрузки в один датафрейм.

В этом нам поможет метод concatenate.

Этот метод позволяем склеивать два и более датафреймов в один. Например, если у нас есть датафреймы df1 и df2 с одинаковыми столбцами, то единую таблицу можно получить следующим образом:

total_dataframe = pd.concat([df1, df2])

Кстати датафреймы можно склеивать не только по строкам (т. е. по вертикали), но и по горизонтали (если число строк у них одинаковое). Для второго варианта необходимо использовать параметр axis = 1: total_dataframe = pd.concat([df1, df2], axis = 1).

Воспользуемся этим приемом: при прохождении по файлам папки data будем записывать содержимое каждого файла в датафрейм temp. И добавлять его к итоговому датафрейму data. Перед этим создадим пустой датафрейм data с нужными названиями столбцов:

data = pd.DataFrame(columns = ['userId', 'movieId', 'rating', 'timestamp'])

Для каждого имени файла filename будем записывать его содержимое в датафрейм temp:

temp = pd.read_csv( os.path.join('data', filename), names = ['userId', 'movieId', 'rating', 'timestamp'] )

И "прибавлять" содержимое очередного файла к data:

data = pd.concat([data, temp])

Использование временного датафрейма temp аналогично тому как мы прибавляем значение к переменной i в цикле: i = i + 1. Только вместо i у нас датафрейм data, а вместо единицы - temp.

# Объединение таблиц (аналог SQL JOIN)

На прошлом шаге мы рассмотрели объединение данных из разных файлов путем простого добавления новых строк в конец датафрейма. Гораздо более интересным и часто встречаемым случаем является пересечение таблиц на основе их общих значений.

В этом шаге мы решим рассмотрим следующую задачу: в файле ratings.csv содержатся значения оценки фильмов вместе с их movieId. А в файле movies.csv - расшифровка названия и жанров фильмов в привязке к movieId.

Давайте получим единый датафрейм, который будет представлять собой объединение этих таблиц по общему значений movieId. Т. е. это аналог SQL JOIN в базах данных.

In [43]:
joined = ratings.merge(movies, how = 'left', on = 'movieId')

joined.head()

Unnamed: 0,userId,movieId,rating,timestamp,type,title,genres,user_match
0,1,31,2.5,1260759144,средний,Dangerous Minds (1995),Drama,False
1,1,1029,3.0,1260759179,средний,Dumbo (1941),Animation|Children|Drama|Musical,False
2,1,1061,3.0,1260759182,средний,Sleepers (1996),Thriller,False
3,1,1129,2.0,1260759185,низкий,Escape from New York (1981),Action|Adventure|Sci-Fi|Thriller,True
4,1,1172,4.0,1260759205,высокий,Cinema Paradiso (Nuovo cinema Paradiso) (1989),Drama,False


# Подводные камни объединения датафреймов

При объединении таблиц могут возникать проблемы, если в таблицах есть дубликаты. В предыдущем примере в таблице ratings дубликаты были в столбце movieId. Однако, при объединении типа 'left' с таблицей movies проблем не возникло, т. к. для каждого movieId из ratings нашлось однозначное соответствие в таблице movies.

Чтобы избежать такой ситуации, необходимо удалить дубликаты из таблицы movies. Для этого подходит метод drop_duplicates. В параметре subset указываем один или несколько столбцов, по комбинации которых хотим удалить дубликаты. С помощью параметра keep указываем какой из встречающихся дубликатов оставить (например, первый или последний):

movies.drop_duplicates(subset = 'movieId', keep = 'first', inplace = True)