In [41]:
import pandas as pd

# Подготовка данных

Data Science (DS) – это наука о данных. С данными работают и другие науки. Особенность DS в том, что здесь 1) обрабатывают большие данные, 2) не понимают процесс, который стоит за данными. Поэтому DS – это обработка больших данных с целью понять процесс, который стоит за этими данными, но только на основе количественных, вероятностных методов. В самом деле, будь в науках, к которым относятся данные, понимание этих данных, то и DS не понадобился бы. 

Так как DS надо обрабатывать большие данные, причем математически, то используются компьютеры. Это означает, что DS вынуждено так обрабатывать данные, чтобы соответствовать всем ограничениям, налагаемым еще и программированием. "Еще", потому что большие данные плюс математика уже предъявляют свои требования. Итого получаем три главных фактора, которые стоят между специалистом по DS и пониманием данных: 1) большие данные, 2) математика, 3) программирование. Именно эти препятствия, которые одновременно и единственные методы DS, определят все особенности DS.

Во всех классических учебниках по DS вы получите примерно такой вводный план:
1) собрать данные;
2) подготовить данные для обработки;
3) обработать данные статистикой. Это необходимо, чтобы попытаться понять данные. Если бы на этом этапе смогли понять те законы, по которым развиваются процессы, описанные данными, то это было бы последним шагом. Однако именно это невозможно. На этом этапе мы получаем только гипотезы о процессах, чтобы иметь возможность лучше использовать машинное обучение. Этот этап может быть и заключительным, если нам не нужно предсказывать данные;
4) машинное обучение. На этом этапе на основании статистического понимания процессов мы пытаемся предсказать данные. 

Это выглядит логично. Проблема только в том, что жизнь работает иначе. Вы не собираете данные, не очищаете их, надеясь получить знания. Вы сначала хотите получить знания, применяете какие-то методы, убеждаетесь, что для применения этих методов требуется очистка данных, а уж затем эту очистку данных и производите. Повторив это раз-другой вы убедитесь, что начинать стоит, возможно, именно с очистки данных. Однако, если раньше вы могли и не догадываться, зачем бороться с пропусками в данных, то теперь-то вы точно знаете, что наличие пропусков просто повредит применению тех способов, которые вам нужны.

Таким образом, здесь хорошо бы начать с линейной регрессии. Однако мы выберем все же более классическое начало, ведь абзацем выше более правильный подход был намечен. Теперь же сделаем вид, что на собственном опыте убедились – начинать надо со сбора и подготовки данных. Пусть так, теперь давайте наметим, что такое "обработка статистикой" и "машинное обучение".

Статистическая обработка нацелена на:
1) группировку данных;
1) описание групп (медиана, среднее и т.п.); 
2) описание взаимодействия между различными группами данных (корреляция и т.п.). 

Машинное обучение нацелено на создание алгоритма, который позволит предсказывать целевой признак на основании заданных признаков в автоматизированном режиме. Другими словами, статистическая обработка позволяет понять процессы, а машинное обучение - предсказать процессы.

Однако начинается все с предварительной подготовки данных. Состав подготовки зависит от качества данных. Качество определяется тем видом, в котором пришли данные, а также полнотой данных. Данные могут быть в табличной форме, текстовой и т.п. Данные могут полностью описывать изучаемый процесс, содержать пропуски, неправильные данные и т.п. От всего этого зависит, как правильно подготовить данные. В этой книге мы будем заниматься табличными данными о книгах. Данные достаточно полные, в них нет пропусков, а определенные странности в данных, которые могут нам помешать, мы устраним. 

В общем же случае подготовка данных включает в себя такие этапы:
1) очистка имеющихся данных;
2) понимание данных;
2) дополнение данных. 

Выше мы писали, что DS возникает для задач, для которых у нас нет понимания процессов, а в предыдущем абзаце пишем, что нужно понимать данные. Как же так? Так или иначе, но у нас есть картина мира, в которую вписываются или не очень данные, полученные нами. Так, например, мы не знаем точно закона, по которому люди ставят оценки книгам. Однако у нас есть представление как о процессе чтения книг, так и о процессе проставления оценок.

Универсальный перечень этапов подготовки данных дать нельзя, потому что слишком уж много разных недостатков может быть в данных. Однако вот примерный перечень, который будет полезен для обработки наших данных:
1) проверка правильности формирования индекса, наименования столбцов (признаков). Например, может быть обнаружено, что в наименовании столбцов есть лишние пробелы;
2) проверка типа данных. Например, численные данные могут быть отмечены как объекты или наоборот;
3) поиск дубликатов;
4) очистка строковых данных от лишних символов. Например, наличие слэша там, где это очевидно неуместно;
5) обработка значений, которые очевидно являются ошибочными. Например, в столбце с количеством страниц указан жанр книги и т.п.;
6) проверка на чистоту признаков. Нельзя смешивать категориальные данные и числовые в одном признаке.

Дополнение данных включает:
1) создание новых признаков. Например, по значениям двух уже имеющихся столбцов можно создать третий;
2) укрупнение категорий в категориальных признаках.

Перед тем, как мы начнем изучать наши данные, нужно сделать такое отступление. Приводить код мы не будем. Во-первых, этот код мы разместим на GitHub. Во-вторых, во времена, когда программировать помогает ИИ, большого смысла в нашем коде нет, так как он не содержит ничего специфичного. 

In [42]:
data = pd.read_csv('books.csv', on_bad_lines='skip')
data.info()
data.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11123 entries, 0 to 11122
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   bookID              11123 non-null  int64  
 1   title               11123 non-null  object 
 2   authors             11123 non-null  object 
 3   average_rating      11123 non-null  float64
 4   isbn                11123 non-null  object 
 5   isbn13              11123 non-null  int64  
 6   language_code       11123 non-null  object 
 7     num_pages         11123 non-null  int64  
 8   ratings_count       11123 non-null  int64  
 9   text_reviews_count  11123 non-null  int64  
 10  publication_date    11123 non-null  object 
 11  publisher           11123 non-null  object 
dtypes: float64(1), int64(5), object(6)
memory usage: 1.0+ MB


Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,439785960,9780439785969,eng,652,2095690,27591,9/16/2006,Scholastic Inc.
1,2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,439358078,9780439358071,eng,870,2153167,29221,9/1/2004,Scholastic Inc.
2,4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,439554896,9780439554893,eng,352,6333,244,11/1/2003,Scholastic


In [43]:
# Применяем стили только к выводу (не меняя сами данные)
(data.head(3).style
    # Форматируем числа (например, рейтинг)
    .format({'average_rating': '{:.2f}', 'ratings_count': '{:,}'})
    
    # Выравниваем текст по левому краю для удобства чтения названий
    .set_properties(**{'text-align': 'left'})
    
    # Можно скрыть индекс (0, 1, 2...), если он не несет смысла
    .hide(axis='index')
)

bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
1,Harry Potter and the Half-Blood Prince (Harry Potter #6),J.K. Rowling/Mary GrandPré,4.57,439785960,9780439785969,eng,652,2095690,27591,9/16/2006,Scholastic Inc.
2,Harry Potter and the Order of the Phoenix (Harry Potter #5),J.K. Rowling/Mary GrandPré,4.49,439358078,9780439358071,eng,870,2153167,29221,9/1/2004,Scholastic Inc.
4,Harry Potter and the Chamber of Secrets (Harry Potter #2),J.K. Rowling,4.42,439554896,9780439554893,eng,352,6333,244,11/1/2003,Scholastic


In [44]:
small_df = data.head(10)

# Определение стилей CSS
styles = [
    # Стили для заголовков столбцов (th)
    dict(selector="th", props=[
        ("font-size", "10pt"),
        ("text-align", "center"),
        ("padding", "4px"),
        ("background-color", "#2966d7"), # Легкий серый фон для шапки
        ("border-bottom", "2px solid #ccc")
    ]),
    # Стили для обычных ячеек данных (td)
    dict(selector="td", props=[
        ("font-size", "9pt"),
        ("padding", "2px"),
        ("border", "1px solid #eee") # Тонкие границы
    ])
]

# Применение стилей
(small_df.style
    .set_table_styles(styles)
    # Дополнительно можно скрыть индекс, чтобы выиграть еще места слева
    .hide(axis='index')
    # Обрезка длинных названий (критично для компактности)
    .set_properties(subset=['title'], **{'max-width': '200px', 'text-overflow': 'ellipsis', 'overflow': 'hidden', 'white-space': 'nowrap'})
)

bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
1,Harry Potter and the Half-Blood Prince (Harry Potter #6),J.K. Rowling/Mary GrandPré,4.57,0439785960,9780439785969,eng,652,2095690,27591,9/16/2006,Scholastic Inc.
2,Harry Potter and the Order of the Phoenix (Harry Potter #5),J.K. Rowling/Mary GrandPré,4.49,0439358078,9780439358071,eng,870,2153167,29221,9/1/2004,Scholastic Inc.
4,Harry Potter and the Chamber of Secrets (Harry Potter #2),J.K. Rowling,4.42,0439554896,9780439554893,eng,352,6333,244,11/1/2003,Scholastic
5,Harry Potter and the Prisoner of Azkaban (Harry Potter #3),J.K. Rowling/Mary GrandPré,4.56,043965548X,9780439655484,eng,435,2339585,36325,5/1/2004,Scholastic Inc.
8,Harry Potter Boxed Set Books 1-5 (Harry Potter #1-5),J.K. Rowling/Mary GrandPré,4.78,0439682584,9780439682589,eng,2690,41428,164,9/13/2004,Scholastic
9,"Unauthorized Harry Potter Book Seven News: ""Half-Blood Prince"" Analysis and Speculation",W. Frederick Zimmerman,3.74,0976540606,9780976540601,en-US,152,19,1,4/26/2005,Nimble Books
10,Harry Potter Collection (Harry Potter #1-6),J.K. Rowling,4.73,0439827604,9780439827607,eng,3342,28242,808,9/12/2005,Scholastic
12,The Ultimate Hitchhiker's Guide: Five Complete Novels and One Story (Hitchhiker's Guide to the Galaxy #1-5),Douglas Adams,4.38,0517226952,9780517226957,eng,815,3628,254,11/1/2005,Gramercy Books
13,The Ultimate Hitchhiker's Guide to the Galaxy (Hitchhiker's Guide to the Galaxy #1-5),Douglas Adams,4.38,0345453743,9780345453747,eng,815,249558,4080,4/30/2002,Del Rey Books
14,The Hitchhiker's Guide to the Galaxy (Hitchhiker's Guide to the Galaxy #1),Douglas Adams,4.22,1400052920,9781400052929,eng,215,4930,460,8/3/2004,Crown


Живи мы в лучшем из миров, данные воспринимались бы как процесс, развитие. Тогда в таблице мы должны были бы увидеть не перечисление признаков, а процесс, описание процесса. О каком процессе идет речь в данных? Автор пишет книгу. Издательство издает книгу. Книга попадает читателю. Сайт, который предоставляет данные, имеет определенный функционал оценивания. Читатель оценивает книгу.

Однако нам пока так не повезло, с миром. В этой книге наша цель - показать, как DS устроен сейчас, и только чуть-чуть наметить, как же правильно, диалектически применять DS. Поэтому мы будем идети по классическому пути подготовки данных. 

Разберем наши признаки по этапам этого процесса.

Автор пишет книгу:
1) title;
2) authors

Книгу издают:
1) isbn;
2) isbn13;
3) language_code;
4) num_pages;
5) publication_date;
6) publisher.

Здесь важно отметить, что автор почти не влияет на конкретное количество страниц, язык, дату публикации, хотя может показаться иначе. Однако автор не может заранее предсказать, на какой язык его переведут, в каком формате издадут (от этого зависит количество страниц), в какой день выйдет его книга.

Книгу читают:

этот этап в данных пропущен. Что его могло бы характеризовать? Сколько дней книгу читают, делают ли заметки и прочее.

У сайта есть определенный функционал:

этот функционал представлен всем набором данных, сам набор и отражает такой функционал.

Книгу оценивают:
1) average_rating;
2) ratings_count;
3) text_reviews_count.

Уже здесь мы видим, что выпадает bookID. Этот признак не имеет отношения к нашему процессу, он только служит для нумерации книг в таблице. Поэтому данный признак можно удалить. 

In [45]:
data.drop('bookID', axis=1, inplace=True)
data.head(3)

Unnamed: 0,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
0,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,439785960,9780439785969,eng,652,2095690,27591,9/16/2006,Scholastic Inc.
1,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,439358078,9780439358071,eng,870,2153167,29221,9/1/2004,Scholastic Inc.
2,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,439554896,9780439554893,eng,352,6333,244,11/1/2003,Scholastic


In [46]:
small_df = data.head(10)

# Определение стилей CSS
styles = [
    # Стили для заголовков столбцов (th)
    dict(selector="th", props=[
        ("font-size", "10pt"),
        ("text-align", "center"),
        ("padding", "4px"),
        ("background-color", "#2966d7"), # Легкий серый фон для шапки
        ("border-bottom", "2px solid #ccc")
    ]),
    # Стили для обычных ячеек данных (td)
    dict(selector="td", props=[
        ("font-size", "9pt"),
        ("padding", "2px"),
        ("border", "1px solid #eee") # Тонкие границы
    ])
]

# Применение стилей
(small_df.style
    .set_table_styles(styles)
    # Дополнительно можно скрыть индекс, чтобы выиграть еще места слева
    .hide(axis='index')
    # Обрезка длинных названий (критично для компактности)
    .set_properties(subset=['title'], **{'max-width': '200px', 'text-overflow': 'ellipsis', 'overflow': 'hidden', 'white-space': 'nowrap'})
)

title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher
Harry Potter and the Half-Blood Prince (Harry Potter #6),J.K. Rowling/Mary GrandPré,4.57,0439785960,9780439785969,eng,652,2095690,27591,9/16/2006,Scholastic Inc.
Harry Potter and the Order of the Phoenix (Harry Potter #5),J.K. Rowling/Mary GrandPré,4.49,0439358078,9780439358071,eng,870,2153167,29221,9/1/2004,Scholastic Inc.
Harry Potter and the Chamber of Secrets (Harry Potter #2),J.K. Rowling,4.42,0439554896,9780439554893,eng,352,6333,244,11/1/2003,Scholastic
Harry Potter and the Prisoner of Azkaban (Harry Potter #3),J.K. Rowling/Mary GrandPré,4.56,043965548X,9780439655484,eng,435,2339585,36325,5/1/2004,Scholastic Inc.
Harry Potter Boxed Set Books 1-5 (Harry Potter #1-5),J.K. Rowling/Mary GrandPré,4.78,0439682584,9780439682589,eng,2690,41428,164,9/13/2004,Scholastic
"Unauthorized Harry Potter Book Seven News: ""Half-Blood Prince"" Analysis and Speculation",W. Frederick Zimmerman,3.74,0976540606,9780976540601,en-US,152,19,1,4/26/2005,Nimble Books
Harry Potter Collection (Harry Potter #1-6),J.K. Rowling,4.73,0439827604,9780439827607,eng,3342,28242,808,9/12/2005,Scholastic
The Ultimate Hitchhiker's Guide: Five Complete Novels and One Story (Hitchhiker's Guide to the Galaxy #1-5),Douglas Adams,4.38,0517226952,9780517226957,eng,815,3628,254,11/1/2005,Gramercy Books
The Ultimate Hitchhiker's Guide to the Galaxy (Hitchhiker's Guide to the Galaxy #1-5),Douglas Adams,4.38,0345453743,9780345453747,eng,815,249558,4080,4/30/2002,Del Rey Books
The Hitchhiker's Guide to the Galaxy (Hitchhiker's Guide to the Galaxy #1),Douglas Adams,4.22,1400052920,9781400052929,eng,215,4930,460,8/3/2004,Crown


Таким образом мы уже начали очистку данных. Выполним и другие виды очистки. Повторимся, что единого алгоритма подобной очистки данных нет. На что обратить внимание - это зависит от конкретного набора данных. Однако на практике часто встречаются со следующим:
1) проверка названий столбцов;
2) поиск дубликатов;
2) проверка типов объектов;
3) проверка дат;
4) проверка на аномальные значения.

В названиях столбцов обнаруживается '  num_pages', то есть лишний пробел. Исправим это. Вот как будет выглядеть список названий столбцов: 'title', 'authors', 'average_rating', 'isbn', 'isbn13', 'language_code', 'num_pages', 'ratings_count', 'text_reviews_count', 'publication_date',
'publisher'.

In [47]:
# проверяем названия столбцов
db = data.copy()
db = db.rename(columns = {'  num_pages' : 'num_pages'})
db.columns

Index(['title', 'authors', 'average_rating', 'isbn', 'isbn13', 'language_code',
       'num_pages', 'ratings_count', 'text_reviews_count', 'publication_date',
       'publisher'],
      dtype='object')

Теперь мы будем искать дубликаты в данных.

Мы можем искать либо полные дубликаты, либо искать дубликаты выборочно. Здесь надо обратить внимание, что **isbn** является уникальным идентификатором каждой изданной книги. Поэтому логично искать дубликаты только по этому признаку, так как книги вполне могут совпадать по иным признакам и это нормально.

Давайте на минутку остановимся и задумаемся. **isbn** делают для каждого издания книги. У книги может быть один автор, название, количество страниц - во всем книга будет совпадать с прежним изданием. Однако это будут две разные книги с позиции **isbn**. Нам это нужно запомнить, потому что читатели ставят оценку не книги вообще, а конкретному изданию книги.

Исследование наше показывает, что дубликатов по **isbn** нет. Изучим типы объектов.

Видим, что есть 11 признаков (нумерация начинается с 0 и продолжается до 10) и 11123 наблюдений (строк). Пропусков нет (количество объектов по столбцам одинаковое). Индекс у нас это RangeIndex. По типам данных заметно две проблемы. **isbn** помечен как объект, а **isbn13** как int64. Кроме того, **publication_date** помечен как объект, хотя это очевидно дата. Изменим тип данных.

В результате этого в **publication_date** появилось два пропущенных значения. Так как подобных строк всего две, можно их удалить.

In [48]:
# проверяем на дубликат
db.duplicated(subset=['isbn13']).sum()

# изменяем тип объектов
db['isbn13'] = db['isbn13'].astype('object')
db['publication_date'] = pd.to_datetime(db['publication_date'], errors='coerce')

# удаляем пропущенные значения
db = db.loc[~db['publication_date'].isin(['NaT'])]

# смотрим типы объектов
db.info() 


<class 'pandas.core.frame.DataFrame'>
Index: 11121 entries, 0 to 11122
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   title               11121 non-null  object        
 1   authors             11121 non-null  object        
 2   average_rating      11121 non-null  float64       
 3   isbn                11121 non-null  object        
 4   isbn13              11121 non-null  object        
 5   language_code       11121 non-null  object        
 6   num_pages           11121 non-null  int64         
 7   ratings_count       11121 non-null  int64         
 8   text_reviews_count  11121 non-null  int64         
 9   publication_date    11121 non-null  datetime64[ns]
 10  publisher           11121 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(3), object(6)
memory usage: 1.0+ MB


  db = db.loc[~db['publication_date'].isin(['NaT'])]


Теперь нам надо искать аномалии в данных. Для этого возьмем стандартное описание данных.

In [49]:
db.describe(include='number')

Unnamed: 0,average_rating,num_pages,ratings_count,text_reviews_count
count,11121.0,11121.0,11121.0,11121.0
mean,3.934058,336.343944,17945.12,542.118874
std,0.350513,241.129968,112509.1,2576.845134
min,0.0,0.0,0.0,0.0
25%,3.77,192.0,104.0,9.0
50%,3.96,299.0,745.0,47.0
75%,4.14,416.0,4996.0,238.0
max,5.0,6576.0,4597666.0,94265.0


Мы видим, что минимальное количество страниц - это 0. Нам важно, чтобы книги были книгами. По тем данным, которые у нас есть, это можно определить только на основании количества страниц. Если у книги нет страниц, то это не книга или не бумажная книга. Поэтому мы удалим такие "книги" из набора. 

Кроме того, предполагая, что могут быть издательства, издающие только аудио книги, мы удалим и их, предварительно оценив их количество.

In [None]:
# удаляем книги с нулевым количеством страниц
# и изданные издательствами аудиокниг

n_start = db.shape[0]

mask = db['publisher'].str.contains('audio', case=False, na=False)
zero_pages_count = (db['num_pages'] == 0).sum()

print(f"Книг с нулевым количеством страниц: {zero_pages_count }")
print(f"Книг от издательств аудиокниг: {mask.sum()}")

db = db[~db['publisher'].str.contains('audio', case=False, na=False)]
db = db[db['num_pages'] > 0]
db.reset_index(drop=True, inplace=True)

n_end = db.shape[0]
delta = n_start - n_end

print("-" * 30)
print(f"Фактически удалено строк: {delta}")
print(f"Текущий размер датасета: {n_end}")

Книг с нулевым количеством страниц: 76
Книг от издательств аудиокниг: 181
------------------------------
Фактически удалено строк (A U B): 211
Текущий размер датасета: 10910


Нас не интересуют ситуации, когда у книги нулевой рейтинг. Поэтому посмотрим, сколько таких значений, а затем удалим их.

In [51]:
# удаляем книги с нулевым рейтингом
n_start = db.shape[0]

mask_zero_rating = (db['average_rating'] == 0)

print(f"Книг с нулевым рейтингом: {mask_zero_rating.sum()}")

db = db[~mask_zero_rating]
db.reset_index(drop=True, inplace=True)

n_end = db.shape[0]
delta = n_start - n_end

print("-" * 30)
print(f"Фактически удалено строк: {delta}")
print(f"Текущий размер датасета: {n_end}")

Книг с нулевым рейтингом: 25
------------------------------
Фактически удалено строк: 25
Текущий размер датасета: 10885


Теперь стоит обдумать наши данные. Мы видим данные как процесс, а не как набор признаков: автор пишет книгу, издательство издает... Мы осознали, что издательство может одну и ту же книгу издавать несколько раз под разными isbn.

Добавлять нужно те признаки, которые еще сильнее превращают данные в историю, а также показывают изменение данных. Издания под разными isbn могут отражать разные годы, даже десятилетия издания. Это может отражать изменение предпочтений читателей. Мы знаем, что оценки ставить на сайте стало можно с нулевых, а книги могут быть изданы и раньше. Кроме того, читатели могут оценивать не конкретное издание, которое они прочитали, а то издание, которое выпало по названию. Как все это учесть?

Здесь мы вспоминаем, что именно специалист по DS заставляет данные двигаться, наполняет их историей. Это невозможно без определенной гипотезы о данных. Нашими гипотезами будут такие: 1) читатели ставят оценки не конкретном изданию, а книге; 2) читатели ставят оценки не переводу, если он есть, а книге. Наличие перевода мы определяем по наличию второго автора после слэша. 

Для реализации этой гипотезы, мы в колонке автора уберем слэш и второго автора. После этого мы удалим те дубли, у которых меньше оценок. Мы также добавим указание на то, что у книги были другие издания, их количество. Указание же на издательство мы уберем. Год издания мы оставим, чтобы изучать, например, классические произведения.

Теперь мы введем еще одну гипотезу. Мы оставим из даты только год и квартал. Квартал, в который издают книги, играет важную роль в издательском бизнесе, популярные книги ставят в один месяц, непопулярные в другой.

In [None]:
db = db.copy()
db['authors'] = db['authors'].str.split('/').str[0]
db['editions_count'] = db.groupby(['title', 'authors'])['isbn'].transform('count')
db.sort_values(by='ratings_count', ascending=False, inplace=True)

# удаляем дубли пары (Название + Автор), оставляя только верхнюю строку
db = db.drop_duplicates(subset=['title', 'authors'], keep='first')

db.drop('publisher', axis=1, inplace=True)

db.reset_index(drop=True, inplace=True)

db['publication_date'] = pd.to_datetime(db['publication_date'], errors='coerce')
db['year'] = db['publication_date'].dt.year
db['quarter'] = db['publication_date'].dt.quarter
db.dropna(subset=['year'], inplace=True)
db['year'] = db['year'].astype(int)
db['quarter'] = db['quarter'].astype(int)
db.drop('publication_date', axis=1, inplace=True)
db = db.drop(['isbn', 'isbn13'], axis=1) 
print(db[['title', 'year', 'quarter']].head())

In [52]:
# Оптимизация: используем векторные операции внутри цепочки
db = (
    db.assign(
        # 1. Очистка авторов (векторная обработка строк)
        authors=lambda x: x['authors'].str.split('/').str[0],
        
        # 2. Вычисление частот (Window Function)
        editions_count=lambda x: x.groupby(['title', 'authors'])['isbn'].transform('count'),
        
        # 3. Парсинг даты (сразу в datetime)
        publication_date=lambda x: pd.to_datetime(x['publication_date'], errors='coerce')
    )
    # 4. Сортировка для жадного выбора (Greedy Selection) лучшего издания
    .sort_values(by='ratings_count', ascending=False)
    
    # 5. Дедупликация (фильтрация множества)
    .drop_duplicates(subset=['title', 'authors'], keep='first')
    
    # 6. Удаление пустых дат перед извлечением компонентов
    .dropna(subset=['publication_date'])
    
    # 7. Извлечение темпоральных признаков и приведение типов
    .assign(
        year=lambda x: x['publication_date'].dt.year.astype(int),
        quarter=lambda x: x['publication_date'].dt.quarter.astype(int)
    )
    
    # 8. Удаление лишних измерений (Dimensionality Reduction)
    .drop(columns=['publisher', 'publication_date', 'isbn', 'isbn13'], errors='ignore')
    .reset_index(drop=True)
)

print(db[['title', 'year', 'quarter']].head())

                                               title  year  quarter
0                            Twilight (Twilight  #1)  2006        3
1                The Hobbit  or There and Back Again  2002        3
2                             The Catcher in the Rye  2001        1
3               Angels & Demons (Robert Langdon  #1)  2006        2
4  Harry Potter and the Prisoner of Azkaban (Harr...  2004        2


In [56]:
small_df = db.head(10)

# Определение стилей CSS
styles = [
    # Стили для заголовков столбцов (th)
    dict(selector="th", props=[
        ("font-size", "10pt"),
        ("text-align", "center"),
        ("padding", "4px"),
        ("background-color", "#2966d7"), # Легкий серый фон для шапки
        ("border-bottom", "2px solid #ccc")
    ]),
    # Стили для обычных ячеек данных (td)
    dict(selector="td", props=[
        ("font-size", "9pt"),
        ("padding", "2px"),
        ("border", "1px solid #eee") # Тонкие границы
    ])
]

# Применение стилей
(small_df.style
    .set_table_styles(styles)
    # Дополнительно можно скрыть индекс, чтобы выиграть еще места слева
    .hide(axis='index')
    # Обрезка длинных названий (критично для компактности)
    .set_properties(subset=['title'], **{'max-width': '200px', 'text-overflow': 'ellipsis', 'overflow': 'hidden', 'white-space': 'nowrap'})
)

title,authors,average_rating,language_code,num_pages,ratings_count,text_reviews_count,editions_count,year,quarter
Twilight (Twilight #1),Stephenie Meyer,3.59,eng,501,4597666,94265,1,2006,3
The Hobbit or There and Back Again,J.R.R. Tolkien,4.27,eng,366,2530894,32871,1,2002,3
The Catcher in the Rye,J.D. Salinger,3.8,eng,277,2457092,43499,1,2001,1
Angels & Demons (Robert Langdon #1),Dan Brown,3.89,eng,736,2418736,21303,3,2006,2
Harry Potter and the Prisoner of Azkaban (Harry Potter #3),J.K. Rowling,4.56,eng,435,2339585,36325,2,2004,2
Harry Potter and the Chamber of Secrets (Harry Potter #2),J.K. Rowling,4.42,eng,341,2293963,34692,2,1999,2
Harry Potter and the Order of the Phoenix (Harry Potter #5),J.K. Rowling,4.49,eng,870,2153167,29221,1,2004,3
The Fellowship of the Ring (The Lord of the Rings #1),J.R.R. Tolkien,4.36,eng,398,2128944,13670,2,2003,3
Animal Farm,George Orwell,3.93,eng,122,2111750,29677,1,2003,2
Harry Potter and the Half-Blood Prince (Harry Potter #6),J.K. Rowling,4.57,eng,652,2095690,27591,2,2006,3


In [55]:
db.to_csv('gd_clean_data.csv', index=False)

Нам нужно найти развитие в данных. Машина этого не может. Мы можем, но как искать? Искать А, искать В? Часто проще найти противоречие. Где противоречие, там и развитие. Мы решаем две задачи: 1) понять данные, 2) предсказать данные. Понимать мы будем весь набор, предсказывать - оценку от читателей.

Для понимания всей таблицы нам надо определить, а что является той клеточкой, из которой вырастают эти данные? Это неясно пока. Обычно ищут исторически. Из чего зарождается тот процесс, который мы наблюдаем в данных. Не из производства книги, хотя без него нельзя. Зарождение происходит в момент столкновения книги и читателя. Но где это в данных? Эту таблицу порождает чтение. Но что говорит нам о чтении? Только язык и количество страниц.

К полученным данным нужно еще несколько замечаний.

1. С 2007 возможность оценки появилась. Поэтому до 2007 мы имеем ретроспективные оценки, а после - по мере органического роста продаж.

2. В издательском бизнесе самые прибыльные периоды - осень. Так, например, в Великобритании издатели стараются издать главные книги в начале октября, чтобы книги добрались до магазинов к покупке рождественских подарков. В мае и июне стараются издавать легкие детективы, триллеры, любовные романы, то есть то, что можно почитать в отпуске. В январе издают бизнес-литературу, книги по саморазвитию, диетам. В августе книги издаются мало. В США процессы аналогичные. Книги стараются издать в сентябре-середине ноября. Это время для серьезной литературы, которая может претендовать на престижные премии.

3. Количество страниц в книге определяется технологией печати. Книги печатают на больших листах, которые затем складываются и разрезаются. Учитывая, что эти листы затем склеиваются, то оптимальным считается объем в 300 страниц. Книги на 400 и более страниц требуют другого, более дорогого переплета. 

4. Каснемся вопроса о разведочном анализе данных – ведущем направлении в Data Science на Западе. Это направление, которое начал разрабатывать Джон Тьюки в 70-ые, стремится оценить данные "по-быстренькому". Поэтому основывается она на визуализации, графиках. Никто не запретит такой подход. Графики вполне могут оказаться полезными, однако упор на них делать не нужно. Наоборот, упор на графики подчеркивает стремление формализовать данные, процессы, которые этими данными описываются. Вместо того, чтобы понять данные, мы хотим их описать так, чтобы они, эти данные, нам что-то сказали этим своим формальным описанием. 

Пускай наш мир даже состоит из объектов, а не из процессов. Или представим, что в понятие объекта мы включили и процессы. Объекты имеют качественные и количественные характеристики. Это не две разные категории, они взаимосвязаны. Качество описывается количеством, количество - это количество конкретного качества.

Данные в нашей таблице говорят о качестве - страницы, издательства, но о качестве, имеющем определенное количество - 300 страниц. Одни данные останавливаются только на качестве - такие данные называют категориальными, другие говорят о количестве - такие данные и называют количественными. Данные могут быть и порядковыми, то есть выражены в числах, но без значения количества. Собственно рейтинг книги - это количественное описание качества или порядковые данные?

В зависимости от типа данных, их количества выбирают и тип графика. Для одного количественного признака хорошо подходит гистограмма. Для двух количественных признаков можно взять диаграмму рассеяния. Качественные признаки можно исследовать с помощью столбчатых диаграмм. 