# Предобработка датасета

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv("books.csv")
df.head()

Unnamed: 0,bookID,title,authors,average_rating,isbn,isbn13,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher;;;
0,1,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,0439785960,9780439785969,eng,652,2095690,27591,9/16/2006,Scholastic Inc.;;;
1,2,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,0439358078,9780439358071,eng,870,2153167,29221,9/1/2004,Scholastic Inc.;;;
2,4,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,0439554896,9780439554893,eng,352,6333,244,11/1/2003,Scholastic;;;
3,5,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling/Mary GrandPré,4.56,043965548X,9780439655484,eng,435,2339585,36325,5/1/2004,Scholastic Inc.;;;
4,8,Harry Potter Boxed Set Books 1-5 (Harry Potte...,J.K. Rowling/Mary GrandPré,4.78,0439682584,9780439682589,eng,2690,41428,164,9/13/2004,Scholastic;;;


Для начала уберем ненужные столбцы, из которых никак не использовать информацию.

In [3]:
df = df.drop(columns=["bookID", "isbn", "isbn13"])
df.head()

Unnamed: 0,title,authors,average_rating,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher;;;
0,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,eng,652,2095690,27591,9/16/2006,Scholastic Inc.;;;
1,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,eng,870,2153167,29221,9/1/2004,Scholastic Inc.;;;
2,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,eng,352,6333,244,11/1/2003,Scholastic;;;
3,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling/Mary GrandPré,4.56,eng,435,2339585,36325,5/1/2004,Scholastic Inc.;;;
4,Harry Potter Boxed Set Books 1-5 (Harry Potte...,J.K. Rowling/Mary GrandPré,4.78,eng,2690,41428,164,9/13/2004,Scholastic;;;


Посмотрим, нет ли каких-нибудь выбросов в столбцах с рейтингом, количеством страниц, количеством оценок и писмьенных отзывов.

In [4]:
print("min ratinng:", df["average_rating"].min())
print("max ratinng:", df["average_rating"].max())
print("min pages:", df["num_pages"].min())
print("max pages:", df["num_pages"].max())
print("min ratings count:", df["ratings_count"].min())
print("max ratings count:", df["ratings_count"].max())
print("min text reviews count:", df["text_reviews_count"].min())
print("max text reviews count:", df["text_reviews_count"].max())


min ratinng: 0.0
max ratinng: 5.0
min pages: 0
max pages: 6576
min ratings count: 0
max ratings count: 4597666
min text reviews count: 0
max text reviews count: 94265


### Видим, что никаких выбросов в столбце с рейтингом не наблюдается. Однако в других столбцах есть некоторые недочеты. 
### Например, в книге не может быть 0 страниц, поэтому стоит удалить данные позиции, так как точно не известно, сколько в них должно быть страниц, и чтобы они не мешались при проверке гипотез.
### Затем, столбец с общим количеством оценок напрямую влияет на столбец с рейтингом книги, так как рейтинг не может появиться у книги, если у нее нет ни одной оценки. Поэтому следует удалить позиции, у которых количество оценок равно нулю.

In [5]:
df = df.loc[df["num_pages"] > 0]
df = df.loc[df["ratings_count"] > 0]
df

Unnamed: 0,title,authors,average_rating,language_code,num_pages,ratings_count,text_reviews_count,publication_date,publisher;;;
0,Harry Potter and the Half-Blood Prince (Harry ...,J.K. Rowling/Mary GrandPré,4.57,eng,652,2095690,27591,9/16/2006,Scholastic Inc.;;;
1,Harry Potter and the Order of the Phoenix (Har...,J.K. Rowling/Mary GrandPré,4.49,eng,870,2153167,29221,9/1/2004,Scholastic Inc.;;;
2,Harry Potter and the Chamber of Secrets (Harry...,J.K. Rowling,4.42,eng,352,6333,244,11/1/2003,Scholastic;;;
3,Harry Potter and the Prisoner of Azkaban (Harr...,J.K. Rowling/Mary GrandPré,4.56,eng,435,2339585,36325,5/1/2004,Scholastic Inc.;;;
4,Harry Potter Boxed Set Books 1-5 (Harry Potte...,J.K. Rowling/Mary GrandPré,4.78,eng,2690,41428,164,9/13/2004,Scholastic;;;
...,...,...,...,...,...,...,...,...,...
11122,Expelled from Eden: A William T. Vollmann Reader,William T. Vollmann/Larry McCaffery/Michael He...,4.06,eng,512,156,20,12/21/2004,Da Capo Press;;;
11123,You Bright and Risen Angels,William T. Vollmann,4.08,eng,635,783,56,12/1/1988,Penguin Books;;;
11124,The Ice-Shirt (Seven Dreams #1),William T. Vollmann,3.96,eng,415,820,95,8/1/1993,Penguin Books;;;
11125,Poor People,William T. Vollmann,3.72,eng,434,769,139,2/27/2007,Ecco;;;


### Рассмотрим теперь, нет ли выбросов с языком, на котором была написана книга.

In [6]:
df["language_code"].unique()

array(['eng', 'en-US', 'fre', 'spa', 'en-GB', 'mul', 'grc', 'enm',
       'en-CA', 'ger', 'jpn', 'ara', 'nl', 'zho', 'lat', 'por', 'ita',
       'rus', 'msa', 'glg', 'wel', 'swe', 'nor', 'tur', 'gla', 'ale'],
      dtype=object)

### Видим, что у английского есть разветвления в виде канадского, американского и британского английского. Это может помешать при проверке гипотез, поэтому стоит просто заменить эти виды английского на обычный английский.

In [7]:
df.loc[df['language_code']=='en-US', 'language_code'] = 'eng'
df.loc[df['language_code']=='en-GB', 'language_code'] = 'eng'
df.loc[df['language_code']=='en-CA', 'language_code'] = 'eng'
df['language_code'].unique()

array(['eng', 'fre', 'spa', 'mul', 'grc', 'enm', 'ger', 'jpn', 'ara',
       'nl', 'zho', 'lat', 'por', 'ita', 'rus', 'msa', 'glg', 'wel',
       'swe', 'nor', 'tur', 'gla', 'ale'], dtype=object)

### Также при проверке значений в столбце с авторами было замечено такое значение ячейки как "NOT A BOOK". Следует, удалить и строки с данными значениями в столбце с авторами.

In [8]:
df = df.loc[df["authors"]!='NOT A BOOK']

## Теперь можно считать, что датасет готов к проверке гипотез