In [None]:
'''Цель исследования - проанализировать зависимости между ценой книг, количеством страниц в них, популярностью, 
а также определить, влияет ли качественная характеристика переплета (твердый или мягкий) на итоговую среднюю цену
одной страницы книги.
Для анализа был получен датасет путем парсинга сайта book24.ru раздел "Бестселлеры"
названия колонок: 
- cover - тип переплета, М - мягкий, Т - твердый
- name - наименование книги
- pages - количество страниц в книге
- price - цена книги
- purchase - количество покупок данной книги на сайте (популярность)'''

In [2]:
import pandas as pd
import numpy as np
from scipy import stats

In [3]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)

In [4]:
book_df = pd.read_csv('\book24ru.csv', delimiter=',')
book_df

Unnamed: 0,cover,name,pages,price,purchase
0,Т,Тунсю Мосян: Благословение небожителей. Том 1,416,1150,1174
1,Т,Лия Арден: Мара и Морок,384,593,2115
2,Т,Семизорова Ирина Николаевна: Нереальная любовь. Как найти своего человека и построить крепкие отношения,288,625,146
3,Т,Елена Кей Елена: Йога. Современное руководство по решению проблем,368,2495,166
4,Т,"Ольга Примаченко: К себе нежно. Книга о том, как ценить и беречь себя",336,759,2826
5,М,"Некрасова Лера: Жизнь после смерти. История о том, что нас ждёт между воплощениями",288,472,173
6,Т,Трейси Вульф: Желание,752,835,370
7,М,Михаил Лабковский: Люблю и понимаю. Как растить детей счастливыми (и не сойти с ума от беспокойства),288,789,595
8,М,Антон Петроченков: Маркетинг для немаркетологов. Руководство по созданию успешных маркетинговых стратегий и увеличению прибыли,320,975,176
9,М,Джордж Оруэлл: 1984,318,290,7572


In [5]:
book_df.describe()

Unnamed: 0,pages,price,purchase
count,266.0,266.0,266.0
mean,423.759398,625.578947,1120.913534
std,185.751555,325.165461,1296.942446
min,64.0,140.0,68.0
25%,318.5,425.25,187.5
50%,416.0,624.5,637.5
75%,512.0,734.0,1594.75
max,2022.0,2495.0,7572.0


In [6]:
cost_page_mean = book_df["price"] / book_df["pages"] #рассчитаем стоимость 1 страницы книг
cost_page_mean

0      2.764423
1      1.544271
2      2.170139
3      6.779891
4      2.258929
5      1.638889
6      1.110372
7      2.739583
8      3.046875
9      0.911950
10     1.424107
11     1.007812
12     1.798611
13     1.134868
14     1.176282
15     1.121875
16     1.055921
17     1.870833
18     1.272917
19     1.587054
20     1.433036
21     1.562500
22     0.883929
23     3.493750
24     1.796875
25     1.790865
26     1.531915
27     1.271635
28     0.508929
29     1.546875
30     5.166667
31     1.377604
32     1.271635
33     0.492188
34     1.292969
35     1.433036
36     0.590625
37     1.433036
38     1.323661
39     1.933594
40     0.955357
41     1.337500
42     1.337500
43     1.143750
44     1.139803
45     1.199219
46     1.379167
47     2.062500
48     1.917614
49     2.839286
50     1.658654
51     1.725694
52     1.375000
53     1.425481
54     0.590625
55     0.567708
56     1.068452
57     0.769886
58     1.180147
59     0.796875
60     1.003125
61     1.207237
62     1

In [7]:
cost_page_mean.describe()

count    266.000000
mean       1.664261
std        1.172296
min        0.269345
25%        1.055921
50%        1.360119
75%        1.806286
max        7.847222
dtype: float64

In [8]:
r = book_df["purchase"].corr(cost_page_mean) #незначительная отрицательная корреляция между популярностью кники и ценой 1 страницы
r

-0.2888125973747414

In [9]:
r2 = book_df["pages"].corr(book_df["purchase"]) #отсутствует корреляция между кол-вом страниц в книге и ее популярностью
r2

-0.019987679269328366

In [10]:
r3 = book_df["pages"].corr(book_df["price"]) #небольшая положительная связь между кол-вом страниц в книге и ее ценой
r3

0.2501305591667715

In [11]:
r4 = book_df["purchase"].corr(book_df["price"]) #небольшая отрицательная связь между популярностью книги и ее ценой
r4

-0.3349246023228177

In [12]:
r5 = book_df["pages"].corr(cost_page_mean) #небольшая отрицательная связь между кол-вом страниц в книге и стоимостью 1 страницы
r5

-0.3672377189426335

In [13]:
book_df['cover'].value_counts() #Т - твердый переплет, М - мягкий переплет

Т    199
М     67
Name: cover, dtype: int64

In [14]:
book_df_1 = pd.concat([book_df['cover'], cost_page_mean], sort=False, axis=1) #средняя цена 1 страницы книги в зависимости от переплета
book_df_1.rename(columns={0 : 'cpm'}, inplace=True)
book_df_1['cpm']

0      2.764423
1      1.544271
2      2.170139
3      6.779891
4      2.258929
5      1.638889
6      1.110372
7      2.739583
8      3.046875
9      0.911950
10     1.424107
11     1.007812
12     1.798611
13     1.134868
14     1.176282
15     1.121875
16     1.055921
17     1.870833
18     1.272917
19     1.587054
20     1.433036
21     1.562500
22     0.883929
23     3.493750
24     1.796875
25     1.790865
26     1.531915
27     1.271635
28     0.508929
29     1.546875
30     5.166667
31     1.377604
32     1.271635
33     0.492188
34     1.292969
35     1.433036
36     0.590625
37     1.433036
38     1.323661
39     1.933594
40     0.955357
41     1.337500
42     1.337500
43     1.143750
44     1.139803
45     1.199219
46     1.379167
47     2.062500
48     1.917614
49     2.839286
50     1.658654
51     1.725694
52     1.375000
53     1.425481
54     0.590625
55     0.567708
56     1.068452
57     0.769886
58     1.180147
59     0.796875
60     1.003125
61     1.207237
62     1

In [35]:
soft_cover = book_df_1['cover'].isin(['М'])
s = book_df_1[soft_cover]['cpm']
s

5      1.638889
7      2.739583
8      3.046875
9      0.911950
11     1.007812
22     0.883929
28     0.508929
33     0.492188
36     0.590625
51     1.725694
54     0.590625
55     0.567708
57     0.769886
59     0.796875
64     0.454327
65     0.269345
69     7.437500
74     0.369141
75     0.800000
91     0.639583
92     0.859375
93     0.964844
96     0.916667
97     0.679688
107    0.339286
108    0.821875
109    1.354167
114    6.093750
116    0.404018
119    0.843750
122    1.167969
123    2.348214
124    0.419118
129    1.194712
130    0.536932
133    2.902344
134    0.442708
135    0.498437
137    0.723958
139    0.806250
144    1.037500
145    0.865385
146    0.812500
147    0.486111
152    0.776786
156    0.703125
163    0.976562
164    0.679688
166    1.066964
180    2.953125
182    1.465625
183    0.996094
186    0.820312
187    1.181250
193    1.135417
205    0.543750
208    0.536932
209    0.492188
210    0.727273
217    0.825000
224    0.588068
228    3.515625
239    0

In [36]:
hard_cover = (book_df_1['cover'] == 'Т')
h = book_df_1[hard_cover]['cpm']
h

0      2.764423
1      1.544271
2      2.170139
3      6.779891
4      2.258929
6      1.110372
10     1.424107
12     1.798611
13     1.134868
14     1.176282
15     1.121875
16     1.055921
17     1.870833
18     1.272917
19     1.587054
20     1.433036
21     1.562500
23     3.493750
24     1.796875
25     1.790865
26     1.531915
27     1.271635
29     1.546875
30     5.166667
31     1.377604
32     1.271635
34     1.292969
35     1.433036
37     1.433036
38     1.323661
39     1.933594
40     0.955357
41     1.337500
42     1.337500
43     1.143750
44     1.139803
45     1.199219
46     1.379167
47     2.062500
48     1.917614
49     2.839286
50     1.658654
52     1.375000
53     1.425481
56     1.068452
58     1.180147
60     1.003125
61     1.207237
62     1.441406
63     2.650463
66     1.294643
67     0.906250
68     0.728125
70     1.543269
71     1.703125
72     1.442708
73     1.424632
76     1.697115
77     1.180147
78     4.352679
79     1.798611
80     1.433036
81     1

In [19]:
k = 2
n1 = len(book_df_1[soft_cover])
n2 = len(book_df_1[hard_cover])
n = n1 + n2
n1, n2, n

(67, 199, 266)

In [24]:
soft_cover_mean = book_df_1[soft_cover].mean()
scm = soft_cover_mean['cpm']
hard_cover_mean = book_df_1[hard_cover].mean()
hcm = hard_cover_mean['cpm']
scm, hcm  #средняя стоимость 1 страницы книги для разных типов переплета заметно отличается

(1.1561957581016984, 1.8353187283143972)

In [25]:
all_cover_mean = np.mean(cost_page_mean)  #рассчитаем среднюю стоимость 1 страницы всех книг
all_cover_mean

1.6642614388247323

In [26]:
s2 = np.sum((cost_page_mean - all_cover_mean)**2)
s2

364.18333695822514

In [27]:
s2_f = ((scm - all_cover_mean)**2) * n1 + ((hcm - all_cover_mean)**2) * n2
s2_f

23.117617968436164

In [37]:
s2_res = ((s - scm) ** 2).sum() + ((h - hcm) ** 2).sum()
s2_res

341.06571898978893

In [38]:
sigma2_general = s2 / (n - 1)
sigma2_general

1.3742767432385854

In [39]:
sigma2_f = s2_f / (k - 1)
sigma2_f

23.117617968436164

In [40]:
k1 = k - 1
k2 = n - k

sigma2_f = s2_f / k1
sigma2_res = s2_res / k2

sigma2_f, sigma2_res

(23.117617968436164, 1.291915602234049)

In [41]:
T = sigma2_f / sigma2_res  #находим критическую статистику для выборки
T

17.894062064472287

In [42]:
F_crit = stats.f.ppf(0.95, k1, k2)  #получаем критическую статистику для заданного уровня значимости (5%)
F_crit

3.876923576999537

In [43]:
T > F_crit # получаем, что выборки имеют статистически значимые отличия средних значений

True

In [44]:
eta2 = s2_f / s2  # но эмпирическое корреляционное отношение принимает значение близкое к 0, что говорит об отсутствии значимых отличий
eta2

0.06347796733788495