In [45]:
import numpy as np
import pandas as pd
from scipy.stats import norm
from math import log, ceil, floor, sqrt, atan, pi
from pprint import pprint
from matplotlib import pyplot as plt

In [46]:
df = pd.read_csv('/home/rodion/Documents/РР Тервер/backup/students_performance100.csv')
print(f"Исходные данные:\n{df}")

Исходные данные:
    math score  writing score
0           84             91
1           44             51
2           59             67
3           35             43
4           60             74
..         ...            ...
95          63             68
96          65             80
97          63             74
98          77             88
99          64             68

[100 rows x 2 columns]


In [47]:
# <-- В этом месте должна проводиться фильтация, если она нужна

df = df.rename(columns={df.columns[0]: 'x', df.columns[1]: 'y'})
print(f"Данные после фильтрации:\n{df}")
# df.to_excel('xy-start.xls', index=False)

Данные после фильтрации:
     x   y
0   84  91
1   44  51
2   59  67
3   35  43
4   60  74
..  ..  ..
95  63  68
96  65  80
97  63  74
98  77  88
99  64  68

[100 rows x 2 columns]


In [48]:
x_df = df[['x']].sort_values(by='x')
print(f"Одномерная выборка:\n{x_df}")
# x_df.to_excel('x-start.xls', index=False)

# x_df.boxplot()

Одномерная выборка:
     x
35  29
6   32
87  34
58  35
3   35
..  ..
0   84
89  85
33  86
73  91
31  91

[100 rows x 1 columns]


In [49]:
N = len(x_df)
print(f"Кол-во элементов выборки: {N}")

Кол-во элементов выборки: 100


In [50]:
x_mx = x_df.max(axis=0).x
x_mn = x_df.min(axis=0).x

print(f"Максимальное значение выборки: {x_mx}")
print(f"Минимальное значение выборки: {x_mn}")

Максимальное значение выборки: 91
Минимальное значение выборки: 29


In [51]:
n = int(ceil(1 + log(N, 2)))
# n = 7
print(f"Кол-во интервалов: {n}")

Кол-во интервалов: 8


In [52]:
k = x_mx - x_mn
print(f"Размах выборки: {k}")

Размах выборки: 62


In [53]:
h = k / n
print(f"Длина интервала: {h}")

Длина интервала: 7.75


In [54]:
x_range_calc_df = pd.DataFrame()

range_x_df = np.round(np.arange(x_mn, x_mx + h, h), 0).astype('int')
range_x_df[0] -= 1
# ^ TODO: разобраться почему минимальное значение не попадает в (!) открытую (!) левую границу диапазона

cutter_x = pd.cut(x_df['x'], range_x_df)

# orig_interval = cutter_x.min()
# repl_interval = pd.Interval(left=orig_interval.left, right=orig_interval.right, closed='both')
# cutter_x = cutter_x.replace(to_replace=orig_interval, value=repl_interval)

x_ranges = sorted(set(cutter_x.values))

x_range_calc_df['range'] = x_ranges
x_range_calc_df['range_text'] = [f"{r.left}-{r.right}" for r in x_ranges]

print("Диапазоны:", *(f'({v.left}; {v.right}]' for v in x_ranges), sep='\n')

print("Диапазоны:", *(f'{v.left}-{v.right}' for v in x_ranges), sep='\n')

Диапазоны:
(28; 37]
(37; 44]
(44; 52]
(52; 60]
(60; 68]
(68; 76]
(76; 83]
(83; 91]
Диапазоны:
28-37
37-44
44-52
52-60
60-68
68-76
76-83
83-91


In [55]:
s = x_df.groupby(cutter_x)
tmp = dict(list(s))

print("Распределение значений по диапазонам:")
print(*(f"{str(k)}: {', '.join(str(v[0]) for v in tmp[k].values)}" for k in tmp), sep='\n')

Распределение значений по диапазонам:
(28, 37]: 29, 32, 34, 35, 35, 35, 36
(37, 44]: 39, 40, 40, 41, 43, 44, 44, 44
(44, 52]: 46, 46, 47, 48, 48, 49, 50, 52, 52
(52, 60]: 53, 53, 53, 53, 54, 54, 54, 54, 55, 55, 57, 58, 58, 58, 59, 59, 59, 59, 60, 60, 60
(60, 68]: 61, 61, 62, 62, 62, 62, 62, 62, 63, 63, 63, 63, 63, 64, 64, 65, 65, 65, 65, 65, 65, 65, 65, 66, 66, 66, 67, 67
(68, 76]: 69, 69, 69, 69, 71, 72, 72, 72, 73, 73, 73, 74, 75, 76, 76
(76, 83]: 77, 77, 81, 81, 81, 82, 83
(83, 91]: 84, 85, 86, 91, 91


In [56]:
print("Абсолютные частоты по диапазонам:")
print(*(f"{str(k)}: {len(tmp[k])}" for k in tmp), sep='\n')

print("Абсолютные частоты по диапазонам:")
print(*(f"{len(tmp[k])}" for k in tmp), sep='\n')

Абсолютные частоты по диапазонам:
(28, 37]: 7
(37, 44]: 8
(44, 52]: 9
(52, 60]: 21
(60, 68]: 28
(68, 76]: 15
(76, 83]: 7
(83, 91]: 5
Абсолютные частоты по диапазонам:
7
8
9
21
28
15
7
5


In [57]:
print("Длины диапазонов:")
print(*(f"{str(k)}: {k.right - k.left - 1}" for k in tmp), sep='\n')

print("Длины диапазонов:")
print(*(f"{k.right - k.left - 1}" for k in tmp), sep='\n')

Длины диапазонов:
(28, 37]: 8
(37, 44]: 6
(44, 52]: 7
(52, 60]: 7
(60, 68]: 7
(68, 76]: 7
(76, 83]: 6
(83, 91]: 7
Длины диапазонов:
8
6
7
7
7
7
6
7


In [89]:
print("Среднее значение на интервале:")
print(*(f"{str(k)}: {(k.right + k.left - 1) / 2}" for k in tmp), sep='\n')

print("Среднее значение на интервале:")
print(*(f"{(k.right + k.left - 1) / 2}" for k in tmp), sep='\n')

Среднее значение на интервале:
(29, 38]: 33.0
(38, 46]: 41.5
(46, 54]: 49.5
(54, 62]: 57.5
(62, 71]: 66.0
(71, 79]: 74.5
(79, 87]: 82.5
(87, 95]: 90.5
Среднее значение на интервале:
33.0
41.5
49.5
57.5
66.0
74.5
82.5
90.5


In [58]:
print("Диапазоны для гистограммы:")
print(*(f"{str(k)}: {len(tmp[k]) / (k.right - k.left - 1)}" for k in tmp), sep='\n')

print("Диапазоны для гистограммы:")
print(*(f"{len(tmp[k]) / (k.right - k.left - 1)}" for k in tmp), sep='\n')

# для гистограммы интевалы сортируются по x
# y'ком являются частоты на соответсвующем диапазони / длину этого диапазона

Диапазоны для гистограммы:
(28, 37]: 0.875
(37, 44]: 1.3333333333333333
(44, 52]: 1.2857142857142858
(52, 60]: 3.0
(60, 68]: 4.0
(68, 76]: 2.142857142857143
(76, 83]: 1.1666666666666667
(83, 91]: 0.7142857142857143
Диапазоны для гистограммы:
0.875
1.3333333333333333
1.2857142857142858
3.0
4.0
2.142857142857143
1.1666666666666667
0.7142857142857143


In [90]:
print("Д:")
print(*(f"{str(k)}: {len(tmp[k]) / N}" for k in tmp), sep='\n')

print("Д:")
print(*(f"{len(tmp[k]) / N}" for k in tmp), sep='\n')

Д:
(29, 38]: 0.02
(38, 46]: 0.05
(46, 54]: 0.12
(54, 62]: 0.12
(62, 71]: 0.25
(71, 79]: 0.24
(79, 87]: 0.12
(87, 95]: 0.08
Д:
0.02
0.05
0.12
0.12
0.25
0.24
0.12
0.08


In [59]:
print("Точки для полигона частот:")
print(*(f"{(k.left + k.right - 1) / 2}; {len(tmp[k])}" for k in tmp), sep='\n')

print("Точки для полигона частот:")
print(*(f"{(k.left + k.right - 1) / 2}" for k in tmp), sep='\n')

print("Точки для полигона частот:")
print(*(f"{len(tmp[k])}" for k in tmp), sep='\n')

# для полигона вычисляются середины интервалов - это x
# y - частотность значений на каждом интервале

Точки для полигона частот:
32.0; 7
40.0; 8
47.5; 9
55.5; 21
63.5; 28
71.5; 15
79.0; 7
86.5; 5
Точки для полигона частот:
32.0
40.0
47.5
55.5
63.5
71.5
79.0
86.5
Точки для полигона частот:
7
8
9
21
28
15
7
5


In [93]:
print("Точки для эмпирического графика:")
print("0.0; 0")
tmp_cum = 0
for k in tmp:
    tmp_cum += len(tmp[k])
    print(f"{(k.left + k.right - 1) / 2}; {tmp_cum / N}")

print("Точки для эмпирического графика:")
print("0")
tmp_cum = 0
for k in tmp:
    tmp_cum += len(tmp[k])
    print(f"{tmp_cum / N}")

print("0")
tmp_cum = 0
for k in tmp:
    tmp_cum += len(tmp[k])
    print(f"{(k.left + k.right - 1) / 2}")
# Точки должны быть кумулятивны: каждое следующее значение должно быть суммой предыдущих

Точки для эмпирического графика:
0.0; 0
33.0; 0.02
41.5; 0.07
49.5; 0.19
57.5; 0.31
66.0; 0.56
74.5; 0.8
82.5; 0.92
90.5; 1.0
Точки для эмпирического графика:
0
0.02
0.07
0.19
0.31
0.56
0.8
0.92
1.0
0
33.0
41.5
49.5
57.5
66.0
74.5
82.5
90.5


In [61]:
x_center_moment = sum((k.left + k.right - 1) / 2 * len(tmp[k]) / N for k in tmp)
print(f"Выборочное среднее: {x_center_moment}")

Выборочное среднее: 59.730000000000004


In [62]:
sample_variance = sum(((x_center_moment - (k.left + k.right - 1) / 2) ** 2) * len(tmp[k]) for k in tmp) / N
print(f"Выборочная дисперсия: {sample_variance}")

Выборочная дисперсия: 188.7721


In [63]:
sample_square_deviation = sqrt(sample_variance)
print(f"Выборочное отклонение: {sample_square_deviation}")

Выборочное отклонение: 13.739435941842736


In [64]:
normalized_variance = sample_variance * N / (N - 1)
print(f"Исправленная дисперсия: {normalized_variance}")

Исправленная дисперсия: 190.67888888888888


In [65]:
normalized_square_deviation = sqrt(normalized_variance)
print(f"Исправленное отклонение: {normalized_square_deviation}")

Исправленное отклонение: 13.808652681883519


In [94]:
u3 = sum(((x_center_moment - (k.left + k.right - 1) / 2) ** 3) * len(tmp[k]) for k in tmp)
coefficient_asymmetry = u3 / N / (normalized_square_deviation ** 3)
print(f"u3 = {u3}")
print(f"Коэффициент ассиметрии: {coefficient_asymmetry}")

u3 = -376754.01344999974
Коэффициент ассиметрии: -1.4308824880397502


In [95]:
u4 = sum(((x_center_moment - (k.left + k.right - 1) / 2) ** 4) * len(tmp[k]) for k in tmp) / N
print(f"u4 = {u4}")
excess = u4 / (normalized_square_deviation ** 4)
print(f"Аксцесс: {excess}")

u4 = 132828.67750644992
Аксцесс: 3.653310823374731


In [68]:
left_bound = x_center_moment - sample_square_deviation * 1.96 / sqrt(N)
right_bound = x_center_moment + sample_square_deviation * 1.96 / sqrt(N)
print(f"Доверительный интервал: ({left_bound}; {right_bound})")

Доверительный интервал: (57.03707055539883; 62.42292944460118)


In [96]:
# print(sorted(set(cutter_x)))

table = pd.DataFrame()
table['Xi'] = [d.left for d in sorted(set(cutter_x))]
table['Xi+1'] = [d.right for d in sorted(set(cutter_x))]
table['n'] = [len(tmp[k]) for k in tmp]
table['wtf1'] = [(d.left - x_center_moment) / normalized_square_deviation for d in sorted(set(cutter_x))]
table['wtf2'] = [(d.right - x_center_moment) / normalized_square_deviation for d in sorted(set(cutter_x))]
table['wtf11'] = [round(norm.cdf(v) - 0.5, 4) for v in table['wtf1']]
# table['wtf22'] = [-0.4535, -0.3810, -0.2257, -0.0675, 0.2123, 0.3729, 0.4505, 0.4875]
table['wtf22'] = [round(norm.cdf(v) - 0.5, 4) for v in table['wtf2']]
table['m\''] = [(w2 - w1) * n for w1, w2, n in zip(table['wtf11'], table['wtf22'], table['n'])]
table['(n - m\')^2 / m\''] = [(n - m) ** 2 / m for n, m in zip(table['n'], table['m\''])]
# table['wtf11'] = pd.Series(norm.cdf((d.left - x_center_moment) / normalized_square_deviation) - 0.5 for d in sorted(set(cutter_x)))

print(table)

# table.to_excel('1.xls', index=False)

# #%%
#
# print(*(round(norm.cdf(v) - 0.5, 4) for v in table['wtf1']))
# print(*[-0.4898, -0.4535, -0.3790, -0.2224, 0.0080, 0.2123, 0.3729, 0.4495])
# print(*(round(abs(a - b), 4) for a, b in zip((round(norm.cdf(v) - 0.5, 2) for v in table['wtf1']), [-0.4898, -0.4535, -0.3790, -0.2224, 0.0080, 0.2123, 0.3729, 0.4495])))

   Xi  Xi+1   n      wtf1      wtf2   wtf11   wtf22      m'  (n - m')^2 / m'
0  28    37   2 -2.297835 -1.646069 -0.4892 -0.4501  0.0782        47.229095
1  37    44   5 -1.646069 -1.139141 -0.4501 -0.3727  0.3870        54.986483
2  44    52  12 -1.139141 -0.559794 -0.3727 -0.2122  1.9260        52.692355
3  52    60  12 -0.559794  0.019553 -0.2122  0.0078  2.6400        33.185455
4  60    68  25  0.019553  0.598900  0.0078  0.2254  5.4400        70.329706
5  68    76  24  0.598900  1.178247  0.2254  0.3807  3.7272       110.266801
6  76    83  12  1.178247  1.685175  0.3807  0.4540  0.8796       140.590378
7  83    91   8  1.685175  2.264522  0.4540  0.4882  0.2736       218.191729


In [70]:
print("Кси наблюдаемая = ", table['(n - m\')^2 / m\''].sum())

Кси наблюдаемая =  716.9409230244357


In [97]:
table2 = table[['Xi', 'Xi+1', 'n']]
func = lambda a, b: (atan(a) - atan(b)) / pi
table2['P'] = [func(a, b) for a, b in zip(table2['Xi'], table2['Xi+1'])]
table2['m\''] = [n * p for n, p in  zip(table2['n'], table2['P'])]
table2['wtf'] = [(n - m) ** 2 / m for n, m in zip(table2['n'], table2['m\''])]
print(table2)
# table2.to_excel('2.xls', index=False)

   Xi  Xi+1   n         P        m'           wtf
0  28    37   2 -0.002763 -0.005525   -727.986275
1  37    44   5 -0.001368 -0.006839  -3665.496790
2  44    52  12 -0.001112 -0.013350 -10810.715645
3  52    60  12 -0.000816 -0.009791 -14731.408010
4  60    68  25 -0.000624 -0.015600 -40115.190730
5  68    76  24 -0.000493 -0.011823 -48764.728000
6  76    83  12 -0.000353 -0.004238 -34001.689126
7  83    91   8 -0.000337 -0.002697 -23747.602474


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


In [72]:
# "кси наблюдаемая"
ksi = table2['wtf'].sum()
print(f"Кси нормальная = {ksi}")

Кси нормальная = -152384.28640119266


In [73]:
s = x_df.groupby(cutter_x)

counted_n = int(s.count().sum())
# print(f"Учтено {counted_n}/{N} элементов")

assert counted_n == N, f"НЕ БЫЛ УЧТЕНО {N - counted_n} ЭЛЕМЕНТОВ!"

In [74]:
y_df = df[['y']].sort_values(by='y')
print(y_df)

y_mn = df['y'].min()
y_mx = df['y'].max()

k = y_mx - y_mn
h = k / n

range_y_df = np.round(np.arange(y_mn, y_mx + h, h), 0).astype('int')
range_y_df[0] -= 1
# ^ TODO: разобраться почему минимальное значение не попадает в (!) открытую (!) левую границу диапазона

cutter_y = pd.cut(y_df['y'], range_y_df)

# orig_interval = cutter_y.min()
# repl_interval = pd.Interval(left=orig_interval.left, right=orig_interval.right, closed='both')
# cutter_y = cutter_y.replace(to_replace=orig_interval, value=repl_interval)

print("Диапазоны:", *(f'({v.left}; {v.right}]' for v in sorted(set(cutter_y.values))), sep='\n')

print("Диапазоны:", *(f'{v.left}-{v.right}' for v in sorted(set(cutter_y.values))), sep='\n')

     y
35  30
6   33
87  39
29  43
3   43
..  ..
22  90
0   91
73  94
94  94
89  95

[100 rows x 1 columns]
Диапазоны:
(29; 38]
(38; 46]
(46; 54]
(54; 62]
(62; 71]
(71; 79]
(79; 87]
(87; 95]
Диапазоны:
29-38
38-46
46-54
54-62
62-71
71-79
79-87
87-95


In [75]:
s = y_df.groupby(cutter_y)
tmp = dict(list(s))

print("Распределение значений по диапазонам:")
print(*(f"{str(k)}: {', '.join(str(v[0]) for v in tmp[k].values)}" for k in tmp), sep='\n')

Распределение значений по диапазонам:
(29, 38]: 30, 33
(38, 46]: 39, 43, 43, 43, 46
(46, 54]: 51, 51, 51, 52, 52, 52, 53, 53, 53, 53, 54, 54
(54, 62]: 56, 57, 57, 57, 58, 59, 61, 62, 62, 62, 62, 62
(62, 71]: 63, 64, 64, 64, 65, 65, 66, 66, 67, 67, 67, 68, 68, 68, 68, 68, 69, 70, 70, 70, 70, 70, 70, 71, 71
(71, 79]: 72, 72, 72, 73, 73, 74, 74, 74, 74, 74, 74, 74, 74, 74, 75, 75, 76, 76, 76, 76, 78, 78, 79, 79
(79, 87]: 80, 80, 81, 81, 82, 82, 82, 83, 84, 85, 87, 87
(87, 95]: 88, 88, 90, 90, 91, 94, 94, 95


In [76]:
s = y_df.groupby(cutter_y)
tmp = dict(list(s))

y_ranges_df = pd.DataFrame()
y_ranges_df['y_range'] = [k for k in tmp]
y_ranges_df['frequency'] = [len(tmp[k]) for k in tmp]
y_ranges_df['center_moment'] = [(r.right + r.left) / 2 * f for r, f in zip(y_ranges_df['y_range'], y_ranges_df['frequency'])]

y_center_moment = y_ranges_df['center_moment'].sum() / N

print(y_ranges_df)
print(f"Центральный момент Y: {y_center_moment}")
print(f"Центральный момент X (среднее выборочное/матожидание): {x_center_moment}")

    y_range  frequency  center_moment
0  (29, 38]          2           67.0
1  (38, 46]          5          210.0
2  (46, 54]         12          600.0
3  (54, 62]         12          696.0
4  (62, 71]         25         1662.5
5  (71, 79]         24         1800.0
6  (79, 87]         12          996.0
7  (87, 95]          8          728.0
Центральный момент Y: 67.595
Центральный момент X (среднее выборочное/матожидание): 59.730000000000004


In [77]:
x_sample_variance = sample_variance
y_sample_variance = sum(((y_center_moment - (k.left + k.right - 1) / 2) ** 2) * len(tmp[k]) for k in tmp) / N
print(f"Вторые центральные моменты (дисперсия):")
print(f"Для x: {x_sample_variance}")
print(f"Для y: {y_sample_variance}")

Вторые центральные моменты (дисперсия):
Для x: 188.7721
Для y: 190.21347499999996


In [78]:
print("Диапазоны:", *(f'{v.left}-{v.right}' for v in sorted(set(cutter_y.values))), sep='\n')

Диапазоны:
29-38
38-46
46-54
54-62
62-71
71-79
79-87
87-95


In [99]:
frequency_matrix = np.array([[0] * n] * n)
ranges_y = sorted(set(k for k in cutter_y))

for j, r in enumerate(sorted(set(k for k in cutter_y))):
    for i, r1 in enumerate(sorted(set(k for k in cutter_x))):
        # print(f"X: {r1} Y: {r}")
        # print(len(df[(df['y'] > r.left) & (df['y'] <= r.right) & (df['x'] > r1.left) & (df['x'] <= r1.right)]))
        frequency_matrix[i, j] = len(df[(df['y'] > r.left) & (df['y'] <= r.right) & (df['x'] > r1.left) & (df['x'] <= r1.right)])
print(f"Частотность по парным диапазонам:\n{frequency_matrix}")

# pd.DataFrame(frequency_matrix).to_excel('3.xls', index=False)

Частотность по парным диапазонам:
[[ 2  4  1  0  0  0  0  0]
 [ 0  1  5  2  0  0  0  0]
 [ 0  0  4  4  1  0  0  0]
 [ 0  0  2  5 10  4  0  0]
 [ 0  0  0  1 12 12  3  0]
 [ 0  0  0  0  2  7  5  1]
 [ 0  0  0  0  0  1  2  4]
 [ 0  0  0  0  0  0  2  3]]


In [104]:
matrix1 = frequency_matrix.copy()

x_ranges_centers = sorted((v.right + v.left - 1) / 2 for v in set(k for k in cutter_x))
y_ranges_centers = sorted((v.right + v.left - 1) / 2 for v in set(k for k in cutter_y))

for i, x_v in enumerate(x_ranges_centers):
    for j, y_v in enumerate(y_ranges_centers):
        matrix1[i, j] *= x_v * y_v

# for i, x_v in enumerate(x_ranges_centers):
#     for j, y_v in enumerate(y_ranges_centers):
#         print(i, j, matrix1[i, j], x_v, y_v)

print(f"Частотность произведения средних на частотность:\n{matrix1}")
xy = sum(sum(matrix1)) / N
print(f"(так и называется, шок) XY = {xy}")

Частотность произведения средних на частотность:
[[ 2112  5312  1584     0     0     0     0     0]
 [    0  1660  9900  4600     0     0     0     0]
 [    0     0  9405 10925  3135     0     0     0]
 [    0     0  5494 15956 36630 16539     0     0]
 [    0     0     0  3651 50292 56769 15716     0]
 [    0     0     0     0  9438 37287 29493  6470]
 [    0     0     0     0     0  5885 13035 28598]
 [    0     0     0     0     0     0 14272 23484]]
(так и называется, шок) XY = 4176.42


In [81]:
covariance_coefficient = xy - x_center_moment * y_center_moment
print(f"Коэффициент ковариации: {covariance_coefficient}")

Коэффициент ковариации: 138.97064999999975


In [82]:
correlation_coefficient = covariance_coefficient / sqrt(x_sample_variance * y_sample_variance)
print(f"Коэффициент корреляции: {correlation_coefficient}")

Коэффициент корреляции: 0.7333875707189373


In [83]:
print("Построим эмпирическую линию y по x:")

for i, x_v in enumerate(x_ranges_centers):
    tmp_x_sum = 0
    for j, y_v in enumerate(y_ranges_centers):
        tmp_x_sum += frequency_matrix[i, j] * y_v
    print(f"{x_v} : {tmp_x_sum / sum(frequency_matrix[i])} (кол-во частот: {sum(frequency_matrix[i])})")

Построим эмпирическую линию y по x:
32.0 : 40.214285714285715 (кол-во частот: 7)
40.0 : 50.5 (кол-во частот: 8)
47.5 : 54.888888888888886 (кол-во частот: 9)
55.5 : 64.02380952380952 (кол-во частот: 21)
63.5 : 71.10714285714286 (кол-во частот: 28)
71.5 : 77.1 (кол-во частот: 15)
79.0 : 85.92857142857143 (кол-во частот: 7)
86.5 : 87.3 (кол-во частот: 5)


In [84]:
print("Построим эмпирическую линию x по y:")

for j, y_v in enumerate(y_ranges_centers):
    tmp_y_sum = 0
    for i, x_v in enumerate(x_ranges_centers):
        tmp_y_sum += frequency_matrix[i, j] * x_v
    print(f"{y_v} : {tmp_y_sum / sum(frequency_matrix[:, j])} (кол-во частот: {sum(frequency_matrix[:, j])})")

Построим эмпирическую линию x по y:
33.0 : 32.0 (кол-во частот: 2)
41.5 : 33.6 (кол-во частот: 5)
49.5 : 44.416666666666664 (кол-во частот: 12)
57.5 : 50.916666666666664 (кол-во частот: 12)
66.0 : 60.3 (кол-во частот: 25)
74.5 : 65.14583333333333 (кол-во частот: 24)
82.5 : 73.25 (кол-во частот: 12)
90.5 : 80.875 (кол-во частот: 8)


In [85]:
print(f"Коэффициент корреляции: {correlation_coefficient}")
print(f"Центральный момент X: {x_center_moment}")
print(f"Центральный момент Y: {y_center_moment}")
print(f"Корни вторых центральных моментов\nдля x: {sqrt(x_sample_variance)}\nдля y: {sqrt(y_sample_variance)}")

# тут полина выводит линии регрессии
# y = correlation_coefficient * sqrt(y_sample_variance) / sqrt(x_sample_variance) * (x - x_center_moment) + y_center_moment
# x = correlation_coefficient * sqrt(x_sample_variance) / sqrt(y_sample_variance) * (y - y_center_moment) + x_center_moment

Коэффициент корреляции: 0.7333875707189373
Центральный момент X: 59.730000000000004
Центральный момент Y: 67.595
Корни вторых центральных моментов
для x: 13.739435941842736
для y: 13.791790130363786


In [102]:
# t = pd.DataFrame(columns=('x', 'регрессия', 'корреляция'))

print("Точки линии регрессии y по x:")
for i, x_v in enumerate(x_ranges_centers):
    tmp_x_sum = 0
    for j, y_v in enumerate(y_ranges_centers):
        tmp_x_sum += frequency_matrix[i, j] * y_v
    # y_v - регрессия
    # y_ev - эмпирическая
    y_ev = tmp_x_sum / sum(frequency_matrix[i])
    y_v = correlation_coefficient * sqrt(y_sample_variance) / sqrt(x_sample_variance) * (x_v - x_center_moment) + y_center_moment
    print(f"{x_v}: {round(y_v, 2):5} {round(y_ev, 2):5}")
    # t.loc[i] = [x_v, y_v, y_ev]

# t.to_excel('4.xls', index=False)

Точки линии регрессии y по x:
32.0: 47.18 40.21
40.0: 53.07  50.5
47.5: 58.59 54.89
55.5: 64.48 64.02
63.5: 70.37 71.11
71.5: 76.26  77.1
79.0: 81.78 85.93
86.5:  87.3  87.3


In [103]:
# t = pd.DataFrame(columns=('x', 'регрессия', 'корреляция'))

print("Точки линии регрессии x по y:")
for j, y_v in enumerate(y_ranges_centers):
    tmp_y_sum = 0
    for i, x_v in enumerate(x_ranges_centers):
        tmp_y_sum += frequency_matrix[i, j] * x_v
    x_ev = tmp_y_sum / sum(frequency_matrix[:, j])
    x_v = correlation_coefficient * sqrt(x_sample_variance) / sqrt(y_sample_variance) * (y_v - y_center_moment) + x_center_moment
    print(f"{y_v}: {round(x_v, 2):5} {round(x_ev, 2):5}")
    # t.loc[j] = [y_v, x_v, x_ev]
# t.to_excel('5.xls', index=False)

Точки линии регрессии x по y:
33.0: 34.45  32.0
41.5: 40.66  33.6
49.5: 46.51 44.42
57.5: 52.35 50.92
66.0: 58.56  60.3
74.5: 64.77 65.15
82.5: 70.62 73.25
90.5: 76.46 80.88


In [88]:
# data = np.array(np.random.rand(1000))
# y, binEdges = np.histogram(data,bins=100)
# bincenters = 0.5*(binEdges[1:]+binEdges[:-1])
# p.plot(bincenters,y,'-')
# p.show()
