In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression


In [3]:
df = pd.read_excel('db_X5_cyber.xlsx', index_col=0)

In [4]:
X = df[['разн тот51-тот']]  # Выбор признаков для обучения модели
y = df['Результат']  # Выбор целевой переменной

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # Разделение данных на тренировочную и тестовую выборки


In [5]:
X

Unnamed: 0,разн тот51-тот
Барыс — Авангард,-1
Авто Екатеринбург — Чайка Нижний Новгород,-2
Портленд Уинтерхокс — Сиэтл Тандербердз,-1
Монреаль (GRIB4IK) — Ванкувер (GEENGA01),0
Лос-Анджелес (BALMY2820) — Колорадо (ZAMBONI),0
...,...
Чикаго (EASYKATKA) — Ванкувер (KULIBANDA),-2
Ванкувер (KASPER) — Вашингтон (BIG_TOSTY),-3
Миннесота (Lovelas) — Калгари (Iceman),2
Каролина (FROSYA8) — Детройт (JASON_PLAY),4


In [6]:
model = LogisticRegression()  # Создание модели логистической регрессии
model.fit(X_train, y_train)  # Обучение модели на тренировочных данных

y_pred = model.predict(X_test)  # Получение прогнозов


In [7]:
accuracy = model.score(X_test, y_test)  # Вычисление точности модели


In [10]:
accuracy_range = {}  # Словарь для хранения значений точности для каждого диапазона

for threshold in range(-10, 10):  # Перебор возможных значений диапазона от -10 до 10
    X_range = X[(X['разн тот51-тот'] >= threshold) & (X['разн тот51-тот'] < threshold+1)]  # Выбор данных в заданном диапазоне
    y_range = y[X_range.index]  # Получение соответствующих значений целевой переменной

    accuracy_range[threshold] = model.score(X_range, y_range)  # Вычисление точности для данного диапазона
# 
best_accuracy = max(accuracy_range.values())  # Наибольшая точность
best_threshold = max(accuracy_range, key=accuracy_range.get)  # Значение диапазона с наибольшей точностью

print(f"Наиболее оптимальный диапазон значений: от {best_threshold} до {best_threshold+1}")
print(f"Точность модели для данного диапазона: {best_accuracy}")


ValueError: Found array with 0 sample(s) (shape=(0, 1)) while a minimum of 1 is required by LogisticRegression.

In [44]:
import pandas as pd
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# Загрузка данных


# Определение признаков и целевой переменной
X = df[['разн тот51-тот']]
y = df['Результат']

# Определение модели
model = RandomForestClassifier()

# Определение диапазонов значений для параметра 'разн тот51-тот'
param_grid = {
    'разн тот51-тот': [(-4, -1), (-1, 1), (1, 3), (3, 10)]  # Пример диапазонов значений для 'разн тот51-тот'
}

# Поиск наилучших параметров с помощью GridSearchCV
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X, y)

# Вывод результатов
best_params = grid_search.best_params_
print("Наилучший диапазон значений для признака 'разн тот51-тот':", best_params['разн тот51-тот'])


ValueError: Invalid parameter 'разн тот51-тот' for estimator RandomForestClassifier(). Valid parameters are: ['bootstrap', 'ccp_alpha', 'class_weight', 'criterion', 'max_depth', 'max_features', 'max_leaf_nodes', 'max_samples', 'min_impurity_decrease', 'min_samples_leaf', 'min_samples_split', 'min_weight_fraction_leaf', 'n_estimators', 'n_jobs', 'oob_score', 'random_state', 'verbose', 'warm_start'].

In [11]:
df_filtered = df[df['Результат'] == 1]

In [17]:
grouped_data = df_filtered.groupby(df_filtered['разн тот51-тот']).sum(df_filtered['kef_TM'])

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [18]:
max_value = grouped_data.idxmax()

In [19]:
max_value

-1

In [20]:
df_filtered

Unnamed: 0,data_game,kef_1,kef_2,tot,tot20,tot40,tot51,sc51_1t,sc51_2t,abs_51,tot51_on_game,разн тот51-тот,kef_TM,Результат
Портленд Уинтерхокс — Сиэтл Тандербердз,29.01.2024,1.25,7.10,7.5,3,3,5,4,1,3,6.5,-1,1.62,1
Монреаль (GRIB4IK) — Ванкувер (GEENGA01),31.12.2023,1.75,3.25,5.5,2,4,5,4,1,3,5.5,0,2.55,1
Лос-Анджелес (BALMY2820) — Колорадо (ZAMBONI),02.01.2024,1.49,5.00,7.5,3,6,6,3,3,0,7.5,0,1.39,1
Виннипег (DARKTIME11) — Сан-Хосе (ALFADOGZZ),01.01.2024,1.47,5.25,8.5,3,7,8,5,3,2,9.5,1,1.67,1
Айлендерс (TRUNKDRUNK) — Калгари (VLD08138),04.02.2024,3.25,1.75,6.5,3,7,10,3,7,4,11.5,5,1.55,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Саммерленд Стим — Осойос Койотс,10.02.2024,2.75,2.00,7.5,0,0,0,0,0,0,0.5,-7,1.95,1
Чикаго (EASYKATKA) — Ванкувер (KULIBANDA),10.02.2024,1.32,6.35,5.5,2,3,3,3,0,3,3.5,-2,2.75,1
Ванкувер (KASPER) — Вашингтон (BIG_TOSTY),10.02.2024,4.30,1.55,6.5,1,1,2,1,1,0,3.5,-3,1.49,1
Каролина (FROSYA8) — Детройт (JASON_PLAY),10.02.2024,4.70,1.43,5.5,3,6,9,5,4,1,9.5,4,2.65,1


In [30]:

# Группировка по признаку 'разн тот51-тот' и вычисление сумм признака 'kef_TM' по значениям признака 'Результат'
grouped = df.groupby('разн тот51-тот')['kef_TM'].sum()

# Разность сумм для каждой группы
diff = grouped[1] - grouped[0]

# Нахождение диапазона значений 'разн тот51-тот', для которого разность сумм наибольшая
# max_diff_range = diff.idxmax()

# print(f"Наибольшая разность сумм признака 'kef_TM' получается в диапазоне значений 'разн тот51-тот': {max_diff_range}")


In [26]:
diff

-59.83000000000004

In [31]:
grouped

разн тот51-тот
-7       3.37
-6       5.60
-5      62.75
-4     132.12
-3     322.24
-2     523.81
-1     551.42
 0     536.20
 1     476.37
 2     371.23
 3     206.89
 4     107.34
 5     100.71
 6      42.60
 7      22.72
 8       4.77
 11      1.99
Name: kef_TM, dtype: float64

In [33]:
bins = [min(df['разн тот51-тот']), 0, (max(df['разн тот51-тот']) + 1)]
labels = ['Negative', 'Zero', 'Positive']

In [34]:
df['range'] = pd.cut(df['разн тот51-тот'], bins=bins, labels=labels)

ValueError: Bin labels must be one fewer than the number of bin edges

In [35]:
positive_sum = df[df['Результат'] == 1]['kef_TM'].sum()
negative_sum = df[df['Результат'] == 0]['kef_TM'].sum()
max_difference = positive_sum - negative_sum

# print(“Максимальная разница:”, max_difference)

In [36]:
max_difference

248.40999999999985

In [37]:
df_grouped = df.groupby('разн тот51-тот')['kef_TM'].sum().reset_index()

In [44]:
max_diff = 0
best_range = None
for i in range(len(df_grouped)-1):
    diff = abs(df_grouped['kef_TM'][i] - df_grouped['kef_TM'][len(df_grouped)-1])
    print(i, diff)
    if diff > max_diff:
        max_diff = diff
        best_range = (df_grouped['разн тот51-тот'][i], df_grouped['разн тот51-тот'][len(df_grouped)-1])

0 1.3800000000000001
1 3.6099999999999994
2 60.76
3 130.13
4 320.25
5 521.8199999999999
6 549.43
7 534.21
8 474.38
9 369.24
10 204.89999999999998
11 105.35000000000001
12 98.72
13 40.61
14 20.73
15 2.7800000000000002


In [39]:
print("Наибольшая разность суммы kef_TM при 'Результат' равном 1 и 0 достигается в диапазоне:", best_range)

Наибольшая разность суммы kef_TM при 'Результат' равном 1 и 0 достигается в диапазоне: (-1, 11)


In [42]:
df_grouped

Unnamed: 0,разн тот51-тот,kef_TM
0,-7,3.37
1,-6,5.6
2,-5,62.75
3,-4,132.12
4,-3,322.24
5,-2,523.81
6,-1,551.42
7,0,536.2
8,1,476.37
9,2,371.23


In [50]:
df_grouped = df.groupby('разн тот51-тот').agg({'kef_TM':'sum', 'Результат':'count'}).reset_index()

In [51]:
df_grouped

Unnamed: 0,разн тот51-тот,kef_TM,Результат
0,-7,3.37,2
1,-6,5.6,3
2,-5,62.75,28
3,-4,132.12,54
4,-3,322.24,155
5,-2,523.81,253
6,-1,551.42,290
7,0,536.2,292
8,1,476.37,280
9,2,371.23,215


In [49]:
max_diff = 0
best_range = None
for i in range(len(df_grouped)-1):
    diff = abs((df_grouped['kef_TM'][i] - df_grouped['kef_TM'][len(df_grouped)-1]) - (df_grouped['Результат'][i] - df_grouped['Результат'][len(df_grouped)-1]))
    print(diff)
    if diff > max_diff:
        max_diff = diff
        best_range = (df_grouped['разн тот51-тот'][i], df_grouped['разн тот51-тот'][len(df_grouped)-1])

0.3800000000000001
1.6099999999999994
33.76
77.13
166.25
269.81999999999994
260.42999999999995
243.21000000000004
195.38
155.24
80.89999999999998
42.35000000000001
39.72
17.61
8.73
0.7800000000000002


In [47]:
print("Наибольшая разность суммы kef_TM при 'Результат' равном 1 и количеством объектов в диапазоне достигается в диапазоне:", best_range)

Наибольшая разность суммы kef_TM при 'Результат' равном 1 и количеством объектов в диапазоне достигается в диапазоне: (-2, 11)
