In [215]:
import pandas as pd
# считываем данные из data.csv
data = pd.read_csv('/content/data.csv', sep = ';')
# заполняем пропуски медианным значением
data.fillna(data.median(), inplace=True)
# разделяем данные на признаки, на которых будем обучать модель и на целевую переменную
X = data.drop(['ID', 'target'], axis=1)
y = data['target']

In [216]:
from sklearn.preprocessing import StandardScaler
# масштабируем признаки для корректного обучения
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [217]:
from sklearn.model_selection import train_test_split
# разделим наши данные на обучающую и тестовую выборки, чтобы не произошло переобучения
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.25, random_state=10)

In [226]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
# обучение модели
model = LogisticRegression(random_state=10)
model.fit(X_train, y_train)
# создаем отдельный столбец с вероятностями принадлежности каждого объекта к target = 1, для дальнейшего удобного группирования
pred = model.predict_proba(X_scaled)[:, 1]
data['probability'] = pd.cut(pred, bins=[0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0], precision=1)
# группировка выборки по значениям вероятности
group = data.groupby('probability').agg(
    total_count=('target', 'count'),
    target1_count=('target', lambda x: (x == 1).sum())
)

  group = data.groupby('probability').agg(


In [219]:
from sklearn.metrics import roc_auc_score, f1_score

y_pred_proba = model.predict_proba(X_test)[:, 1]

roc_auc = roc_auc_score(y_test, y_pred_proba)
f1 = f1_score(y_test, (y_pred_proba > 0.5).astype(int))
gini = 2*roc_auc_score(y_test, y_pred_proba)-1
accuracy = accuracy_score(y_test, model.predict(X_test))

In [220]:
# считываем данные из verify.csv
verify = pd.read_csv('/content/verify.csv', sep = ';')
# заполняем пропуски медианным значением
verify.fillna(verify.median(), inplace=True)
# подготавливаем данные для уже обученной модели
X_verify = verify.drop(['ID'], axis=1)
X_verify_scaled = scaler.transform(X_verify)
# оперделяем вероятность принадлежности каждого объекта verify.csv к target = 1
verify['score'] = model.predict_proba(X_verify_scaled)[:, 1]
# записываем предсказания в файл
verify[['ID', 'score']].to_csv('/content/predictions.csv', sep=';', index=False)

In [227]:
print(f'ROC-AUC: {roc_auc}')
print(f'F1-Score: {f1}')
print(f'GINI: {gini}')
print(f'ACCURACY: {accuracy}')
print(group)

ROC-AUC: 0.7727633930194687
F1-Score: 0.274864815602406
GINI: 0.5455267860389375
ACCURACY: 0.8133844109139239
             total_count  target1_count
probability                            
(0.0, 0.1]         87854           4453
(0.1, 0.2]         72248          10539
(0.2, 0.3]         42807          11390
(0.3, 0.4]         24282           8990
(0.4, 0.5]         13076           6025
(0.5, 0.6]          6915           3665
(0.6, 0.7]          4325           2519
(0.7, 0.8]          2616           1654
(0.8, 0.9]          1160            835
(0.9, 1.0]           537            440
