In [16]:
import numpy as np
import pandas as pd

# Фиксируем зерно для воспроизводимости результатов
np.random.seed(42)

# Количество наблюдений
n_samples = 1000

# Генерация признаков
service_duration = np.random.randint(1, 730, size=n_samples)    # от 1 до 730 дней
monthly_sessions = np.random.randint(1, 50, size=n_samples)     # от 1 до 50 сеансов в месяц
time_spent = np.random.uniform(0.5, 5, size=n_samples)          # от 0.5 до 5 часов
age = np.random.randint(18, 65, size=n_samples)                 # возраст от 18 до 65 лет

# Логика генерации вероятности оттока (искусственная)
# Чем меньше продолжительность использования, меньше сеансов, меньше времени в системе
# и больше возраст — тем выше вероятность оттока.
churn_prob = (
    0.2
    + 0.2 * (service_duration < 100)      # короткий период использования
    + 0.2 * (monthly_sessions < 20)       # мало сеансов
    + 0.2 * (time_spent < 1.5)           # мало времени в системе
    + 0.1 * (age > 50)                   # возраст более 50 лет
)

# Ограничим вероятность от 0 до 1
churn_prob = np.clip(churn_prob, 0, 1)

# Генерация бинарной переменной (факт оттока) из Бернулли(вероятность=churn_prob)
churn = (np.random.rand(n_samples) < churn_prob).astype(int)

# Формируем DataFrame
data = pd.DataFrame({
    'service_duration': service_duration,
    'monthly_sessions': monthly_sessions,
    'time_spent': time_spent.round(2),  # округлим до сотых
    'age': age,
    'churn': churn
})

print(data.head(10))

   service_duration  monthly_sessions  time_spent  age  churn
0               103                30        3.21   48      0
1               436                31        3.35   42      0
2               271                49        2.18   40      0
3               107                 5        2.81   41      0
4                72                44        2.36   55      0
5               701                14        0.81   45      1
6                21                11        2.47   38      1
7               615                 9        0.94   60      0
8               122                34        2.32   35      0
9               467                12        3.17   53      1


In [17]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# 1. Разделим датафрейм на признаки (X) и целевую переменную (y)
X = data.drop('churn', axis=1)  # все столбцы, кроме 'churn'
y = data['churn']               # столбец 'churn'

# 2. Разделим выборку на обучающую и тестовую
#    test_size=0.2 означает, что 20% данных попадёт в тест
#    stratify=y - для сохранения пропорций классов (если это уместно)
X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    test_size=0.2, 
    stratify=y, 
    random_state=42
)

# Проверим размеры полученных выборок
print("Размер X_train:", X_train.shape)
print("Размер X_test:", X_test.shape)
print("Размер y_train:", y_train.shape)
print("Размер y_test:", y_test.shape)

Размер X_train: (800, 4)
Размер X_test: (200, 4)
Размер y_train: (800,)
Размер y_test: (200,)


In [18]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# 1. Создаём экземпляр модели LogisticRegression
model = LogisticRegression(random_state=42)

# 2. Обучаем модель (fit)
model.fit(X_train, y_train)

# 3. Делаем предсказания (predict) на тестовых данных
y_pred = model.predict(X_test)

# 4. Оцениваем качество на тестовых данных
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy на тестовых данных:", accuracy)

Accuracy на тестовых данных: 0.65


In [19]:
# Делаем предсказание класса (0 или 1) на тестовых данных
y_pred = model.predict(X_test)

# Если мы хотим сделать предсказание вероятности оттока (например, вероятность класса 1),
# мы можем использовать predict_proba:
y_pred_proba = model.predict_proba(X_test)[:, 1]  # вторая колонка - вероятность класса 1

# Для удобства можно сложить реальные и предсказанные значения в общий DataFrame
results = pd.DataFrame({
    'y_true': y_test,
    'y_pred': y_pred,
    'y_pred_proba': y_pred_proba
}, index=X_test.index)

print(results.head(10))


     y_true  y_pred  y_pred_proba
202       0       0      0.416354
912       1       0      0.481336
824       1       0      0.222893
149       1       1      0.718980
929       0       0      0.324362
148       0       0      0.352714
356       1       1      0.571384
229       1       0      0.308476
767       0       0      0.243893
455       0       0      0.335777


In [20]:
from sklearn.metrics import (
    accuracy_score, 
    classification_report, 
    confusion_matrix, 
    roc_auc_score, 
    roc_curve
)

# 1. Точность (Accuracy)
acc = accuracy_score(y_test, y_pred)
print("Accuracy:", acc)

# 2. Подробный отчёт (Precision, Recall, F1-score)
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

# 3. Матрица ошибок
cm = confusion_matrix(y_test, y_pred)
print("\nConfusion Matrix:")
print(cm)

# 4. AUC-ROC
# Поскольку roc_auc_score принимает вероятности или оценки принадлежности к классу,
# передаём y_pred_proba (вероятности класса 1).
auc_score = roc_auc_score(y_test, y_pred_proba)
print("\nROC AUC Score:", auc_score)

# 5. При желании можно построить ROC-кривую (если вы в Jupyter Notebook, удобнее ещё и визуализировать)
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)


Accuracy: 0.65

Classification Report:
              precision    recall  f1-score   support

           0       0.66      0.89      0.76       122
           1       0.61      0.28      0.39        78

    accuracy                           0.65       200
   macro avg       0.63      0.58      0.57       200
weighted avg       0.64      0.65      0.61       200


Confusion Matrix:
[[108  14]
 [ 56  22]]

ROC AUC Score: 0.6562631357713326


In [23]:
import numpy as np

# Допустим, у вас уже есть обученная модель "model".
# Например:
# from sklearn.linear_model import LogisticRegression
# model = LogisticRegression().fit(X_train, y_train)

# Попросим пользователя ввести данные
service_duration = float(input("Введите количество дней использования сервиса (service_duration): "))
monthly_sessions = float(input("Введите кол-во сессий в месяц (monthly_sessions): "))
time_spent = float(input("Введите среднее время нахождения в сервисе (time_spent, часы): "))
age = float(input("Введите возраст пользователя (age): "))

# Формируем вектор признаков (обратите внимание на формат 2D: [[...]] для sklearn)
X_new = np.array([[service_duration, monthly_sessions, time_spent, age]])

# Делаем предсказание класса (0 или 1)
prediction = model.predict(X_new)[0]

# При желании можно получить вероятность оттока:
prediction_proba = model.predict_proba(X_new)[0, 1]  # вероятность класса 1

# Выводим результат
if prediction == 1:
    print(f"Вероятность оттока = {prediction_proba:.2f} (Пользователь, скорее всего, УЙДЁТ).")
else:
    print(f"Вероятность оттока = {prediction_proba:.2f} (Пользователь, скорее всего, ОСТАНЕТСЯ).")


Введите количество дней использования сервиса (service_duration):  50
Введите кол-во сессий в месяц (monthly_sessions):  10
Введите среднее время нахождения в сервисе (time_spent, часы):  5
Введите возраст пользователя (age):  50


Вероятность оттока = 0.52 (Пользователь, скорее всего, УЙДЁТ).


