In [1]:
# A. Загрузка данных клиентов
data = {
    'CustomerID': [1, 2, 3, 4, 5],
    'Age': [32, 45, 29, 56, 38],
    'Gender': ['Male', 'Female', 'Female', 'Male', 'Male'],
    'TotalSpend': [1000, 1500, 500, 2000, 800],
    'NumOfPurchases': [5, 3, 7, 2, 4],
    'Churn': [0, 1, 0, 1, 0]  # 0 - остается, 1 - ушел
}

# B. Импорт необходимых библиотек
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler

# Преобразуем данные в DataFrame
df = pd.DataFrame(data)

# C. Очистка данных: обработка пропущенных значений и дубликатов
# Проверим наличие пропущенных значений
print("Количество пропущенных значений:")
print(df.isnull().sum())

# В данном примере предположим, что у нас нет пропущенных значений, поэтому нет необходимости в дополнительной обработке.
# Однако, если бы в данных были пропуски, то мы могли бы обработать их с помощью метода fillna() для заполнения пропусков 
# определенными значениями, либо удалить строки с пропущенными значениями с помощью dropna().

# Проверим и удалим дубликаты, если они есть
df.drop_duplicates(inplace=True)

# D. Преобразование данных: кодирование категориальных признаков и масштабирование числовых признаков
# Кодируем категориальный признак "Gender" в числовой формат, чтобы модель машинного обучения могла работать с ним.
le = LabelEncoder()
df['Gender'] = le.fit_transform(df['Gender'])

# Масштабируем числовые признаки для их нормализации и уменьшения влияния различных единиц измерения.
# В данном примере мы используем StandardScaler для приведения признаков к стандартному нормальному распределению 
# со средним значением 0 и стандартным отклонением 1.
scaler = StandardScaler()
df[['Age', 'TotalSpend', 'NumOfPurchases']] = scaler.fit_transform(df[['Age', 'TotalSpend', 'NumOfPurchases']])

# Выведем окончательный результат
print("\nПодготовленные данные:")
print(df)

Количество пропущенных значений:
CustomerID        0
Age               0
Gender            0
TotalSpend        0
NumOfPurchases    0
Churn             0
dtype: int64

Подготовленные данные:
   CustomerID       Age  Gender  TotalSpend  NumOfPurchases  Churn
0           1 -0.825137       1   -0.301084        0.464991      0
1           2  0.515711       0    0.639803       -0.697486      1
2           3 -1.134563       0   -1.241971        1.627467      0
3           4  1.650274       1    1.580691       -1.278724      1
4           5 -0.206284       1   -0.677439       -0.116248      0


In [2]:
# Посмотрим на первые несколько строк данных
print("Первые 5 строк данных:")
print(df.head())

# Получим основные статистические показатели о клиентах
print("\nОсновные статистики о клиентах:")
print(df.describe())

Первые 5 строк данных:
   CustomerID       Age  Gender  TotalSpend  NumOfPurchases  Churn
0           1 -0.825137       1   -0.301084        0.464991      0
1           2  0.515711       0    0.639803       -0.697486      1
2           3 -1.134563       0   -1.241971        1.627467      0
3           4  1.650274       1    1.580691       -1.278724      1
4           5 -0.206284       1   -0.677439       -0.116248      0

Основные статистики о клиентах:
       CustomerID           Age    Gender  TotalSpend  NumOfPurchases  \
count    5.000000  5.000000e+00  5.000000    5.000000    5.000000e+00   
mean     3.000000  5.551115e-18  0.600000    0.000000   -1.332268e-16   
std      1.581139  1.118034e+00  0.547723    1.118034    1.118034e+00   
min      1.000000 -1.134563e+00  0.000000   -1.241971   -1.278724e+00   
25%      2.000000 -8.251370e-01  0.000000   -0.677439   -6.974858e-01   
50%      3.000000 -2.062842e-01  1.000000   -0.301084   -1.162476e-01   
75%      4.000000  5.157106e-01

In [17]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier

# Инициализируем модели
logreg_model = LogisticRegression(random_state=42)
rf_model = RandomForestClassifier(random_state=42)
gb_model = GradientBoostingClassifier(random_state=42)

In [18]:
y = df['Churn'] #нужен параметр у которого значение 0 или 1

X = df[['CustomerID', 'Age', 
    'Gender', 'TotalSpend',
       'TotalSpend', 
        'NumOfPurchases']]

In [19]:
y

0    0
1    1
2    0
3    1
4    0
Name: Churn, dtype: int64

In [20]:
from sklearn.model_selection import train_test_split

# Разделяем данные на обучающую (80%) и тестовую (20%) выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [23]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# Разделите данные
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Инициализируйте и обучите модель логистической регрессии
logreg_model = LogisticRegression()
logreg_model.fit(X_train, y_train)

# Теперь вы можете оценить
logreg_accuracy, logreg_precision, logreg_recall, logreg_f1, logreg_roc_auc = evaluate_model(logreg_model, X_test, y_test)


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [24]:
print(y.value_counts())

Churn
0    3
1    2
Name: count, dtype: int64


In [27]:
# Обучение моделей на обучающей выборке
logreg_model.fit(X_train, y_train)
rf_model.fit(X_train, y_train)
gb_model.fit(X_train, y_train)

In [28]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# Функция для оценки производительности модели
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    roc_auc = roc_auc_score(y_test, y_pred)
    return accuracy, precision, recall, f1, roc_auc

# Оценка производительности моделей
logreg_accuracy, logreg_precision, logreg_recall, logreg_f1, logreg_roc_auc = evaluate_model(logreg_model, X_test, y_test)
rf_accuracy, rf_precision, rf_recall, rf_f1, rf_roc_auc = evaluate_model(rf_model, X_test, y_test)
gb_accuracy, gb_precision, gb_recall, gb_f1, gb_roc_auc = evaluate_model(gb_model, X_test, y_test)

# Вывод результатов
print("Результаты оценки производительности моделей на тестовой выборке:")
print("Логистическая регрессия:")
print(f"Точность: {logreg_accuracy:.4f}, Полнота: {logreg_recall:.4f}, F1-мера: {logreg_f1:.4f}, ROC-AUC: {logreg_roc_auc:.4f}")
print("Случайный лес:")
print(f"Точность: {rf_accuracy:.4f}, Полнота: {rf_recall:.4f}, F1-мера: {rf_f1:.4f}, ROC-AUC: {rf_roc_auc:.4f}")
print("Градиентный бустинг:")
print(f"Точность: {gb_accuracy:.4f}, Полнота: {gb_recall:.4f}, F1-мера: {gb_f1:.4f}, ROC-AUC: {gb_roc_auc:.4f}")

Результаты оценки производительности моделей на тестовой выборке:
Логистическая регрессия:
Точность: 0.5000, Полнота: 0.0000, F1-мера: 0.0000, ROC-AUC: 0.5000
Случайный лес:
Точность: 1.0000, Полнота: 1.0000, F1-мера: 1.0000, ROC-AUC: 1.0000
Градиентный бустинг:
Точность: 1.0000, Полнота: 1.0000, F1-мера: 1.0000, ROC-AUC: 1.0000


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
