# Логистическая регрессия
1. Что такое логистическая регрессия?
Логистическая регрессия — это метод машинного обучения, который используется для решения задач классификации. В отличие от линейной регрессии, которая предсказывает непрерывные значения, логистическая регрессия предназначена для работы с дискретными (категориальными) переменными. Например, предсказать, к какой категории относится объект — 0 или 1.

2. Как она работает?
Модель логистической регрессии пытается найти вероятность принадлежности объекта к определенному классу (например, к классу "ушел" или "остался"), основанную на комбинации входных признаков.

### Подготвка случайных данных для работы 

In [6]:
import pandas as pd 
import numpy as np
num_size = 100
age = np.random.randint(18, 65, size=num_size)
purchase = np.random.randint(50, 1000, size=num_size)
satisfaction = np.random.uniform(0, 10, size=num_size)
churn = np.random.randint(0, 2, size=num_size)
df = pd.DataFrame({'Age': age, 
                   'Satisfaction': satisfaction,
                   'Purchase': purchase,
                   'churn': churn})
df

Unnamed: 0,Age,Satisfaction,Purchase,churn
0,30,2.064300,937,0
1,44,3.671911,859,1
2,24,5.925392,636,0
3,31,1.594106,862,0
4,27,8.310494,232,1
...,...,...,...,...
95,62,8.104523,552,0
96,61,8.351959,264,1
97,18,2.150318,465,0
98,47,7.724232,359,0


In [7]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

X = df[['Age', 'Satisfaction', 'Purchase']]
Y = df['churn']

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=42)

разделение данных на обучающую и тестовую
функция train_test_split делит данные на две части 
test_size = 0.3 это значит что на тестовую подается 30% данных, а на модель обучающую подается 70% 
random_state=42 
фиксирует случайное разделение данных для повторяемости экспериментов (чтобы результаты всегда были одинаковыми при повторном запуске).

In [8]:
model = LogisticRegression()
model.fit(X_train, Y_train)

Наша модель логистическая регрессия берет и ее данные для обучения которые уже подготовлены x_train, y_train 
Модель анализирует зависимость между признаками (возраст, сумма покупок, удовлетворённость) и целевой переменной (уйдёт или останется).


In [9]:
y_pred = model.predict(X_test)

predict(X_test) — эта команда используется для предсказания меток (0 или 1) на основе тестовых данных. Модель использует зависимости, которые она выучила на обучающих данных, чтобы предсказать результат для новых клиентов, которых она не видела ранее.
Результат сохраняется в переменной y_pred.


In [10]:
accuracy = accuracy_score(Y_test, y_pred)
print(f'Accuracy: {accuracy * 100:.2f}%')

Accuracy: 40.00%


accuracy_score(y_test, y_pred) — эта функция вычисляет точность предсказаний модели, сравнивая реальные значения (y_test) с предсказанными значениями (y_pred).
Точность (accuracy) измеряет долю правильно предсказанных результатов. Она рассчитывается как отношение числа правильных предсказаний к общему числу предсказаний.
Если точность равна 100%, это означает, что модель предсказала все результаты правильно. В данном примере результат выводится в процентах с округлением до двух знаков после запятой.