# Цель занятия
На этом занятии мы рассмотрим применение логистической регрессии.

Классификация является одной из наиболее распространенных задач в машинном обучении, и логистическая регрессия (Logistic Regression) - это один из наиболее популярных методов классификации. Ниже приведены несколько примеров использования логистической регрессии в библиотеке sklearn.

**Классификация спам-сообщений**

Логистическая регрессия может быть использована для классификации электронных писем на спам и не спам. Вот пример кода:

In [1]:
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

import pandas as pd

# Загрузка датасета в датафрейм pandas
df = pd.read_csv('datasets/SMSSpamCollection', sep='\t', header=None, names=['label', 'text'])

# # Печать первых пяти строк датафрейма
print(df.head())

  label                                               text
0   ham  Go until jurong point, crazy.. Available only ...
1   ham                      Ok lar... Joking wif u oni...
2  spam  Free entry in 2 a wkly comp to win FA Cup fina...
3   ham  U dun say so early hor... U c already then say...
4   ham  Nah I don't think he goes to usf, he lives aro...


In [2]:
X = df['text'] # Отделяем признаки
y = df['label'] # Отделяем метки

# Разделяем данные на обучающую и тестовую выборки в соотношении 70/30
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Печать размеров обучающих и тестовых выборок
print('Размер обучающей выборки:', len(X_train))
print('Размер тестовой выборки:', len(X_test))

Размер обучающей выборки: 3900
Размер тестовой выборки: 1672


In [3]:
# Создание матрицы признаков
vectorizer = CountVectorizer() #
X_train = vectorizer.fit_transform(X_train)

# # Обучение модели
model = LogisticRegression()
model.fit(X_train, y_train)

# Оценка качества модели
X_test = vectorizer.transform(X_test)
y_pred = model.predict(X_test) # предсказание 
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9850478468899522


**Медицинская диагностика**

Логистическая регрессия может быть использована для классификации диагнозов рака груди на основе результатов медицинских тестов. Вот пример кода:

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Загрузка данных
data = load_breast_cancer()

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)

# Обучение модели
model = LogisticRegression(max_iter=100) #инициализация модели
model.fit(X_train, y_train) # обучение модели 

# Оценка качества модели
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9649122807017544


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Рассмотрим задачу **оттока клиентов**.

В этом коде мы загружаем датасет, удаляем ненужные признаки, заполняем пропущенные значения, преобразуем строковые признаки в числовые с помощью LabelEncoder, разделяем данные на обучающую и тестовую выборки с помощью train_test_split, обучаем модель логистической регрессии с помощью LogisticRegression и оцениваем качество модели с помощью accuracy_score.

In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Загрузка данных
df = pd.read_csv('datasets/Telco-Customer-Churn.csv')

print(df.head())

FileNotFoundError: [Errno 2] No such file or directory: 'datasets/Telco-Customer-Churn.csv'

In [6]:
# Удаление ненужных признаков
df = df.drop(['customerID', 'TotalCharges'], axis=1)

# Заполнение пропущенных значений
df['tenure'].fillna(value=df['tenure'].mean(), inplace=True)

# Преобразование строковых признаков в числовые
le = LabelEncoder() # преобразование категориальные признаки
for col in df.columns:
    if df[col].dtype == 'object':
        df[col] = le.fit_transform(df[col])

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(df.drop('Churn' # тут метка класса
                                                            , axis=1), df['Churn'], test_size=0.3, random_state=42)


In [7]:
# Обучение логистической регрессии
model = LogisticRegression()
model.fit(X_train, y_train)

# Оценка качества модели
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

Accuracy: 0.8106956933270232


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


библиотеке Scikit-learn в модуле linear_model также реализован класс LogisticRegression для логистической регрессии.

Класс LogisticRegression имеет следующие параметры:

penalty — строка, указывающая тип регуляризации ('l1', 'l2', 'elasticnet', None). По умолчанию равен 'l2', что означает регуляризацию L2.

dual— булевый параметр, указывающий, должна ли быть решена двойственная задача оптимизации. По умолчанию равен False.

tol— вещественное число, задающее критерий остановки. По умолчанию равен False.

C — коэффициент регуляризации, положительное вещественное число. По умолчанию равен 1e-4.

fit_intercept — булевый параметр, указывающий, должно ли применяться смещение (intercept/bias). По умолчанию равен True.

intercept_scaling — вещественное число, указывающее, должен ли масштаб смещения быть умножен на C. По умолчанию равен 1.

class_weight — строка или словарь, указывающий, должно ли быть использовано взвешивание по классам (вес задается в зависимости от относительной частоты класса). По умолчанию равен None.

random_state — число или объект RandomState, указывающий, должен ли использоваться случайный генератор для воспроизводимости результатов работы модели. По умолчанию равен None.

n_jobs — количество параллельных задач, которые используются для расчета. По умолчанию равен None, что означает использование всех доступных процессоров.
Класс LogisticRegression имеет методы:

fit (X, y) — для обучения модели на данных X и y.

predict (X) — для предсказания целевых значений для новых данных X.

score (X, y) — для получения точности модели.

get_params () — для получения параметров модели соответственно.

predict_proba (X) — возвращает вероятности принадлежности классу для новых данных X.