# Цель занятия
На этом занятии мы рассмотрим применение метода опорных векторов.

**Классификация спам-сообщений**

SVM может быть использован для классификации электронных писем на спам и не спам. Вот пример кода:

In [1]:
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

import pandas as pd

# Загрузка датасета в датафрейм pandas
df = pd.read_csv(
    "datasets/SMSSpamCollection", sep="\t", header=None, names=["label", "text"]
)

# # Печать первых пяти строк датафрейма
print(df.head())

FileNotFoundError: [Errno 2] No such file or directory: 'datasets/SMSSpamCollection'

In [2]:
X = df["text"]  # Отделяем признаки
y = df["label"]  # Отделяем метки

# Разделяем данные на обучающую и тестовую выборки в соотношении 70/30
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Печать размеров обучающих и тестовых выборок
print("Размер обучающей выборки:", len(X_train))
print("Размер тестовой выборки:", len(X_test))

Размер обучающей выборки: 3900
Размер тестовой выборки: 1672


In [3]:
# Создание матрицы признаков
vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(X_train)

# # Обучение модели
model = SVC()
model.fit(X_train, y_train)

# Оценка качества модели
X_test = vectorizer.transform(X_test)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9838516746411483


**Медицинская диагностика**

Логистическая регрессия может быть использована для классификации диагнозов рака груди на основе результатов медицинских тестов. Вот пример кода:

In [4]:
from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Загрузка данных
data = load_breast_cancer()

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    data.data, data.target, test_size=0.2, random_state=42
)

# Обучение модели
model = SVC(max_iter=100)
model.fit(X_train, y_train)

# Оценка качества модели
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9473684210526315


Рассмотрим задачу **оттока клиентов**.

В этом коде мы загружаем датасет, удаляем ненужные признаки, заполняем пропущенные значения, преобразуем строковые признаки в числовые с помощью LabelEncoder, разделяем данные на обучающую и тестовую выборки с помощью train_test_split, обучаем модель логистической регрессии с помощью LogisticRegression и оцениваем качество модели с помощью accuracy_score.

In [4]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Загрузка данных
df = pd.read_csv("datasets/Telco-Customer-Churn.csv")

print(df.head())

   customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
0  7590-VHVEG  Female              0     Yes         No       1           No   
1  5575-GNVDE    Male              0      No         No      34          Yes   
2  3668-QPYBK    Male              0      No         No       2          Yes   
3  7795-CFOCW    Male              0      No         No      45           No   
4  9237-HQITU  Female              0      No         No       2          Yes   

      MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
0  No phone service             DSL             No  ...               No   
1                No             DSL            Yes  ...              Yes   
2                No             DSL            Yes  ...               No   
3  No phone service             DSL            Yes  ...              Yes   
4                No     Fiber optic             No  ...               No   

  TechSupport StreamingTV StreamingMovies        Contract Pape

In [5]:
# Удаление ненужных признаков
df = df.drop(["customerID", "TotalCharges"], axis=1)

# Заполнение пропущенных значений
df["tenure"].fillna(value=df["tenure"].mean(), inplace=True)

# Преобразование строковых признаков в числовые
le = LabelEncoder()
for col in df.columns:
    if df[col].dtype == "object":
        df[col] = le.fit_transform(df[col])

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    df.drop("Churn", axis=1), df["Churn"], test_size=0.3, random_state=42
)

In [6]:
# Обучение логистической регрессии
model = SVC()
model.fit(X_train, y_train)

# Оценка качества модели
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.7879791765262659
