# Задание 1. Бинарная классификация (BinaryClassification)
1. Сгенерировать подходящие исходные данные для проведения обучения
2. Провести бинарную классификацию с помощью pyspark.ml / pyspark.mllib
3. Провести расчет метрик
4. Сохранить полученные значения метрик в файл.

## Сгенерировать подходящие исходные данные для проведения обучения

In [2]:
import os
os.environ['SPARK_HOME'] = "D:/BigData/spark-3.5.3"
os.environ['PYSPARK_DRIVER_PYTHON'] = 'jupyter'
os.environ['PYSPARK_DRIVER_PYTHON_OPTS'] = 'lab'
os.environ['PYSPARK_PYTHON'] = 'python'

In [5]:
from sklearn.datasets import make_blobs
import pandas as pd

# Генерация данных
X, y = make_blobs(n_samples=1000, centers=2, n_features=4, random_state=42, cluster_std=20)

# Объединение столбцов
data = [(x[0], x[1], x[2], x[3], y[i]) for i, x in enumerate(X)]

# Формирование исходного датафрейма
df = pd.DataFrame(data, columns=["feature1", "feature2", "feature3", "feature4", "label"])


## Провести бинарную классификацию с помощью pyspark.ml / pyspark.mllib

In [6]:
from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import LogisticRegression


# Инициализация SparkSession
spark = SparkSession.builder.appName("BinaryClassificationExample").getOrCreate()

# Создание DataFrame Spark
spark_df = spark.createDataFrame(df)

# Векторизация признаков
assembler = VectorAssembler(inputCols=["feature1", "feature2", "feature3", "feature4"], outputCol="features")
assembled_data = assembler.transform(spark_df)

# Разделение на тестовую и тренировочную выборки
train_data, test_data = assembled_data.randomSplit([0.8, 0.2], seed=42)

# Модель
lr = LogisticRegression(featuresCol="features", labelCol="label")

# Обучение
model = lr.fit(train_data)

# Проверка на тестовых данных
predictions = model.transform(test_data)

## Провести расчет метрик

In [7]:
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Получаем сводную информацию
summary = model.summary

# Выводим метрики
print("Area Under ROC: ", summary.areaUnderROC)
print("Precision by Label: ", summary.precisionByLabel)
print("Recall by Label: ", summary.recallByLabel)
print("F1 Score by Label: ", summary.fMeasureByLabel())
print("False Positive Rate by Label: ", summary.falsePositiveRateByLabel)
print("True Positive Rate by Label: ", summary.truePositiveRateByLabel)

# Оценка модели с использованием BinaryClassificationEvaluator
evaluator = BinaryClassificationEvaluator(labelCol='label')
accuracy = evaluator.evaluate(predictions)
print("Accuracy: ", accuracy)

Area Under ROC:  0.7908580860118369
Precision by Label:  [0.7180156657963447, 0.7115839243498818]
Recall by Label:  [0.6926952141057935, 0.7359413202933985]
F1 Score by Label:  [0.7051282051282052, 0.7235576923076923]
False Positive Rate by Label:  [0.26405867970660146, 0.30730478589420657]
True Positive Rate by Label:  [0.6926952141057935, 0.7359413202933985]
Accuracy:  0.7792595753760803


## Сохранить полученные значения метрик в файл.

In [8]:
with open('binaryClassifMetrics.txt', 'w') as file:
    print("Area Under ROC: ", summary.areaUnderROC, file=file)
    print("Precision by Label: ", summary.precisionByLabel, file=file)
    print("Recall by Label: ", summary.recallByLabel, file=file)
    print("F1 Score by Label: ", summary.fMeasureByLabel(), file=file)
    print("False Positive Rate by Label: ", summary.falsePositiveRateByLabel, file=file)
    print("True Positive Rate by Label: ", summary.truePositiveRateByLabel, file=file)
    print("Accuracy: ", accuracy, file=file)