# Задание 2. Кластеризация (KMeans)
1. Сгенерировать подходящие исходные данные для проведения обучения
2. Провести кластеризацию с помощью pyspark.ml / pyspark.mllib
3. Вывести и сохранить в файл полученные центры кластеров

## Сгенерировать подходящие исходные данные для проведения обучения

In [1]:
import os
os.environ['SPARK_HOME'] = "D:/BigData/spark-3.5.3"
os.environ['PYSPARK_DRIVER_PYTHON'] = 'jupyter'
os.environ['PYSPARK_DRIVER_PYTHON_OPTS'] = 'lab'
os.environ['PYSPARK_PYTHON'] = 'python'

In [2]:
from sklearn.datasets import make_blobs
import pandas as pd

samples=500
centers=4
features=2


X, y = make_blobs(n_samples=samples, n_features=features, centers=centers, cluster_std=1, random_state=42)

# Формирование исходного датафрейма
data = pd.DataFrame(X, columns=["feature1", "feature2"])


## Провести кластеризацию с помощью pyspark.ml / pyspark.mllib

In [None]:
from pyspark.sql import SparkSession
from pyspark.ml.clustering import KMeans
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.linalg import Vectors
import numpy as np


# Создание SparkSession
spark = SparkSession.builder.appName("KMeans").getOrCreate()

# Формируем dataframe
df = spark.createDataFrame(data)

# Векторизуем данные для обучения 
vector_assembler = VectorAssembler(inputCols=["feature1", "feature2"], outputCol="features")
df = vector_assembler.transform(df)

# Создаем и обучаем модель
kmeans = KMeans().setK(centers).setSeed(1)
model = kmeans.fit(df)



## Вывести и сохранить в файл полученные центры кластеров

In [9]:
# Предсказываем кластеры
markers = model.transform(df)

# Сохраняем в файл полученные данные
pd_markers = markers.toPandas()
pd_markers.to_json("centers_claster.json", orient='records', lines=True)



+-------------------+--------------------+--------------------+----------+
|           feature1|            feature2|            features|prediction|
+-------------------+--------------------+--------------------+----------+
|-7.6890544303503345|   6.620346490372816|[-7.6890544303503...|         1|
| -9.576513834092841|  -6.934404459793758|[-9.5765138340928...|         2|
|  6.829681769445774|  1.1648713985855805|[6.82968176944577...|         0|
|-2.9013057761849077|   7.550771180066203|[-2.9013057761849...|         3|
| -5.678413268987326|  -7.288184966297498|[-5.6784132689873...|         2|
| -6.049291374607025|  -7.736193419184814|[-6.0492913746070...|         2|
| -6.278243218367216|   7.227463015774053|[-6.2782432183672...|         1|
|-6.6091703653714315|  -6.930347702725084|[-6.6091703653714...|         2|
|  3.572258406845507|  1.8307901989194386|[3.57225840684550...|         0|
| -7.504445768846949|  -6.854018543065113|[-7.5044457688469...|         2|
| 3.9933059519855747|   0