In [2]:
import os
import findspark
findspark.init(os.environ['SPARK_HOME'])

from pyspark.sql import SparkSession
from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml.clustering import KMeans

In [3]:
# Inicializando a sessão do Spark
spark = SparkSession.builder.appName("Exemplo").getOrCreate()

## Data Quality
---

- **Monitoramento Contínuo:** Implementar um sistema de monitoramento para manter a qualidade dos dados ao longo do tempo.

In [4]:
# Criando um DataFrame de exemplo com uma coluna de valores
data = [("Cliente1", 100),
        ("Cliente2", -50),
        ("Cliente3", 75)]

columns = ["Cliente", "Valor"]

df = spark.createDataFrame(data, columns)
df.show()

+--------+-----+
| Cliente|Valor|
+--------+-----+
|Cliente1|  100|
|Cliente2|  -50|
|Cliente3|   75|
+--------+-----+



In [5]:
# Configurando pipeline para preprocessamento de dados
indexer = StringIndexer(inputCol="Cliente", outputCol="ClienteIndex")
assembler = VectorAssembler(inputCols=["Valor"], outputCol="features")
kmeans = KMeans().setK(2).setSeed(123)

pipeline = Pipeline(stages=[indexer, assembler, kmeans])

# Fit do pipeline nos dados
model = pipeline.fit(df)

# Transformando os dados com o modelo
df_transformed = model.transform(df)

# Mostrando o DataFrame resultante
df_transformed.select("Cliente", "Valor", "prediction").show()

+--------+-----+----------+
| Cliente|Valor|prediction|
+--------+-----+----------+
|Cliente1|  100|         0|
|Cliente2|  -50|         1|
|Cliente3|   75|         0|
+--------+-----+----------+



In [5]:
spark.stop()