In [1]:
#Regressão univariada

In [2]:
#importa a biblioteca que cria a seção do spark
from pyspark.sql import SparkSession

In [4]:
#inicia a seção para a utilização do spark
spark = SparkSession\
    .builder\
    .appName("RegressaoLinear")\
    .getOrCreate() #cria a seção caso não exista ou obtém a já criada

In [6]:
#define o diretório que contém o arquivo a ser utilizado
diretorioRegressao="./data/regressaoLinear.csv" 

In [7]:
#importa os tipos
from pyspark.sql.types import * 

#define o esquema dos dados a serem lidos
#Define o tipo como struct, chama a variável independete de X e define como inteiro e chama a variável dependente de Y e define como string
schema=StructType().add("X",IntegerType(),True).add("Y",StringType(),True)

In [8]:
#carrega o arquivo no Spark com o esquema definido
pagamentoSeguro = spark.read.format('csv').schema(schema).options(header='true',delimiter=';').load(diretorioRegressao)

In [10]:
#checa se esquema foi corretamente carregado
pagamentoSeguro.printSchema()

root
 |-- X: integer (nullable = true)
 |-- Y: string (nullable = true)



In [11]:
#mostra os primeiros 5 dados
pagamentoSeguro.show(5)

+---+-----+
|  X|    Y|
+---+-----+
|108|392,5|
| 19| 46,2|
| 13| 15,7|
|124|422,2|
| 40|119,4|
+---+-----+
only showing top 5 rows



In [10]:
import pyspark.sql.functions as F
pagamentoSeguro=pagamentoSeguro.select(F.col('X').alias("Apolices"), F.col('Y').alias("Valor_Pago"))  #adiciona nomes ao cabaçalho

In [11]:
pagamentoSeguro.show(5)

In [12]:
pagamentoSeguroPonto=pagamentoSeguro.withColumn("Valor_Pago_Novo", F.regexp_replace(F.col("Valor_Pago"), "[,]", "."))  #troca o valor de "," para "." 

In [13]:
pagamentoSeguroPonto.show(5)

In [14]:
#modificando o tipo string para numérico
pagamentoSeguroFinal=pagamentoSeguroPonto.select(F.col('Apolices'),F.col('Valor_Pago_Novo'), pagamentoSeguroPonto.Valor_Pago_Novo.cast('float').alias('Valor_Pago_Float'))

In [15]:
pagamentoSeguroFinal.show(5)

In [16]:
pagamentoSeguroFinal.printSchema()

Iniciando o Processo de Regressão

In [18]:
pagamentoSeguroFinal.describe().show()

In [19]:
#transformando os dados (linhas) em vetores
from pyspark.ml.feature import VectorAssembler  #importando a biblioteca responsável por criar o vetor a partir da coluna

assembler = VectorAssembler(inputCols=['Apolices'], outputCol='features')  #define o objeto para transformação
df_seguro = assembler.transform(pagamentoSeguroFinal) #aplica a transformação
df_seguro.printSchema()

In [20]:
df_seguro = df_seguro.select(['features','Valor_Pago_Float'])
df_seguro.show(5)

Criando o Modelo de Regressão

In [22]:
from pyspark.ml.regression import LinearRegression  #biblioteca que contém o modelo de regressão

lr = LinearRegression(maxIter=10, labelCol='Valor_Pago_Float') #define o objeto a ser utilizado para regressão
lrModel = lr.fit(df_seguro)

In [23]:
#Coeficientes angulares e lineares (a e b) da reta de regressão
print(f'Intercepto: {lrModel.intercept}\nCoeficiente Angular: {lrModel.coefficients.values}')

In [24]:
#print das estatísticas do modelo
modelsummary = lrModel.summary

print("Variância Explicada:", modelsummary.explainedVariance)
print('R_2: ', modelsummary.r2)
print('Erro médio quadrático: ',modelsummary.meanSquaredError)

modelsummary.residuals.show(5)


Realizando a Previsão Através do Modelo

In [26]:
modelsummary.predictions.show(5)