In [0]:
#noetbook utilizado para a aula sobre regressão univariada

In [0]:
from pyspark.sql import SparkSession #importa a biblioteca que cria a seção do spark

In [0]:
#inicia a seção para a utilização do spark
spark = SparkSession.builder.appName("RegressaoLinear").getOrCreate() #cria a seção caso não exista ou obtém a já criada

In [0]:
%fs ls /FileStore/tables

path,name,size
dbfs:/FileStore/tables/regressaoLinear.csv,regressaoLinear.csv,564


In [0]:
diretorioRegressao="/FileStore/tables/regressaoLinear.csv"  #diretório que contém o arquivo a ser utilizado

In [0]:
#definindo o esquema dos dados a serem lidos
from pyspark.sql.types import *  #import dos tipos
schema=StructType().add("X",IntegerType(),True).add("Y",StringType(),True)  #define o esquema a ser utilizado


In [0]:
#lendo arquivos armazenados CSV com o esquema definido
pagamentoSeguro = spark.read.format('csv').schema(schema).options(header='true',delimiter=';').load(diretorioRegressao)

In [0]:
pagamentoSeguro.printSchema()

In [0]:
pagamentoSeguro.show(5)

In [0]:
import pyspark.sql.functions as F
pagamentoSeguro=pagamentoSeguro.select(F.col('X').alias("Apolices"), F.col('Y').alias("Valor_Pago"))  #adiciona nomes ao cabaçalho

In [0]:
pagamentoSeguro.show(5)

In [0]:
pagamentoSeguroPonto=pagamentoSeguro.withColumn("Valor_Pago_Novo", F.regexp_replace(F.col("Valor_Pago"), "[,]", "."))  #troca o valor de "," para "." 

In [0]:
pagamentoSeguroPonto.show(5)

In [0]:
#modificando o tipo string para numérico
pagamentoSeguroFinal=pagamentoSeguroPonto.select(F.col('Apolices'),F.col('Valor_Pago_Novo'), pagamentoSeguroPonto.Valor_Pago_Novo.cast('float').alias('Valor_Pago_Float'))

In [0]:
pagamentoSeguroFinal.show(5)

In [0]:
pagamentoSeguroFinal.printSchema()

Iniciando o Processo de Regressão

In [0]:
pagamentoSeguroFinal.describe().show()

In [0]:
#transformando os dados (linhas) em vetores
from pyspark.ml.feature import VectorAssembler  #importando a biblioteca responsável por criar o vetor a partir da coluna

assembler = VectorAssembler(inputCols=['Apolices'], outputCol='features')  #define o objeto para transformação
df_seguro = assembler.transform(pagamentoSeguroFinal) #aplica a transformação
df_seguro.printSchema()

In [0]:
df_seguro = df_seguro.select(['features','Valor_Pago_Float'])
df_seguro.show(5)

Criando o Modelo de Regressão

In [0]:
from pyspark.ml.regression import LinearRegression  #biblioteca que contém o modelo de regressão

lr = LinearRegression(maxIter=10, labelCol='Valor_Pago_Float') #define o objeto a ser utilizado para regressão
lrModel = lr.fit(df_seguro)

In [0]:
#Coeficientes angulares e lineares (a e b) da reta de regressão
print(f'Intercepto: {lrModel.intercept}\nCoeficiente Angular: {lrModel.coefficients.values}')

In [0]:
#print das estatísticas do modelo
modelsummary = lrModel.summary

print("Variância Explicada:", modelsummary.explainedVariance)
print('R_2: ', modelsummary.r2)
print('Erro médio quadrático: ',modelsummary.meanSquaredError)

modelsummary.residuals.show(5)


Realizando a Previsão Através do Modelo

In [0]:
modelsummary.predictions.show(5)