<a href="https://colab.research.google.com/github/marciogsantana/Ciencia-de-dados/blob/main/regressao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#noetbook utilizado para a aula sobre regressão univariada

In [None]:
from pyspark.sql import SparkSession #importa a biblioteca que cria a seção do spark

In [None]:
#inicia a seção para a utilização do spark
spark = SparkSession.builder.appName("RegressaoLinear").getOrCreate() #cria a seção caso não exista ou obtém a já criada

In [None]:
%fs ls /FileStore/tables

path,name,size
dbfs:/FileStore/tables/Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,463094961
dbfs:/FileStore/tables/d1995_07_01-24d0c.json,d1995_07_01-24d0c.json,7451741
dbfs:/FileStore/tables/d1995_07_02-c3f44.json,d1995_07_02-c3f44.json,9572086
dbfs:/FileStore/tables/d1995_07_03-f99af.json,d1995_07_03-f99af.json,14125303
dbfs:/FileStore/tables/d1995_07_04-c5a7f.json,d1995_07_04-c5a7f.json,12030333
dbfs:/FileStore/tables/d1995_07_05-0f261.json,d1995_07_05-0f261.json,14662194
dbfs:/FileStore/tables/d1995_07_06-20619.json,d1995_07_06-20619.json,15557682
dbfs:/FileStore/tables/d1995_07_07-2dd8d.json,d1995_07_07-2dd8d.json,15279295
dbfs:/FileStore/tables/d1995_07_08-83302.json,d1995_07_08-83302.json,7033852
dbfs:/FileStore/tables/d1995_07_09-f75d3.json,d1995_07_09-f75d3.json,5589076


In [None]:
diretorioRegressao="/FileStore/tables/regressaoLinear.csv"  #diretório que contém o arquivo a ser utilizado

In [None]:
#definindo o esquema dos dados a serem lidos
from pyspark.sql.types import *  #import dos tipos
schema=StructType().add("X",IntegerType(),True).add("Y",StringType(),True)  #define o esquema a ser utilizado


In [None]:
#lendo arquivos armazenados CSV com o esquema definido
pagamentoSeguro = spark.read.format('csv').schema(schema).options(header='true',delimiter=';').load(diretorioRegressao)

In [None]:
pagamentoSeguro.printSchema()

In [None]:
pagamentoSeguro.show(5)

In [None]:
import pyspark.sql.functions as F
pagamentoSeguro=pagamentoSeguro.select(F.col('X').alias("Apolices"), F.col('Y').alias("Valor_Pago"))  #adiciona nomes ao cabaçalho

In [None]:
pagamentoSeguro.show(5)

In [None]:
pagamentoSeguroPonto=pagamentoSeguro.withColumn("Valor_Pago_Novo", F.regexp_replace(F.col("Valor_Pago"), "[,]", "."))  #troca o valor de "," para "." 

In [None]:
pagamentoSeguroPonto.show(5)

In [None]:
#modificando o tipo string para numérico
pagamentoSeguroFinal=pagamentoSeguroPonto.select(F.col('Apolices'),F.col('Valor_Pago_Novo'), pagamentoSeguroPonto.Valor_Pago_Novo.cast('float').alias('Valor_Pago_Float'))

In [None]:
pagamentoSeguroFinal.show(5)

In [None]:
pagamentoSeguroFinal.printSchema()

Iniciando o Processo de Regressão

In [None]:
pagamentoSeguroFinal.describe().show()

In [None]:
#transformando os dados (linhas) em vetores
from pyspark.ml.feature import VectorAssembler  #importando a biblioteca responsável por criar o vetor a partir da coluna

assembler = VectorAssembler(inputCols=['Apolices'], outputCol='features')  #define o objeto para transformação
df_seguro = assembler.transform(pagamentoSeguroFinal) #aplica a transformação
df_seguro.printSchema()

In [None]:
df_seguro = df_seguro.select(['features','Valor_Pago_Float'])
df_seguro.show(5)

Criando o Modelo de Regressão

In [None]:
from pyspark.ml.regression import LinearRegression  #biblioteca que contém o modelo de regressão

lr = LinearRegression(maxIter=10, labelCol='Valor_Pago_Float') #define o objeto a ser utilizado para regressão
lrModel = lr.fit(df_seguro)

In [None]:
#Coeficientes angulares e lineares (a e b) da reta de regressão
print(f'Intercepto: {lrModel.intercept}\nCoeficiente Angular: {lrModel.coefficients.values}')

In [None]:
#print das estatísticas do modelo
modelsummary = lrModel.summary

print("Variância Explicada:", modelsummary.explainedVariance)
print('R_2: ', modelsummary.r2)
print('Erro médio quadrático: ',modelsummary.meanSquaredError)

modelsummary.residuals.show(5)


Realizando a Previsão Através do Modelo

In [None]:
modelsummary.predictions.show(5)