**Importando bibliotecas**

In [None]:
from pyspark.sql import SparkSession
from pyspark.ml.regression import LinearRegression, RandomForestRegressor
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.feature import VectorAssembler

**Criando uma aplicação Spark**

In [None]:
spark = SparkSession.builder.master("local").appName("RegressaoLinear").getOrCreate()

**Importando dados**

In [None]:
carros_temp = spark.read.csv("/home/rowedder/download/Carros.csv", inferSchema=True, header=True, sep=";")

In [None]:
carros_temp.show(5)

In [None]:
# Três variáveis independentes e uma dependente.
carros = carros_temp.select("Consumo", "Cilindros", "Cilindradas", "HP")

In [None]:
carros.show(5)

**Criando vector de características**

In [None]:
veccaracteristicas = VectorAssembler(inputCols=[("Consumo"),("Cilindros"),("Cilindradas")], outputCol="caracteristicas")

In [None]:
# Transforma a coluna: Consumo, Cilindro e Cilindradas na coluna caracteristicas. 
carros = veccaracteristicas.transform(carros)

In [None]:
carros.show(5)

**Dividindo os dados em porcentagem para treino e teste**

In [None]:
carros_treino, carros_teste = carros.randomSplit([0.7, 0.3])

In [None]:
print(carros_treino.count())

In [None]:
print(carros_teste.count())

**Criando o objeto (Regressão Linear)**

In [None]:
reglin = LinearRegression(featuresCol="caracteristicas", labelCol="HP")

**Criando o modelo de treino (fit)**

In [None]:
modelo = reglin.fit(carros_treino)

**Testando o modelo (Previsão)**

In [None]:
previsao = modelo.transform(carros_teste)

In [None]:
previsao.show(5)

**Avaliando a performance do modelo de regressão linear (Métrica de Performance)**

In [None]:
avaliar = RegressionEvaluator(predictionCol="prediction", labelCol="HP", metricName="rmse")

In [None]:
rmse = avaliar.evaluate(previsao)

In [None]:
print(rmse)

**CRIANDO UM NOVO MODELO**

**Criando o objeto (Florestas de decisão)**

In [None]:
rfreg = RandomForestRegressor(featuresCol="caracteristicas", labelCol="HP")

**Criando o modelo de treino (fit)**

In [None]:
modelo2 = rfreg.fit(carros_treino)

**Testando o modelo (Previsão)**

In [None]:
previsao2 = modelo2.transform(carros_teste)

In [None]:
previsao.show(5)

**Avaliando a performance do modelo de florestas de decisão (Métrica de Performance)**

In [None]:
rmse2 = avaliar.evaluate(previsao2)

In [None]:
print(rmse2)