# Regressao Linear:

- 1. Importação de dados <br>
- 2. Vetorização e transformação dos dados (Rformula) <br>
- 3. Dividir em treino e teste usando randomSplit (70/30%) <br>
- 4. Criar o modelo com dados de treino <br>
- 5. Prever HP usando dados de teste <br>
- 6. Avaliar a performance do modelo <br>

# Hiper Parâmetros
- loss: função de perda, squaredError, huber. (padrão: squared error)
- maxIer: número máximo de iterações (padrão: 100)
- standardization: define se os dados devem ser padronizados antes de criar o modelo. (padrão: true)

In [6]:
import findspark, pyspark
from pyspark.sql import SparkSession
findspark.init()
spark = SparkSession.builder.appName("aunivariatefeatureselector").getOrCreate()

In [7]:
from pyspark.ml.feature import UnivariateFeatureSelector

In [10]:
carros = spark.read.csv("Carros.csv", header=True, inferSchema= True, sep=";")
print(carros.count())
carros.show(5)

32
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     21|        6|        160|             39| 262| 1646|        0|          1|      4|          4|110|
|     21|        6|        160|             39|2875| 1702|        0|          1|      4|          4|110|
|    228|        4|        108|            385| 232| 1861|        1|          1|      4|          1| 93|
|    214|        6|        258|            308|3215| 1944|        1|          0|      3|          1|110|
|    187|        8|        360|            315| 344| 1702|        0|          0|      3|          2|175|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
only showing top 5 rows



In [27]:
carros

DataFrame[Consumo: int, Cilindros: int, Cilindradas: int, RelEixoTraseiro: int, Peso: int, Tempo: int, TipoMotor: int, Transmissao: int, Marchas: int, Carburadors: int, HP: int]

In [32]:
from pyspark.ml.feature import RFormula

In [34]:
# Padrão de RFormula:
Rformula = RFormula(formula="HP ~Consumo + Cilindros + Cilindradas", featuresCol = "independente", labelCol="dependente")
carrosrf = Rformula.fit(carros).transform(carros)
carrosrf.select("independente","dependente").show(5,truncate=False)

+-----------------+----------+
|independente     |dependente|
+-----------------+----------+
|[21.0,6.0,160.0] |110.0     |
|[21.0,6.0,160.0] |110.0     |
|[228.0,4.0,108.0]|93.0      |
|[214.0,6.0,258.0]|110.0     |
|[187.0,8.0,360.0]|175.0     |
+-----------------+----------+
only showing top 5 rows



In [43]:
# Cria treino (80%) e teste (20%): retorna 2 datasets
CarrosTreino, CarrosTeste = carrosrf.randomSplit([0.8,0.2])
print("treino: "+ str(CarrosTreino.count()), "teste: " + str(CarrosTeste.count()))

treino: 27 teste: 5


In [48]:
# Instancia e treino o modelo:
from pyspark.ml.regression import LinearRegression
reglin = LinearRegression(featuresCol="independente", labelCol="dependente", maxIter=1000, loss="squaredError", standardization =True)
modelo = reglin.fit(CarrosTreino)

In [49]:
#Previsao:
previsao = modelo.transform(CarrosTeste)
previsao.select("independente", "dependente", "prediction").show()

+------------------+----------+-----------------+
|      independente|dependente|       prediction|
+------------------+----------+-----------------+
| [158.0,8.0,351.0]|     264.0|201.9704831766577|
|[178.0,6.0,1676.0]|     123.0|133.2057757161964|
| [214.0,6.0,258.0]|     110.0|138.2532609660231|
|[244.0,4.0,1467.0]|      62.0|68.97976682219776|
| [304.0,4.0,951.0]|     113.0| 64.6893007046315|
+------------------+----------+-----------------+



In [51]:
from pyspark.ml.evaluation import RegressionEvaluator

In [54]:
avaliar = RegressionEvaluator(labelCol="dependente", predictionCol="prediction", metricName="rmse") #col original, previsão e métrica
rmse = avaliar.evaluate(previsao)
print(rmse)
# rmse: potência da diferença entre ((yprev - yreal)^1/2)/N > quanto menor, melhor (perfeito = 0)

37.76958136336855
