In [1]:
!pip install pyspark

`Documentacion:` http://spark.apache.org/docs/latest/ml-features.html

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("LinearRegression").getOrCreate()

## `Transformaciones`

In [3]:
df = spark.read.csv(path = "../input/regresin-lineal/fake_customers.csv", 
                    inferSchema = True, header = True)

df.show()

## `StringIndexer`

Para transformar los valores categoricos a numericos.

In [4]:
from pyspark.ml.feature import StringIndexer

indexer1 = StringIndexer(inputCol = "Group",
                         outputCol = "GroupIndex")

indexed1 = indexer1.fit(df).transform(df)

indexed1.show()

In [5]:
indexer2 = StringIndexer(inputCol = "Name",
                         outputCol = "NameIndex")

indexed2 = indexer2.fit(indexed1).transform(indexed1)

indexed2.show()

## `VectorIndexer`
Para transformar los datos a un vector denso. Esto ultimo es obligatorio para los modelos de ML en PySpark.

In [6]:
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

assembler = VectorAssembler(inputCols = ["Phone", "GroupIndex", "NameIndex"],
                            outputCol = "features")

output = assembler.transform(indexed2)

output.select(["Phone", "GroupIndex", "NameIndex", "features"]).show()

# `LinearRegression`

In [7]:
from pyspark.ml.regression import LinearRegression

In [8]:
data = spark.read.format("libsvm").load("../input/regresin-lineal/sample_linear_regression_data.txt")

data.show()

Este es el formato que Spark usa para hacer ML, dos columnas, una llamada "label" y otra de "features", que serían "y" y "X" respectivamente.

La columna "label" o "y" debe ser una columna numerica, al igual que cuando haciamos modelos de SciKit-Learn.

La columna "features" o "X" esta formada por vectores , estos vectores son los elementos agrupados de las columnas iniciales.

In [9]:
# Inicializamos el modelo
lr = LinearRegression(featuresCol = "features",
                      labelCol = "label",
                      predictionCol = "prediction")

# Nota: si en el DataFrame las columnas tienen otros nombres podemos decirle al modelo que trabaje con esos nombres
# Por convencion "X" se llama "features", "y" se llama "label" y las predicciones se llaman "prediction"
# Y esos son los valores por defecto de los modelo de ML.

# Entrenamos el modelo 
model = lr.fit(data)

In [10]:
# Podemos imprimir los coeficientes de la regresion
print("Coeficientes: {}".format(str(model.coefficients)))
print("\n")
print("Intercepcion:{}".format(str(model.intercept)))

## `Summary`

In [11]:
# El modelo tiene el atributo .summary
# Este summary se hace sobre el set de entrenamiento y calcula las métricas del modelo
summary = model.summary

In [12]:
summary.residuals.show()
# .residuals es la diferencia entre el valor real y el valor predicho 

print("RMSE: {}".format(summary.rootMeanSquaredError))
print("r2: {}".format(summary.r2))

## `Train/Test Split`

No existe la función train_test_split... Pero los objetos DataFrames de Spark tienen un metodo que hace lo mismo que train_test_split.

In [13]:
data.show(3)

In [14]:
# .randomSplit()

train, test = data.randomSplit(weights = [0.7, 0.3], seed = 42)

In [15]:
train.show(3)

test.show(3)

In [16]:
model = lr.fit(train)

In [17]:
y_hat = model.evaluate(test)

In [18]:
y_hat.predictions.show()

In [19]:
y_hat.residuals.show()
print("RMSE: {}".format(y_hat.rootMeanSquaredError))

Hasta aquí llegaría el modelo, ahora vamos a ver como hacer predicciones de datos nuevos.

Vamos a trabajar con la columna de "features" de test, así solo nos quedamos con "X" y no sabemos el valor de "y".

In [20]:
nueva_data = test.select("features")
nueva_data.show(3)

In [21]:
# En lugar de usar .evaluate() vamos a usar .transform() y esto nos retorna un nuevo DataFrame
y_hat = model.transform(nueva_data)
y_hat.show()

## `Guardar el modelo`

In [None]:
model.save(path = "modelo.model")

In [None]:
################################################################################################################################