# Dataset
[Tabular Playground Series - Oct 2021](https://www.kaggle.com/competitions/tabular-playground-series-oct-2021/data?select=train.csv)

# Configuracion del entorno de trabajo en Colab

## Dependencias
Nos seguramos de tener las depedencas necesarias para ejecutar spark.

### Consideraciones:

- Colab tiene disponible el paquete de openjdk version 8, pero la obtencion del paquete en otros sistemas linux basados en debian puede variar, al no tener disponible el paquete.
- Dependiendo del sistema linux varia la forma optima de obtener los paquetes necesario para el funcionamiento de spark.
- Otros sistemas no linux pueden ejecutar spark, pero con cuestiones que no los hacen los mas idoneos para llevar a cabo las tareas para las que se pretende usar spark. 

In [35]:
#Bibliotecas para poder trabajar con Spark
!sudo apt update
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

Hit:1 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease
Hit:2 http://archive.ubuntu.com/ubuntu bionic InRelease
Ign:3 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  InRelease
Hit:4 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease
Get:5 http://security.ubuntu.com/ubuntu bionic-security InRelease [88.7 kB]
Hit:6 http://ppa.launchpad.net/c2d4u.team/c2d4u4.0+/ubuntu bionic InRelease
Hit:7 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  Release
Get:8 http://archive.ubuntu.com/ubuntu bionic-updates InRelease [88.7 kB]
Hit:9 http://ppa.launchpad.net/cran/libgit2/ubuntu bionic InRelease
Get:10 http://archive.ubuntu.com/ubuntu bionic-backports InRelease [83.3 kB]
Hit:11 http://ppa.launchpad.net/deadsnakes/ppa/ubuntu bionic InRelease
Hit:12 http://ppa.launchpad.net/graphics-drivers/ppa/ubuntu bionic InRelease
Fetched 261 kB in 7s (35.6 kB/s)
Reading package li

## Obtencion de spark

Descargamos spark de su repositorio oficial

### Consideraciones:
- Antes de descargar cualquier version de spark, es recomendable revisar si se encuentra presente en el repositorio.
- Para utilizar spark en colab basta con descomprimirlo, pero en otros sistemas linux es recomendable descomprimirlo en el directorio adecuado.

In [36]:
!wget -q https://downloads.apache.org/spark/spark-3.2.2/spark-3.2.2-bin-hadoop3.2.tgz


Descomprimimos spark

In [37]:
!tar xf spark-3.2.2-bin-hadoop3.2.tgz

Actualmente ya contamos con spark, sin embargo todavia no somos capaces de interactuar con spark atraves de python, por lo que necesitamos instalar las depedencias de findspark y pyspark. 


- findspark nos permite configurar el entorno de spark al cual nuestro codigo de python se estara comunicando.
- pyspark nos permite poder pasarle instruciones a spark utilizando el lenguaje de python.

In [38]:
#Configuración de Spark con Python
!pip install -q findspark
!pip install pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Configuramos el ambiente de pyspark

In [39]:
#Estableciendo variable de entorno
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.2-bin-hadoop3.2"

#Buscando e inicializando la instalación de Spark
import findspark
findspark.init()
findspark.find()

'/content/spark-3.2.2-bin-hadoop3.2'

# Sleccion de base de datos

Para este notebook utilizaremos el data presente en 
[Tabular Playground Series - Oct 2021](https://www.kaggle.com/competitions/tabular-playground-series-oct-2021/data?select=train.csv).

El cual tiene entre sus caracteristicas ser datos generados de manera sintentica  mediante el uso de GAN (Generative Adversarial Network), y tener un volumen de datos de 2.32 GB.



# Carga del data set y preparacion para el modelo

Creamos una sesion, que es lo esencial para poder trabajar con spark

In [40]:
#Creación de la SparkSession para trabajar
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Portafolio').getOrCreate()

Cargamos el set de datos, indicando que tome la primera fila como las cabeceras de las columnas, e infiera el tipo de los datos.

In [41]:
df_spark = spark.read.csv('/content/drive/MyDrive/Colab Notebooks/data/train.csv', header=True, inferSchema=True)
df_spark

DataFrame[id: int, f0: double, f1: double, f2: double, f3: double, f4: double, f5: double, f6: double, f7: double, f8: double, f9: double, f10: double, f11: double, f12: double, f13: double, f14: double, f15: double, f16: double, f17: double, f18: double, f19: double, f20: double, f21: double, f22: int, f23: double, f24: double, f25: double, f26: double, f27: double, f28: double, f29: double, f30: double, f31: double, f32: double, f33: double, f34: double, f35: double, f36: double, f37: double, f38: double, f39: double, f40: double, f41: double, f42: double, f43: int, f44: double, f45: double, f46: double, f47: double, f48: double, f49: double, f50: double, f51: double, f52: double, f53: double, f54: double, f55: double, f56: double, f57: double, f58: double, f59: double, f60: double, f61: double, f62: double, f63: double, f64: double, f65: double, f66: double, f67: double, f68: double, f69: double, f70: double, f71: double, f72: double, f73: double, f74: double, f75: double, f76: doub

Nos aseguramos de haber cargado los datos

In [42]:
df_spark.show()

+---+--------+--------+---------+--------+--------+--------+--------+--------+---------+--------+----------+---------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+---+----------+--------+--------+--------+--------+--------+--------+---------+--------+--------+---------+----------+--------+--------+--------+--------+--------+--------+--------+--------+---+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+---------+--------+--------+--------+--------+--------+--------+--------+--------+--------+----------+--------+--------+--------+----------+---------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+----------+--------+--------+--------+--------+--------+--------+--------+--------+--------+----------+--------+--------+--------+----------+--------+--------+--------+---------+--------+----------+----------+--------+---------+----

## Transformacion de los datos

Al no haber presente datos faltantes en el dataset o datos que no sean validos para el modelo de regresion, no hizo falta implementar algun tipo de transformacion para que pudiera ser utilizable el dataset.

## Definicion de variables

Obtenemos las columnas presentes en el dataset para convertir las variables independiente en un vector.

Eliminamos las columnas que no son variables independientes:

- target: Es el resultado, y por lo tanto la variable dependiente.
- id: Es una varible unica, que no esta relacionada con el resultado, por lo tanto no forma parte de las varibles independientes.

In [43]:
XColumns = df_spark.columns
XColumns.remove("target")
XColumns.remove("id")

In [44]:
pca_dataframe = df_spark.select(XColumns)

Creamos un vector con las variables independientes con el fin de poder utilizar el vector resultante como entrada para la regresion lineal, ya que de otro modo no podriamos implementar todas la variables independientes.

Para crear el vector utilizamos VectorAssembles, al cual pasamos las columnas que previamente definimos como variables independientes, y definimos que como salida nos regrese la columna "independentFeatures", la cual tenga el vector resultante.

In [45]:
from pyspark.ml.feature import VectorAssembler

featassembler = VectorAssembler(inputCols = XColumns, outputCol = "independentFeatures" )
featassembler

VectorAssembler_aa3f17442645

Generamos el vector, y comprobamos que se haya realizado.

In [46]:
result = featassembler.transform(df_spark)
result.show()

+---+--------+--------+---------+--------+--------+--------+--------+--------+---------+--------+----------+---------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+---+----------+--------+--------+--------+--------+--------+--------+---------+--------+--------+---------+----------+--------+--------+--------+--------+--------+--------+--------+--------+---+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+---------+--------+--------+--------+--------+--------+--------+--------+--------+--------+----------+--------+--------+--------+----------+---------+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------+----------+--------+--------+--------+--------+--------+--------+--------+--------+--------+----------+--------+--------+--------+----------+--------+--------+--------+---------+--------+----------+----------+--------+---------+----

Selecionamos las varibles indenpendientes y la varible dependientes para trabajar con el modelo.

In [47]:
final_data = result.select("independentFeatures", "target")
final_data.show()

+--------------------+------+
| independentFeatures|target|
+--------------------+------+
|[0.205979,0.41099...|     1|
|[0.181004,0.47311...|     1|
|[0.182583,0.30743...|     1|
|[0.18024,0.494592...|     1|
|[0.177172,0.49551...|     1|
|[0.255237,0.34584...|     0|
|[0.20361,0.434725...|     1|
|[0.184985,0.48951...|     1|
|[0.165046,0.65660...|     1|
|[0.180916,0.45097...|     0|
|[0.183644,0.37407...|     0|
|[0.368112,0.30756...|     1|
|[0.179988,0.44649...|     1|
|[0.205565,0.44487...|     1|
|[0.164037,0.45964...|     0|
|[0.225954,0.42108...|     0|
|[0.181011,0.60353...|     0|
|[0.159521,0.45465...|     0|
|[0.271723,0.49170...|     1|
|[0.182607,0.27055...|     0|
+--------------------+------+
only showing top 20 rows



## Train Test Split 

Para conocer el comportamiento real del modelo resultante es necesario tener datos que no hayan estado presente en el entrenamiento, ya que de lo contrario el modelo unicamente nos estaria indicando lo que aprendio, pero sin tener certeza de que ese aprendizaje sea correcto para ser utilizado.

Como los datos que disponemos se limitan a los presentes en el dataset, antes del entrenamiento dividimos los datos en dos grupos con el fin de utilizar uno para realizar el entrenamiento y otro para llevar a cabo la prueba del modelo.

In [48]:
train_data, test_data = final_data.randomSplit([0.75, 0.25])

# SPARK ML
## Regresion logistica

Importamos la dependencia para trabajar con regresion logistica en pyspark

In [49]:
from pyspark.ml.classification import LogisticRegression

Configuramos el modelo para trabajar con los datos

In [50]:
lr = LogisticRegression(featuresCol = 'independentFeatures', labelCol='target', maxIter=10, regParam=0.3, elasticNetParam=0.8, family="multinomial")

Entrenamos el modelo

In [51]:
lrModel = lr.fit(train_data)

Obtenemos las metricas del modelo

In [52]:
print("Multinomial coefficients: " + str(lrModel.coefficientMatrix))
print("Multinomial intercepts: " + str(lrModel.interceptVector))

Multinomial coefficients: 2 X 285 CSRMatrix
(0,22) 0.0605
(1,22) -0.0605
Multinomial intercepts: [-0.034536868309499716,0.034536868309499716]


In [53]:
trainingSummary = lrModel.summary

# Obtain the objective per iteration
objectiveHistory = trainingSummary.objectiveHistory
print("objectiveHistory:")
for objective in objectiveHistory:
    print(objective)

# for multiclass, we can inspect metrics on a per-label basis
print("False positive rate by label:")
for i, rate in enumerate(trainingSummary.falsePositiveRateByLabel):
    print("label %d: %s" % (i, rate))

print("True positive rate by label:")
for i, rate in enumerate(trainingSummary.truePositiveRateByLabel):
    print("label %d: %s" % (i, rate))

print("Precision by label:")
for i, prec in enumerate(trainingSummary.precisionByLabel):
    print("label %d: %s" % (i, prec))

print("Recall by label:")
for i, rec in enumerate(trainingSummary.recallByLabel):
    print("label %d: %s" % (i, rec))

print("F-measure by label:")
for i, f in enumerate(trainingSummary.fMeasureByLabel()):
    print("label %d: %s" % (i, f))

accuracy = trainingSummary.accuracy
falsePositiveRate = trainingSummary.weightedFalsePositiveRate
truePositiveRate = trainingSummary.weightedTruePositiveRate
fMeasure = trainingSummary.weightedFMeasure()
precision = trainingSummary.weightedPrecision
recall = trainingSummary.weightedRecall
print("Accuracy: %s\nFPR: %s\nTPR: %s\nF-measure: %s\nPrecision: %s\nRecall: %s"
      % (accuracy, falsePositiveRate, truePositiveRate, fMeasure, precision, recall))

objectiveHistory:
0.6931461908636327
0.6930143587800784
0.6926389278575831
0.6926389274720609
False positive rate by label:
label 0: 0.29239099458535195
label 1: 0.19624580671353176
True positive rate by label:
label 0: 0.8037541932864682
label 1: 0.707609005414648
Precision by label:
label 0: 0.732704509707485
label 1: 0.7833569703706543
Recall by label:
label 0: 0.8037541932864682
label 1: 0.707609005414648
F-measure by label:
label 0: 0.7665865941853622
label 1: 0.7435588144748257
Accuracy: 0.7556139656020836
FPR: 0.24425076690096725
TPR: 0.7556139656020835
F-measure: 0.7550565053388044
Precision: 0.7580663717317206
Recall: 0.7556139656020835


Realizamos predicciones con el modelo

In [54]:
prediction_result = lrModel.evaluate(test_data)
prediction_result.predictions.show()



+--------------------+------+--------------------+--------------------+----------+
| independentFeatures|target|       rawPrediction|         probability|prediction|
+--------------------+------+--------------------+--------------------+----------+
|[0.151968,0.28490...|     0|[-0.0345368683094...|[0.48273842847319...|       1.0|
|[0.15223,0.381308...|     0|[0.02594599782582...|[0.51297008857811...|       0.0|
|[0.152467,0.36908...|     0|[0.02594599782582...|[0.51297008857811...|       0.0|
|[0.152492,0.45484...|     1|[-0.0345368683094...|[0.48273842847319...|       1.0|
|[0.152535,0.39272...|     1|[-0.0345368683094...|[0.48273842847319...|       1.0|
|[0.152569,0.42781...|     1|[0.02594599782582...|[0.51297008857811...|       0.0|
|[0.152591,0.35618...|     0|[0.02594599782582...|[0.51297008857811...|       0.0|
|[0.152594,0.29189...|     0|[0.02594599782582...|[0.51297008857811...|       0.0|
|[0.15266,0.397138...|     0|[0.02594599782582...|[0.51297008857811...|       0.0|
|[0.

Probamos la diferencia ajustando el modelo.

In [55]:
lr = LogisticRegression(featuresCol = 'independentFeatures', labelCol='target', maxIter=15, regParam=0.1, elasticNetParam=0.8, family="multinomial")
lrModel = lr.fit(train_data)

Obtenemos las metricas del modelo

In [56]:
trainingSummary = lrModel.summary
accuracy = trainingSummary.accuracy
falsePositiveRate = trainingSummary.weightedFalsePositiveRate
truePositiveRate = trainingSummary.weightedTruePositiveRate
fMeasure = trainingSummary.weightedFMeasure()
precision = trainingSummary.weightedPrecision
recall = trainingSummary.weightedRecall
print("Accuracy: %s\nFPR: %s\nTPR: %s\nF-measure: %s\nPrecision: %s\nRecall: %s"
      % (accuracy, falsePositiveRate, truePositiveRate, fMeasure, precision, recall))

Accuracy: 0.7556139656020836
FPR: 0.24425076690096725
TPR: 0.7556139656020835
F-measure: 0.7550565053388044
Precision: 0.7580663717317206
Recall: 0.7556139656020835


# Conclusion

El primer modelo es bueno determinando cuando el resultado va a ser negativo teniendo 80.4% de aciertos en verdaderos positivos, sin embargo su desempeño general es inferior teniendo un 75.6% de precision. 

Ajustando el modelo no vemos una diferencia en el rendimiento, por lo que podemos decir que el modelo llego al limite de las capacidades predictivas, por lo cual si quisieramos mejorar el rendimiento tendriamos que realizar un procesamiento de los datos o utilizar otro tipo de modelo que nos de mejores resultado con los mismos datos de entrada.