Lo primero que vamos a hacer en nuestro notbook es el esquema, el esquema es la forma en la que queremos que nuestros datos aparezcan, escribimos el nombre de la columna y el tipo de dato que contiene, realizamos esto con todas las columnas y lo añadimos a la variable labels, y medante la función Struct type, crearemos el esuqema que mas adelante infereriremos.

In [1]:
import pyspark.sql.types as typ


labels = [
    ('country', typ.StringType()),
    ('year', typ.IntegerType()),
    ('sex', typ.StringType()),
    ('age', typ.StringType()),
    ('suicide_no', typ.IntegerType()),
    ('population', typ.IntegerType()),
    ('suicides/100k pop', typ.DoubleType()),
    ('country-year', typ.StringType()),
    ('HDI for year', typ.DoubleType()),
    (' gdp_for_year ($) ', typ.StringType()),
    ('gdp_per_capita ($)', typ.IntegerType()),
    ('generation', typ.StringType())
]

mi_schema = typ.StructType([
    typ.StructField(e[0], e[1], False) for e in labels
])

Una vez creado el esquema, lo que vamos a hacer es importarnos el DataSet e inferir nuestro esquema, lo que conseguimos con esto es que todas las columnas se adopten el tipo de dato que nosotros hemos definido.

In [None]:
suicides = spark.read.csv('master.csv',header='true', inferSchema='false',schema = mi_schema,  sep=',')

Mediante la funcion withColumnRenamed, vamos a cambiar el nombre de ciertas variables ya que la informacion que nos dan con ese nombre nos parece confusa, en nustro caso, hemos cambiado las variables 'numero de suicidios por cada 100.000 habitantes', 'Indice de desarrollo humano por año', 'Producto interior bruto anual' y 'Producto interior bruto per capita'

In [None]:
suicides = suicides.withColumnRenamed('suicides/100k pop','Num_Suicides_100k')
suicides = suicides.withColumnRenamed('HDI for year','IDH_Y')
suicides = suicides.withColumnRenamed(' gdp_for_year ($) ','PIB_Y')
suicides = suicides.withColumnRenamed('gdp_per_capita ($)','PIB_PerCapita')

In [4]:
suicides.select('PIB_Y').show(5)

+-------------+
|        PIB_Y|
+-------------+
|2,156,624,900|
|2,156,624,900|
|2,156,624,900|
|2,156,624,900|
|2,156,624,900|
+-------------+
only showing top 5 rows



## Probando/Jugando con las funciones de pyspark (count , filter , distinct , collect ,etc)

In [5]:
#from pyspark.sql import functions as F
#df_null=midata.select(*(F.sum(F.col(c).isNull().cast('Double')).alias(c) for c in midata.columns))

In [6]:
pandaDf = suicides.toPandas()


In [17]:
pandaDf['country'].count()

NameError: name 'pandaDf' is not defined

In [7]:
pandaDf.isnull().sum()

country                  0
year                     0
sex                      0
age                      0
suicide_no               0
population               0
Num_Suicides_100k        0
country-year             0
IDH_Y                19456
PIB_Y                    0
PIB_PerCapita            0
generation               0
dtype: int64

In [8]:
19456/len(pandaDf)

0.699352983465133

Viendo que hay 19456 null, es decir un 70% de los datos, consideramos que lo mejor es eliminar o dejar de utilizar esa columna

In [9]:
corr = pandaDf.corr()
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,year,suicide_no,population,Num_Suicides_100k,IDH_Y,PIB_PerCapita
year,1.0,-0.004546,0.00885,-0.039037,0.366786,0.339134
suicide_no,-0.004546,1.0,0.616162,0.306604,0.151399,0.06133
population,0.00885,0.616162,1.0,0.008285,0.102943,0.08151
Num_Suicides_100k,-0.039037,0.306604,0.008285,1.0,0.074279,0.001785
IDH_Y,0.366786,0.151399,0.102943,0.074279,1.0,0.771228
PIB_PerCapita,0.339134,0.06133,0.08151,0.001785,0.771228,1.0


In [10]:
Num_Country1 = suicides.groupBy('country').count()
Num_Country2 = suicides.select('country').distinct().count()
Num_Country3 = Num_Country1.select('count').count()
Num_Country2

101

In [11]:
Num_Country3

101

In [12]:
SpainSuicides = suicides.select("country","year","suicide_no").filter("country = 'Spain'")
SpainSuicides.show(5)

+-------+----+----------+
|country|year|suicide_no|
+-------+----+----------+
|  Spain|1985|       305|
|  Spain|1985|       624|
|  Spain|1985|       131|
|  Spain|1985|       497|
|  Spain|1985|       219|
+-------+----+----------+
only showing top 5 rows



## QUE HACEN AQUI ESTOS TRANSFORMADORES??

In [13]:
from pyspark.ml.stat import Correlation
import pyspark.ml.feature as ft

Variables_corr = ['year','suicide_no','population' , 'Num_Suicides_100k']

assembler = ft.VectorAssembler( inputCols = Variables_corr, outputCol = "features")

#datos1=suicides.select(Variables_corr).filter("Num_Suicides/100k is not null")
output = assembler.transform(suicides)
r1 = Correlation.corr(output, "features")

In [14]:
corr = suicides.corr( 'suicide_no','Num_Suicides_100k' )
corr

0.30660445126778024

Observamos la corelacion entre la variable objetivo 'Numero de suicidios por 100.000 habitantes' y la variables 'suicidios totales'

In [15]:
import pyspark.ml.feature as ft

featuresCreator = ft.VectorAssembler(
    inputCols=[
        col[0] 
        for col 
        in labels[2:]] , 
    outputCol='features'
)

In [16]:
Featureassenbler = ft.VectorAssembler(inputCols=["suicide_no","population", "year" ],outputCol="Independent Feature" )
output=Featureassenbler.transform(suicides)

In [17]:
output.select("Independent Feature").show()

+--------------------+
| Independent Feature|
+--------------------+
|[21.0,312900.0,19...|
|[16.0,308000.0,19...|
|[14.0,289700.0,19...|
|[1.0,21800.0,1987.0]|
|[9.0,274300.0,198...|
|[1.0,35600.0,1987.0]|
|[6.0,278800.0,198...|
|[4.0,257200.0,198...|
|[1.0,137500.0,198...|
|[0.0,311000.0,198...|
|[0.0,144600.0,198...|
|[0.0,338200.0,198...|
|[2.0,36400.0,1988.0]|
|[17.0,319200.0,19...|
|[1.0,22300.0,1988.0]|
|[14.0,314100.0,19...|
|[4.0,140200.0,198...|
|[8.0,295600.0,198...|
|[3.0,147500.0,198...|
|[5.0,262400.0,198...|
+--------------------+
only showing top 20 rows



In [18]:
Finalized_data = output.select("Independent Feature","Num_Suicides_100k")

In [19]:
Finalized_data.show()

+--------------------+-----------------+
| Independent Feature|Num_Suicides_100k|
+--------------------+-----------------+
|[21.0,312900.0,19...|             6.71|
|[16.0,308000.0,19...|             5.19|
|[14.0,289700.0,19...|             4.83|
|[1.0,21800.0,1987.0]|             4.59|
|[9.0,274300.0,198...|             3.28|
|[1.0,35600.0,1987.0]|             2.81|
|[6.0,278800.0,198...|             2.15|
|[4.0,257200.0,198...|             1.56|
|[1.0,137500.0,198...|             0.73|
|[0.0,311000.0,198...|              0.0|
|[0.0,144600.0,198...|              0.0|
|[0.0,338200.0,198...|              0.0|
|[2.0,36400.0,1988.0]|             5.49|
|[17.0,319200.0,19...|             5.33|
|[1.0,22300.0,1988.0]|             4.48|
|[14.0,314100.0,19...|             4.46|
|[4.0,140200.0,198...|             2.85|
|[8.0,295600.0,198...|             2.71|
|[3.0,147500.0,198...|             2.03|
|[5.0,262400.0,198...|             1.91|
+--------------------+-----------------+
only showing top

In [20]:
train_data,test_data=Finalized_data.randomSplit([0.80,0.20])

______________________________________________________________________________________________________________________

# ¿Qué es esto? regrasión lineal
    # desde aqui

In [21]:
from pyspark.ml.regression import LinearRegression

regressor = LinearRegression(featuresCol='Independent Feature',labelCol='Num_Suicides_100k')
regressor = regressor.fit(train_data)

In [22]:
regressor.coefficients

DenseVector([0.0105, -0.0, -0.0796])

In [23]:
pred_results = regressor.evaluate(test_data)
pred_results.predictions.show(1000)

+--------------------+-----------------+------------------+
| Independent Feature|Num_Suicides_100k|        prediction|
+--------------------+-----------------+------------------+
|  [0.0,291.0,1994.0]|              0.0| 13.47766629776973|
|  [0.0,302.0,1997.0]|              0.0| 13.23896635221675|
|  [0.0,476.0,1986.0]|              0.0|14.113889539287783|
|  [0.0,516.0,1998.0]|              0.0|13.159095541460744|
|  [0.0,538.0,1987.0]|              0.0|14.034238535157243|
|  [0.0,539.0,2001.0]|              0.0|12.920378242753117|
|  [0.0,676.0,1989.0]|              0.0|13.874916281549133|
|  [0.0,700.0,1986.0]|              0.0|14.113565613734409|
|  [0.0,896.0,1993.0]|              0.0|13.556352755721292|
|  [0.0,900.0,1990.0]|              0.0| 13.79503100983095|
|  [0.0,949.0,1985.0]|              0.0|  14.1927668819404|
|  [0.0,954.0,2003.0]|              0.0|12.760655420491986|
|  [0.0,960.0,2014.0]|              0.0|11.885471936101311|
|  [0.0,980.0,2001.0]|              0.0|

In [24]:
suicides.select('Num_Suicides_100k').show()

+-----------------+
|Num_Suicides_100k|
+-----------------+
|             6.71|
|             5.19|
|             4.83|
|             4.59|
|             3.28|
|             2.81|
|             2.15|
|             1.56|
|             0.73|
|              0.0|
|              0.0|
|              0.0|
|             5.49|
|             5.33|
|             4.48|
|             4.46|
|             2.85|
|             2.71|
|             2.03|
|             1.91|
+-----------------+
only showing top 20 rows



In [25]:
maxSuicide = max(suicides.select('suicide_no').collect())[0]
PaisxSuicides = suicides.select('country' ,'year' ,'sex' , 'age' , 'Num_Suicides_100k', 'suicide_no','population').filter("suicide_no = 22338").show()

+------------------+----+----+-----------+-----------------+----------+----------+
|           country|year| sex|        age|Num_Suicides_100k|suicide_no|population|
+------------------+----+----+-----------+-----------------+----------+----------+
|Russian Federation|1994|male|35-54 years|            117.3|     22338|  19044200|
+------------------+----+----+-----------+-----------------+----------+----------+



In [26]:
max(suicides.select('Num_Suicides_100k').collect())[0]

224.97

In [27]:
max(suicides.select('suicide_no').collect())

Row(suicide_no=22338)

    #hasta aqui

### -------------------------------------------------------------------------------------------------------------------------

### Aquí empezamos

### -------------------------------------------------------------------------------------------------------------------------

# Creamos el transformer

In [60]:
import pyspark.ml.feature as ft
encoder_1 = ft.OneHotEncoder(inputCol='sex', outputCol='sex_vec')
var_corr= suicides.select('sex')
#añadir mas varibles 
    
vec_assembler_1 = ft.VectorAssembler(inputCols = [var_corr ,[encoder_1.getOutputCol()]], outputCol = "features")

TypeError: Invalid param value given for param "inputCols". Could not convert [DataFrame[sex: string], ['sex_vec']] to list of strings

In [64]:
continuosDataFrame = spark.createDataFrame([
    ('male' , 0),
    ('female' , 1)
],['sexBin' , 'feature'])
binarizer = ft.Binarizer(threshold=1, inputCol="feature", outputCol="binarized_feature")

In [66]:
binarizer

AttributeError: 'Binarizer' object has no attribute 'show'

In [55]:
[encoder_1.getOutputCol()]

['sex_vec']

__________________________________________________________________________________________________________________________

Nuestro obejtivo es que esta variable sea de tipo binario, en el caso del sexo, la variable viene dada como un string 'male' o 'female' y nostros lo que queremos es que esta variable nos aparezca en binario

In [61]:
import pyspark.sql.types as typ

suicides = suicides.withColumn('sex', suicides['sex'].cast(typ.DoubleType()))


Con el comando withColum, vamos a sobreescribir la variable 'sex', ya que si el nombre no se cambia aplicando dicho comando, la variable se sustituye por el nuevo valor.

In [None]:
labels = ['year','suicide_no','PIB_PerCapita','population']

In [11]:
import pyspark.ml.feature as ft

featuresCreator = ft.VectorAssembler(inputCols = labels ,outputCol = 'features')

   # OJO revisar:  nostros no le hemos aplicado el encoder al Vect Assembler
   ### REVISAR COMO ESTÁ HECHO ABAJO

Lo que hacemos con este bucle es,para todo el conjuto de columnas que esté desde la segunda hasta el final, le aplicamos el encoder y lo añadimos a una unica columna de salida (features: características).

In [None]:
featuresCreator = ft.VectorAssembler(
    inputCols=[
        col[0] 
        for col 
        in labels[2:]] + [encoder.getOutputCol()], outputCol='features'
)

____

In [12]:
suicides.distinct().count()

27820

# Creamos el Estimator - REGRESIÓN LOGÍSTICA

In [34]:
import pyspark.ml.classification as cl

logistic = cl.LogisticRegression(
    maxIter=10, 
    regParam=0.01,
    labelCol='Num_Suicides_100k'
    )

# Creamos el Pipeline

El Pipeline es una funcion que se encarga de ejecutar los trasformadores y los algoritmos en un solo paso. Es como una tubería que transporta estimators y transformers hasta su ejecucion.

In [14]:
from pyspark.ml import Pipeline

pipeline = Pipeline(stages=[featuresCreator, logistic])
#pipeline = Pipeline(stages=[encoder, featuresCreator, logistic])

# OJO: revisar

El Pipeline va a pasar por 3 fases: la primera es el trasformer de encoder, la segunda es el Vector assembler, que será el features, y por ultimo el estimator (algortimo) que vamos a ejecutar, en nuestro caso es la Regresión Logística

______________________________________________

Una vez que tenemos los datos en el formato apropiado, vamos a guardar el 80% de los datos para el entrenamiento y el 20% para el test. Para ello, partimos nuestro data set inicial (el que contiene la variable objetivo) en estos dos conjuntos. El 80% de los datos los ultilizaremos para entrenar el modelo, y el 20% restante nos servirá para poder predecir como de bien (o de mal) ha aprendido el modelo.

In [3]:
suicides_train, suicides_test = suicides.randomSplit([0.8, 0.2], seed=666) 

#seed numero aleatorio a partir del cual hace la particion del DataFrame

NameError: name 'suicides' is not defined

La variable train entrenará el modelo (para que consiga 'aprender') e intentará predecir/adivinar cual será el valor correspondiente a los datos de la variable test. Vamos con un ejemplo para que quede más claro: en nuestro DataSet interemos predecir cual es el numero de suidcidios por cada 100.000 habitantes, supongamos que nuestro dataset contiene 100 datos de entrada, de esos 100 suicidios cogeremos 60 para que el modelo aprenda (conjunto de entrenamiento 'train') y una vez el modelo haya aprendido, comparará ese aprendizaje con los restante 40 valores. ¿Cómo? bien, pues el algoritmo predecirá el valor que estime óptimo para ese dato, y se compara con el dato real.

In [33]:
suicides.select('Num_Suicides_100k').distinct().show()

+-----------------+
|Num_Suicides_100k|
+-----------------+
|            10.65|
|             9.13|
|            17.52|
|            17.95|
|             76.4|
|             8.51|
|             3.26|
|             0.66|
|            73.73|
|             14.9|
|             15.5|
|             13.4|
|            19.98|
|            43.03|
|            40.11|
|            26.72|
|             2.86|
|            12.32|
|            17.56|
|             49.8|
+-----------------+
only showing top 20 rows



In [37]:
suicides.select('Num_Suicides_100k').filter("Num_Suicides_100k > 150").count()

22

# Entrenamos el modelo

In [16]:
model = pipeline.fit(suicides_train)

Py4JJavaError: An error occurred while calling o141.fit.
: org.apache.spark.SparkException: Classification labels should be in [0 to 150]. Found 18600 invalid labels.
	at org.apache.spark.ml.classification.LogisticRegression$$anonfun$train$1.apply(LogisticRegression.scala:569)
	at org.apache.spark.ml.classification.LogisticRegression$$anonfun$train$1.apply(LogisticRegression.scala:494)
	at org.apache.spark.ml.util.Instrumentation$$anonfun$11.apply(Instrumentation.scala:185)
	at scala.util.Try$.apply(Try.scala:192)
	at org.apache.spark.ml.util.Instrumentation$.instrumented(Instrumentation.scala:185)
	at org.apache.spark.ml.classification.LogisticRegression.train(LogisticRegression.scala:494)
	at org.apache.spark.ml.classification.LogisticRegression.train(LogisticRegression.scala:489)
	at org.apache.spark.ml.classification.LogisticRegression.train(LogisticRegression.scala:279)
	at org.apache.spark.ml.Predictor.fit(Predictor.scala:118)
	at org.apache.spark.ml.Predictor.fit(Predictor.scala:82)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
	at py4j.Gateway.invoke(Gateway.java:282)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.GatewayConnection.run(GatewayConnection.java:238)
	at java.lang.Thread.run(Thread.java:748)


Aplico la función Pipeline a todo el conjunto de entrenamiento mediante el comando .fit, esto lo que hace es aplicar los trasformers y los estimators al DataFrame. 

LO ENTRENA

In [54]:
test_model = model.transform(suicides_test)

Ahora tenemos que ver como de bien entrena el modelo, para ello lo vamos a comparar con la parte que hemos reservado para el test. Aplicamos el comando .trasform al modelo entrenado.

In [43]:
test_model.take(1)

[Row(country='Albania', year=1987, sex='female', age='75+ years', suicide_no=1, population=35600, Num_Suicides_100k=2.81, country-year='Albania1987', IDH_Y=None, PIB_Y=None, PIB_PerCapita=796, generation='G.I. Generation', features=DenseVector([1987.0, 1.0, 796.0, 35600.0]), rawPrediction=DenseVector([inf, -inf]), probability=DenseVector([1.0, 0.0]), prediction=0.0)]

Como podemos observar, en esta parte aparecen columnas nuevas, que corresponde con todo lo que habíamos ejecutado antes: como 'features' que son las colunmas que yo he metido por parámetro, 'rawPrediction' y 'probability' que las ha obtenido del test, y por último, la predicción 'prediction'.

#### PARTE DE EVALUACIÓN: Vamos a ver cómo de bueno es el modelo

In [44]:
import pyspark.ml.evaluation as ev

evaluator = ev.BinaryClassificationEvaluator(
    rawPredictionCol='probability', 
    labelCol='Num_Suicides_100k')

print(evaluator.evaluate(test_model, {evaluator.metricName: 'areaUnderROC'}))
print(evaluator.evaluate(test_model, {evaluator.metricName: 'areaUnderPR'}))

0.5
0.7882520978396715


Importamos la libreria evaluation, en este caso, la evaluacion de la regresion logistica corresponde con la de 'binary clasification metrics'. Esta evalucacion nos la devuelve en forma de area, bajo la curva de PR (precission-recall) y de ROC (Receiver Operating Characteristic). Antes de describir un poco ambas gráficas, vamos a describir el 

    recall = [verdaderos postivos / (verdaderos positivos + falsos negativos)]
    precision = [verdaderos postivos / (verdaderos positivos + falsos positivos)]


PR: Lo ideal sería una curva que se acerque lo máximo posible a la esquina superior derecha (alta precisión y alto recall)



ROC: en este gráfico nos interesa que la curva se acerque lo máximo posible a la esquina superior izquierda de la gráfica, de manera que el hecho de aumentar la sensibilidad (el recall) no haga que nuestro modelo introduzca más falsos positivos.


*foto de un grafico de de las rectas ROC y PR



ACC: accuracy (acierto); lo que yo acierto (verdaderos positivos + falsos negativos)/(todas las predicciones totales) 
*formula del ACCURACY

____________________________________________________________________________________________________________________________

Diferencias entre curvas ROC y PR:

Por lo general, usaremos la curva PR o el Average Precision cuando tengamos problemas de datasets no balanceados, es decir, cuando la clase positiva ocurre pocas veces. Cuando hay pocos ejemplos positivos, la curva ROC o el ROC AUC puede dar un valor alto, sin embargo, la curva PR estará lejos de su valor óptimo, poniendo de manifiesto un indicador de precisión relacionado con la baja probabilidad de la clase positiva.
Será una opción interesante usar la curva ROC y el ROC AUC cuando tengamos un dataset más balanceado o queramos poner de manifiesto un indicador más relacionado con falsas alarmas (falsos positivos).

#### Decir que significa cada uno de los valores obtenidos
overfitting = valor > 0.9

underfitting = valor < 0.5

# Probando con Random Forest

In [77]:
from pyspark.ml.feature import StringIndexer

indexer = StringIndexer(inputCol="Num_Suicides_100k", outputCol="Num_Suicides_100k_indexer").fit(suicides)

In [78]:
suicides_train, suicides_test = suicides.randomSplit([0.8 , 0.2], seed=666)

In [79]:
classifier = cl.RandomForestClassifier(
    numTrees=5, 
    maxDepth=5, 
    labelCol='Num_Suicides_100k_indexer')

#indexer = StringIndexer(inputCol="INFANT_ALIVE_AT_REPORT", outputCol="INFANT_ALIVE_AT_REPORT_indexer").fit(birthsDF)

pipeline = Pipeline(
    stages=[
        indexer,
        featuresCreator, 
        classifier])

model = pipeline.fit(suicides_train)
test = model.transform(suicides_test)

In [80]:
test.take(1)

[Row(country='Albania', year=1987, sex=None, age='35-54 years', suicide_no=16, population=308000, Num_Suicides_100k=5.19, country-year='Albania1987', IDH_Y=None, PIB_Y=None, PIB_PerCapita=796, generation='Silent', Num_Suicides_100k_indexer=165.0, features=DenseVector([1987.0, 16.0, 796.0, 308000.0]), rawPrediction=DenseVector([0.0, 0.0067, 0.0034, 0.005, 0.0039, 0.0057, 0.0048, 0.0038, 0.0015, 0.0052, 0.0076, 0.0045, 0.0016, 0.0036, 0.0034, 0.0064, 0.0044, 0.0046, 0.0053, 0.0052, 0.003, 0.0085, 0.0014, 0.0061, 0.0099, 0.0027, 0.0008, 0.0057, 0.0021, 0.0066, 0.0019, 0.0041, 0.0058, 0.0018, 0.0069, 0.0043, 0.0034, 0.0067, 0.0056, 0.0014, 0.0034, 0.0022, 0.0019, 0.0039, 0.0053, 0.0034, 0.0046, 0.0048, 0.0044, 0.0096, 0.0055, 0.0047, 0.0042, 0.009, 0.0038, 0.003, 0.007, 0.003, 0.0113, 0.0032, 0.0042, 0.0035, 0.0034, 0.0068, 0.0027, 0.0042, 0.0035, 0.0067, 0.0058, 0.0051, 0.0041, 0.0043, 0.0039, 0.0045, 0.004, 0.0077, 0.0086, 0.0097, 0.0038, 0.0059, 0.0049, 0.0061, 0.0053, 0.0005, 0.0025, 0

In [81]:
evaluator = ev.BinaryClassificationEvaluator(
    rawPredictionCol='probability', 
    labelCol='Num_Suicides_100k_indexer')

print(evaluator.evaluate(test, 
     {evaluator.metricName: 'areaUnderROC'}))
print(evaluator.evaluate(test, {evaluator.metricName: 'areaUnderPR'}))

0.9719813914146754
0.995637881327191


### Claramente aqui hemos hecho overfitting ya que estamos muy cerca del 1

# Hyper_Tunning

In [82]:
import pyspark.ml.tuning as tune
import pyspark.ml.evaluation as ev

In [83]:
classifier = cl.RandomForestClassifier(numTrees=5, maxDepth=5, labelCol='Num_Suicides_100k_indexer')

grid = tune.ParamGridBuilder().addGrid(classifier.numTrees, [4, 6]).addGrid(classifier.maxDepth, [3,7]).build()

In [84]:
evaluator = ev.BinaryClassificationEvaluator(rawPredictionCol='probability', labelCol='Num_Suicides_100k_indexer')

In [85]:
cv = tune.CrossValidator(estimator=classifier, estimatorParamMaps=grid, evaluator=evaluator)

In [88]:
pipeline = Pipeline(stages=[indexer,featuresCreator])
data_transformer = pipeline.fit(suicides_train)

In [89]:
cvModel = cv.fit(data_transformer.transform(suicides_train))

In [90]:
data_train = data_transformer.transform(suicides_test)
results = cvModel.transform(data_train)

print(evaluator.evaluate(results, {evaluator.metricName: 'areaUnderROC'}))
print(evaluator.evaluate(results, {evaluator.metricName: 'areaUnderPR'}))

1.0
1.0


In [73]:
results = [
    (
        [
            {key.name: paramValue} 
            for key, paramValue 
            in zip(
                params.keys(), 
                params.values())
        ], metric
    ) 
    for params, metric 
    in zip(
        cvModel.getEstimatorParamMaps(), 
        cvModel.avgMetrics
    )
]

sorted(results, key=lambda el: el[1], reverse=True)[0]

NameError: name 'cvModel' is not defined