In [34]:
import org.apache.spark.mllib.fpm.FPGrowth
import org.apache.spark.rdd.RDD

/*spark.mllib provides a parallel implementation of FP-growth, a popular algorithm to mining frequent itemsets.*/

val data = sc.textFile("association.txt")

/*We only use map*/
val transactions: RDD[Array[String]] = data.map(s => s.trim.split(",,"))

val fpg = new FPGrowth().setMinSupport(0.3).setNumPartitions(10)
val model = fpg.run(transactions)

println("Printing frequent patterns...")

model.freqItemsets.collect().foreach { itemset =>
  println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)
}

println("Printing association rules...")

/*
minSupport: the minimum support for an itemset to be identified as frequent. 
            For example, if an item appears 3 out of 5 transactions, it has a support of 3/5=0.6.
numPartitions: the number of partitions used to distribute the work.
*/

val minConfidence = 0.8
model.generateAssociationRules(minConfidence).collect().foreach { rule =>
  println(
    rule.antecedent.mkString("[", ",", "]")
      + " => " + rule.consequent .mkString("[", ",", "]")
      + ", " + rule.confidence)
}

println("Success")

Printing frequent patterns...
[ jornal às 7 ], 426
[ cm jornal 20h ], 538
[ cm jornal 20h , notícias cm ], 476
[ cm jornal 20h , jornal das 8 ], 421
[ cm jornal 20h , jornal da uma ], 436
[ jornal da uma ], 682
[ a tarde é sua ], 530
[ a tarde é sua , jornal das 8 ], 432
[ a tarde é sua , diário da manhã ], 417
[ a tarde é sua , jornal da uma ], 456
[ jornal das 8 ], 657
[ jornal das 8 , jornal da uma ], 546
[ grande tarde ], 424
[ telejornal ], 640
[ telejornal , jornal das 8 ], 428
[ telejornal , jornal da uma ], 434
[ mercado ], 423
[ cm jornal hora do almoço ], 522
[ cm jornal hora do almoço , notícias cm ], 460
[ cm jornal hora do almoço , cm jornal 20h ], 437
[ cm jornal hora do almoço , jornal da uma ], 428
[ massa fresca ], 422
[ notícias ], 520
[ notícias , notícias cm ], 427
[ notícias , jornal das 8 ], 420
[ notícias , diário da manhã ], 417
[ notícias , jornal da uma ], 442
[ bom dia portugal ], 632
[ bom dia portugal , telejornal ], 463
[ edição da manhã ], 465
[ notícias 