## Spark Machine Learning

### 0. Carregamento das bibliotecas que serão utilizadas
### + Criação da SESSÃO entre a linguagem Python e o Spark
### + Criação do CONTEXTO entre a linguagem SQL-ANSI e o Spark

In [48]:
#Biblioteca para criar a SESSÃO entre Apache Spark e a linguagem de programação Python
from pyspark.sql import SparkSession

#Biblioteca para criar o CONTEXTO entre o Apache Spark e a linguagem de manipulação de dados SQL-ANSI
from pyspark.sql import SQLContext

#Biblioteca para manipulação de linhas sobre o RDD, onde transforma cada linha em um objeto INDEPENDENTE.
from pyspark.sql import Row

#Biblioteca 
from pyspark.ml.linalg import Vectors

#Biblioteca que contêm funções matemáticas
import math

print('Verificando o contexto em que se encontra a conexão:', '\n')
print(sc) #sc = spark context
print('\n', 'Versão do SPARK em execução:', sc.version)

Verificando o contexto em que se encontra a conexão: 

<SparkContext master=local[*] appName=PySparkShell>

 Versão do SPARK em execução: 2.2.0


#### 0.1. SparkSession ->>> trabalhar com DataFrames no SparkSQL, necessário CONSTRUIR uma SESSÃO (explicitamente)...

In [50]:
spSession = SparkSession.builder.master("local").appName("ML-Spark")\
          .config("spark.some.config.option", "some-value").getOrCreate()

#### 0.2. SQLContext ->>> trabalhar com LINGUAGEM SQL no SparkSQL, necessário CONSTRUIR o CONTEXTO (explicitamente)...

In [51]:
sqlSession = SQLContext(sc)

### 1. Carregando o arquivo CSV e mantendo o objeto em cache

Será usado a estrutura de RDD para manipulação dos dados.

In [25]:
#file ="/home/daniellj/Projetos/Github/DistributedComputing/ApacheSpark/datasets/cars.csv"
file = "C:\\Users\\whitecube.daniel\\Projetos_Daniel\\DistributedComputing\\Datasets\\cars.csv"

rowRDD1 = sc.textFile(file)
rowRDD1.cache() # colocando os dados em cache para maior performance na recuperação dos dados.

print('Tipo do objeto criado <rowRDD1>:', type(rowRDD1), '\n')

Tipo do objeto criado <rowRDD1>: <class 'pyspark.rdd.RDD'> 



### 2. Conhecimento dos dados

In [26]:
print('Imprimindo as 10 primeiras linhas da RDD criado...', '\n')
rowRDD1.take(10)

Imprimindo as 10 primeiras linhas da RDD criado... 



['MAKE,FUELTYPE,ASPIRE,DOORS,BODY,DRIVE,CYLINDERS,HP,RPM,MPG-CITY,MPG-HWY,PRICE',
 'subaru,gas,std,two,hatchback,fwd,four,69,4900,31,36,5118',
 'chevrolet,gas,std,two,hatchback,fwd,three,48,5100,47,53,5151',
 'mazda,gas,std,two,hatchback,fwd,four,68,5000,30,31,5195',
 'toyota,gas,std,two,hatchback,fwd,four,62,4800,35,39,5348',
 'mitsubishi,gas,std,two,hatchback,fwd,four,68,5500,37,41,5389',
 'honda,gas,std,two,hatchback,fwd,four,60,5500,38,42,5399',
 'nissan,gas,std,two,sedan,fwd,four,69,5200,31,37,5499',
 'dodge,gas,std,two,hatchback,fwd,four,68,5500,37,41,5572',
 'plymouth,gas,std,two,hatchback,fwd,four,68,5500,37,41,5572']

### 3. Preparação dos Dados

#### 3.1. Removendo o HEADER da RDD...

In [27]:
header = rowRDD1.first()
rowRDD2 = rowRDD1.filter(lambda x : x != header)

print('Quantidade de registros ANTES de remover o HEADER:', rowRDD1.count(),'\n')
print('Quantidade de registros DEPOIS de remover o HEADER:', rowRDD2.count(),'\n')
print('Exibindo as 5 primeiras linhas da RDD DEPOIS da remeção do HEADER:', '\n')
rowRDD2.take(5)

Quantidade de registros ANTES de remover o HEADER: 198 

Quantidade de registros DEPOIS de remover o HEADER: 197 

Exibindo as 5 primeiras linhas da RDD DEPOIS da remeção do HEADER: 



['subaru,gas,std,two,hatchback,fwd,four,69,4900,31,36,5118',
 'chevrolet,gas,std,two,hatchback,fwd,three,48,5100,47,53,5151',
 'mazda,gas,std,two,hatchback,fwd,four,68,5000,30,31,5195',
 'toyota,gas,std,two,hatchback,fwd,four,62,4800,35,39,5348',
 'mitsubishi,gas,std,two,hatchback,fwd,four,68,5500,37,41,5389']

#### 3.2. Quebrando os campos após o caractere ","
#### + convertendo dados nominais em numéricos
#### + selecionando as colunas (numéricas) que serão usadas no decorrer do processo...

Lembrando que os algoritmos de machine learning foram desenvolvidos para trabalhar com números...

In [38]:
def nominalToNumeric(val):
    AdjustData = val.split(",")
    
    # na posição 3 da RDD contêm o valor da quant. de portas do carro. Se quant. for expressa pela string "two",
    # então valor numérico = 1 senão 2
    doors = 1.0 if AdjustData[3] == "two" else 2.0
    
    # na posição 4 da RDD contêm o tipo de carroceria do carro. Se Sedan, então valor numérico = 1 senão 2
    body = 1.0 if AdjustData[4] == "sedan" else 2.0

    # Convertendo a RDD para um vetor de linhas + selecionando as colunas que serão usadas no decorrer do processo
    values = Row(DOORS = float(doors), BODY = float(body), HP = float(AdjustData[7]), RPM = float(AdjustData[8]), MPG = float(AdjustData[9]))
    return values

In [46]:
# o método persist() vai depender de como está configurado o Starage Level. Possibilidades:
    # MEMORY_ONLY
    # MEMORY_AND_DISK
    # MEMORY_ONLY_SER
    # MEMORY_AND_DISK_SER
    # DISK_ONLY
# Para "despersistir" um objeto, base usar o método unpersist().
#Fonte: https://data-flair.training/blogs/apache-spark-rdd-persistence-caching/

In [45]:
rowRDD3 = rowRDD2.map(nominalToNumeric)
rowRDD3.persist()
rowRDD3.take(10)

[Row(BODY=2.0, DOORS=1.0, HP=69.0, MPG=31.0, RPM=4900.0),
 Row(BODY=2.0, DOORS=1.0, HP=48.0, MPG=47.0, RPM=5100.0),
 Row(BODY=2.0, DOORS=1.0, HP=68.0, MPG=30.0, RPM=5000.0),
 Row(BODY=2.0, DOORS=1.0, HP=62.0, MPG=35.0, RPM=4800.0),
 Row(BODY=2.0, DOORS=1.0, HP=68.0, MPG=37.0, RPM=5500.0),
 Row(BODY=2.0, DOORS=1.0, HP=60.0, MPG=38.0, RPM=5500.0),
 Row(BODY=1.0, DOORS=1.0, HP=69.0, MPG=31.0, RPM=5200.0),
 Row(BODY=2.0, DOORS=1.0, HP=68.0, MPG=37.0, RPM=5500.0),
 Row(BODY=2.0, DOORS=1.0, HP=68.0, MPG=37.0, RPM=5500.0),
 Row(BODY=2.0, DOORS=1.0, HP=68.0, MPG=31.0, RPM=5000.0)]

#### 3.3. Criando DataFrame a partir da RDD "ajustada" anteriormente...

In [53]:
rowDF1 = spSession.createDataFrame(rowRDD3)
print('Exibindo primeiros registros do DataFrame criado...')
rowDF1.show(10)

Exibindo primeiros registros do DataFrame criado...
+----+-----+----+----+------+
|BODY|DOORS|  HP| MPG|   RPM|
+----+-----+----+----+------+
| 2.0|  1.0|69.0|31.0|4900.0|
| 2.0|  1.0|48.0|47.0|5100.0|
| 2.0|  1.0|68.0|30.0|5000.0|
| 2.0|  1.0|62.0|35.0|4800.0|
| 2.0|  1.0|68.0|37.0|5500.0|
| 2.0|  1.0|60.0|38.0|5500.0|
| 1.0|  1.0|69.0|31.0|5200.0|
| 2.0|  1.0|68.0|37.0|5500.0|
| 2.0|  1.0|68.0|37.0|5500.0|
| 2.0|  1.0|68.0|31.0|5000.0|
+----+-----+----+----+------+
only showing top 10 rows

