In [1]:
import findspark
findspark.init()

In [2]:
import pyspark
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql import Row # Pré Processar os dados
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import StringIndexer
from pyspark.ml.feature import PCA # Algoritmo aprendizado nao superviisionado - utilizaremos para preprocessar
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

In [3]:
sc = SparkContext(appName = 'lab5')

In [4]:
spSession = SparkSession.builder.master("local").getOrCreate()

In [5]:
spSession

In [6]:
# Carregamento dos dados e gerando um RDD
bankRDD = sc.textFile("C:/formacao_dataScience_DSA_DADOS/01_bigData_RealTime_Python_Spark/cap14_Apache_Spark_MLlib/Lab5/dados/dataset3.csv")

In [7]:
# Salvando em cache
bankRDD.cache()

C:/formacao_dataScience_DSA_DADOS/01_bigData_RealTime_Python_Spark/cap14_Apache_Spark_MLlib/Lab5/dados/dataset3.csv MapPartitionsRDD[1] at textFile at NativeMethodAccessorImpl.java:0

In [8]:
bankRDD.count()

542

In [9]:
bankRDD.take(5)

['"age";"job";"marital";"education";"default";"balance";"housing";"loan";"contact";"day";"month";"duration";"campaign";"pdays";"previous";"poutcome";"y"',
 '30;"unemployed";"married";"primary";"no";1787;"no";"no";"cellular";19;"oct";79;1;-1;0;"unknown";"no"',
 '33;"services";"married";"secondary";"no";4789;"yes";"yes";"cellular";11;"may";220;1;339;4;"failure";"yes"',
 '35;"management";"single";"tertiary";"no";1350;"yes";"no";"cellular";16;"apr";185;1;330;1;"failure";"yes"',
 '30;"management";"married";"tertiary";"no";1476;"yes";"yes";"unknown";3;"jun";199;4;-1;0;"unknown";"yes"']

In [10]:
# Removendo a primeira linda do arquivo (cabeçalho)
firstLine = bankRDD.first()
bankRDD = bankRDD.filter(lambda x: x != firstLine)
bankRDD.count()

541

# limpeza e Transformação dos Dados

Precisaremos usar somente algumas variáveis originais e então criar novas variáveis. Essa decisão pode ser baseada no conhecimento da área de negócio e a fim de evitar preconceitos. Podemos usar outras técnicas de seleção de atributos

In [12]:
# Transformando os dados para valores correspondentes numéricos
def transformToNumeric(inputStr):
    
    # Em cada linha faz substituição de caracteres e spara as colunas
    attList = inputStr.replace("\"","").split(';')
    
    # Converte de int para float a fim de aumentar a precisão dos cálculos
    age = float(attList[0])
    balance = float(attList[5])
    
    # Aplica one-hot enconding criando variáveis dummy
    single = 1.0 if attList[2] == 'single' else 0.0   # Variável de indice 2
    married = 1.0 if attList[2] == 'married' else 0.0
    divorced = 1.0 if attList[2] == 'divorced' else 0.0
    primary = 1.0 if attList[3] == 'primary' else 0.0
    secondary = 1.0 if attList[3] == 'secondary' else 0.0
    tertiary = 1.0 if attList[3] == 'tertiary' else 0.0
    
    # Aplicando Label Encoding convertendo a variável categórica para sua representação numerica
    default = 0.0 if attList[4] == 'no' else 1.0
    loan = 0.0 if attList[7] == 'no' else 1.0
    outcome = 0.0 if attList[16] == 'no' else 1.0
    
    # Cria as linhas com os atributos transformados 
    linhas = Row(OUTCOME = outcome,
                AGE = age,
                SINGLE = single,
                MARRIED = married,
                DIVORCED = divorced,
                PRIMARY = primary,
                SECONDARY = secondary,
                TERTIARY = tertiary,
                DEFAULT = default,
                BALANCE = balance,
                LOAN = loan)
    
    return linhas

In [15]:
# Aplicando a função ao RDD
bankRDD3 = bankRDD.map(transformToNumeric)

In [17]:
bankRDD3.collect()[:15]

[Row(OUTCOME=0.0, AGE=30.0, SINGLE=0.0, MARRIED=1.0, DIVORCED=0.0, PRIMARY=1.0, SECONDARY=0.0, TERTIARY=0.0, DEFAULT=0.0, BALANCE=1787.0, LOAN=0.0),
 Row(OUTCOME=1.0, AGE=33.0, SINGLE=0.0, MARRIED=1.0, DIVORCED=0.0, PRIMARY=0.0, SECONDARY=1.0, TERTIARY=0.0, DEFAULT=0.0, BALANCE=4789.0, LOAN=1.0),
 Row(OUTCOME=1.0, AGE=35.0, SINGLE=1.0, MARRIED=0.0, DIVORCED=0.0, PRIMARY=0.0, SECONDARY=0.0, TERTIARY=1.0, DEFAULT=0.0, BALANCE=1350.0, LOAN=0.0),
 Row(OUTCOME=1.0, AGE=30.0, SINGLE=0.0, MARRIED=1.0, DIVORCED=0.0, PRIMARY=0.0, SECONDARY=0.0, TERTIARY=1.0, DEFAULT=0.0, BALANCE=1476.0, LOAN=1.0),
 Row(OUTCOME=0.0, AGE=59.0, SINGLE=0.0, MARRIED=1.0, DIVORCED=0.0, PRIMARY=0.0, SECONDARY=1.0, TERTIARY=0.0, DEFAULT=0.0, BALANCE=0.0, LOAN=0.0),
 Row(OUTCOME=1.0, AGE=35.0, SINGLE=1.0, MARRIED=0.0, DIVORCED=0.0, PRIMARY=0.0, SECONDARY=0.0, TERTIARY=1.0, DEFAULT=0.0, BALANCE=747.0, LOAN=0.0),
 Row(OUTCOME=1.0, AGE=36.0, SINGLE=0.0, MARRIED=1.0, DIVORCED=0.0, PRIMARY=0.0, SECONDARY=0.0, TERTIARY=1.0, D

# Análise exploratória dos dados

In [19]:
# Converter RDD para DataFrame do Spark
bankDF = spSession.createDataFrame(bankRDD3)

In [20]:
bankDF.show(5)

+-------+----+------+-------+--------+-------+---------+--------+-------+-------+----+
|OUTCOME| AGE|SINGLE|MARRIED|DIVORCED|PRIMARY|SECONDARY|TERTIARY|DEFAULT|BALANCE|LOAN|
+-------+----+------+-------+--------+-------+---------+--------+-------+-------+----+
|    0.0|30.0|   0.0|    1.0|     0.0|    1.0|      0.0|     0.0|    0.0| 1787.0| 0.0|
|    1.0|33.0|   0.0|    1.0|     0.0|    0.0|      1.0|     0.0|    0.0| 4789.0| 1.0|
|    1.0|35.0|   1.0|    0.0|     0.0|    0.0|      0.0|     1.0|    0.0| 1350.0| 0.0|
|    1.0|30.0|   0.0|    1.0|     0.0|    0.0|      0.0|     1.0|    0.0| 1476.0| 1.0|
|    0.0|59.0|   0.0|    1.0|     0.0|    0.0|      1.0|     0.0|    0.0|    0.0| 0.0|
+-------+----+------+-------+--------+-------+---------+--------+-------+-------+----+
only showing top 5 rows



In [21]:
# Correlação entre as variáveis:
for i in bankDF.columns:
    if not( isinstance(bankDF.select(i).take(1)[0][0], str)):
        print("Coeelação da variável OUTCOME com:", i, bankDF.stat.corr('OUTCOME', i))

Coeelação da variável OUTCOME com: OUTCOME 1.0
Coeelação da variável OUTCOME com: AGE -0.18232104327365253
Coeelação da variável OUTCOME com: SINGLE 0.46323284934360515
Coeelação da variável OUTCOME com: MARRIED -0.3753241299133561
Coeelação da variável OUTCOME com: DIVORCED -0.07812659940926987
Coeelação da variável OUTCOME com: PRIMARY -0.12561548832677985
Coeelação da variável OUTCOME com: SECONDARY 0.026392774894072976
Coeelação da variável OUTCOME com: TERTIARY 0.08494840766635618
Coeelação da variável OUTCOME com: DEFAULT -0.04536965206737378
Coeelação da variável OUTCOME com: BALANCE 0.03657486611997681
Coeelação da variável OUTCOME com: LOAN -0.03042058611271732


# Pré Processamento de dados 

In [None]:
# Redução de dimensionalidade
def transformVar(row):
    obj = (row['OUTCOME'], Vectors.dense([row['AGE'],
                                         row['SINGLE'],
                                         row['MARRIED '],
                                         row['DIVORCED'],
                                         row['PRIMARY'],
                                         row['SECONDARY'],
                                         row['TERTIARY'],
                                         row['DEFAULT'],
                                         row['BALANCE'],
                                         row['LOAN']]))