In [None]:
#notebook para a segunda aula interativa de TPD

1) Iniciar a seção SPARK

In [None]:
from pyspark.sql import SparkSession #importa a biblioteca que cria a seção do spark

In [None]:
#inicia a seção para a utilização do spark
spark = SparkSession.builder.appName("aula_2").getOrCreate() #cria a seção caso não exista ou obtém a já criada

In [None]:
%fs ls /FileStore/tables    

path,name,size
dbfs:/FileStore/tables/Mall_Customers.csv,Mall_Customers.csv,4286
dbfs:/FileStore/tables/Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,463094961
dbfs:/FileStore/tables/adult_data.csv,adult_data.csv,5608318
dbfs:/FileStore/tables/d1995_07_01-24d0c.json,d1995_07_01-24d0c.json,7451741
dbfs:/FileStore/tables/d1995_07_02-c3f44.json,d1995_07_02-c3f44.json,9572086
dbfs:/FileStore/tables/d1995_07_03-f99af.json,d1995_07_03-f99af.json,14125303
dbfs:/FileStore/tables/d1995_07_04-c5a7f.json,d1995_07_04-c5a7f.json,12030333
dbfs:/FileStore/tables/d1995_07_05-0f261.json,d1995_07_05-0f261.json,14662194
dbfs:/FileStore/tables/d1995_07_06-20619.json,d1995_07_06-20619.json,15557682
dbfs:/FileStore/tables/d1995_07_07-2dd8d.json,d1995_07_07-2dd8d.json,15279295


In [None]:
diretorio_dataset="/FileStore/tables/adult_data.csv"  #diretório que contém o arquivo a ser utilizado

In [None]:
data = spark.read.format("csv").options(header="true", inferschema="true").load(diretorio_dataset)  #realiza a leitura do dataset

In [None]:
data.printSchema() #mostra o esquema inferido pelas variáveis

2) Conhecendo o dataset

In [None]:
data.show() #mostra as linhas iniciais do dataset

In [None]:
#número de instancias no dataset
data.count()

In [None]:
#seleção de colunas
data.select('age','fnlwgt').show(5)

In [None]:
#contando a quantidade de pessoas por tipo de educação
data.groupBy("education").count().sort("count",ascending=True).show()	

In [None]:
#craindo um histograma
educacao=data.groupBy("education").count().sort("count",ascending=True)
display(educacao)

education,count
Preschool,83
1st-4th,247
5th-6th,509
Doctorate,594
12th,657
9th,756
Prof-school,834
7th-8th,955
10th,1389
Assoc-acdm,1601


In [None]:
salario=data.groupBy("gender","income").count().sort("count",ascending=True)
display(salario)

gender,income,count
Female,>50K,1769
Male,>50K,9918
Female,<=50K,14423
Male,<=50K,22732


In [None]:
#encontrando as estatísticas
entradas_numericas  = ['age', 'fnlwgt',"capital-gain", "educational-num", "capital-loss", "hours-per-week"]
data.describe(entradas_numericas).show(truncate=False)

In [None]:
#boxplot
display(data.select('hours-per-week'))

hours-per-week
40
50
40
40
30
30
40
32
40
10


In [None]:
#boxplot
display(data.select('age'))

age
25
38
28
44
18
34
29
63
24
55


In [None]:
#boxplot
display(data.select('educational-num'))

educational-num
7
9
12
10
10
6
9
15
10
4


In [None]:
#utilizando crosstab para contar a quantidade de indivíduos com que ganho mais de 50K pela idade
data.crosstab('age', 'income').sort("age_income").show()

In [None]:
#filtrando os dados
data.filter(data.age > 50).count()		

In [None]:
data.filter(data.income== '>50K').count()	

3) Pré-processamento dos dados

In [None]:
#filtrando alguns dados
data.filter(data['native-country'] == 'Holand-Netherlands').count()

In [None]:
#contando a quantidade de pessoas por cada país natal
from pyspark.sql.functions import *
data.groupby('native-country').agg({'native-country': 'count'}).sort(asc("count(native-country)")).show()

In [None]:
#retirando quem é da Holanda
data_sem_holanda = data.filter(data['native-country'] !=	'Holand-Netherlands')

In [None]:
data_sem_holanda.groupby('native-country').agg({'native-country': 'count'}).sort(asc("count(native-country)")).show()

Aplicando o Pipeline

In [None]:
#transoformando os dados - string em inteiros
from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler
stringIndexer=StringIndexer(inputCol="workclass", outputCol="workclass_encoded")  #define o objeto

In [None]:
#aplica o modelo de transformação
model = stringIndexer.fit(data_sem_holanda)
indexed = model.transform(data_sem_holanda)

In [None]:
indexed.show()

In [None]:
#contando a quantidade de calsses de trabalho existente
data_sem_holanda.groupby('workclass').agg({'workclass':'count'}).count()

In [None]:
#mostrando a quantidade por cada uma das classes
data_sem_holanda.groupby('workclass').agg({'workclass':'count'}).show()

In [None]:
#aplicando o One-Hot encoding
encoder = OneHotEncoder(dropLast=False, inputCol="workclass_encoded", outputCol="workclass_vec")
encoded = encoder.transform(indexed)
encoded.show(5)

In [None]:
#criando o pipeline para as entradas
from pyspark.ml import Pipeline
from pyspark.ml.feature import OneHotEncoderEstimator
entradas_categoricas = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'gender', 'native-country']
stages = [] # stages in our Pipeline
for categoricalCol in entradas_categoricas:
    stringIndexer = StringIndexer(inputCol=categoricalCol, outputCol=categoricalCol + "Index")
    encoder = OneHotEncoderEstimator(inputCols=[stringIndexer.getOutputCol()],outputCols=[categoricalCol + "classVec"])
    stages += [stringIndexer, encoder]

In [None]:
#criando o pipeline para a saídas
saida_stringIdx =  StringIndexer(inputCol="income", outputCol="new_income")
stages += [saida_stringIdx]

In [None]:
#criando as entradas para o modelo
assemblerInputs = [c + "classVec" for c in entradas_categoricas] + entradas_numericas

In [None]:
assemblerInputs

In [None]:
#define a construção do vetor
assembler = VectorAssembler(inputCols=assemblerInputs, outputCol="features")
stages += [assembler]

In [None]:
stages

In [None]:
# Aplicando o pipeline
pipeline = Pipeline(stages=stages)
pipelineModel = pipeline.fit(data_sem_holanda)
model = pipelineModel.transform(data_sem_holanda)

In [None]:
#mostrando parte dos dados para entrada
model.select('age','workclass','marital-status','workclassclassVec','marital-statusclassVec').show()

Definindo o dataset de entrada

In [None]:
from pyspark.ml.linalg import DenseVector
input_data = model.rdd.map(lambda x: (x["new_income"], DenseVector(x["features"])))  #cria o vetor denso para a construção dos dados para treinamento

In [None]:
df_train = spark.createDataFrame(input_data, ["label", "features"])

In [None]:
df_train.show(truncate=True)

Dividindo os dados entre treinamento o teste

In [None]:
#divide os dados entre treinamento e teste
train_data, test_data = df_train.randomSplit([.8,.2],seed=1)

Criando o modelo de regressão logística

In [None]:
#define o modelo de regrssão logística
from pyspark.ml.classification import LogisticRegression

#instancia o objeto para a regressão logística
lr = LogisticRegression(labelCol="label",featuresCol="features", maxIter=10, regParam=0.3)

# treina o modelo
linearModel = lr.fit(train_data)

In [None]:
#realizando as previsões do modelo
predictions = linearModel.transform(test_data)

In [None]:
#selecionando algumas colunas para a previsão 
selected = predictions.select("label", "prediction", "probability")
selected.show(20)

Avaliando o modelo

In [None]:
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Evaluate model
evaluator = BinaryClassificationEvaluator(rawPredictionCol="rawPrediction")
print(evaluator.evaluate(predictions))

In [None]:
predictions.printSchema()