In [1]:
#utilizado para a demonstração da preparação dos dados

In [2]:
from pyspark.sql import SparkSession #importa a biblioteca que cria a seção do spark

In [3]:
#inicia a seção para a utilização do spark
spark = SparkSession.builder.appName("PreparacaoDados").getOrCreate() #cria a seção caso não exista ou obtém a já criada

In [4]:
%fs ls /FileStore/tables

path,name,size
dbfs:/FileStore/tables/Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,463094961
dbfs:/FileStore/tables/d1995_07_01-24d0c.json,d1995_07_01-24d0c.json,7451741
dbfs:/FileStore/tables/d1995_07_02-c3f44.json,d1995_07_02-c3f44.json,9572086
dbfs:/FileStore/tables/d1995_07_03-f99af.json,d1995_07_03-f99af.json,14125303
dbfs:/FileStore/tables/d1995_07_04-c5a7f.json,d1995_07_04-c5a7f.json,12030333
dbfs:/FileStore/tables/d1995_07_05-0f261.json,d1995_07_05-0f261.json,14662194
dbfs:/FileStore/tables/d1995_07_06-20619.json,d1995_07_06-20619.json,15557682
dbfs:/FileStore/tables/d1995_07_07-2dd8d.json,d1995_07_07-2dd8d.json,15279295
dbfs:/FileStore/tables/d1995_07_08-83302.json,d1995_07_08-83302.json,7033852
dbfs:/FileStore/tables/d1995_07_09-f75d3.json,d1995_07_09-f75d3.json,5589076


In [5]:
diretorioDatasetOcup="/FileStore/tables/designation.json"  #diretório que contém o arquivo a ser utilizado

In [6]:
diretorioDatasetSala="/FileStore/tables/salary.json"  #diretório que contém o arquivo a ser utilizado

In [7]:
#criando um RDD e convertendo em Dataframe
empregados=spark.sparkContext.parallelize([(1, "Joao", 25), (2, "Ricardo", 35), (3, "Marcio", 24), \
                           (4, "Janete", 28), (5, "Kely", 26), (6, "Vicente", 35), \
                           (7, "Jander", 38), (8, "Maria", 32), (9, "Gabriel", 29), \
                           (10, "Kimberly", 29), (11, "Alex", 28), (12, "Gustavo", 25), \
                           (13, "Rafael", 31)]).toDF(["emp_id","nome","idade"])

In [8]:
empregados.show(5)

In [9]:
#lendo arquivos armazenados em um JSON
salario = spark.read.json(diretorioDatasetSala)  #lê os dados do diretório

In [10]:
salario.show(5)

In [11]:
ocupacao = spark.read.json(diretorioDatasetOcup) #lê os dados do diretório

In [12]:
ocupacao.show(5)

Preparação dos dados

In [14]:
#consolidação dos dados
df_final = empregados.join(salario, empregados.emp_id == salario.e_id).join(ocupacao, empregados.emp_id == ocupacao.id).select("e_id", "nome", "idade", "cargo", "salario")

In [15]:
df_final.show()

Limpando os dados

In [17]:
#retirando os valores NaN
clean_data = df_final.na.drop()

In [18]:
clean_data.show()

Substituindo o Nan pelo valor médio da coluna

In [20]:
#substituindo os valores NaN pela média
import math  #utilizado para aplicar algumas funções matematicas
from pyspark.sql import functions as F  #contem as funções da linguagem SQL

In [21]:
#encontrando a média dos salários
salario_medio = math.floor(salario.select(F.mean('salario')).collect()[0][0])
print(salario_medio)

In [22]:
clean_data = df_final.na.fill({'salario' : salario_medio})

In [23]:
clean_data.show()

In [24]:
#outro exemplo de preparação
autores = [['Thomas','Hardy','June 2, 1840'],\
       ['Charles','Dickens','7 February 1812'],\
        ['Mark','Twain',None],\
        ['Jane','Austen','16 December 1775'],\
      ['Emily',None,None]]
df_autores = spark.sparkContext.parallelize(autores).toDF(
       ["PrimeiroNome","UltimoNome","Dob"])

In [25]:
df_autores.show()

Tratando valores duplicados

In [27]:
autores = [['Thomas','Hardy','June 2,1840'],\
    ['Thomas','Hardy','June 2,1840'],\
    ['Thomas','H',None],\
    ['Jane','Austen','16 December 1775'],\
    ['Emily',None,None]]

In [28]:
df_autores = spark.sparkContext.parallelize(autores).toDF(
      ["PrimeiroNome","UltimoNome","Dob"])

In [29]:
df_autores.show()

In [30]:
#Retirando as linhas duplicadas
df_autores.dropDuplicates().show()

Transformando os dados

In [32]:
#utiliza a diretriz UDF para criar a função a ser aplicada a cada uma das celulas selecionadas
concat_func = F.udf(lambda nome, idade: nome + "_" + str(idade))

In [33]:
#aplica a função UDF (concat_func) para criar o novo dataframe
concat_df = df_final.withColumn("nome_idade", concat_func(df_final.nome, df_final.idade))

In [34]:
concat_df.show()

In [35]:
#cria a função que transforma o salario de reais para dólares
from pyspark.sql.types import LongType
def realDolar(salario):
  return salario*0.25
real_dolar = F.udf(lambda salario: realDolar(salario),LongType())

In [36]:
#aplica a função UDF (real_dolar) para criar o novo dataframe
df_real_dolar = df_final.withColumn("salario_dolar", real_dolar(df_final.salario))

Correlações

In [38]:
from pyspark.mllib.stat import Statistics

In [39]:
#cria duas series para encontrar a correlação
import random #utilizada pra gerar valores randomicos
serie_1 = spark.sparkContext.parallelize(random.sample(range(1,101),10)) #cria valores randomicos
serie_2 = spark.sparkContext.parallelize(random.sample(range(1,101),10)) #cria valores randômicos
serie_3=serie_1.map(realDolar)  #aplica a transformação (realDolar) sobre a serie 1

In [40]:
#aplicando a correlação
correlacao = Statistics.corr(serie_1, serie_2, method = "pearson")
print(correlacao)

In [41]:
#aplicando a correlação
correlacao = Statistics.corr(serie_1, serie_3, method = "pearson")
print(correlacao)

Redução da Dimensionalidade

In [43]:
from pyspark.ml.feature import PCA  #define a utilização do PCA
from pyspark.ml.linalg import Vectors #Utilizada para criar vetores com os dados

In [44]:
datasetDigitsDire="/FileStore/tables/digitsNew.csv"

In [45]:
data = spark.read.csv(datasetDigitsDire, header=True, inferSchema=True) #carrega o arquivo


In [46]:
data.show(5)

In [47]:
from pyspark.ml.feature import VectorAssembler  #cria o vetor de características
assembler = VectorAssembler(inputCols=data.columns[1:], outputCol='features')  #define as colunas a serem utilizadas como características

In [48]:
data_2 = assembler.transform(data)  #aplica a transformação - Vetores-Características

In [49]:
data_2.show()  #label - dígitos /  features -> 28*28 pixels =  784

In [50]:
data_2.select("features").show()

In [51]:
from pyspark.ml.feature import PCA  #importa o PCA
pca = PCA(k=2, inputCol='features', outputCol='features_pca')  #define que queremos 2 dimensões 

In [52]:
pca_model = pca.fit(data_2)  #aplica o PCA

In [53]:
pca_data = pca_model.transform(data_2).select('features_pca')  #encontra os autovetores de duas dimensões 

In [54]:
pca_data.show(truncate=False)