In [1]:
#Este programa contém os códigos para a aula de Cidades Inteligentes

Para a construção de um modelo utilizando o Spark e MLlib são necessários 6 passos:

#1) Construir e iniciar a seção SPARK
#2) Implementar o carregamento dos dados para o spark: Carregar o arquivo, especificar o formato desejado e lê os dados como um Dataframe do Spark
#3) Identificar as características a serem utilizadas para treinamento e teste do modelo
#4) Instanciar as classes e os objetos dos algoritmos a serem utilizados
#5) Utilizar o método fit() para realizar o treinamento do modelo
#6) Avaliar o modelo

In [3]:
%fs ls /FileStore/tables

path,name,size
dbfs:/FileStore/tables/Mall_Customers.csv,Mall_Customers.csv,4286
dbfs:/FileStore/tables/Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,463094961
dbfs:/FileStore/tables/Webinar_MLE_04_06.pptx,Webinar_MLE_04_06.pptx,5268055
dbfs:/FileStore/tables/adult_data.csv,adult_data.csv,5608318
dbfs:/FileStore/tables/d1995_07_01-24d0c.json,d1995_07_01-24d0c.json,7451741
dbfs:/FileStore/tables/d1995_07_02-c3f44.json,d1995_07_02-c3f44.json,9572086
dbfs:/FileStore/tables/d1995_07_03-f99af.json,d1995_07_03-f99af.json,14125303
dbfs:/FileStore/tables/d1995_07_04-c5a7f.json,d1995_07_04-c5a7f.json,12030333
dbfs:/FileStore/tables/d1995_07_05-0f261.json,d1995_07_05-0f261.json,14662194
dbfs:/FileStore/tables/d1995_07_06-20619.json,d1995_07_06-20619.json,15557682


In [4]:
#importando as bibliotecas 
from pyspark.ml.classification import LogisticRegression   #utilizada para realizar a classifcação
from pyspark.ml.feature import RegexTokenizer    #utilizada para realizar a tokenização (divisão da senteça em palavras)
from pyspark.ml.feature import StopWordsRemover   #utilizada para remover as stopwords (palavras "sem sentido" para a análise)
from pyspark.ml.feature import CountVectorizer  #transforma as palavras em vetores
from pyspark.ml.feature import OneHotEncoder, StringIndexer, VectorAssembler   #utilizadsa para transformar os dados
from pyspark.ml import Pipeline #utilizada para criar o pipeline de transformações
from pyspark.sql.functions import col #utilizada para selecionar as colunas
from pyspark.sql import SparkSession  #utilizada para iniciar a seção do spark
from pyspark.ml.evaluation import MulticlassClassificationEvaluator  #utilizado para realizar a avaliação de classificadores não binários

In [5]:
spark = SparkSession.builder.appName("PrevisaoDeCrimes").getOrCreate()  #inicia a seção do spark

In [6]:
diretorioDataset="/FileStore/tables/Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv"  #diretório que contém o arquivo a ser utilizado

In [7]:
data = spark.read.format("csv").options(header="true", inferschema="true").load(diretorioDataset)  #realiza a leitura do dataset

In [8]:
data.columns  #apresenta as colunas do dataset

In [9]:
data.count() #conta a quantidade de registros existente no dataset (linhas) - justifica ser distribuído 

In [10]:
data.printSchema()  #realiza o print do schema para o bando de dados lido

In [11]:
data.show(5)  #realiza o print do dataset utilizado

Vamos eliminar algumas colunas, pois queremos classificar o tipo de crime.

In [13]:
drop_data = ['IncidntNum','Date','Time', 'DayOfWeek', 'PdDistrict', 'Resolution', 'Address', 'X', 'Y','PdId', 'Location']  #indica quais as colunas vamos eliminar (vamos ficar apenas com "Category" e "Descript")

In [14]:
data = data.select([column for column in data.columns if column not in drop_data]) #aplica a seleção apenas da colunas que não estão na lista "drop_data"

In [15]:
data.show(10,False)  #realiza o print do "novo" dataset

In [16]:
data.describe().show()  #conhecendo o dataset

In [17]:
data.groupby("Category").count().show()  #conta a quantidade de elementos por categoria 

In [18]:
from pyspark.sql.functions import countDistinct, avg, stddev  #funções utilizadas para conhecer o dataset
data.select(countDistinct("Category")).show()  #conta a quantidade de categorias distintas presentes no dataset

Preparando os dados .... Textual

#1) Tokenização
#2) Remoção de Stopwords
#3) Vetorização (texto -> vetores)

In [21]:
# aplicando expressões regulares (regular expression)
re_Tokenizer = RegexTokenizer(inputCol="Descript",outputCol="words", pattern="\\W")

In [22]:
# remoção de stopwords
stop_words = ["http","https","amp","rt","t","c","the"]   #cria o vetor que contém as palavras que não geram sentido ao texto
stop_words_remover = StopWordsRemover(inputCol="words", outputCol="filtered").setStopWords(stop_words)  #aplica a remoção das stopwords contidas no vetor

In [23]:
# Transformando as palavras em vetores (BagOfWords)
count_vectors = CountVectorizer(inputCol="filtered",outputCol="features", vocabSize=10000, minDF=5)

In [24]:
# aplicando a transformação (string -> numerica) de cada uma das categorias
label_string_Idx = StringIndexer(inputCol = "Category", outputCol = "label")

In [25]:
#define todas as operação através do pipeline
pipeline = Pipeline(stages=[re_Tokenizer, stop_words_remover,count_vectors, label_string_Idx]) #diz a sequência das transformações a serem realizadas

In [26]:
# Realmente, aplica as transformações 
pipeline_fit = pipeline.fit(data)  #aplica as transformações 
newDataset = pipeline_fit.transform(data)

In [27]:
newDataset.show(10, False)

In [28]:
#Dividindo os dados entre treinamento e teste
(trainingData, testData) = newDataset.randomSplit([0.7, 0.3], seed = 100) #divide o datasete entre 70% para treinamento e 30% para teste

In [29]:
print("Comprimento do Treinamento: " + str(trainingData.count())) #conta a quantidade de registros existentes no dataset
print("Comprimento do Teste: " + str(testData.count()))

Analisando os dados de teste - Balanceado ?

In [31]:
testData.show(10, False)

In [32]:
testData.select(countDistinct("Category")).show()  #conta a quantidade de categorias distintas presentes no dataset

In [33]:
testData.groupby("Category").count().show()  #conta a quantidade de elementos por categoria 

Aplicando o modelo de classificação

In [35]:
#Constrói o modelo de classificação 
regressor = LogisticRegression(maxIter=20, regParam=0.3, elasticNetParam=0)

In [36]:
# aplica a regressão aos dados de treinamento
modeloRegressaoL = regressor.fit(trainingData)  

In [37]:
#realiza a previsão utilizando o modelo de regressão logística
previsao = modeloRegressaoL.transform(testData)

In [38]:
#avalia o modelo de previsão construído
avaliacao = MulticlassClassificationEvaluator(predictionCol="prediction",metricName='f1') #funcao utilizada para realizar a avaliação de classifcadores com várias classes
avaliacao.evaluate(previsao)  #accuracy, areaUnderROC, accuracy