## Desafio Final - Módulo 5 - Cientista de Dados

## Objetivo:
* Pré-processamento dos dados.
* Detecção de anomalias.
* Processamento dos dados.
* Correlações.
* Spark MlLib.
* Interpretação dos dados.

## Enunciado
O derrame é uma das doenças que mais acometem a população mundial. Segundo a World Health Organization (WHO), o Acidente Vascular Cerebral (AVC) foi a segunda maior causa de morte na população mundial no ano de 2016 [Top 10 Causes of Death](https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death).

Neste desafio vamos realizar uma análise sobre um banco de dados composto por uma pesquisa realizada com diferentes pacientes. Nesta análise, vamos tentar prever, nos baseado em algumas características específicas, se um determinado indivíduo irá ou não sofrer um AVC. Para isso, vamos aplicar o pré-processamento dos dados e a aplicar o modelo de Regressão Logística e o SVM, para indicar se um indivíduo possui ou não maior probabilidade de desenvolver o AVC.

1) Iniciar a seção SPARK

In [None]:
from pyspark.sql import SparkSession #importa a biblioteca que cria a seção do spark

In [None]:
#inicia a seção para a utilização do spark
spark = SparkSession.builder.appName("desafio_IGTI").getOrCreate() #cria a seção caso não exista ou obtém a já criada

In [None]:
%fs ls /FileStore/tables   

path,name,size
dbfs:/FileStore/tables/Mall_Customers.csv,Mall_Customers.csv,4286
dbfs:/FileStore/tables/Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,463094961
dbfs:/FileStore/tables/Webinar_MLE_04_06.pptx,Webinar_MLE_04_06.pptx,5268055
dbfs:/FileStore/tables/adult_data.csv,adult_data.csv,5608318
dbfs:/FileStore/tables/d1995_07_01-24d0c.json,d1995_07_01-24d0c.json,7451741
dbfs:/FileStore/tables/d1995_07_02-c3f44.json,d1995_07_02-c3f44.json,9572086
dbfs:/FileStore/tables/d1995_07_03-f99af.json,d1995_07_03-f99af.json,14125303
dbfs:/FileStore/tables/d1995_07_04-c5a7f.json,d1995_07_04-c5a7f.json,12030333
dbfs:/FileStore/tables/d1995_07_05-0f261.json,d1995_07_05-0f261.json,14662194
dbfs:/FileStore/tables/d1995_07_06-20619.json,d1995_07_06-20619.json,15557682


In [None]:
diretorio_dataset="/FileStore/tables/healthcare_dataset_stroke_data.csv"  #diretório que contém o arquivo a ser utilizado

In [None]:
dataset_desafio = spark.read.format("csv").options(header="true", inferschema="true").load(diretorio_dataset)  #realiza a leitura do dataset

In [None]:
dataset_desafio.printSchema() #mostra o esquema inferido pelas variáveis

Respectivamente, quantas variáveis do tipo string e inteira existem no dataset?

In [None]:
#número de instancias no dataset
dataset_desafio.count()

Quantas instâncias e atributos, respectivamente, existem no dataset?

In [None]:
dataset_desafio.show() #mostra as linhas iniciais do dataset

Conhecendo o dataset

In [None]:
#seleção de colunas
dataset_desafio.select('age','hypertension').show(5)

In [None]:
#agrupando os dados
display(dataset_desafio.groupby('gender','stroke').count().sort("count",ascending=True))

gender,stroke,count
Other,0,1
Male,1,108
Female,1,141
Male,0,2007
Female,0,2853


Analisando o gráfico anterior, o que podemos dizer sobre o derrame entre homens e mulheres?

In [None]:
#agrupando os dados
display(dataset_desafio.groupby('smoking_status','stroke').count().sort("count",ascending=True))

smoking_status,stroke,count
smokes,1,42
Unknown,1,47
formerly smoked,1,70
never smoked,1,90
smokes,0,747
formerly smoked,0,815
Unknown,0,1497
never smoked,0,1802


In [None]:
#agrupando os dados
display(dataset_desafio.groupby('hypertension','stroke').count().sort("count",ascending=True))

hypertension,stroke,count
1,1,66
0,1,183
1,0,432
0,0,4429


O que podemos dizer sobre o gráfico anterior?

In [None]:
display(dataset_desafio.groupby('stroke').count())

stroke,count
1,249
0,4861


O dataset está balanceado?

In [None]:
#utilizando crosstab para contar a quantidade de indivíduos com que ganho mais de 50K pela idade
dataset_desafio.filter(dataset_desafio.gender== 'Female').count()

In [None]:
#contando as classes
dataset_desafio.groupBy("work_type").agg({'work_type': 'count'}).sort(asc("count(work_type)")).show()

In [None]:
entradas_numericas  = ['age',"avg_glucose_level", "bmi"]
dataset_desafio.describe(entradas_numericas).show(truncate=False)

Qual é a média das idades dos participantes da pesquisa?

In [None]:
#boxplot
display(dataset_desafio.select('avg_glucose_level'))

avg_glucose_level
228.69
202.21
105.92
171.23
174.12
186.21
70.09
94.39
76.15
58.57


Pelo gráfico anterior, qual é o valor da mediana?

Pelo gráfico anterior, o que podemos dizer sobre a existência ou não de outliers?

In [None]:
#boxplot
display(dataset_desafio.select('age'))

age
67.0
61.0
80.0
49.0
79.0
81.0
74.0
69.0
59.0
78.0


Pelo gráfico anterior, qual é o valor do primeiro quartil?

Pelo gráfico anterior, o que podemos dizer sobre os outliers?

3) Pré-processamento dos dados

In [None]:
#contando a quantidade de valores desconhecidos
from pyspark.sql.functions import *
dataset_desafio.groupby('Residence_type').agg({'Residence_type': 'count'}).sort(asc("count(Residence_type)")).show()

Quantas classes diferentes de trabalho (work_type) existem no dataset? Fiquem atentos, pois não é essa informação que o tabela anterior está exibindo.

In [None]:
from pyspark.sql.functions import mean
mean = dataset_desafio.select(mean(dataset_desafio['bmi'])).collect()
mean_bmi = mean[0][0]
dataset_desafio = dataset_desafio.na.fill(mean_bmi,['bmi'])

In [None]:
#aplicando o filtro para as colunas que possuem valores não conhecidos
dataset_filtrado=dataset_desafio.filter((dataset_desafio['bmi'] != 'N/A') & (dataset_desafio['smoking_status'] > 'Unknown'))

In [None]:
# aplicando a transformação dos dados categóricos
from pyspark.ml.feature import VectorAssembler,OneHotEncoder, StringIndexer

In [None]:
#define a transformação para a variável "gender"
stringIndexer_gender=StringIndexer(inputCol="gender", outputCol="gender_encoded")  #label encoding
encoder_gender = OneHotEncoder(dropLast=False, inputCol="gender_encoded", outputCol="genderVec") #one-hot encoding

In [None]:
#define a transformação para a variável "ever_married"
stringIndexer_married=StringIndexer(inputCol="ever_married", outputCol="ever_married_encoded") #label encoding
encoder_married = OneHotEncoder(dropLast=False, inputCol="ever_married_encoded", outputCol="marriedVec") #one-hot encoding

In [None]:
#define a transformação para a variável "work_type"
stringIndexer_work=StringIndexer(inputCol="work_type", outputCol="work_type_encoded")  #label encoding
encoder_work = OneHotEncoder(dropLast=False, inputCol="work_type_encoded", outputCol="workVec") #one-hot encoding

In [None]:
#define a transformação para a variável "Residence_type"
stringIndexer_residence=StringIndexer(inputCol="Residence_type", outputCol="Residence_type_encoded")  #label encoding
encoder_residence = OneHotEncoder(dropLast=False, inputCol="Residence_type_encoded", outputCol="residenceVec") #one-hot encoding

In [None]:
#define a transformação para a variável "smoking_status"
stringIndexer_smoking=StringIndexer(inputCol="smoking_status", outputCol="smoking_status_encoded")  #define o objeto
encoder_smoking = OneHotEncoder(dropLast=False, inputCol="smoking_status_encoded", outputCol="smokingVec")#one-hot encoding

In [None]:
#define a construção do vetor de entrada
colunas_entrada=['age','hypertension', 'heart_disease','avg_glucose_level','genderVec','marriedVec','workVec','residenceVec','smokingVec']
vetor_entrada = VectorAssembler(inputCols=colunas_entrada,outputCol='features')

In [None]:
#define a sequencia de transformações para o pipeline
sequencia_transformacoes=[stringIndexer_gender,stringIndexer_married,stringIndexer_work,stringIndexer_residence,stringIndexer_smoking,encoder_gender,encoder_married,encoder_work,encoder_residence,encoder_smoking,vetor_entrada]

In [None]:
from pyspark.ml import Pipeline
# Aplicando o pipeline
pipeline = Pipeline(stages=sequencia_transformacoes)
pipelineModel = pipeline.fit(dataset_filtrado)
model = pipelineModel.transform(dataset_filtrado)

In [None]:
#mostrando parte dos dados para entrada
model.select('age','gender','genderVec','ever_married','marriedVec','features').show()

In [None]:
#dividindo o dataset entre teste e treinamento
train_data, test_data = model.randomSplit([.8,.2],seed=1)

Qual foi, respectivamente, o percentual de dados escolhidos para treinamento e teste dos modelos?

In [None]:
#mostrando os dados de treinamento
train_data.columns

Realizando a previsão através da Regressão Logística

In [None]:
#define o modelo de regrssão logística
from pyspark.ml.classification import LogisticRegression

#instancia o objeto para a regressão logística
lr = LogisticRegression(labelCol="stroke",featuresCol="features", maxIter=100, regParam=0.3, )

# treina o modelo
linearModel = lr.fit(train_data)

In [None]:
#realiza a previsão utilizando o modelo de regressão logística
previsao_regressao = linearModel.transform(test_data)

In [None]:
#avaliando a classificação realizada pela regressão logística
acc_evaluator = MulticlassClassificationEvaluator(labelCol="stroke", predictionCol="prediction", metricName="accuracy")
acuracia_regressao = acc_evaluator.evaluate(previsao_regressao)
print('Regressão Logística: {0:2.2f}%'.format(acuracia_regressao*100))