# Desafio do Módulo 2 - Cientista de Dados - XP Educação

## Passos iniciais
- Importando as bibliotecas
- Carregando o dataset (stroke_data.csv)
- Verificando informações do dataset

In [1]:
from pyspark.sql import SparkSession
import os

In [2]:
spark = SparkSession.builder\
          .getOrCreate()

df = (spark.read
  .format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load("stroke_data.csv")
)

In [3]:
# Analisando o carregamento do dataset e suas características
df.show()

+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
|  0|gender| age|hypertension|heart_disease|ever_married|    work_type|Residence_type|avg_glucose_level|  bmi| smoking_status|stroke|
+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
|  1|Female|18.0|           0|            0|          No|      Private|         Urban|            94.19|12.12|         smokes|     1|
|  2|  Male|58.0|           1|            0|         Yes|      Private|         Rural|           154.24| 33.7|   never_smoked|     0|
|  3|Female|36.0|           0|            0|         Yes|     Govt_job|         Urban|            72.63| 24.7|         smokes|     0|
|  4|Female|62.0|           0|            0|         Yes|Self-employed|         Rural|            85.52| 31.2|formerly smoked|     0|
|  5|Female|82.0|           0|            0|         Yes|     

In [4]:
# Analisando os tipos das variáveis
df.printSchema() 

root
 |-- 0: integer (nullable = true)
 |-- gender: string (nullable = true)
 |-- age: double (nullable = true)
 |-- hypertension: integer (nullable = true)
 |-- heart_disease: integer (nullable = true)
 |-- ever_married: string (nullable = true)
 |-- work_type: string (nullable = true)
 |-- Residence_type: string (nullable = true)
 |-- avg_glucose_level: double (nullable = true)
 |-- bmi: double (nullable = true)
 |-- smoking_status: string (nullable = true)
 |-- stroke: integer (nullable = true)



In [5]:
df.describe().show()

+-------+------------------+------+------------------+-------------------+-------------------+------------+---------+--------------+------------------+------------------+---------------+-------------------+
|summary|                 0|gender|               age|       hypertension|      heart_disease|ever_married|work_type|Residence_type| avg_glucose_level|               bmi| smoking_status|             stroke|
+-------+------------------+------+------------------+-------------------+-------------------+------------+---------+--------------+------------------+------------------+---------------+-------------------+
|  count|             67135| 67135|             67135|              67135|              67135|       67135|    67135|         67135|             67135|             67135|          67135|              67135|
|   mean|           33568.0|  null| 51.95950845311693|0.16410218217025396|0.10142250688910405|        null|     null|          null|113.41439606762462| 29.16154047813857|  

## 1) Quantos registros existem no arquivo?

In [6]:
totalRegistros = df.cache().count()
totalRegistros

67135

### Resposta: 67135
---

## 2) Quantas colunas existem no arquivo? Quantas são numéricas? Ao ler o arquivo com spark.read.csv, habilite inferSchema=True. Use a função printSchema() da API de Dataframes.

In [60]:
print(len(df.columns)) # Total de colunas
df.printSchema() # Analisando o tipo das variáveis

12
root
 |-- 0: integer (nullable = true)
 |-- gender: string (nullable = true)
 |-- age: double (nullable = true)
 |-- hypertension: integer (nullable = true)
 |-- heart_disease: integer (nullable = true)
 |-- ever_married: string (nullable = true)
 |-- work_type: string (nullable = true)
 |-- Residence_type: string (nullable = true)
 |-- avg_glucose_level: double (nullable = true)
 |-- bmi: double (nullable = true)
 |-- smoking_status: string (nullable = true)
 |-- stroke: integer (nullable = true)



### Resposta: 12, 7
---

## 3) No conjunto de dados, quantos pacientes sofreram e não sofreram derrame (stroke), respectivamente?


In [8]:
# # Total de dados da coluna "stroke"
#  df.select("stroke").count()

# # Total de pacientes que sofreram derrame
# df.groupBy().sum("stroke").show()

# df.agg({'stroke': 'sum'}).show()
# # Total de pacientes que não sofreram derrame
# 67135-40287

In [61]:
# Melhor
df.groupby("stroke").count().show()

+------+-----+
|stroke|count|
+------+-----+
|     1|40287|
|     0|26848|
+------+-----+



### Resposta: 40287, 26848 

## 4) A partir do dataframe, crie uma tabela temporária usando df.createOrReplaceTempView('table') e a seguir use spark.sql para escrever uma consulta SQL que obtenha quantos pacientes tiveram derrame por tipo de trabalho (work_type). Quantos pacientes sofreram derrame e trabalhavam respectivamente, no setor privado, de forma independente, no governo e quantas são crianças?

In [10]:
df.createOrReplaceTempView('table')

In [11]:
spark.sql("SELECT work_type, sum(stroke) FROM table GROUP BY work_type").show()

+-------------+-----------+
|    work_type|sum(stroke)|
+-------------+-----------+
| Never_worked|         85|
|Self-employed|      10807|
|      Private|      23711|
|     children|        520|
|     Govt_job|       5164|
+-------------+-----------+



### Resposta: 23711, 10807, 5164, 520

## 5)Escreva uma consulta com spark.sql para determinar a proporção, por gênero, de participantes do estudo. A maioria dos participantes é:


In [12]:
spark.sql("SELECT gender, count(gender) FROM table GROUP BY gender").show()

+------+-------------+
|gender|count(gender)|
+------+-------------+
|Female|        39530|
| Other|           11|
|  Male|        27594|
+------+-------------+



### Resposta: Feminina

## 6) Escreva uma consulta com spark.sql para determinar quem tem mais probabilidade de sofrer derrame: hipertensos ou não-hipertensos. Você pode escrever uma consulta para cada grupo. A partir das probabilidades que você obteve, você conclui que:


In [98]:
# Casos de derrame com hipertensão e sem hipertensão
spark.sql("SELECT hypertension, sum(stroke) FROM table GROUP BY hypertension").show()

+------------+-----------+
|hypertension|sum(stroke)|
+------------+-----------+
|           1|       8817|
|           0|      31470|
+------------+-----------+



In [99]:
# Casos totais de hipertensos e não hipertensos
spark.sql("SELECT hypertension, count(*) FROM table GROUP BY hypertension").show()

+------------+--------+
|hypertension|count(1)|
+------------+--------+
|           1|   11017|
|           0|   56118|
+------------+--------+



In [102]:
# Probabilidade de sofrer derrame e ser hipertenso
pHyperStroke = round(8817/(11017)*100,2)
pHyperStroke

80.03

In [103]:
# Probabilidade de sofrer derrame e não ser hipertenso
pNotHyperStroke = round(31470/(56118)*100,2)
pNotHyperStroke

56.08

### Resposta: A hipertensão, neste conjunto de dados, aumenta a probabilidade de derrame.

## 7) Escreva uma consulta com spark.sql que determine o número de pessoas que sofreram derrame por idade. Com qual idade o maior número de pessoas do conjunto de dados sofreu derrame?


In [104]:
spark.sql("SELECT age, sum(stroke) FROM table GROUP BY age ORDER BY sum(stroke) DESC").show()

+----+-----------+
| age|sum(stroke)|
+----+-----------+
|79.0|       2916|
|78.0|       2279|
|80.0|       1858|
|81.0|       1738|
|82.0|       1427|
|77.0|        994|
|74.0|        987|
|63.0|        942|
|76.0|        892|
|70.0|        881|
|66.0|        848|
|75.0|        809|
|67.0|        801|
|57.0|        775|
|73.0|        759|
|65.0|        716|
|72.0|        709|
|68.0|        688|
|69.0|        677|
|71.0|        667|
+----+-----------+
only showing top 20 rows



### Resposta: 79 anos

## 8) Usando a API de dataframes, determine quantas pessoas sofreram derrames após os 50 anos.


In [17]:
df.filter(df.age > 50).agg({"stroke": "sum"}).show()

+-----------+
|sum(stroke)|
+-----------+
|      28938|
+-----------+



### Resposta: 28938

## 9) Usando spark.sql, determine qual o nível médio de glicose para pessoas que, respectivamente, sofreram e não sofreram derrame.


In [105]:
spark.sql("SELECT stroke, mean(avg_glucose_level) FROM table GROUP BY stroke").show()

+------+-----------------------+
|stroke|mean(avg_glucose_level)|
+------+-----------------------+
|     1|     119.95307046938272|
|     0|     103.60273130214506|
+------+-----------------------+



### Resposta: 119 e 103

## 10) Qual é o BMI (IMC = índice de massa corpórea) médio de quem sofreu e não sofreu derrame?


In [106]:
spark.sql("SELECT stroke, round(mean(bmi),2) FROM table GROUP BY stroke").show()

+------+-------------------+
|stroke|round(mean(bmi), 2)|
+------+-------------------+
|     1|              29.94|
|     0|              27.99|
+------+-------------------+



### Resposta: 29,94 e 27,99

## 11) Crie um modelo de árvore de decisão que prevê a chance de derrame (stroke) a partir das variáveis contínuas/categóricas: idade, BMI, hipertensão, doença do coração, nível médio de glicose. Use o conteúdo da segunda aula interativa para criar e avaliar o modelo. Qual a acurácia de um modelo construído?




In [107]:
from pyspark.ml.feature import VectorAssembler

assembler = VectorAssembler(inputCols=['age', 'bmi', 'hypertension', 'heart_disease', 'avg_glucose_level'], outputCol='features')

In [108]:
train_data, test_data = df.randomSplit([0.7, 0.3])

In [109]:
from pyspark.ml.classification import DecisionTreeClassifier

classifier = DecisionTreeClassifier(labelCol='stroke', featuresCol='features')

In [110]:
from pyspark.ml import Pipeline

pipeline = Pipeline(stages=[assembler, classifier])


In [111]:
model = pipeline.fit(train_data)

In [112]:
predictions = model.transform(test_data)

In [113]:
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

evaluator = MulticlassClassificationEvaluator(labelCol='stroke', predictionCol='prediction', metricName='accuracy')
accuracy = evaluator.evaluate(predictions)

accuracy

0.6832632299716326

### Resposta: 68%

## 12) Adicione ao modelo as variáveis categóricas: gênero e status de fumante. Use o conteúdo da aula interativa para lidar com as variáveis categóricas.  A acurácia (qualidade) do modelo aumentou para:


In [157]:
from pyspark.ml.feature import StringIndexer, OneHotEncoder

gender_indexer = StringIndexer(inputCol='gender', outputCol='GenderIndex')
gender_encoder = OneHotEncoder(inputCol='GenderIndex', outputCol='GenderVector')

smoking_indexer = StringIndexer(inputCol='smoking_status', outputCol='SmokingIndex')
smoking_encoder = OneHotEncoder(inputCol='SmokingIndex', outputCol='SmokingVector')

In [217]:
assembler2 = VectorAssembler(inputCols=['age', 'bmi', 'hypertension', 'heart_disease', 'avg_glucose_level', 'GenderVector', 'SmokingIndex'], outputCol='features2')

In [218]:
from pyspark.ml.classification import DecisionTreeClassifier

classifier2 = DecisionTreeClassifier(labelCol='stroke', featuresCol='features2')

In [219]:
from pyspark.ml import Pipeline

pipeline2 = Pipeline(stages=[gender_indexer, gender_encoder, smoking_indexer, smoking_encoder, assembler2, classifier2])

In [220]:
model2 = pipeline2.fit(train_data)

In [221]:
predictions2 = model2.transform(test_data)

In [222]:
evaluator2 = MulticlassClassificationEvaluator(labelCol='stroke', predictionCol='prediction', metricName='accuracy')
accuracy2 = evaluator2.evaluate(predictions2)

accuracy2

0.8332192115817275

In [223]:
0.8332192115817275

0.8332192115817275

In [224]:
0.8330235742932603

0.8330235742932603

### Resposta:

## 13) Qual dessas variáveis é mais importante no modelo de árvore de decisão que você construiu na questão (12)?


In [225]:
va = model2.stages[-2]
tree = model2.stages[-1]
display(tree) #visualize the decision tree model
# print(tree.toDebugString) #print the nodes of the decision tree model
list(zip(va.getInputCols(), tree.featureImportances))

DecisionTreeClassificationModel: uid=DecisionTreeClassifier_f0785bfde5b3, depth=5, numNodes=17, numClasses=2, numFeatures=8

[('age', 0.16896413540358615),
 ('bmi', 0.0007689150089890677),
 ('hypertension', 0.0),
 ('heart_disease', 0.0),
 ('avg_glucose_level', 0.007163114912717079),
 ('GenderVector', 0.0),
 ('SmokingIndex', 0.0)]

In [226]:
tree.featureImportances

SparseVector(8, {0: 0.169, 1: 0.0008, 4: 0.0072, 7: 0.8231})

In [227]:
va = ('age', 'bmi', 'hypertension', 'heart_disease', 'avg_glucose_level', 'GenderIndex','GenderVector', 'SmokingIndex', 'SmokingVector')

In [228]:
list(zip(va, tree.featureImportances))

[('age', 0.16896413540358615),
 ('bmi', 0.0007689150089890677),
 ('hypertension', 0.0),
 ('heart_disease', 0.0),
 ('avg_glucose_level', 0.007163114912717079),
 ('GenderIndex', 0.0),
 ('GenderVector', 0.0),
 ('SmokingIndex', 0.8231038346747077)]

In [229]:
0.487351310374862+0.3356461627507479

0.8229974731256099

In [230]:
0.8231038346747077

0.8231038346747077

### Resposta:

## 14) Qual a profundidade da árvore de decisão da questão (12)?


In [231]:
tree.depth

5

### Resposta: 5

## 15) Quantos nodos a árvore de decisão possui?


In [232]:
tree.numNodes

17

### Resposta: 19