<a href="https://colab.research.google.com/github/vivirocha/Bootcamp_DataScience/blob/main/Desafio_Desenvolvimento_de_Solu%C3%A7%C3%B5es_Utilizando_Spark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Bootcamp Cientista de Dados - IGTI**

Desafio - Módulo 2

*Desenvolvendo Soluções Utilizando Apache Spark*

**Enunciado** <br>
Doenças ligadas ao coração afetam milhões de pessoas ao redor do mundo e, segundo a Organização Mundial da Saúde (OMS), são a segunda principal causa de morte da população mundial. Como cientista de dados, você foi contratado para criar um modelo preditivo que, a partir de dados de pacientes como idade, gênero, nível de glicose, se o paciente fuma ou não, vai prever se aquele paciente terá um derrame cerebral ou não. <br>
Você tem acesso a um arquivo que possui atributos de pacientes e um atributo “stroke” (derrame), que indica se aquele paciente sofreu um evento de derrame ou não. <br>
O conjunto de dados está disponível em: https://dcc.ufmg.br/~pcalais/stroke_data.csv

<br> 

Os dados estão distribuídos nas seguintes colunas: <br>
**id** = valores únicos. <br>
**gender** = feminino, masculino ou outro. <br>
**age** = idade <br>
**hypertensio.** = valores binários que mostram se o paciente é ou não hipertenso(0 = não, 1 = sim). <br>
**heart_disease** =  valores binários que mostram se o paciente tem ou não alguma doença cardiáca (0 = não, 1 = sim). <br>
**ever_married** = Sim ou Não. <br>
**work_type** = "children", "Govt_jov", "Never_worked", "Private" ou "Self-employed". <br>
**Residence_type** = Rural ou urbana. <br>
**avg_glucose_level** = nível médio de glucose no sangue. <br>
**bmi** = índice de massa corporal. <br>
**smoking_status** = "formerly smoked", "never smoked", "smokes" ou "Unknown". <br> 
**stroke** = valores binários que mostram se o paciente teve derrame (1) ou não teve (0).

In [36]:
#Instalando spark
!pip install spark



In [None]:
#Instalando pyspark
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.2.1.tar.gz (281.4 MB)
[K     |████████████████████████████████| 281.4 MB 35 kB/s 
[?25hCollecting py4j==0.10.9.3
  Downloading py4j-0.10.9.3-py2.py3-none-any.whl (198 kB)
[K     |████████████████████████████████| 198 kB 41.0 MB/s 
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.2.1-py2.py3-none-any.whl size=281853642 sha256=efb08790f1c58429a830495f53b2dda0fb518691fbcc177163ee2502d8fffdbc
  Stored in directory: /root/.cache/pip/wheels/9f/f5/07/7cd8017084dce4e93e84e92efd1e1d5334db05f2e83bcef74f
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.9.3 pyspark-3.2.1


In [37]:
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
sc = SparkContext.getOrCreate()
spark = SparkSession.builder.appName('Desafio_SolucoesSpark') \
                    .getOrCreate()

In [38]:
#Lendo o arquivo .csv e criando um dataframe a partir dele.
stroke = spark.read.csv('stroke_data.csv', 
                        sep=',', 
                        inferSchema=True,
                        header=True).cache()

In [40]:
stroke.show()

+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
|  0|gender| age|hypertension|heart_disease|ever_married|    work_type|Residence_type|avg_glucose_level|  bmi| smoking_status|stroke|
+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
|  1|Female|18.0|           0|            0|          No|      Private|         Urban|            94.19|12.12|         smokes|     1|
|  2|  Male|58.0|           1|            0|         Yes|      Private|         Rural|           154.24| 33.7|   never_smoked|     0|
|  3|Female|36.0|           0|            0|         Yes|     Govt_job|         Urban|            72.63| 24.7|         smokes|     0|
|  4|Female|62.0|           0|            0|         Yes|Self-employed|         Rural|            85.52| 31.2|formerly smoked|     0|
|  5|Female|82.0|           0|            0|         Yes|     

Quantos registros existem no arquivo?

In [41]:
stroke.count()

67135

Quantas colunas existem no arquivo? Quantas são numéricas? Ao ler o arquivo com spark.read.csv, habilite inferSchema=True. Use a função printSchema() da API de Dataframes.

In [42]:
stroke.printSchema()

root
 |-- 0: integer (nullable = true)
 |-- gender: string (nullable = true)
 |-- age: double (nullable = true)
 |-- hypertension: integer (nullable = true)
 |-- heart_disease: integer (nullable = true)
 |-- ever_married: string (nullable = true)
 |-- work_type: string (nullable = true)
 |-- Residence_type: string (nullable = true)
 |-- avg_glucose_level: double (nullable = true)
 |-- bmi: double (nullable = true)
 |-- smoking_status: string (nullable = true)
 |-- stroke: integer (nullable = true)



In [43]:
#Importando col a partir do pyspark.sql.functions
from pyspark.sql.functions import col

In [44]:
stroke = stroke.select(col("0").alias("id"), col("gender").alias("gender"), col("age").alias("age"), col("hypertension").alias("hypertension"),col("heart_disease").alias("heart_disease"),col("ever_married").alias("ever_married"),col("work_type").alias("work_type"),col("Residence_type").alias("Residence_type"),col("avg_glucose_level").alias("avg_glucose_level"),col("bmi").alias("bmi"), col("smoking_status").alias("smoking_status"),col("stroke").alias("stroke"))
stroke.show()

+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
| id|gender| age|hypertension|heart_disease|ever_married|    work_type|Residence_type|avg_glucose_level|  bmi| smoking_status|stroke|
+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
|  1|Female|18.0|           0|            0|          No|      Private|         Urban|            94.19|12.12|         smokes|     1|
|  2|  Male|58.0|           1|            0|         Yes|      Private|         Rural|           154.24| 33.7|   never_smoked|     0|
|  3|Female|36.0|           0|            0|         Yes|     Govt_job|         Urban|            72.63| 24.7|         smokes|     0|
|  4|Female|62.0|           0|            0|         Yes|Self-employed|         Rural|            85.52| 31.2|formerly smoked|     0|
|  5|Female|82.0|           0|            0|         Yes|     

No conjunto de dados, quantos pacientes sofreram e não sofreram derrame (stroke), respectivamente?
Para descobrirmos a resposta para esta pergunta, primeiro vamos alterar o tipo das colunas para que as que tenham valores binários, tenham o tipo booleando.

In [45]:
#Alterando o tipo das colunas
from pyspark.sql.types import StringType, DateType, FloatType
from pyspark.sql.types import BooleanType, IntegerType

In [46]:
stroke = stroke\
.withColumn('Id',
            stroke['Id'].cast(IntegerType()))\
.withColumn("gender",
            stroke["gender"]
            .cast(StringType()))\
.withColumn("age",stroke["age"].cast(IntegerType()))    \
.withColumn("hypertension", stroke["hypertension"].cast(BooleanType()))    \
.withColumn("heart_disease",stroke["heart_disease"].cast(BooleanType()))    \
.withColumn("ever_married",stroke["ever_married"].cast(StringType()))    \
.withColumn("work_type",stroke["work_type"].cast(StringType()))    \
.withColumn("Residence_type",stroke["Residence_type"].cast(StringType()))    \
.withColumn("avg_glucose_level",stroke["avg_glucose_level"].cast(FloatType()))    \
.withColumn("bmi",stroke["bmi"].cast(FloatType()))    \
.withColumn("smoking_status",stroke["smoking_status"].cast(StringType()))    \
.withColumn("stroke",stroke["stroke"].cast(BooleanType()))    \

In [47]:
stroke.printSchema()

root
 |-- Id: integer (nullable = true)
 |-- gender: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- hypertension: boolean (nullable = true)
 |-- heart_disease: boolean (nullable = true)
 |-- ever_married: string (nullable = true)
 |-- work_type: string (nullable = true)
 |-- Residence_type: string (nullable = true)
 |-- avg_glucose_level: float (nullable = true)
 |-- bmi: float (nullable = true)
 |-- smoking_status: string (nullable = true)
 |-- stroke: boolean (nullable = true)



In [48]:
stroke.select('stroke').where(stroke.stroke=="1").count()

40287

In [49]:
stroke.select('stroke').where(stroke.stroke=="0").count()

26848

A partir do dataframe, crie uma tabela temporária usando df.createOrReplaceTempView('table') e, a seguir, use spark.sql para escrever uma consulta SQL que obtenha quantos pacientes tiveram derrame por tipo de trabalho (work_type). Quantos pacientes que sofreram derrame trabalhavam, respectivamente, no setor privado, de forma independente, no governo e quantas são crianças?

In [50]:
stroke.createOrReplaceTempView('table_stroke') 

In [51]:
from pyspark.sql.functions import *

In [52]:
table_stroke = stroke.createOrReplaceTempView('table_s')

spark.sql('select work_type, count(*) qtd from table_s where stroke = 1 group by work_type order by qtd desc').show()

+-------------+-----+
|    work_type|  qtd|
+-------------+-----+
|      Private|23711|
|Self-employed|10807|
|     Govt_job| 5164|
|     children|  520|
| Never_worked|   85|
+-------------+-----+



Escreva uma consulta com spark.sql para determinar a proporção, por
gênero, de participantes do estudo. A maioria dos participantes é:

In [56]:
spark.sql('select gender, count(*) qtd from table_s group by gender order by qtd desc').show()

+------+-----+
|gender|  qtd|
+------+-----+
|Female|39530|
|  Male|27594|
| Other|   11|
+------+-----+



Escreva uma consulta com spark.sql para determinar quem tem mais
probabilidade de sofrer derrame: hipertensos ou não-hipertensos. Você
pode escrever uma consulta para cada grupo. A partir das
probabilidades que você obteve, você conclui que:

In [68]:
spark.sql('SELECT stroke, COUNT(*) qtd, (count(*) / (SELECT COUNT(*) from table_s WHERE hypertension = 1) * 100) perc FROM table_s WHERE hypertension = 1 GROUP BY stroke').show()

+------+----+------------------+
|stroke| qtd|              perc|
+------+----+------------------+
|  true|8817| 80.03086139602432|
| false|2200|19.969138603975676|
+------+----+------------------+



In [73]:
spark.sql('SELECT stroke, COUNT(*) qtd, (count(*) / (SELECT COUNT(*) from table_s WHERE hypertension = 0) * 100) perc FROM table_s WHERE hypertension = 0 GROUP BY stroke').show()

+------+-----+-----------------+
|stroke|  qtd|             perc|
+------+-----+-----------------+
|  true|31470|56.07826365871913|
| false|24648|43.92173634128087|
+------+-----+-----------------+



Escreva uma consulta com spark.sql que determine o número de
pessoas que sofreram derrame por idade. Com qual idade o maior
número de pessoas do conjunto de dados sofreu derrame?

Usando a API de dataframes, determine quantas pessoas sofreram
derrames após os 50 anos

Usando spark.sql, determine qual o nível médio de glicose para
pessoas que, respectivamente, sofreram e não sofreram derrame.


Qual é o BMI (IMC = índice de massa corpórea) médio de quem sofreu
e não sofreu derrame?

Crie um modelo de árvore de decisão que prevê a chance de derrame
(stroke) a partir das variáveis contínuas/categóricas: idade, BMI,
hipertensão, doença do coração, nível médio de glicose. Use o
conteúdo da Segunda Aula Interativa para criar e avaliar o modelo.
Qual a acurácia de um modelo construído?

Ajuste um modelo de árvore de decisão a partir de pelo menos as
seguintes variáveis: gênero, fuma / não fuma, BMI, idade, hipertensão,
doença do coração, nível médio de glicose. A acurácia deste modelo
ficou entre:

Qual dessas variáveis é mais importante no modelo de árvore de
decisão que você construiu na questão 12?

Qual a profundidade da árvore de decisão da questão 12?

Quantos atributos foram considerados na árvore?