<a href="https://colab.research.google.com/github/vivirocha/Bootcamp_DataScience/blob/main/Desafio_Desenvolvimento_de_Solu%C3%A7%C3%B5es_Utilizando_Spark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Bootcamp Cientista de Dados - IGTI**

Desafio - Módulo 2

*Desenvolvendo Soluções Utilizando Apache Spark*

**Enunciado** <br>
Doenças ligadas ao coração afetam milhões de pessoas ao redor do mundo e, segundo a Organização Mundial da Saúde (OMS), são a segunda principal causa de morte da população mundial. Como cientista de dados, você foi contratado para criar um modelo preditivo que, a partir de dados de pacientes como idade, gênero, nível de glicose, se o paciente fuma ou não, vai prever se aquele paciente terá um derrame cerebral ou não. <br>
Você tem acesso a um arquivo que possui atributos de pacientes e um atributo “stroke” (derrame), que indica se aquele paciente sofreu um evento de derrame ou não. <br>
O conjunto de dados está disponível em: https://dcc.ufmg.br/~pcalais/stroke_data.csv

<br> 

Os dados estão distribuídos nas seguintes colunas:
**id** = valores únicos. <br>
**gender** = feminino, masculino ou outro. <br>
**age** = idade <br>
**hypertensio.** = valores binários que mostram se o paciente é ou não hipertenso(0 = não, 1 = sim). <br>
**heart_disease** =  valores binários que mostram se o paciente tem ou não alguma doença cardiáca (0 = não, 1 = sim). <br>
**ever_married** = Sim ou Não. <br>
**work_type** = "children", "Govt_jov", "Never_worked", "Private" ou "Self-employed". <br>
**Residence_type** = Rural ou urbana. <br>
**avg_glucose_level** = nível médio de glucose no sangue. <br>
**bmi** = índice de massa corporal. <br>
**smoking_status** = "formerly smoked", "never smoked", "smokes" ou "Unknown". <br> 
**stroke** = valores binários que mostram se o paciente teve derrame (1) ou não teve (0).

In [2]:
#Instalando spark
!pip install spark

Collecting spark
  Downloading spark-0.2.1.tar.gz (41 kB)
[?25l[K     |████████                        | 10 kB 24.9 MB/s eta 0:00:01[K     |████████████████                | 20 kB 15.9 MB/s eta 0:00:01[K     |████████████████████████        | 30 kB 10.2 MB/s eta 0:00:01[K     |████████████████████████████████| 40 kB 9.3 MB/s eta 0:00:01[K     |████████████████████████████████| 41 kB 53 kB/s 
[?25hBuilding wheels for collected packages: spark
  Building wheel for spark (setup.py) ... [?25l[?25hdone
  Created wheel for spark: filename=spark-0.2.1-py3-none-any.whl size=58762 sha256=1396eb3dd74331b8874b25f8e0de5a04b410cd002b52d9f9e023553190251d40
  Stored in directory: /root/.cache/pip/wheels/4e/0e/f1/164619f9920fb447d294afaae11a7715bd442ded7225953d72
Successfully built spark
Installing collected packages: spark
Successfully installed spark-0.2.1


In [3]:
#Instalando pyspark
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.2.1.tar.gz (281.4 MB)
[K     |████████████████████████████████| 281.4 MB 34 kB/s 
[?25hCollecting py4j==0.10.9.3
  Downloading py4j-0.10.9.3-py2.py3-none-any.whl (198 kB)
[K     |████████████████████████████████| 198 kB 38.8 MB/s 
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.2.1-py2.py3-none-any.whl size=281853642 sha256=c2710933de16c4dbbb718294fcacb5cd0db93751acf58e803186db1aa01b7b1c
  Stored in directory: /root/.cache/pip/wheels/9f/f5/07/7cd8017084dce4e93e84e92efd1e1d5334db05f2e83bcef74f
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.9.3 pyspark-3.2.1


In [4]:
from pyspark.context import SparkContext
from pyspark.sql import SparkSession
sc = SparkContext.getOrCreate()
spark = SparkSession.builder.appName('Desafio_SolucoesSpark') \
                    .getOrCreate()

In [5]:
#Lendo o arquivo .csv e criando um dataframe a partir dele.
stroke = spark.read.csv('stroke_data.csv', 
                        sep=',', 
                        inferSchema=True,
                        header=True).cache()

In [6]:
stroke.show()

+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
|  0|gender| age|hypertension|heart_disease|ever_married|    work_type|Residence_type|avg_glucose_level|  bmi| smoking_status|stroke|
+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
|  1|Female|18.0|           0|            0|          No|      Private|         Urban|            94.19|12.12|         smokes|     1|
|  2|  Male|58.0|           1|            0|         Yes|      Private|         Rural|           154.24| 33.7|   never_smoked|     0|
|  3|Female|36.0|           0|            0|         Yes|     Govt_job|         Urban|            72.63| 24.7|         smokes|     0|
|  4|Female|62.0|           0|            0|         Yes|Self-employed|         Rural|            85.52| 31.2|formerly smoked|     0|
|  5|Female|82.0|           0|            0|         Yes|     

Quantos registros existem no arquivo?

In [7]:
stroke.count()

67135

Quantas colunas existem no arquivo? Quantas são numéricas? Ao ler o arquivo com spark.read.csv, habilite inferSchema=True. Use a função printSchema() da API de Dataframes.

In [8]:
stroke.printSchema()

root
 |-- 0: integer (nullable = true)
 |-- gender: string (nullable = true)
 |-- age: double (nullable = true)
 |-- hypertension: integer (nullable = true)
 |-- heart_disease: integer (nullable = true)
 |-- ever_married: string (nullable = true)
 |-- work_type: string (nullable = true)
 |-- Residence_type: string (nullable = true)
 |-- avg_glucose_level: double (nullable = true)
 |-- bmi: double (nullable = true)
 |-- smoking_status: string (nullable = true)
 |-- stroke: integer (nullable = true)



In [9]:
#Importando col a partir do pyspark.sql.functions
from pyspark.sql.functions import col

In [10]:
stroke = stroke.select(col("0").alias("id"), col("gender").alias("gender"), col("age").alias("age"), col("hypertension").alias("hypertension"),col("heart_disease").alias("heart_disease"),col("ever_married").alias("ever_married"),col("work_type").alias("work_type"),col("Residence_type").alias("Residence_type"),col("avg_glucose_level").alias("avg_glucose_level"),col("bmi").alias("bmi"), col("smoking_status").alias("smoking_status"),col("stroke").alias("stroke"))
stroke.show()

+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
| id|gender| age|hypertension|heart_disease|ever_married|    work_type|Residence_type|avg_glucose_level|  bmi| smoking_status|stroke|
+---+------+----+------------+-------------+------------+-------------+--------------+-----------------+-----+---------------+------+
|  1|Female|18.0|           0|            0|          No|      Private|         Urban|            94.19|12.12|         smokes|     1|
|  2|  Male|58.0|           1|            0|         Yes|      Private|         Rural|           154.24| 33.7|   never_smoked|     0|
|  3|Female|36.0|           0|            0|         Yes|     Govt_job|         Urban|            72.63| 24.7|         smokes|     0|
|  4|Female|62.0|           0|            0|         Yes|Self-employed|         Rural|            85.52| 31.2|formerly smoked|     0|
|  5|Female|82.0|           0|            0|         Yes|     

No conjunto de dados, quantos pacientes estavam doentes?
Para descobrirmos a resposta para esta pergunta, primeiro vamos alterar o tipo das colunas para que as que tenham valores binários, tenham o tipo booleando.

In [11]:
#Alterando o tipo das colunas
from pyspark.sql.types import StringType, DateType, FloatType
from pyspark.sql.types import BooleanType, IntegerType

In [12]:
stroke = stroke\
.withColumn('Id',
            stroke['Id'].cast(IntegerType()))\
.withColumn("gender",
            stroke["gender"]
            .cast(StringType()))\
.withColumn("age",stroke["age"].cast(IntegerType()))    \
.withColumn("hypertension", stroke["hypertension"].cast(BooleanType()))    \
.withColumn("heart_disease",stroke["heart_disease"].cast(BooleanType()))    \
.withColumn("ever_married",stroke["ever_married"].cast(StringType()))    \
.withColumn("work_type",stroke["work_type"].cast(StringType()))    \
.withColumn("Residence_type",stroke["Residence_type"].cast(StringType()))    \
.withColumn("avg_glucose_level",stroke["avg_glucose_level"].cast(FloatType()))    \
.withColumn("bmi",stroke["bmi"].cast(FloatType()))    \
.withColumn("smoking_status",stroke["smoking_status"].cast(StringType()))    \
.withColumn("stroke",stroke["stroke"].cast(BooleanType()))    \

In [13]:
stroke.printSchema()

root
 |-- Id: integer (nullable = true)
 |-- gender: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- hypertension: boolean (nullable = true)
 |-- heart_disease: boolean (nullable = true)
 |-- ever_married: string (nullable = true)
 |-- work_type: string (nullable = true)
 |-- Residence_type: string (nullable = true)
 |-- avg_glucose_level: float (nullable = true)
 |-- bmi: float (nullable = true)
 |-- smoking_status: string (nullable = true)
 |-- stroke: boolean (nullable = true)



In [14]:
stroke.select('hypertension').where(stroke.hypertension=="1").count()

11017

In [15]:
stroke.select('heart_disease').where(stroke.heart_disease=="1").count()

6809