# <center><span style="font-size: 42px;color: darkgreen;">Projeto - Prevendo Casos de Doenças Cardíacas</center></span>

<br><br>

---

<br>

# Contexto

<br>

Este projeto tem como objetivo prever a ocorrência de doenças cardíacas usando ferramentas de **Big Data**, como **Hive** e **Spark**, e aplicando modelos preditivos baseados em **Machine Learning**.

<br>

### O que é uma doença cardíaca?

Doença cardíaca é um termo geral para designar diversas condições médicas crônicas ou agudas que afetam um ou mais componentes do coração.

- O coração está posicionado no mediastino, dois terços para a esquerda do centro do corpo humano.
- É um órgão muscular, do tamanho de um punho, que bombeia sangue através do sistema cardiovascular.

<br>

#### Estruturas do coração:
1. **Átrio direito**: recebe sangue das veias e bombeia para o ventrículo direito.
2. **Ventrículo direito**: bombeia sangue para os pulmões, onde é oxigenado.
3. **Átrio esquerdo**: recebe sangue oxigenado dos pulmões e bombeia para o ventrículo esquerdo.
4. **Ventrículo esquerdo**: bombeia o sangue oxigenado para o corpo. Suas contrações criam a pressão arterial.

<br>

#### Outras partes importantes:
- **Artérias coronárias**: fornecem sangue rico em oxigênio ao músculo cardíaco.
- **Pericárdio**: saco que envolve o coração.
- **Sistema nervoso**: regula contração e relaxamento do coração.

<br>

#### Doenças cardíacas comuns:
- Angina (instável e estável)
- Arritmia cardíaca
- Artrose
- Aterosclerose (doença coronária)
- Arteriosclerose
- Cardiomiopatia
- Cardiopatia congênita
- Doença arterial periférica

<br><br>

---

<br>

### Diagnóstico e Exames

Exames comuns para diagnosticar ou monitorar doenças cardíacas:
- **Eletrocardiograma**
- **Ecocardiograma**
- **Teste ergométrico**
- **Cateterismo cardíaco**
- **Holter 24 horas**
- **Monitor cardíaco portátil**

<br><br>

---

<br>

## Machine Learning para Previsão

<br>

> Modelos preditivos têm sido usados para prever a ocorrência de doenças cardíacas por meio de **algoritmos de classificação**. Esses modelos utilizam dados coletados de pacientes para prever doenças, incluindo cardíacas.

<br><br>

---

<br>

## Sobre o Dataset

<br>

O dataset fornecido `pacientes.csv` contém dados de pacientes idosos de um hospital. As colunas são:

| Coluna                | Descrição                                                                 |
|-----------------------|---------------------------------------------------------------------------|
| **ID**                | ID único para cada registro                                              |
| **Idade**             | Idade do paciente                                                       |
| **Sexo**              | Sexo do paciente: `0` - Feminino, `1` - Masculino                        |
| **Pressão Sanguínea** | Pressão sanguínea medida                                                 |
| **Colesterol**        | Colesterol medido                                                       |
| **Açúcar no Sangue**  | Nível de açúcar: `0` - <= 120 mg/dl, `1` - > 120 mg/dl                   |
| **ECG**               | Resultados do ECG: `0` - Normal, `1` - Alguma anomalia, `2` - Presente  |
| **Batimentos Cardíacos** | Valor máximo medido                                                   |
| **Doença**            | Paciente tem doença cardíaca: `0` - Não, `1` - Sim                      |

#### A variável **Doença** é a **`target`**. Todas as outras são **variáveis preditoras**.

<br><br>

---

<br>

### Exemplo do Dataset

<br>

| ID   | Idade | Sexo | Pressão Sanguínea | Colesterol | Açúcar no Sangue | ECG | Batimentos Cardíacos | Doença |
|------|-------|------|-------------------|------------|-------------------|-----|-----------------------|--------|
| 1001 | 63    | 1    | 145               | 233        | 1                 | 2   | 150                   | 0      |
| 1002 | 67    | 1    | 160               | 286        | 0                 | 2   | 108                   | 1      |
| 1003 | 69    | 1    | 145               | 235        | 1                 | 2   | 129                   | 0      |
| 1004 | 68    | 1    | 120               | 229        | 0                 | 1   | 110                   | 0      |

<br><br>

---

<br>

## Tarefa do Cientista de Dados

<br>

Criar um modelo preditivo que, usando as **variáveis preditoras**, seja capaz de prever, a partir de novos dados, se um paciente pode desenvolver doenças cardíacas.

<br><br><br><br><br>

---

<br><br><br><br>

# <center><span style="font-size: 42px;color: darkgreen;">Iniciando o Projeto</center></span>


<br><br><br><br>


# Etapa 1. - Iniciando os Serviços

<br>

Ná **máquina virtual** executar os comandos abaixo:

<br>

- **1.1 Iniciar o HDFS (NameNode, DataNode, SecondaryNameNode)**:
   ```bash
   start-dfs.sh  |  stop-dfs.sh
   ```
- **1.2 Iniciar o YARN (ResourceManager, NodeManager)**:
   ```bash
   start-yarn.sh  |  stop-yarn.sh
   ```
- **1.3 Verificando serviços**:
   ```bash
   jps
   ```  
<br>

- **1.4 Verificar o Status do Safe Mode**:
   ```bash
   hdfs dfsadmin -safemode get
   ```
  - **1.4.1 Se o Safe Mode estiver ativado, forçar a saída**:
  ```bash
  hdfs dfsadmin -safemode leave
  ```

<br>

- **1.5 Criando diretório no HDFS**:
   ```bash
   hdfs dfs -mkdir /user/projetos
   hdfs dfs -mkdir /user/projetos/projeto_prev_doenca_cardiaca
   hdfs dfs -mkdir /user/projetos/projeto_prev_doenca_cardiaca/datasets
   ```
<br>

- **1.6 Define permissões amplas para evitar problemas de acesso**:
   ```bash
   hdfs dfs -chmod 777 /user/projetos/projeto_prev_doenca_cardiaca
   ```
   
<br>

- **1.7 Copiar o arquivo para o HDFS**:
    ```bash
    hdfs dfs -copyFromLocal /home/hadoop/Documents/Datasets/pacientes.csv /user/projetos/projeto_prev_doenca_cardiaca/datasets/
    
    hdfs dfs -ls /user/projetos/projeto_prev_doenca_cardiaca/datasets
    ```
<br>

- **1.8 Acessar o console do Hive**:
   ```bash
   hive
   ```
- **1.9 Verificar bancos de dados existentes**:
   ```bash
   show databases;
   ```

<br><br><br><br>


# Etapa 2. - Carregando o Dataset no Hive e Visualizando os Dados com SQL

<br>

Nesta etapa, criamos um banco de dados e uma tabela no **Hive** para armazenar os dados dos pacientes. Em seguida, carregamos os dados do arquivo `pacientes.csv` e realizamos algumas consultas iniciais.

<br><br>

### Passos:

<br>

- **2.0 Inicie o console do `Hive` digitando no terminal**:

```bash
hive
```

<br>

- **2.1 No console do `Hive`, escreva o comando para criar o Banco de Dados**:

```bash

# Criando o banco de dados
CREATE DATABASE usecase LOCATION '/user/projetos/projeto_prev_doenca_cardiaca/datasets';

# Visualizando
show databases;

# Indicando que está ativo
use usecase;

# Verificar qual banco de dados está ativo
SELECT current_database();
```

**Explicação**: Criamos um banco de dados chamado `usecase` para organizar os dados relacionados ao projeto. O diretório especificado na cláusula `LOCATION` no comando `CREATE DATABASE` deve ser o mesmo que você criou na **etapa 1.6** anteriormente no `HDFS`. Define e verifica o banco de dados `usecase` como o banco de dados ativo.

<br><br>

- **2.2 Criação da tabela para armazenar os dados dos pacientes**:

```bash
# Cria a tabela
CREATE TABLE pacientes (
    ID INT, 
    IDADE INT, 
    SEXO INT, 
    PRESSAO_SANGUINEA INT, 
    COLESTEROL INT, 
    ACUCAR_SANGUE INT, 
    ECG INT, 
    BATIMENTOS INT, 
    DOENCA INT
) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
STORED AS TEXTFILE;

# Listar as tabelas do banco ativo:
SHOW TABLES;

# Informações sobre a tabela
describe pacientes;
```

**Explicação**: Definimos a estrutura da tabela no **Hive** com as colunas correspondentes ao arquivo de entrada e especificamos que os dados estão separados por **vírgulas (CSV)**.


<br><br>

- **2.3 Carregamento dos dados na tabela**:

```sql
LOAD DATA LOCAL INPATH '/home/hadoop/Documents/Datasets/pacientes.csv' OVERWRITE INTO TABLE pacientes;

LOAD DATA INPATH '/user/projetos/projeto_prev_doenca_cardiaca/datasets/pacientes.csv' INTO TABLE pacientes;

```

**Explicação**: Carregamos os dados do arquivo `pacientes.csv` para a tabela **pacientes** localmente ou a partir do HDFS.

<br><br>

- **2.4 Verificação da quantidade de registros na tabela**:

```sql
SELECT COUNT(*) FROM pacientes;
```

**Explicação**: Contamos o número de registros carregados para garantir que os dados foram importados corretamente.

<br><br>

- **2.5 Consultando resumo dos dados agrupados pela presença de doenças cardíacas**:

```sql
SELECT 
    doenca, 
    COUNT(*) AS total_pacientes, 
    AVG(idade) AS idade_media, 
    AVG(pressao_sanguinea) AS pressao_media, 
    AVG(colesterol) AS colesterol_medio, 
    AVG(acucar_sangue) AS acucar_medio, 
    AVG(batimentos) AS batimentos_medios 
FROM pacientes 
GROUP BY doenca;

exit;
```

**Explicação**: Calculamos estatísticas descritivas (média e contagem) para identificar padrões nos dados relacionados à presença ou ausência de doenças cardíacas.


<br><br><br><br>


# Etapa 3 - Análise Exploratória e Transformação com Spark

<br>

Nesta etapa, utilizamos o **Spark** para realizar a análise exploratória e transformação dos dados, preparando-os para a modelagem preditiva. Esta etapa envolve o **carregamento dos dados do HDFS**, **a inspeção básica dos dados** e a **criação de colunas categorizadas para facilitar a análise**.

<br>

- **3.0 Acessar o terminal do Spark**:

```bash
spark-shell
```

<br>

Após entrar no terminal do **Spark** digitar linha por linha os comandos abaixo:

<br>

```scala
// 3.1 Importar bibliotecas necessárias
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

// 3.2 Criar SparkSession
val spark = SparkSession.builder.appName("HeartDiseaseAnalysis").getOrCreate()

// 3.3 Carregar os dados do HDFS
val df = spark.read.option("header", "false").option("inferSchema", "true").csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/datasets/pacientes.csv").toDF("ID", "IDADE", "SEXO", "PRESSAO_SANGUINEA", "COLESTEROL", "ACUCAR_SANGUE", "ECG", "BATIMENTOS", "DOENCA")

// 3.4 Visualizar as primeiras linhas dos dados
df.show(5)

// 3.5 Exibir o esquema (colunas e tipos de dados)
df.printSchema()

// 3.6 Estatísticas descritivas gerais
df.describe().show()

// 3.7 Agrupar dados pela presença de doenças e calcular médias
val groupedData = df.groupBy("DOENCA").agg(avg("IDADE").alias("IDADE_MEDIA"), avg("PRESSAO_SANGUINEA").alias("PRESSAO_MEDIA"), avg("COLESTEROL").alias("COLESTEROL_MEDIO"), avg("BATIMENTOS").alias("BATIMENTOS_MEDIOS")) 

groupedData.show()

// 3.8 Criar colunas categorizadas (faixas para variáveis contínuas)
val dfWithCategories = df.withColumn("AgeRange", ceil(col("IDADE") / 10)).withColumn("BPRange", ceil(col("PRESSAO_SANGUINEA") / 25)).withColumn("CholRange", ceil(col("COLESTEROL") / 25))

// 3.9 Exibir os dados com as novas colunas categorizadas
dfWithCategories.show()

// 3.10 Salvar os dados transformados no HDFS
dfWithCategories.write.option("header", "true").csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/datasets/processed_data")

```



<br><br><br><br>


# Etapa 4 - Criação e Treinamento do Modelo Preditivo de Classificação com Spark MLlib

<br>

Nesta etapa, utilizamos o **Spark MLlib** para preparar os dados e treinar um modelo de classificação. Começamos **criando vetores de características**, **dividimos os dados em treino e teste** e **utilizamos um classificador Random Forest para treinamento**. 

**Importante**: necessário ter executados passos 3.1 e 3.2 anteriormente.

<br>

```scala
// 4.1 Importar bibliotecas necessárias para MLlib
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.classification.RandomForestClassifier
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

// 4.2 Carregar os dados transformados do HDFS
val processedData = spark.read.option("header", "true").option("inferSchema", "true").csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/datasets/processed_data")

processedData.show(5)

// 4.3 Criar um vetor de características para o modelo
val dataWithFeatures = new VectorAssembler().setInputCols(Array("AgeRange", "BPRange", "CholRange", "ACUCAR_SANGUE", "ECG")).setOutputCol("features").transform(processedData)

// 4.4 Dividir os dados em conjuntos de treino (70%) e teste (30%)
val Array(trainingData, testData) = dataWithFeatures.randomSplit(Array(0.7, 0.3))

// 4.5 Criar o modelo de Random Forest
val rf = new RandomForestClassifier().setLabelCol("DOENCA").setFeaturesCol("features").setNumTrees(25)

// 4.6 Treinar o modelo
val model = rf.fit(trainingData)

// 4.7 Fazer previsões com o conjunto de teste
val predictions = model.transform(testData)

// 4.8 Exibir amostra das previsões
predictions.select("features", "prediction", "DOENCA").show()
```

<br><br><br><br>


# Etapa 5 - Avaliando Desempenho do Modelo Iniciar, Otimizando o Modelo Preditivo e Avaliando Novamente

<br>

Nesta etapa, **avaliamos a performance do modelo inicial** e **buscamos otimizar os parâmetros para melhorar sua precisão**.

<br>

```scala
// 5.1 Avaliar a precisão do modelo com os dados de teste
val evaluator = new MulticlassClassificationEvaluator().setLabelCol("DOENCA").setMetricName("accuracy")

val initialAccuracy = evaluator.evaluate(predictions)

println(s"Accuracy of the initial model: $initialAccuracy")

// 5.2 Ajustar hiperparâmetros (aumentar o número de árvores para 50)
val rfOptimized = new RandomForestClassifier().setLabelCol("DOENCA").setFeaturesCol("features").setNumTrees(50)

// 5.3 Treinar o modelo otimizado
val optimizedModel = rfOptimized.fit(trainingData)

// 5.4 Fazer previsões com o modelo otimizado
val optimizedPredictions = optimizedModel.transform(testData)

// 5.5 Avaliar a precisão do modelo otimizado
val optimizedAccuracy = evaluator.evaluate(optimizedPredictions)

println(s"Accuracy of the optimized model: $optimizedAccuracy")

// 5.6 Salvar as previsões do modelo otimizado no HDFS
optimizedPredictions.select("features", "prediction", "DOENCA").write.option("header", "true").csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/results/optimized_predictions")
```

<br>

**Para sair do terminal do spark, digite**:

```bash
:quit
```

<br><br><br>

## Executando o Projeto com Script Externo

<br>

- Vá até o terminal e digite `gedit HeartDiseaseAnalysis.scala`. cole o conteúdo abaixo e salve:

```scala
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.classification.RandomForestClassifier
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

object HeartDiseaseAnalysis {
  def main(args: Array[String]): Unit = {
    // 1. Criar SparkSession
    val spark = SparkSession.builder
      .appName("HeartDiseaseAnalysis")
      .getOrCreate()

    // 2. Carregar os dados do HDFS
    val df = spark.read
      .option("header", "false")
      .option("inferSchema", "true")
      .csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/datasets/pacientes.csv")
      .toDF("ID", "IDADE", "SEXO", "PRESSAO_SANGUINEA", "COLESTEROL", "ACUCAR_SANGUE", "ECG", "BATIMENTOS", "DOENCA")

    // 3. Estatísticas descritivas e categorização
    df.describe().write.mode("overwrite").csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/results/summary_stats")
    
    val groupedData = df.groupBy("DOENCA")
      .agg(
        avg("IDADE").alias("IDADE_MEDIA"),
        avg("PRESSAO_SANGUINEA").alias("PRESSAO_MEDIA"),
        avg("COLESTEROL").alias("COLESTEROL_MEDIO"),
        avg("BATIMENTOS").alias("BATIMENTOS_MEDIOS")
      )
    groupedData.write.mode("overwrite").csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/results/grouped_data")

    val dfWithCategories = df
      .withColumn("AgeRange", ceil(col("IDADE") / 10))
      .withColumn("BPRange", ceil(col("PRESSAO_SANGUINEA") / 25))
      .withColumn("CholRange", ceil(col("COLESTEROL") / 25))

    dfWithCategories.write.mode("overwrite").csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/datasets/processed_data")

    // 4. Preparar dados para Random Forest
    val processedData = spark.read
      .option("header", "true")
      .option("inferSchema", "true")
      .csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/datasets/processed_data")

    val dataWithFeatures = new VectorAssembler()
      .setInputCols(Array("AgeRange", "BPRange", "CholRange", "ACUCAR_SANGUE", "ECG"))
      .setOutputCol("features")
      .transform(processedData)

    val Array(trainingData, testData) = dataWithFeatures.randomSplit(Array(0.7, 0.3))

    // 5. Criar e treinar modelo inicial
    val rf = new RandomForestClassifier()
      .setLabelCol("DOENCA")
      .setFeaturesCol("features")
      .setNumTrees(25)

    val model = rf.fit(trainingData)
    val predictions = model.transform(testData)
    predictions.select("features", "prediction", "DOENCA")
      .write
      .mode("overwrite")
      .csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/results/initial_predictions")

    // 6. Avaliar modelo inicial
    val evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("DOENCA")
      .setMetricName("accuracy")

    val initialAccuracy = evaluator.evaluate(predictions)
    println(s"Accuracy of the initial model: $initialAccuracy")

    // 7. Criar e treinar modelo otimizado
    val rfOptimized = new RandomForestClassifier()
      .setLabelCol("DOENCA")
      .setFeaturesCol("features")
      .setNumTrees(50)

    val optimizedModel = rfOptimized.fit(trainingData)
    val optimizedPredictions = optimizedModel.transform(testData)

    // 8. Avaliar modelo otimizado
    val optimizedAccuracy = evaluator.evaluate(optimizedPredictions)
    println(s"Accuracy of the optimized model: $optimizedAccuracy")

    optimizedPredictions.selectExpr("CAST(features AS STRING) AS features", "prediction", "DOENCA")
      .write
      .mode("overwrite")
      .csv("hdfs://localhost:9000/user/projetos/projeto_prev_doenca_cardiaca/results/optimized_predictions")
  }
}
```

<br>

- Na sequência, no terminal do computador digite:

```bash
spark-shell -i /home/hadoop/Documents/Scripts/HeartDiseaseAnalysis.scala
```

<br>

- Após isso verifique os resultados no HDFS:

```bash
hdfs dfs -ls /user/projetos/projeto_prev_doenca_cardiaca/results
```


<br><br><br>

### Visualize os Resultados no HDFS:

<br>

Digite no terminal:

```bash
hdfs dfs -ls /user/projetos/projeto_prev_doenca_cardiaca/results

hdfs dfs -ls /user/projetos/projeto_prev_doenca_cardiaca/results/optimized_predictions

hdfs dfs -cat /user/projetos/projeto_prev_doenca_cardiaca/results/optimized_predictions/part-00000-b5265274-19d5-4f98-8fb4-881ae4360cdd-c000.csv | head -10

```

<br><br><br><br><br><br><br>

# <center><span style="font-size: 34px;color: black;">Resumo do Projeto: Previsão de Doenças Cardíacas</center></span>

---

## **Resumo das Etapas**

1. **Configuração do Ambiente no HDFS**:
   - Diretórios criados no HDFS.
   - Arquivo `pacientes.csv` carregado para o HDFS.

2. **Configuração e Carregamento no Hive**:
   - Banco de dados `usecase` criado no Hive.
   - Tabela `pacientes` configurada e carregada com dados do HDFS.

3. **Análise Exploratória e Transformação com Spark**:
   - Dados carregados do HDFS no Spark.
   - Novas colunas categorizadas criadas: `AgeRange`, `BPRange`, e `CholRange`.
   - Dados transformados salvos no HDFS para modelagem preditiva.

4. **Treinamento do Modelo com Spark MLlib**:
   - Vetores de características gerados usando `VectorAssembler`.
   - Modelo Random Forest treinado com 25 árvores.
   - Previsões realizadas e armazenadas.

5. **Avaliação e Otimização do Modelo**:
   - Avaliação inicial do modelo com `MulticlassClassificationEvaluator` (Accuracy: 75.6%).
   - Modelo otimizado com 50 árvores Random Forest.
   - Resultados das previsões otimizadas armazenados no HDFS.

6. **Visualização Final no HDFS**:
   - Resultados verificados no HDFS com `hdfs dfs -cat` para amostras de previsões.


<br><br><br><br><br><br><br>

# Fim!

<br>