# 0.0 Business Problem

## Estágio do projeto:
Ciclo 1: Criar um pipeline de dados funcional de ponta a ponta, desde a coleta dos dados até o treinamento do modelo.

## 0.1 Contexto

A Empresa Cardio Catch Diseases (CCD)
A Cadio Catch Diseases é uma empresa especializada em detecção de doenças cardíacas em estágios iniciais. O seu modelo de negócio é do tipo Serviço, ou seja, a empresa ofereço o diagnóstico precoce de uma doença cardiovascular por um certo preço.

Atualmente, o diagnóstico de uma doença cardiovascular é feita manualmente por uma equipe de especialistas. A precisão atual do diagnóstico varia entre 55% e 65%, devido a complexidade do diagnóstico e também da fadiga da equipe que se revezam em turnos para minimizar os riscos. O custo de cada diagnóstico, incluindo os aparelhos e a folha de pagamento dos analistas, gira em torno de 1.000 reais.

O preço do diagnóstico, pago pelo cliente, varia de acordo com a precisão conseguida pelo time de especialistas, o cliente paga 500 reais a cada 5% de acurácia acima de 50%. Por exemplo, para uma precisão de 55%, o diagnóstico custa 500 reais para o cliente, para uma precisão de 60%, o valor é de 1000 reais e assim por diante. Se a precisão do diagnóstico for 50% o cliente não paga por ele.

Observe que a variação da precisão dada pelo time de especialistas, faz com que a empresa tenha ora uma operação com lucro, receita maior que o custo, ora uma operação com prejuízo, receita menor que o custo. Essa instabilidade do diagnóstico faz com que a empresa tenha um Cashflow imprevisível.

Projeto retirado do Blog Seja Um Data Scientist
https://sejaumdatascientist.com/projeto-de-data-science-diagnostico-precoce-de-doencas-cardiovasculares/

Projeto original disponível na plataforma Kaggle
https://www.kaggle.com/sulianova/cardiovascular-disease-dataset

## 0.2 Estratégia da Solução:

### 0.2.1 Objetivos:

1. Qual a Acurácia e a Precisão da ferramenta?
2. Quanto lucro a Cardio Catch Diseases passará a ter com a nova ferramenta?
3. Qual a Confiabilidade do resultado dados pela nova ferramenta?


## 0.3 Glossário de Features:

### Natureza das features:

1. Objective: factual information;
2. Examination: results of medical examination;
3. Subjective: information given by the patient.

### Features:

1. Age | Objective Feature | age | int (days)
2. Height | Objective Feature | height | int (cm) |
3. Weight | Objective Feature | weight | float (kg) |
4. Gender | Objective Feature | gender | categorical code | 1 - women, 2 - men
5. Systolic blood pressure | Examination Feature | ap_hi | int |
6. Diastolic blood pressure | Examination Feature | ap_lo | int |
7. Cholesterol | Examination Feature | cholesterol | 1: normal, 2: above normal, 3: well above normal |
8. Glucose | Examination Feature | gluc | 1: normal, 2: above normal, 3: well above normal |
9. Smoking | Subjective Feature | smoke | binary |
10. Alcohol intake | Subjective Feature | alco | binary |
11. Physical activity | Subjective Feature | active | binary |
12. Presence or absence of cardiovascular disease | Target Variable | cardio | binary |

## 0.4 Hipóteses Assumidas:
1. ...

## 0.5 Sumário:

## 0.6 Resultados e Conclusão:

# 1.0 Imports

## 1.1 Libraries

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

import time

tempo_agora = time.time()

## 1.2 Helper Functions

## 1.3 Loading Dataset

In [2]:
df = pd.read_csv('C:\\Users\\Notebook\\Google Drive\\Pessoal\\Projetos\\cardio_diseases_predict\\cardio_train.csv', sep=';')

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Notebook\\Google Drive\\Pessoal\\Projetos\\cardio_diseases_predict\\cardio_train.csv'

# 2.0 Data Description and Cleaning

## 2.1 Main insights:
1. **Age:** com range entre 29 e 64 anos
2. **Gender:** mulheres são maioria com 65% do total
3. **Cholesterol:** 75% dos pacientes possuem colesterol normal
4. **Glucose:** 85% dos pacientes apresentam nível normal de glicemia
5. **Alcohol Intake:** 95% dos pacientes não consomem bebidas alcólicas
6. **Physical activity:** 50% praticam atividades físicas

## 2.2 General Analysis

##### 2.2 Looking dataset

In [None]:
df.head(5)

##### 2.3 Data Dimensions

In [None]:
print(f'Number of rows: {df.shape[0]}')
print(f'Number of columns: {df.shape[1]}')

##### 2.4 Data Types

In [None]:
df.dtypes

##### 2.5 Check NaNs

In [None]:
df.isna().sum()

##### 2.6 Changing interesting features

Para uma melhor análise a idade será transformada de dias para anos

In [None]:
df['age_'] = df['age'] / 365
df['age_'] = df['age_'].astype('int')

##### 2.7 Segragating feature types

In [None]:
features_target = ['cardio']
features_remover = ['id', 'age_']
features_numéricas = ['age_', 'height', 'weight', 'ap_hi', 'ap_lo']
features_categóricas = ['gender', 'cholesterol', 'gluc', 'smoke', 'alco', 'active', 'cardio']

## 2.3 Descriptive Statistics

##### 2.3.1 Numerical Features

In [None]:
df[features_numéricas].describe()

Range de idade entre 29 e 64 anos, altura máxima de 2 metros e meio provavelmente indica erros de input, peso mínimo de 10kgs tratando-se de adutos indica erros de input, pressão arterial com valores negativos tanto no ap_hi quanto no ap_lo, assim como seus máximos.

##### 2.3.2  Categorical Features

In [None]:
df[features_categóricas].astype('category').describe()

Mulheres são maioria com 65% do total, 75% dos pacientes possuem colesterol normal, 85% dos pacientes apresentam nível normal de glicemia, 95% dos pacientes não consomem bebidas alcólicas, 50% praticam atividades físicas

## 2.4 Data Cleaning

# 3.0 Feature Engineering

# 4.0 Business Hypothesis

# 5.0 Exploratory Data Analysis

# 6.0 Data Preparation

In [None]:
X = df.drop(features_remover, axis=1)
y = df[features_target]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 7.0 Machine Learning

###### Model description

In [None]:
rf_model = RandomForestClassifier()

###### Fiting model

In [None]:
rf_fit = rf_model.fit(X_train, y_train)

###### Predicts

In [None]:
rf_predict = rf_fit.predict(X_test)

###### Metrics

In [None]:
print(classification_report(y_test, rf_predict))

Overfitado

# 8.0 Results and Conclusions

# Time

In [None]:
print(f'O tempo de processamento do projeto foi de: {int(round(time.time()-tempo_agora, 2)/60)} minutos')