In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


%matplotlib inline

# Importando os dados. 

Para importar os dados de um csv comum, usamos a função: 

[pd.read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) - Essa função recebe como primeiro argumento o caminho para o arquivo csv que desejamos abrir. Na documentação há mais informações sobre o método, como: 

1) Indicar qual é o separador dos dados dentro do arquivo. (Geralmente é uma vírgula (,) mas caso seja outro, você pode indicar.

2) _Skiprows_  que permite pular N linhas do inicio do arquivo. E diversos outros parâmetros para importar os dados que você precisar

In [None]:
dados = pd.read_csv('../input/heart.csv')
# dataframe.head(N) -> N indica o número de linhas que devem ser mostradas
dados.head() 

## Vamos ver o que significam as colunas do dataset. 

**Tradução livre**

* **age** Idade em anos / age in years
* **sex** (1 = Homem; 0 = Mulher) / (1 = male; 0 = female)
* **cpchest** Tipo de Dor / pain type
* **trestbps** Pressão arterial em descanso em mm Hg / resting blood pressure (in mm Hg on admission to the hospital)
* **chol** Colesterol Sérico em mg/dl / serum cholestoral in mg/dl
* **fbs** Nível de Açucar no sangue em jejum (Medido em mg/dl. Se a medida for maior que 120, essa coluna assuma o valor 1. Caso menor, assume o valor 0) / (fasting blood sugar > 120 mg/dl) (1 = true; 0 = false)
* **restecg** Resultado do Eletrocardiograma em repouso / resting electrocardiographic results
* **thalach**  Batimentos cardíacos máximo / maximum heart rate achieved
* **exang** Exercício produz dor no peito? (Sim = 1, não = 0) / exercise induced angina (1 = yes; 0 = no)
* **oldpeak**  https://en.wikipedia.org/wiki/ST_depression / ST depression induced by exercise relative to rest
* **slope** https://en.wikipedia.org/wiki/ST_segment / the slope of the peak exercise ST segment
* **ca**  Número de vasos sanguíneos coloridos por fluoroscopia / number of major vessels (0-3) colored by fluoroscopy
* **thal**  Categoria (3 = Normal; 6 = Defeito Consertado; 7 = Defeito reversível)  /  3 = normal; 6 = fixed defect; 7 = reversable defect
* **target** Tem doença? (Sim = 1, Não = 0) / 1 or 0 <- Variável alvo do dataset

# Visualização de Dados

Parte do processo do estudos dos dados é a interação com os dados e com o contexto que ele se encaixa. É popular que a idade é um fator significativo para doenças cardíacas, então seria prudente explorar os dados com relação à idade


## Distribuição da população do dataset

Essa distribuição representa homens e mulheres

In [None]:
sns.distplot(dados['age'])

## Distribuição dos Homens


## Documentação
[sns.distplot()](https://seaborn.pydata.org/generated/seaborn.distplot.html?highlight=dist#seaborn.distplot)

[Exemplos do sns.distplot](https://seaborn.pydata.org/examples/distplot_options.html)

**Possíveis mensagens de erro e como contorná-las**

[Truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()](https://stackoverflow.com/questions/36921951/truth-value-of-a-series-is-ambiguous-use-a-empty-a-bool-a-item-a-any-o)

In [None]:
f, axes = plt.subplots(2, 2, figsize=(7,7), sharex=True)
sns.distplot(dados[dados['sex'] == 1]['age'], axlabel="Homens Total", ax=axes[0,0]) # Homens
sns.distplot(dados[dados['sex'] == 0]['age'], axlabel="Mulheres Total", ax=axes[0,1]) # Mulheres

# Homens e mulheres que possuem Doença Cardíaca
# dados[dados['sex'] == 1] <- Isso pode ser lido como: "dados onde dados na coluna 'sex' seja igual a 1."
# Adicionalmente, onde está essa condição, podem existir outras condições. 

homens_com_doenca_cardiaca = dados[(dados['sex'] == 1) & (dados['target'] == 1)]['age']
mulheres_com_doenca_cardiaca = dados[(dados['sex'] == 0) & (dados['target'] == 1)]['age']

sns.distplot(homens_com_doenca_cardiaca, axlabel="Homens com Doença", ax=axes[1,0]) 
sns.distplot(mulheres_com_doenca_cardiaca, axlabel="Mulheres com Doença", ax=axes[1,1]) 


##  Visualização da relação entre Idade, colesterol e a Variavel alvo

In [None]:
sns.relplot(x='chol',y='age',hue='target', data=dados)

## Quantidade de pessoas que  têm dores no peito ao fazer exercício


[Como mudar os labels dos eixos no seaborn](https://stackoverflow.com/questions/31632637/label-axes-on-seaborn-barplot)

[Como mudar os labels da legenda no seaborn](https://stackoverflow.com/questions/39606921/changing-pointplot-legend-in-seaborn) **Atenção** - Mudar as legendas pode ser um trabalho chatinho

In [None]:
ax = sns.countplot('exang', hue='target', data=dados)
ax.set(xlabel='Dor no peito', ylabel='Quantidade')
legend_labels = ax.get_legend_handles_labels()[0]
ax.legend(legend_labels, ['Sem Doença', 'Com Doença'])

## Tentando identificar alguma relação com aumento da pressão arterial, idade e doenças cardíacas

In [None]:
sns.lmplot('age', 'trestbps', hue='target', data=dados)

## Relação entre os tipos de dores no peito e Doença Cardíaca

In [None]:
sns.countplot('cp', hue='target', data=dados)

## Batimentos Cardíacos Máximos x Idade e Pressão Sanguínea

o Gráfico abaixo relaciona os batimentos cardíacos máximos com a idade de cada pessoa. Adicionalmente, o tamanho dos pontos, relacionam a pressão arterial da pessoa. 


não parece existir uma separação clara entre doentes e não doentes somente com essas três innformações.

In [None]:
ax = sns.scatterplot('age','thalach', hue='target',size='trestbps',sizes=(10,400) ,data=dados)
ax.set(xlabel='Idade', ylabel='Batimentos Máx')

## Seria o oldpeak um indicador de doença no coração? 

ver: 

[St Depression](https://en.wikipedia.org/wiki/ST_depression)

In [None]:
sns.boxplot('target', 'oldpeak',data=dados)

## Vamos ver esse mesmo plot com o Slope

In [None]:
sns.boxplot('target', 'slope',data=dados)

## Por fim, vamos ver a distribuição de pessoas com doença


Há mais pacientes doentes que não doentes no dataset

In [None]:
sns.countplot('target',data=dados)

# Tratamento de dados

In [None]:
dados.info()

[pd.describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) é um método interessante para visualizar mais facilmente se há [outliers](https://pt.wikipedia.org/wiki/Outlier) no dataset

In [None]:
dados.describe()

Ao utilizar a expressão: dados[column].isna().sum() contamos quantas ocorrencias de nulo existem nas colunas!

In [None]:
for column in dados.columns:
    print(dados[column].isna().sum(), column)

### Nenhuma coluna parece conter dados absurdos e nem dados faltantes. Passemos ao Machine Learning

In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV 
from sklearn.preprocessing import Normalizer, StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report

## Pipeline


O uso de pipeline é algo muito interessante. Com o pipeline, podemos encadear os algoritmos como Normalização, Feature Selection, e o classificador. É bom pq realiza o encapsulamento da lógica do Modelo e você pode mexer no seu modelo com mais facilidade


### Documentação - Machine Learning


1) [Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html)

2) [Train test split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

3) [Normalizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html)

4) [SVC - Support Vector Classifier](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)

5) [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)

6) [Classification Report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)

In [None]:
X = dados.drop('target', axis=1)
y = dados['target']

X_treino, X_teste, y_treino, y_teste =  train_test_split(X,y)

# V1

In [None]:
pipeline = Pipeline([
    ('normalizer', Normalizer()),
    ('svc', SVC())
])

pipeline.fit(X_treino, y_treino)
predicted = pipeline.predict(X_teste)
print(classification_report(y_teste, predicted))

In [None]:
print("Score para Treino: ",pipeline.score(X_treino, y_treino))
print("Score para Teste: ", pipeline.score(X_teste, y_teste))

## Discussão - V1



Essas métricas indicam Underfitting do classificador. Ou seja, o classificador não foi capaz de generalizar o suficiente com os dados que foram utilizados

# V2

In [None]:
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('svc', SVC())
])

pipeline.fit(X_treino, y_treino)
predicted = pipeline.predict(X_teste)
print(classification_report(y_teste, predicted))

In [None]:
print("Score para Treino: ",pipeline.score(X_treino, y_treino))
print("Score para Teste: ", pipeline.score(X_teste, y_teste))

## Discussão V2


Houve uma melhoria das métricas! Agora o modelo consegue identificar quem não possui doenças! 

Entretanto, olhando o **Score**, parece que o modelo sofre de _OverFitting_. _OverFitting_ é quando o modelo aprende muito bem (até demais) como representar os dados de Treino, enquanto tem um desempenho inferior quando é apresentado a novas informações



## Dúvidas e Estudos Futuros

      Quando utilizar Normalizer e StandardScaler?