#**Imports**

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

#**Read & show data**

In [None]:
base_df = pd.read_excel('/content/Base_teste_AVC.xlsx')
base_df #le valores e colunas

In [4]:
#leitura da base (rows e cols)
base_df.shape

(10000, 9)

In [None]:
base_df.head() #primeiras 5 linhas

In [None]:
base_df.tail() #ultimas 5 linhas

In [None]:
base_df.info() #informacoes de banco de dados caracteristicas das variaveis

In [None]:
#estatisticas
base_df.describe()

#**Graphs**

In [None]:
#graficos de grandezas das features para ter noçao da relacoes
base_df.hist(bins = 4, figsize=(12,12), color = 'r');

In [None]:
#fazer um gráfico pie para a coluna Pressão Alta
# Plotar um gráfico de pizza para a coluna 'Pressão Alta'
base_df['Pressão alta'].value_counts().plot.pie(autopct='%1.1f%%', figsize=(4, 4))
plt.title('Distribuição de Pacientes que sofrem de Pressão Alta')
plt.ylabel('') # remove y-axis label
plt.show()

In [None]:
#fazer um gráfico pie para a coluna Teve AVC
# Plotar um gráfico de pizza para a coluna 'Teve AVC'
base_df['Teve AVC'].value_counts().plot.pie(autopct='%1.1f%%', figsize=(4, 4))
plt.title('Distribuição de Pacientes que sofreram ou não AVC')
plt.ylabel('') # remove y-axis label
plt.show()

In [None]:
#criar gráfico interativo de pizza para a coluna pratica esporte utilizando a biblioteca plotly
fig = px.pie(base_df, names='Pratica esporte', title='Distribuição de Pacientes que praticam esporte')
fig.show()

In [None]:
# Plotar um gráfico de barras para a coluna 'Colesterol alto'
base_df['Colesterol alto'].value_counts().plot(kind='bar', figsize=(5, 3))
plt.title('Distribuição de Pacientes com Colesterol Alto')
plt.xlabel('Colesterol Alto')
plt.ylabel('Quantidade de Pacientes')
plt.xticks(rotation=0)  # Rotacionar os rótulos do eixo x para melhor legibilidade
plt.show()

In [None]:
#criar gráfico de colunas para a coluna Colesterol alto utilizando a biblioteca seaborn mostrando a quantidade de pacientes no eixo y
plt.figure(figsize=(5,3))
sns.countplot(x='Colesterol alto', data=base_df)
plt.title('Distribuição de Pacientes com Colesterol Alto (Seaborn)')
plt.xlabel('Colesterol Alto')
plt.ylabel('Quantidade de Pacientes')
plt.show()

In [None]:
#criar gráfico de colunas para a coluna Colesterol alto utilizando a biblioteca plotly mostrando a quantidade de pacientes no eixo y
fig = px.histogram(base_df, x="Colesterol alto",
                   title="Distribuição de Pacientes com Colesterol Alto (Plotly)",
                   labels={"Colesterol alto": "Colesterol Alto", "count": "Quantidade de Pacientes"})
fig.show()

#**Correlation**

In [None]:
correlations = base_df.corr()
f, ax = plt.subplots(figsize = (15,15))
sns.heatmap(correlations, annot=True);

#**Logistic Regression**

In [None]:
X_all = base_df[['Pressão alta', 'Colesterol alto', 'Triglicérides alto',	'Pratica esporte', 'Uso excessivo de alcool','Fumante','Diabético']]
X_all

y_all = base_df['Teve AVC']
y_all

In [18]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size = 0.25)

In [None]:
X_train.shape, y_train

In [None]:
X_test.shape, y_test

In [21]:
from sklearn.linear_model import LogisticRegression

In [None]:
logistic = LogisticRegression(random_state=1)
logistic.fit(X_train, y_train)

In [None]:
logistic = LogisticRegression(random_state=1, max_iter=1000, penalty="l2",tol=0.0001, C=1,solver="lbfgs")
logistic.fit(X_train, y_train)
#penalty{‘l1’, ‘l2’, ‘elasticnet’, None}, default=’l2’
#solver{‘lbfgs’, ‘liblinear’, ‘newton-cg’, ‘newton-cholesky’, ‘sag’, ‘saga’}, default=’lbfgs’

In [None]:
y_pred = logistic.predict(X_test)
y_pred

In [None]:
y_test

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

In [28]:
from sklearn.metrics import confusion_matrix

In [29]:
cm = confusion_matrix(y_test, y_pred)
cm

array([[ 370,   69],
       [  55, 2006]])

In [None]:
sns.heatmap(cm, annot=True);

In [None]:
from yellowbrick.classifier import ConfusionMatrix
cm = ConfusionMatrix(logistic)
cm.fit(X_train, y_train)
cm.score(X_test, y_test)

# **KNN**

In [34]:
from sklearn.neighbors import KNeighborsClassifier

In [35]:
knn = KNeighborsClassifier(n_neighbors=7, metric='minkowski', p=1)
knn.fit(X_train, y_train)

In [36]:
previsoes_knn = knn.predict(X_test)
previsoes_knn

array([1, 1, 1, ..., 1, 1, 1])

In [None]:
y_test

In [38]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [39]:
print("Acurácia: %.2f%%" % (accuracy_score(y_test, previsoes_knn) * 100.0))

Acurácia: 97.64%


In [None]:
cm = confusion_matrix(y_test, previsoes_knn)
cm

In [None]:
sns.heatmap(cm, annot=True);

In [None]:
from yellowbrick.classifier import ConfusionMatrix
cm = ConfusionMatrix(knn);
cm.fit(X_train, y_train);
cm.score(X_test, y_test);

#**SVM (Suport Vector Machine)**

In [44]:
from sklearn.svm import SVC

In [46]:
svm_avc = SVC(kernel='sigmoid', random_state=1, C = 2.0) # 2 -> 4
#kernel pode ser linear, rbf, polinomial (poly), sigmoide (sigmoid)
#gamma pode ser utilizado ou não

In [None]:
svm_avc.fit(X_train, y_train)

In [49]:
previsoes = svm_avc.predict(X_test)
previsoes

array([1, 1, 1, ..., 1, 1, 1])

In [None]:
y_test

In [51]:
from sklearn.metrics import accuracy_score, classification_report
accuracy_score(y_test, previsoes)

0.8332

In [None]:
from yellowbrick.classifier import ConfusionMatrix
cm = ConfusionMatrix(svm_avc)
cm.fit(X_train, y_train)
cm.score(X_test, y_test)