## GRUPO 

* NOME : Higor Vinicios Carrião RA : 1903471

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [None]:
df = pd.read_csv('/content/heart.csv') 

In [None]:
df.dtypes

Age                 int64
Sex                object
ChestPainType      object
RestingBP           int64
Cholesterol         int64
FastingBS           int64
RestingECG         object
MaxHR               int64
ExerciseAngina     object
Oldpeak           float64
ST_Slope           object
HeartDisease        int64
dtype: object

# Entendimento do negocio e dos dados

* Quais são os dados?

In [None]:
df.columns


Index(['Age', 'Sex', 'ChestPainType', 'RestingBP', 'Cholesterol', 'FastingBS',
       'RestingECG', 'MaxHR', 'ExerciseAngina', 'Oldpeak', 'ST_Slope',
       'HeartDisease'],
      dtype='object')

Age: idade do paciente [anos]

Sex: sexo do paciente [M: Masculino, F: Feminino]

ChestPainType: tipo de dor no peito [TA: Típico Angina, ATA: Angina atípica, NAP: Dor Não-Anginal, ASY: Assintomática]

RestingBP: pressão arterial de repouso [mm Hg]

Cholesterol: colesterol sérico [mm/dl]

FastingBS: açúcar no sangue em jejum [1: se o Jejum de > 120 mg/dl, 0: caso contrário]

RestingECG: resultados de eletrocardiograma em repouso [Normal: Normal, ST: ter anormalidade de onda ST-T (inversões de onda T e/ou elevação de ST ou depressão de > 0,05 mV), LVH: mostrando provável ou definitiva hipertrofia ventricular esquerda pelos critérios de Estes]

MaxHR: frequência cardíaca máxima alcançada [Valor numérico entre 60 e 202]

ExerciseAngina: angina induzida por exercícios [Y: Sim, N: Não]

Oldpeak: oldpeak = ST [Valor numérico medido na depressão]

ST_Slope: a inclinação do segmento ST de exercício de pico [Up: upsloping, Flat: flat, Down: downsloping]

HeartDisease: aula de saída [1: doença cardíaca, 0: Normal]

* Qual o Alvo?

HeartDisease

# Preparação dos Dados

In [None]:
df = df.rename(columns={'Age' : 'idade', 'Sex' : 'sexo', 'ChestPainType' : 'tipo_dor', 'RestingBP' : 'pressão_arterial_repouso', 'Cholesterol' : 'colesterol', 'FastingBS' : 'acuçar_em_jejum',
       'RestingECG' : 'eletrocardiograma', 'MaxHR' : 'frequencia_cardiaca_max', 'ExerciseAngina' : 'angina_exercicio', 'Oldpeak' : 'velocidade_esteira', 'ST_Slope' : 'inclinação_esteira',
       'HeartDisease' : 'ALVO'})

In [None]:
df['idade'].max()

77

In [None]:
df['idade'].min()

28

## Idade

In [None]:
df['PRE_IDADE'] = [(x-28)/(77-28) for x in df['idade']]

## Sexo

In [None]:
df['PRE_SEXO_M'] = [1 if x == 'M' else 0 for x in df['sexo']]
df['PRE_SEXO_F'] = [1 if x == 'F' else 0 for x in df['sexo']]

## Tipo de Dor

In [None]:
df['PRE_TIPO_DOR_ATA'] = [1 if x == 'ATA' else 0 for x in df['tipo_dor']]
df['PRE_TIPO_DOR_NAP'] = [1 if x == 'NAP' else 0 for x in df['tipo_dor']]
df['PRE_TIPO_DOR_ASY'] = [1 if x == 'ASY' else 0 for x in df['tipo_dor']]
df['PRE_TIPO_DOR_TA'] = [1 if x == 'TA' else 0 for x in df['tipo_dor']]

## pressão_arterial_repouso

In [None]:
df['PRE_PRESSÃO_ARTERIAL_REPOUSO'] = [(x-0)/(200-0) for x in df['pressão_arterial_repouso']]

## COLESTEROL

In [None]:
df['PRE_COLESTEROL'] = [(x-0)/(603-0) for x in df['colesterol']]

In [None]:
df['PRE_COLESTEROL'].min()

0.0

In [None]:
df['PRE_COLESTEROL'].max()

1.0

## ELETROCARDIOGRAMA

In [None]:
df['PRE_ELETROCARDIOGRAMA_NORMAL'] = [1 if x == 'Normal' else 0 for x in df['eletrocardiograma']]
df['PRE_ELETROCARDIOGRAMA_ST'] = [1 if x == 'ST' else 0 for x in df['eletrocardiograma']]
df['PRE_ELETROCARDIOGRAMA_LVH'] = [1 if x == 'LVH' else 0 for x in df['eletrocardiograma']]

## frequencia_cardiaca_max

In [None]:
df['frequencia_cardiaca_max'].max()

202

In [None]:
df['frequencia_cardiaca_max'].min()

60

In [None]:
df['PRE_FREQUENCIA_CARDIACA_MAX'] = [(x-60)/(202-60) for x in df['frequencia_cardiaca_max']]

## ANGINA EXERCICIO

In [None]:
df['angina_exercicio'].drop_duplicates()

0    N
3    Y
Name: angina_exercicio, dtype: object

In [None]:
df['PRE_ANGINA_EXERCICIO_N'] = [1 if x == 'N' else 0 for x in df['angina_exercicio']]
df['PRE_ANGINA_EXERCICIO_Y'] = [1 if x == 'Y' else 0 for x in df['angina_exercicio']]

## VELOCIDADE ESTEIRA

In [None]:
df['velocidade_esteira'].max()

6.2

In [None]:
df['velocidade_esteira'].min()

-2.6

In [None]:
df['PRE_VELOCIDADE_ESTEIRA'] = [0 if x < 0 else x for x in df['velocidade_esteira']]

In [None]:
df['PRE_VELOCIDADE_ESTEIRA'] = [(x-0)/(6.2-0) for x in df['PRE_VELOCIDADE_ESTEIRA']]

## INCLINAÇÃO ESTEIRA

In [None]:
df['inclinação_esteira'].drop_duplicates()

0        Up
1      Flat
247    Down
Name: inclinação_esteira, dtype: object

In [None]:
df['PRE_INCLINACAO_ESTEIRA_UP'] = [1 if x == 'Up' else 0 for x in df['inclinação_esteira']]
df['PRE_INCLINACAO_ESTEIRA_FLAT'] = [1 if x == 'Flat' else 0 for x in df['inclinação_esteira']]
df['PRE_INCLINACAO_ESTEIRA_DOWN'] = [1 if x == 'Down' else 0 for x in df['inclinação_esteira']]

In [None]:
cols_in = [
    'PRE_IDADE',
    'PRE_SEXO_M',
    'PRE_SEXO_F',
    'PRE_TIPO_DOR_ATA',
    'PRE_TIPO_DOR_NAP',
    'PRE_TIPO_DOR_ASY',
    'PRE_TIPO_DOR_TA',
    'PRE_PRESSÃO_ARTERIAL_REPOUSO',
    'PRE_COLESTEROL',
    'PRE_ELETROCARDIOGRAMA_NORMAL',
    'PRE_ELETROCARDIOGRAMA_ST',
    'PRE_ELETROCARDIOGRAMA_LVH',
    'PRE_FREQUENCIA_CARDIACA_MAX',
    'PRE_ANGINA_EXERCICIO_N',
    'PRE_ANGINA_EXERCICIO_Y',
    'PRE_VELOCIDADE_ESTEIRA',
    'PRE_INCLINACAO_ESTEIRA_UP',
    'PRE_INCLINACAO_ESTEIRA_FLAT',
    'PRE_INCLINACAO_ESTEIRA_DOWN',
    'ALVO'
]

In [None]:
df_pronto = df[cols_in]

In [None]:
df_pronto

Unnamed: 0,PRE_IDADE,PRE_SEXO_M,PRE_SEXO_F,PRE_TIPO_DOR_ATA,PRE_TIPO_DOR_NAP,PRE_TIPO_DOR_ASY,PRE_TIPO_DOR_TA,PRE_PRESSÃO_ARTERIAL_REPOUSO,PRE_COLESTEROL,PRE_ELETROCARDIOGRAMA_NORMAL,PRE_ELETROCARDIOGRAMA_ST,PRE_ELETROCARDIOGRAMA_LVH,PRE_FREQUENCIA_CARDIACA_MAX,PRE_ANGINA_EXERCICIO_N,PRE_ANGINA_EXERCICIO_Y,PRE_VELOCIDADE_ESTEIRA,PRE_INCLINACAO_ESTEIRA_UP,PRE_INCLINACAO_ESTEIRA_FLAT,PRE_INCLINACAO_ESTEIRA_DOWN,ALVO
0,0.244898,1,0,1,0,0,0,0.70,0.479270,1,0,0,0.788732,1,0,0.000000,1,0,0,0
1,0.428571,0,1,0,1,0,0,0.80,0.298507,1,0,0,0.676056,1,0,0.161290,0,1,0,1
2,0.183673,1,0,1,0,0,0,0.65,0.469320,0,1,0,0.267606,1,0,0.000000,1,0,0,0
3,0.408163,0,1,0,0,1,0,0.69,0.354892,1,0,0,0.338028,0,1,0.241935,0,1,0,1
4,0.530612,1,0,0,1,0,0,0.75,0.323383,1,0,0,0.436620,1,0,0.000000,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
913,0.346939,1,0,0,0,0,1,0.55,0.437811,1,0,0,0.507042,1,0,0.193548,0,1,0,1
914,0.816327,1,0,0,0,1,0,0.72,0.320066,1,0,0,0.570423,1,0,0.548387,0,1,0,1
915,0.591837,1,0,0,0,1,0,0.65,0.217247,1,0,0,0.387324,0,1,0.193548,0,1,0,1
916,0.591837,0,1,1,0,0,0,0.65,0.391376,0,0,1,0.802817,1,0,0.000000,0,1,0,1


# Modelagem

In [None]:
# w:vetor de pesos [w1, w2, ...,wn]
# b: viés/bias -> w0
# x: vetor/matriz com atributos de treinamento
def forward(w, b, x):
    u = np.dot(x,w.T) + b
    sign = np.vectorize(lambda ui: 0 if ui<=0 else 1)
    y = sign(u)
    return y
# x: atributos da base de treinamento
# [
#   [x1,x2,x3],
#   [x1,x2,x3],
#   [x1,x2,x3]
# ]
# d: categoria desejada/real 
# a: taxa de aprendizado a > 0
def perceptron(x, d, a):

    w_n = np.zeros(len(x[0,:])) #[0,0,....] com a quantidade colunas de x
    b_n = 0.

    mse = 1.0
    n = 0
    c = 0
    while mse > 0.1 and c < 50000:
        c+=1
        x_n = x[n, :]

        print(f"PESOS ANTERIORES: {w_n}, {b_n}")

        y_n = forward(w_n, b_n, x_n)        
        print(f"Y PREDITO PARA {x_n}: {y_n}")
        
     
        w_n1 = w_n + np.dot(a * np.subtract(d[n],y_n),x_n)
        b_n1 = b_n + a * np.subtract(d[n],y_n)

        w_n = w_n1
        b_n = b_n1
        
        print("NOVO PESO", w_n, b_n)

        # calcular erro médio da base de treinamento
        p = forward(w_n, b_n, x)
        print("Categorias para a base de treinamento",p)

        mse = np.square(np.subtract(d,p)).mean()
        print('MSE:',mse)

        n = (n+1) % len(x)
        print("################")
        #c=input("Continuar")
    print("Épocas:",c)
    return w_n, b_n

In [None]:
X = df_pronto.drop(columns='ALVO').to_numpy()
X

array([[0.24489796, 1.        , 0.        , ..., 1.        , 0.        ,
        0.        ],
       [0.42857143, 0.        , 1.        , ..., 0.        , 1.        ,
        0.        ],
       [0.18367347, 1.        , 0.        , ..., 1.        , 0.        ,
        0.        ],
       ...,
       [0.59183673, 1.        , 0.        , ..., 0.        , 1.        ,
        0.        ],
       [0.59183673, 0.        , 1.        , ..., 0.        , 1.        ,
        0.        ],
       [0.20408163, 1.        , 0.        , ..., 1.        , 0.        ,
        0.        ]])

In [None]:
y = df_pronto['ALVO'].to_numpy()


In [None]:
X_train, X_teste, y_train, y_teste = train_test_split(X, y, test_size = 0.25, random_state=88, stratify=y
)

In [None]:
w, b = perceptron(X_train, y_train, 0.01)

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
 0.         0.65       0.3880597  0.         0.         1.
 0.80985915 1.         0.         0.09677419 0.         1.
 0.        ]: 0
NOVO PESO [-4.69387755e-03 -3.46944695e-18 -1.00000000e-02  1.00000000e-02
 -1.00000000e-02 -3.46944695e-18 -1.00000000e-02  2.62500000e-02
 -1.09800995e-01  1.00000000e-02 -1.00000000e-02 -1.00000000e-02
 -1.55633803e-02  1.00000000e-02 -2.00000000e-02  5.51612903e-02
 -4.00000000e-02  2.00000000e-02  1.00000000e-02] -0.009999999999999997
Categorias para a base de treinamento [0 0 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 0 0
 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1
 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0

In [None]:
from sklearn.metrics import accuracy_score
y_pred = forward(w, b, X_teste)
y_pred

array([1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0,
       1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 1])

In [None]:
accuracy_score(y_pred, y_teste)

0.782608695652174