## **PREDICCION DE ENFERMEDAD CARDIACA**


Uso del  Heart Disease Data Set para ejercicio de prediccion


## Preprocesamiento de dataset

Import de dependencias

In [1]:
import pandas as pd 
from pandas import read_csv

### Descripcion del Dataset Heart Disease

1.   EDAD : Edad del individuo
2.   SEX : Sexo del individuo
3.   TD: Tipo de dolor de pecho 1-tipico, 2-No tipico, 3-No dolor, 4 -Asintomatico
4.   PSD : Presion arterial en reposo
5.   COL : Nivel de colesterol
6.   AZA: Nivel de azucar en la sangre en ayuno 1-Si es superior a 120mg/dl, 0-Si es inferior
7.   ELE: Eletrocardiograma 0-Normal, 1 y 2 Anormal
8.   FCO: Frecuencia cardiaca objetivo
9.   AIE:  Angina inducida por el ejercicio 1-Si, 0-No
10.  DST: Depresion en el segmento ST Electrocardiograma 
11.  PEN: Pendiente de segmento ST en ejercicio 1-Sube, 2-Plano, 3-Baja.
12.  VAS: Numero de vasos (0-3) coloreados por fluoroscopia
13.  TAL: Talasemia 3-Normal, 6-Defecto permanente, 7-Defecto reversible
14.  RES: Enfermedad cardiaca.  Mayor a 0 no hay enfermedad cardiaca

In [2]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"
names = ["EDAD", "SEXO", "TD", "PSD", "COL","AZA", "ELE", "FCO","AIE", "DST","PEN", "VAS", "TAL", "RES"]
dataset = pd.read_csv(url, names=names)

Inspeccion de primeros 5

In [3]:
dataset.head(5)

Unnamed: 0,EDAD,SEXO,TD,PSD,COL,AZA,ELE,FCO,AIE,DST,PEN,VAS,TAL,RES
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


Dimension del dataset

In [4]:
dataset.shape

(303, 14)

Inspeccion de tipo de datos de cada columna.

In [5]:
dataset.dtypes

EDAD    float64
SEXO    float64
TD      float64
PSD     float64
COL     float64
AZA     float64
ELE     float64
FCO     float64
AIE     float64
DST     float64
PEN     float64
VAS      object
TAL      object
RES       int64
dtype: object

Se sospecha que las columnas VAS, y TAL podrian contener datos faltantes

In [6]:
cols = dataset.columns[dataset.dtypes.eq(object)]
cols

Index(['VAS', 'TAL'], dtype='object')

Se convierte los datos de las columnas VAS, y TAL en valores numericos; cualquier dato que no se pueda convertir se transforma en un NaN

In [7]:
dataset[cols] = dataset[cols].apply(pd.to_numeric, errors='coerce')
dataset.dtypes

EDAD    float64
SEXO    float64
TD      float64
PSD     float64
COL     float64
AZA     float64
ELE     float64
FCO     float64
AIE     float64
DST     float64
PEN     float64
VAS     float64
TAL     float64
RES       int64
dtype: object

Verificar existencia si hubo datos faltantes.

In [8]:
dataset.isnull().values.any()

True

Cantidad de datos faltantes

In [9]:
dataset.isnull().values.sum()

6

Como el resultado es 6, se opta por eliminar esos datos.

In [10]:
dataset = dataset.dropna()

Verificacion de la eliminacion de NaN

In [11]:
dataset.isnull().values.any()

False

Nueva dimension despues del ajuste

In [12]:
dataset.shape

(297, 14)

Las variable RES muestra la condicion cardiaca de la muestra. Un valor 0 indica que la persona tiene enfermedad cardiaca, valores 1,2,3 y 4 indican que no posee esa condicion. Los datos se consolidan para que muestren 0 si es positivo para enfermedad y si los datos son 1,2,3 y 4 mostrara un 1, indicando negativo para enfermedad cardiaca.

In [13]:
dataset.loc[dataset['RES'] == 0, 'RES'] = 0
dataset.loc[(dataset['RES'] > 0), 'RES'] = 1

Inspeccion despues del proceso de agrupacion.

In [14]:
dataset.head(10)

Unnamed: 0,EDAD,SEXO,TD,PSD,COL,AZA,ELE,FCO,AIE,DST,PEN,VAS,TAL,RES
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,1
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0
5,56.0,1.0,2.0,120.0,236.0,0.0,0.0,178.0,0.0,0.8,1.0,0.0,3.0,0
6,62.0,0.0,4.0,140.0,268.0,0.0,2.0,160.0,0.0,3.6,3.0,2.0,3.0,1
7,57.0,0.0,4.0,120.0,354.0,0.0,0.0,163.0,1.0,0.6,1.0,0.0,3.0,0
8,63.0,1.0,4.0,130.0,254.0,0.0,2.0,147.0,0.0,1.4,2.0,1.0,7.0,1
9,53.0,1.0,4.0,140.0,203.0,1.0,2.0,155.0,1.0,3.1,3.0,0.0,7.0,1


## KNN

Import de dependencias 

In [18]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

Features

In [None]:
dataset_features = dataset[['EDAD','Age','Fare']]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2, random_state=42)