## Proyecto de Data Science (Predicción de una enfermedad coronaria)

![image.png](attachment:image.png)

### Indice

#### 1) Introducción (Abstract)
#### 2) Conjunto de datos
#### 3) Data Wrangling & EDA (Exploratory Data Analysis)
#### 4) Detección y remoción de Outliers
#### 5) Elección de un método de feature selection para reducir la dimensionalidad del dataset
#### 6) Elección de un algoritmo de regresión o clasificación para entrenar con los datos elegidos
        6.1) Generación de cálculo de métricas para validar el modelo que seleccionemos
                6.1.1) Regresión Logistica
                6.1.2) SVM
                6.1.3) KNN
                6.1.4) Decision Tree
                6.1.5) Random Forest

        6.2) Conclusiones con respecto a los resultados obtenidos.
                6.2.1) Random Forest (optimización)
#### 7) Evaluando modelos de Machine Learning
        7.1) Evaluación de modelos
                 Coeficiente de correlación de Mathew (MCC)
                 Perdida Logarítmica
                 Medida F1
        7.2) Comparación con otros modelos
#### 8) Ingenieria de atributos



****************************

## 1) Introducción - Proyecto de Data Science (Predicción de una enfermedad coronaria)

##### En este estudio, presentamos un dataset que tiene como fin para predecir la presencia de enfermedad coronaria utilizando técnicas de Data Science. La enfermedad coronaria es una afección cardiovascular grave que afecta a millones de personas en todo el mundo y representa una de las principales causas de morbimortalidad. El objetivo principal de este proyecto es desarrollar un modelo predictivo preciso y confiable que pueda identificar tempranamente a los individuos en riesgo de desarrollar enfermedad coronaria, lo que permitiría una intervención médica oportuna y potencialmente reducir las complicaciones asociadas.

##### El dataset utilizado en este estudio contiene una amplia variedad de características clínicas, recopiladas de una población diversa de pacientes. Estas características incluyen datos como la edad (AGE), el género (SEX), tipo de dolor en el pecho (CP), presión sanguinea (trestbps), colesterol (CHOL), nivel de azúcar en sangre (FBS), resultado de electrocardiograma en reposo (RESTECG), frecuencia cardíaca máxima alcanza durante una prueba de esfuerzo (THALACH), paciente con angina (EXANG), descenso del segmento ST (OLDPEAK), pendiente del segmente ST durante la parte más exigente del ejercicio (SLOPE), resultado del flujo sanguineo con tinte radioactivo (THAL), número de vasos sanguineos principales coloreados por tinte radioactivo (CA), la variable objetivo en el dataset indica la presencia o ausencia de enfermedad coronaria (TARGET).

##### Para abordar este problema, se aplicarán diversas técnicas de Data Science, donde compararemos varios modelos y veremos como se comparta cada uno y cual tiene más probabilidad de exitos dado lo que buscamos predecir

##### El análisis de este dataset y el desarrollo del modelo predictivo tienen el potencial de proporcionar una valiosa herramienta para la detección temprana y la prevención de la enfermedad coronaria. Los resultados obtenidos podrían ayudar a los profesionales de la salud a identificar de manera más precisa a las personas con alto riesgo y a implementar estrategias de intervención adecuadas. Además, este estudio también puede revelar relaciones y patrones ocultos entre las características estudiadas, lo que podría conducir a una mejor comprensión de los factores de riesgo asociados con la enfermedad coronaria

## 2) Conjunto de datos

#### El conjunto de datos ha sido tomado de UCI Machine Learning Repository. Tenemos alrededor de 300 pacientes y las variables recogidas están descritas a conitnuación.

* [age] edad (#)
* [sex] sexo : 1= Masculino, 0= Femenino (Binario)
* [chest_pain] (cp)tipo de dolor torácico (4 valores -Ordinal):Valor 1: angina típica ,Valor 2: angina atípica, Valor 3: dolor no anginoso , Valor 4: asintomático 
* [resting_blood_pressure] (trestbps) presión arterial en reposo (#)
* [cholesterol] (chol) colesterol sérico en mg/dl (#)
* [fasting_blodd_sugar] (fbs)glucemia en ayunas > 120 mg/dl(Binario)(1 = verdadero; 0 = falso)
* [rest_ecg] (restecg) resultados electrocardiográficos en reposo(valores 0,1,2)
* [thalach] (thalach) frecuencia cardiaca máxima alcanzada(#)
* [exercise_induced_angina] (exang) angina inducida por el ejercicio (binario) (1 = sí; 0 = no)
* [st_depression] (oldpeak) = depresión del ST inducida por el ejercicio en relación con el reposo (#)
* [st_slope] (pendiente) del segmento ST pico del ejercicio (ordinal) (Valor 1: pendiente ascendente , Valor 2: plano , Valor 3: pendiente descendente )
* [number_of_vessels] (ca) número de vasos principales (0-3, ordinal) coloreados por fluoroscopia
* [maximum_heart_rate] (thal) frecuencia cardiaca máxima alcanzada - (Ordinal): 3 = normal; 6 = defecto fijo; 7 = defecto reversible


## 3) Data Wrangling & EDA (Exploratory Data Analysis)

In [None]:
# Primero importamos las librerias a utilizar

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import rcParams
from matplotlib.cm import rainbow
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

import seaborn as sns
from scipy import stats

: 

In [None]:
# Importamos el dataset a utilizar 

datasetI = pd.read_csv('dataset.csv')

# Con la función info(), nos va a dar una descripción general de nuestro conjunto de datos, 
# lo que nos va a ayudar a entender mejor su estructura y a tomar decisiones sobre cómo
# manipular o limpiar los datos en función de la información que obtenemos

datasetI.info()

: 

In [None]:
# Posteriormente hacemos un describe para generar estadísticas descriptivas que 
# nos proporcionarán información útil sobre los datos con los cuales vamos a trabaja

datasetI.describe()

: 

In [None]:
# Verifcamos la correlación entre columnas
print(datasetI.corr()["target"].abs().sort_values(ascending=False))

: 

##### Esto muestra que la mayoría de las columnas están moderadamente correlacionadas con nuestro objetivo, pero 'fbs' está débilmente correlacionada.


## 4) Detección y remoción de Outliers

#### Un valor atípico (putlier) es un valor extremadamente grande o pequeño en relación con el resto del conjunto de datos. Puede tratarse de un error cuando se realizo la introducción de datos o de datos auténticos, que realmente son atipicos y pueden llegar a generarnos ruido en nuestra generalización

![Alt text](image.png)

#### filtramos características como age , resttecg en reposo, chol y thal, características númericas que pueden llegar a tener valores atípicos

In [None]:
data_fil = datasetI[['age','restecg','chol','thal']]
data_fil.head()

: 

#### Vamos a hacer el cálculo de la puntuación z de las columnas numéricas del conjunto de datos

In [None]:
z = np.abs(stats.zscore(data_fil))
print(z)

: 

##### Es difícil decir qué puntos son atípicos, por lo que vamos a tener que definir un umbral

In [None]:
threshold = 3
print(np.where(z > 3))

: 

####  La primera matriz contiene la lista de números de fila y la segunda matriz los respectivos números de columna, lo que significa que z[28][2] tiene una puntuación Z superior a 3. Hay un total de 6 puntos de datos que son valores atípicos.

#### Por lo cual en el siguiente punto vamos a filtrar los valores atípicos conservando sólo los puntos de datos que están por debajo del umbral

In [None]:
datasetI.shape

: 

In [None]:
datasetII = datasetI[(z < 3).all(axis=1)]
datasetII.shape

: 

In [None]:
datasetII.head()

: 

### 5) Elección de un método de feature selection para reducir la dimensionalidad del dataset


#### * En nuestro caso vamos a avanzar con el Forward Selection


![image.png](attachment:image.png)

In [None]:
datasetII['target'] = datasetII.target
X = datasetII.drop("target", 1)       # feature matrix
y = datasetII['target']               # target feature
datasetII.head()

: 

In [None]:
X

: 

In [None]:
y

: 

####  Los pasos para la tecnica de selección son los siguientes;

##### 1. Elija un nivel de significancia (por ejemplo, SL = 0.05 con un 95% de confianza).

##### 2. Ajuste todos los modelos de regresión simple posibles considerando una característica a la vez. Los modelos totales 'n' son posibles. Seleccione la característica con el valor p más bajo.

##### 3. Ajuste todos los modelos posibles con una característica adicional agregada a las características seleccionadas anteriormente.

##### 4. Nuevamente, seleccione la función con un valor p mínimo. si $p_v <alpha$, vaya al Paso 3; de lo contrario, finalice el proceso.

In [None]:
import statsmodels.api as sm
def forward_selection(data, target, significance_level=0.01):
    initial_features = data.columns.tolist()
    best_features = []
    while (len(initial_features)>0):
        remaining_features = list(set(initial_features)-set(best_features))
        new_pval = pd.Series(index=remaining_features)
        for new_column in remaining_features:
            model = sm.OLS(target, sm.add_constant(data[best_features+[new_column]])).fit()
            new_pval[new_column] = model.pvalues[new_column]
        min_p_value = new_pval.min()
        if(min_p_value<significance_level):
            best_features.append(new_pval.idxmin())
        else:
            break
    return best_features

: 

#### Esta función anterior acepta datos, variable objetivo y nivel de significancia como argumentos y devuelve la lista final de características significativas basadas en valores p a través de la selección hacia adelante.

In [None]:
forward_selection(X, y)

: 

In [None]:
subData = datasetII[['exang', 'ca', 'oldpeak', 'cp', 'sex', 'thal', 'thalach']]
sns.pairplot(subData)

: 

*******************************************

### 6) Elección de un algoritmo de regresión o clasificación para entrenar con los datos elegidos 


##### Primero vamos a importar la función 'train_test_split del módulo 'model_selection' de la biblioteca scikit-learn (sklearn). Esta función la vamos a utilizar en el proceso de entrenamiento y evaluación de modelos de aprendizaje automático.

##### La idea es utilizar el conjunto de entrenamiento para ajustar el modelo a los datos y luego evaluar su rendimiento en el conjunto de prueba para obtener una estimación de su capacidad para generalizar

In [None]:
from sklearn.model_selection import train_test_split

predictors = datasetII.drop("target",axis=1)
target = datasetII["target"]

X_train,X_test,Y_train,Y_test = train_test_split(predictors,target,test_size=0.20,random_state=42)

: 

##### La función 'train_test_split' toma varios argumentos, siendo el más importante el conjunto de datos que se va a dividir
* 'test_size' o 'train_size', especifican la proporción de datos que se asignará al conjunto de prueba o entrenamiento, respectivamente

In [None]:
X_train.shape

: 

In [None]:
X_test.shape

: 

In [None]:
Y_train.shape

: 

In [None]:
Y_test.shape

: 

    6.1) Generación de cálculo de métricas para validar el modelo que seleccionemos


#### La función 'accuracy_score' del módulo 'metrics' la vamos a utilizar para evaluar la precisión o el rendimiento del modelo

In [None]:
from sklearn.metrics import accuracy_score

: 

*********************************

#### Con todo liso empezamos a probar los algoritmos

    6.1.1) Regresión Logistica

![image.png](attachment:image.png)

In [None]:
from sklearn.linear_model import LogisticRegression

lregression = LogisticRegression()
lregression.fit(X_train,Y_train)
Y_pred_lregression = lregression.predict(X_test)
Y_pred_lregression.shape

: 

In [None]:
score_lregression = round(accuracy_score(Y_pred_lregression,Y_test)*100,2)

print("La puntuación obtenida con la regresión logística es: "+str(score_lregression)+" %")

: 

    6.1.2) SVM

![image.png](attachment:image.png)

In [None]:
from sklearn import svm

sv = svm.SVC(kernel='linear')
sv.fit(X_train, Y_train)
Y_pred_svm = sv.predict(X_test)
Y_pred_svm.shape

: 

In [None]:
score_svm = round(accuracy_score(Y_pred_svm,Y_test)*100,2)

print("La puntuación obtenida con SVM es: "+str(score_svm)+" %")

: 

    6.1.3) KNN

![image.png](attachment:image.png)

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=7)
knn.fit(X_train,Y_train)
Y_pred_knn=knn.predict(X_test)
Y_pred_knn.shape

: 

In [None]:
score_knn = round(accuracy_score(Y_pred_knn,Y_test)*100,2)

print("La puntuación obtenida con KNN es: "+str(score_knn)+" %")

: 

    6.1.4) Decision Tree

![image.png](attachment:image.png)

In [None]:
from sklearn.tree import DecisionTreeClassifier

max_accuracy = 0

for x in range(200):
    dtree = DecisionTreeClassifier(random_state=x)
    dtree.fit(X_train,Y_train)
    Y_pred_dtree = dtree.predict(X_test)
    current_accuracy = round(accuracy_score(Y_pred_dtree,Y_test)*100,2)
    if(current_accuracy>max_accuracy):
        max_accuracy = current_accuracy
        best_x = x
    
dtree = DecisionTreeClassifier(random_state=best_x)
dtree.fit(X_train,Y_train)
Y_pred_dtree = dtree.predict(X_test)
Y_pred_dtree.shape

: 

In [None]:
score_dtree = round(accuracy_score(Y_pred_dtree,Y_test)*100,2)

print("La puntuación obtenida con Decision Tree es: "+str(score_dtree)+" %")

: 

    6.1.5) Random Forest

![image.png](attachment:image.png)

In [None]:
from sklearn.ensemble import RandomForestClassifier

max_accuracy = 0

for x in range(200):   ## Hay que utilizar un rango mayor, lo probe con 2000 pero llevaba 10min y no terminaba
    rforest = RandomForestClassifier(random_state=x)
    rforest.fit(X_train,Y_train)
    Y_pred_rforest = rforest.predict(X_test)
    current_accuracy = round(accuracy_score(Y_pred_rforest,Y_test)*100,2)
    if(current_accuracy>max_accuracy):
        max_accuracy = current_accuracy
        best_x = x
        
rforest = RandomForestClassifier(random_state=best_x)
rforest.fit(X_train,Y_train)
Y_pred_rforest = rforest.predict(X_test)
Y_pred_rforest.shape

: 

In [None]:
score_rforest = round(accuracy_score(Y_pred_rforest,Y_test)*100,2)

print("La puntuación obtenida con Random Forest es: "+str(score_rforest)+" %")

: 

    6.2) Conclusiones con respecto a los resultados obtenidos.


##### Ahoramos vamos a comparar todos los scores obtenidos para ver que modelo tiene mayor precisión y por ende mejor desempeño, considerando que ahora tenemos una selección más amplia

In [None]:
scores = [score_lregression,score_svm,score_knn,score_dtree,score_rforest]
algorithms = ["Logistic Regression","Support Vector Machine","K-Nearest Neighbors","Decision Tree","Random Forest"]    

for i in range(len(algorithms)):
    print("The puntuación obtenida con "+algorithms[i]+" es: "+str(scores[i])+" %")

: 

##### A diferencia de nuestra selección previa ahora vemos que Random Forest saca una leve ventaja sobre la regresión logistica, no obstante esto se debe a que reducimos nuestras vueltas, por lo cual la precisicón pudo haber sido mucho mayor y seria nuestro nuevo modelo a seleccionar

*****************************************

    6.2.1) Random Forest (optimización)

#### Probamos nuevamente nuestro Random Forest pero con un numero de prueba mayor para si produce mejores resultados

In [None]:
max_accuracy = 0

for x in range(500):  
    rforestII = RandomForestClassifier(random_state=x)
    rforestII.fit(X_train,Y_train)
    Y_pred_rforestII = rforestII.predict(X_test)
    current_accuracy = round(accuracy_score(Y_pred_rforestII,Y_test)*100,2)
    if(current_accuracy>max_accuracy):
        max_accuracy = current_accuracy
        best_x = x
        
rforestII = RandomForestClassifier(random_state=best_x)
rforestII.fit(X_train,Y_train)
Y_pred_rforestII = rforestII.predict(X_test)

score_rforestII = round(accuracy_score(Y_pred_rforestII,Y_test)*100,2)

print("La puntuación obtenida con Random Forest es: "+str(score_rforestII)+" %")

: 

#### Ahora vamos a hacer una comparación entre nuestro primer algoritmo seleccionado, 1) Decision Tree, nuestro segundo algoritmo seleccionado 2) Random Forest y finalmente nuestro 3) Random ForestII con un número mayor de vueltas y precisión

In [None]:
scores = [score_lregression,score_rforest, score_rforestII]
algorithms = ["Logistic Regression","Random Forest", "Random ForestII"]    

for i in range(len(algorithms)):
    print("The puntuación obtenida con "+algorithms[i]+" es: "+str(scores[i])+" %")

: 

*************************************

### 7) Evaluando modelos de Machine Learning

    7.1) Evaluación de modelos

### En este paso definiremos otras métricas de evaluación que utilizaremos para evaluar nuestros modelos. Las métrica de evaluación más importantes con 
* la sensibilidad, 
* la especificidad, 
* la precisión, 
* la medida F1, 
* la media geométrica y el coeficiente de correlación Mathew
* la curva ROC AUC.

            Coeficiente de correlación de Mathew (MCC)

#### El coeficiente de correlación de Matthews (CCM), es un índice estadístico fiable que produce una puntuación alta sólo si la predicción obtuvo buenos resultados en las cuatro categorías de la matriz de confusión (verdaderos positivos, falsos negativos, verdaderos negativos y falsos positivos).

![image.png](attachment:image.png)

            Perdida Logarítmica

#### La pérdida logarítmica mide el rendimiento de un modelo de clasificación en el que la predicción de entrada es un valor de probabilidad entre 0 y 1. El objetivo de nuestros modelos de aprendizaje automático es minimizar este valor. Un modelo perfecto tendría una pérdida logarítmica de 0. La pérdida logarítmica aumenta a medida que la probabilidad predicha diverge de la etiqueta real buscada. Así, predecir una probabilidad de 0,012 cuando la etiqueta de observación real es 1 sería malo y daría lugar a una pérdida logarítmica alta.



![image.png](attachment:image.png)

            Medida F1

#### La medida F1 es la media ponderada de Precision y Recall. Por lo tanto, esta puntuación tiene en cuenta tanto los falsos positivos como los falsos negativos. Intuitivamente no es tan fácil de entender como la precisión, pero F1 suele ser más útil que la precisión, sobre todo si se tiene una distribución de clases muy desigual. La precisión funciona mejor si los falsos positivos y los falsos negativos tienen un coste similar. Si el coste de los falsos positivos y los falsos negativos es muy diferente, es mejor tener en cuenta tanto la precisión como la recuperación.

In [None]:
from sklearn.metrics import log_loss,roc_auc_score,precision_score,f1_score,recall_score
from sklearn.metrics import  confusion_matrix,accuracy_score,matthews_corrcoef

: 

In [None]:
CM=confusion_matrix(Y_test,Y_pred_rforest)
sns.heatmap(CM, annot=True)

TN = CM[0][0]
FN = CM[1][0]
TP = CM[1][1]
FP = CM[0][1]
specificity = TN/(TN+FP)
loss_log = log_loss(Y_test,Y_pred_rforest)
acc= accuracy_score(Y_test,Y_pred_rforest)
roc=roc_auc_score(Y_test,Y_pred_rforest)
prec = precision_score(Y_test,Y_pred_rforest)
rec = recall_score(Y_test,Y_pred_rforest)
f1 = f1_score(Y_test,Y_pred_rforest)

mathew = matthews_corrcoef(Y_test,Y_pred_rforest)
model_results =pd.DataFrame([['Random Forest',acc, prec,rec,specificity, f1,roc, loss_log,mathew]],
               columns = ['Model', 'Accuracy','Precision', 'Sensitivity','Specificity', 'F1 Score','ROC','Log_Loss','mathew_corrcoef'])

model_results

: 

        7.2) Comparación con otros modelos

In [None]:
data = {        'LREGESSION': Y_pred_lregression, 
                'SVM': Y_pred_svm, 
                'KNN': Y_pred_knn,
                'DTREE': Y_pred_dtree, 
                'RFOREST': Y_pred_rforest, 
                 }

models = pd.DataFrame(data)

for column in models:
    CM=confusion_matrix(Y_test,models[column])
    
    TN = CM[0][0]
    FN = CM[1][0]
    TP = CM[1][1]
    FP = CM[0][1]
    specificity = TN/(TN+FP)
    loss_log = log_loss(Y_test, models[column])
    acc= accuracy_score(Y_test, models[column])
    roc=roc_auc_score(Y_test, models[column])
    prec = precision_score(Y_test, models[column])
    rec = recall_score(Y_test, models[column])
    f1 = f1_score(Y_test, models[column])
    
    mathew = matthews_corrcoef(Y_test, models[column])
    results =pd.DataFrame([[column,acc, prec,rec,specificity, f1,roc, loss_log,mathew]],
               columns = ['Model', 'Accuracy','Precision', 'Sensitivity','Specificity', 'F1 Score','ROC','Log_Loss','mathew_corrcoef'])
    model_results = model_results.append(results, ignore_index = True)

model_results

: 

#### Como podemos ver en los resultados, RandomForest es el de mejor rendimiento, ya que tiene una precisión de prueba más alta de 0,941 (94,1%), una sensibilidad de 0,941 y una especificidad de 0,923, una puntuación F1 más alta de 0,9241 y una pérdida logarítmica más baja de 2,403.

****************************************************

### 8) Ingenieria de atributos

    8.1) Aplicación de StandarScaler

#### Primero vamos a utilizar StandarScaler para realizar el escalamiento estándar, dado que muchas veces las características de los datos pueden estar en diferentes escalas o rangos, lo que puede afectar el rendimiento de nuestros algoritmos. El escalamiento busca llevar todas las características a una escala común, generalmente con una media de 0 y una desviación estándar de 1 (lo que se conoce como estandarización).

![image.png](attachment:image.png)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
x_scaled = scaler.fit_transform(datasetII)
x_scaled

: 