#### Tarea 3: Machine Learning
### Universidad de Valparaíso
## Alumno: Bastián Barraza
## Profesor: Alejandro Pereira

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.svm import SVR
import sklearn.metrics as sk_metrics
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import cross_val_score
from scipy.special import expit
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import roc_curve, auc
from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.preprocessing import RobustScaler

from sklearn.preprocessing import StandardScaler

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/bastianbm7/Machine-Learning-Course/main/Data/data.csv")

### Comparar regression logística, SVM, Naïve Bayes, LDA y QDA usando las métricas de desmpeño correspondientes. Hacer un código con comentarios y analysis.

#### Limpieza de datos:

Primero se realiza la limpieza de datos. Para garantizar la limpieza se abordarán los siguientes puntos:

1) Renombrar columnas.
2) Reemplazar valores mal ingresados.
3) Eliminar columnas que no se utilizarán.
4) Eliminar valores perdidos.

In [3]:
df.rename(columns = {'num       ': 'attack'}, inplace = True) 
df.replace("?", np.nan, inplace = True)
df.drop(columns = ['slope', 'ca', 'thal'], inplace = True)
df.dropna(inplace= True)
df.shape

(261, 11)

In [4]:
# Valores perdidos:
df.isnull().sum()

age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
attack      0
dtype: int64

In [5]:
df['exang'].unique()

array(['0', '1'], dtype=object)

Notamos que no existen luego de realizar la limpieza, no existen datos perdidos y todos los datos tienen una estructura consistente. 

#### Definir variables

Ahora, se busca separar nuestro variable de respuesta de las demás covariables. En este caso, la variable de respuesta es la presencia de angina luego de realizar ejercisio físico (denotada como exang en el conjunto de datos).

In [6]:
y = df['exang']
x = df.drop(['exang'], axis=1)


#### Separar variables de prueba y entrenamiento:

Luego, serparamos el conjunto de datos en 70% entrenamiento y 30% prueba.

In [7]:
random_seed = 1
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

#### Estandarizar datos

Luego, se busca estandarizar los datos. Este paso puede mejorar la interpretación de los datos y hacer que las comparaciones sean más significativas.

Además, la estandarización de los datos de muestra es útil porque puede ayudar a reducir la influencia de valores atípicos en los datos y mejorar la comparabilidad entre diferentes variables. 

En este caso, se utiliza la función fit_transform() para ajustar un objeto RobustScaler a los datos de entrenamiento y, a continuación, aplicar la transformación a los datos de entrenamiento para obtener un conjunto de datos escalados.

In [8]:
scaler = RobustScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

#### 1.- Regresion Logística:

In [9]:
model = LogisticRegression()
model.fit(x_train, y_train)

LogisticRegression()

#### Métricas de desempeño:

In [10]:
y_pred = model.predict(x_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("MSE:", mse)
print("R²:", r2)

MSE: 0.16455696202531644
R²: 0.23925925925925906


#### Cross-Validation:

In [11]:
scores = cross_val_score(model, x_train, y_train, cv=5)

In [12]:
scores

array([0.97297297, 0.89189189, 0.88888889, 0.83333333, 0.80555556])

In [13]:
scores.mean()

0.8785285285285285

In [14]:
scores.std()

0.057573136247461104

#### 2.- SVM: 

In [15]:
model = SVR(kernel='linear')
model.fit(x_train, y_train)

SVR(kernel='linear')

#### Métricas de desempeño

In [16]:
y_pred = model.predict(x_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("MSE:", mse)
print("R²:", r2)

MSE: 0.1582552901749002
R²: 0.2683916548284797


#### Cross-Validation:

In [17]:
scores = cross_val_score(model, x_train, y_train, cv=5)

In [18]:
scores

array([0.69089107, 0.58405009, 0.47991052, 0.38444358, 0.46557812])

In [19]:
scores.mean()

0.5209746758340791

In [20]:
scores.std()

0.10606212718256793

#### 3.- Naive Bayes:

In [21]:
model = GaussianNB()
model.fit(x_train, y_train)

GaussianNB()

#### Matríz de confusión

#### Métricas de desempeño

In [29]:
class_report = classification_report(y_test, y_pred)

print('Informe de clasificación:')
print(class_report)

Informe de clasificación:
              precision    recall  f1-score   support

           0       0.88      0.85      0.87        54
           1       0.70      0.76      0.73        25

    accuracy                           0.82        79
   macro avg       0.79      0.81      0.80        79
weighted avg       0.83      0.82      0.82        79



#### Cross-Validation:

In [23]:
scores = cross_val_score(model, x_train, y_train, cv=5)

In [None]:
scores

In [None]:
scores.mean()

In [None]:
scores.std()

#### 4.- LDA

In [24]:
lda = LinearDiscriminantAnalysis()
lda.fit(x_train, y_train)


LinearDiscriminantAnalysis()

#### Matríz de confusión

In [25]:
y_pred = lda.predict(x_test)

print('Accuracy:', accuracy_score(y_test, y_pred))
print('Confusion matrix:\n', confusion_matrix(y_test, y_pred))

Accuracy: 0.8227848101265823
Confusion matrix:
 [[46  8]
 [ 6 19]]


#### Métricas de desempeño

In [28]:
class_report = classification_report(y_test, y_pred)

print('Informe de clasificación:')
print(class_report)

Informe de clasificación:
              precision    recall  f1-score   support

           0       0.88      0.85      0.87        54
           1       0.70      0.76      0.73        25

    accuracy                           0.82        79
   macro avg       0.79      0.81      0.80        79
weighted avg       0.83      0.82      0.82        79



#### Cross-Validation:

In [27]:
scores = cross_val_score(lda, x_train, y_train, cv=5)

In [None]:
scores

In [None]:
scores.mean()

In [None]:
scores.std()

#### 5.- QDA

In [33]:
qda = QuadraticDiscriminantAnalysis()
qda.fit(x_train, y_train)

QuadraticDiscriminantAnalysis()

#### Matríz de confusión

In [34]:
y_pred = qda.predict(x_test)

print('Accuracy:', accuracy_score(y_test, y_pred))
print('Confusion matrix:\n', confusion_matrix(y_test, y_pred))

Accuracy: 0.7848101265822784
Confusion matrix:
 [[43 11]
 [ 6 19]]


#### Métricas de desempeño

In [35]:
class_report = classification_report(y_test, y_pred)

print('Informe de clasificación:')
print(class_report)

Informe de clasificación:
              precision    recall  f1-score   support

           0       0.88      0.80      0.83        54
           1       0.63      0.76      0.69        25

    accuracy                           0.78        79
   macro avg       0.76      0.78      0.76        79
weighted avg       0.80      0.78      0.79        79



#### Cross-Validation:

In [36]:
scores = cross_val_score(model, x_train, y_train, cv=5)

In [37]:
scores

array([0.89189189, 0.83783784, 0.80555556, 0.83333333, 0.83333333])

In [38]:
scores.mean()

0.8403903903903904

In [39]:
scores.std()

0.028185066996642184