In [170]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler

In [171]:
df = pd.read_csv('../df_cleaned.csv')

In [172]:
df.drop(columns='Unnamed: 0', inplace=True)

In [173]:
df.drop('index', axis=1, inplace=True)

In [174]:
df.replace({'<NA>':np.nan}, inplace=True)

In [175]:
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,label
0,51,1,1,125.0,213.0,0.0,2.0,125.0,1.0,1.4,1.0,1.0,3.0,0.0
1,54,1,3,120.0,237.0,0.0,0.0,150.0,1.0,1.5,,,7.0,2.0
2,63,1,4,140.0,0.0,,2.0,149.0,0.0,2.0,1.0,,,2.0
3,52,0,2,140.0,,0.0,0.0,140.0,0.0,0.0,,,,0.0
4,55,1,4,140.0,217.0,0.0,0.0,111.0,1.0,5.6,3.0,0.0,7.0,3.0


In [176]:
# Se podría probar a hacer un balanceo de la variable 'sex': 
df.sex.value_counts()

sex
1    722
0    194
Name: count, dtype: int64

In [177]:
# Definir columnas numéricas y categóricas
numeric_cols = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']
categorical_cols = ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal', 'label']

# Convertir '<NA>' a NaN
df.replace('<NA>', np.nan, inplace=True)

# Convertir columnas numéricas a tipo float
df[numeric_cols] = df[numeric_cols].astype(float)

# Convertir columnas categóricas a tipo categórico
df[categorical_cols] = df[categorical_cols].astype('category')

# Imputación para variables numéricas (usando la media)
numeric_imputer = SimpleImputer(strategy='mean')
df[numeric_cols] = numeric_imputer.fit_transform(df[numeric_cols])

# Imputación para variables categóricas (usando la moda)
categorical_imputer = SimpleImputer(strategy='most_frequent')
df[categorical_cols] = categorical_imputer.fit_transform(df[categorical_cols])

# Verificar que ya no hay valores faltantes
print(df.isnull().sum())


age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          0
thal        0
label       0
dtype: int64


In [178]:
# Variables tratadas con one-hot encoding
categorical_variables = ['cp', 'restecg', 'slope', 'thal', 'ca']

# Aplicar one-hot encoding a las variables categóricas
df = pd.get_dummies(df, columns=categorical_variables, drop_first=True)

# Mostrar el DataFrame con las variables codificadas
print(df.head())

    age  sex  trestbps        chol  fbs  thalach  exang  oldpeak  label  \
0  51.0  1.0     125.0  213.000000  0.0    125.0    1.0      1.4    0.0   
1  54.0  1.0     120.0  237.000000  0.0    150.0    1.0      1.5    2.0   
2  63.0  1.0     140.0    0.000000  0.0    149.0    0.0      2.0    2.0   
3  52.0  0.0     140.0  199.146727  0.0    140.0    0.0      0.0    0.0   
4  55.0  1.0     140.0  217.000000  0.0    111.0    1.0      5.6    3.0   

   cp_2.0  ...  cp_4.0  restecg_1.0  restecg_2.0  slope_2.0  slope_3.0  \
0   False  ...   False        False         True      False      False   
1   False  ...   False        False        False       True      False   
2   False  ...    True        False         True      False      False   
3    True  ...   False        False        False       True      False   
4   False  ...    True        False        False      False       True   

   thal_6.0  thal_7.0  ca_1.0  ca_2.0  ca_3.0  
0     False     False    True   False   False  
1     Fa

In [179]:
# Selecciona solo las características numéricas
numeric_data = df[['trestbps', 'chol', 'thalach', 'oldpeak', 'age']]

# Inicializa el escalador Min-Max
scaler = MinMaxScaler()

# Escala las características numéricas
scaled_numeric_data = scaler.fit_transform(numeric_data) 

# Crea un nuevo DataFrame con las características escaladas
scaled_data = pd.DataFrame(scaled_numeric_data, columns=['trestbps', 'chol', 'thalach', 'oldpeak', 'age'])

# Reemplaza las características originales con las características escaladas en tu DataFrame
df[['trestbps', 'chol', 'thalach', 'oldpeak', 'age']] = scaled_data

In [180]:
df.head()

Unnamed: 0,age,sex,trestbps,chol,fbs,thalach,exang,oldpeak,label,cp_2.0,...,cp_4.0,restecg_1.0,restecg_2.0,slope_2.0,slope_3.0,thal_6.0,thal_7.0,ca_1.0,ca_2.0,ca_3.0
0,0.469388,1.0,0.625,0.353234,0.0,0.457746,1.0,0.454545,0.0,False,...,False,False,True,False,False,False,False,True,False,False
1,0.530612,1.0,0.6,0.393035,0.0,0.633803,1.0,0.465909,2.0,False,...,False,False,False,True,False,False,True,False,False,False
2,0.714286,1.0,0.7,0.0,0.0,0.626761,0.0,0.522727,2.0,False,...,True,False,True,False,False,False,False,False,False,False
3,0.489796,0.0,0.7,0.33026,0.0,0.56338,0.0,0.295455,0.0,True,...,False,False,False,True,False,False,False,False,False,False
4,0.55102,1.0,0.7,0.359867,0.0,0.359155,1.0,0.931818,3.0,False,...,True,False,False,False,True,False,True,False,False,False


In [181]:
# Separación de train y test
train_end = df[0:732]
test_end = df[(916-184):]

# Modelos

### Random Forest

In [182]:
from sklearn.metrics import accuracy_score, f1_score
from sklearn.ensemble import RandomForestClassifier

# Identificar la variable objetivo y las características para el entrenamiento
target_column = 'label'  # Nombre real de la variable objetivo
features_train = train_end.drop(columns=[target_column])
target_train = train_end[target_column]

# Identificar las características para la predicción en el conjunto de prueba
features_test = test_end.drop(columns=[target_column])

# Inicializar el modelo de Random Forest para clasificación con los parámetros especificados
model = RandomForestClassifier(n_estimators=50, max_depth=10, min_samples_split=5,
                               min_samples_leaf=2, max_features=None, random_state=20)

# Entrenar el modelo con los datos de entrenamiento
model.fit(features_train, target_train)

# Predecir las clases en el conjunto de prueba
predicted_classes = model.predict(features_test)

# Crear un nuevo DataFrame con las clases predichas
predicted_df = test_end.copy()
predicted_df[target_column] = predicted_classes

# Calcular el accuracy del modelo
accuracy = accuracy_score(test_end[target_column], predicted_classes)
print("Accuracy del modelo:", accuracy)

# Calcular el F1-score del modelo
f1 = f1_score(test_end[target_column], predicted_classes, average='weighted')
print("F1-score del modelo:", f1)


Accuracy del modelo: 0.45108695652173914
F1-score del modelo: 0.6217228464419475


In [183]:
predicted_df['index'] = predicted_df.index

In [184]:

predicted_df.reset_index(inplace=True)

In [185]:
predicted_df.drop(columns=['index'], inplace=True)

# Renombrar la columna 'level_0' a 'index'
predicted_df.rename(columns={'level_0': 'index'}, inplace=True)

predicted_df['ID'] = range(len(predicted_df))
# Guardar las columnas 'index' y 'label' en un archivo CSV
predicted_df[['ID', 'label']].to_csv('try1000_data.csv', index=False)

In [186]:
try1000_df = pd.read_csv('try1000_data.csv')

In [187]:
try1000_df['label'].value_counts()

label
0.0    83
1.0    43
3.0    31
2.0    26
4.0     1
Name: count, dtype: int64

In [188]:
try11_df = pd.read_csv('try11_data.csv')

In [189]:
try10_df = pd.read_csv('try10_data.csv')

In [190]:
differences = try1000_df['label'].compare(try11_df['label'])
differences = differences[differences['self'] != differences['other']]

# Calcular la suma de cuántos valores cambian
num_differences = differences.shape[0]

print("Número de valores que cambian:", num_differences)


Número de valores que cambian: 59


In [191]:
differences = try600_df['label'].compare(try11_df['label'])
differences = differences[differences['self'] != differences['other']]

print(differences)

     self  other
0     4.0    2.0
7     1.0    2.0
8     1.0    3.0
16    2.0    3.0
17    1.0    2.0
27    2.0    3.0
30    1.0    3.0
39    1.0    2.0
40    1.0    0.0
50    0.0    2.0
54    2.0    1.0
57    2.0    1.0
59    1.0    0.0
60    1.0    2.0
61    2.0    1.0
69    1.0    0.0
73    2.0    3.0
84    1.0    2.0
90    3.0    0.0
94    2.0    0.0
95    2.0    3.0
97    3.0    2.0
98    0.0    1.0
101   0.0    1.0
107   0.0    1.0
109   1.0    0.0
112   3.0    1.0
113   3.0    0.0
115   0.0    1.0
116   2.0    1.0
119   0.0    1.0
122   2.0    3.0
125   3.0    1.0
138   2.0    3.0
142   3.0    0.0
145   3.0    2.0
148   1.0    3.0
153   1.0    3.0
154   1.0    3.0
164   3.0    1.0
170   0.0    1.0
172   1.0    0.0
175   3.0    2.0


In [192]:
import xgboost as xgb
from sklearn.metrics import accuracy_score, f1_score
from sklearn.impute import SimpleImputer
import pandas as pd

# Identificar la variable objetivo y las características para el entrenamiento
target_column = 'label'  # Nombre real de la variable objetivo
features_train = train_end.drop(columns=[target_column])
target_train = train_end[target_column]

# Identificar las características para la predicción en el conjunto de prueba
features_test = test_end.drop(columns=[target_column])

# Definir los hiperparámetros del modelo XGBoost
params = {
    'objective': 'multi:softmax',  # Problema de clasificación multiclase
    'num_class': 5,                 # Número de clases
    'eval_metric': 'mlogloss',      # Métrica de evaluación para clasificación multiclase
    'eta': 0.3,                     # Tasa de aprendizaje
    'max_depth': 6,                 # Profundidad máxima del árbol ajustada
    'subsample': 0.8,               # Submuestreo de filas
    'colsample_bytree': 0.6,        # Submuestreo de columnas
    'seed': 42                      # Semilla para reproducibilidad
}

# Imputar valores faltantes si es necesario
imputer = SimpleImputer(strategy='mean')
features_train_imputed = imputer.fit_transform(features_train)
features_test_imputed = imputer.transform(features_test)

# Crear un objeto DMatrix para los datos de entrenamiento y prueba
dtrain = xgb.DMatrix(features_train_imputed, label=target_train)
dtest = xgb.DMatrix(features_test_imputed)

# Entrenar el modelo
num_rounds = 75  # Número de rondas de entrenamiento
model = xgb.train(params, dtrain, num_rounds)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(dtest)

# Calcular la precisión del modelo (accuracy score)
accuracy = accuracy_score(test_end[target_column], y_pred)
print("Accuracy del modelo:", accuracy)

# Calcular el F1-score del modelo
f1 = f1_score(test_end[target_column], y_pred, average='weighted')
print("F1-score del modelo:", f1)

# Crear un nuevo DataFrame con las clases predichas
predicted_df = test_end.copy()
predicted_df[target_column] = y_pred

# Agregar una columna 'ID' y resetear el índice
predicted_df.reset_index(inplace=True)
predicted_df['ID'] = range(len(predicted_df))

# Eliminar la columna 'index'
predicted_df.drop(columns=['index'], inplace=True)

# Guardar las columnas 'ID' y 'label' en un archivo CSV
predicted_df[['ID', 'label']].to_csv('try3000_data.csv', index=False)



Accuracy del modelo: 0.532608695652174
F1-score del modelo: 0.6950354609929078


In [193]:
try3000_df = pd.read_csv('try3000_data.csv')

In [194]:
try3000_df['label'].value_counts()

label
0.0    98
1.0    33
2.0    29
3.0    22
4.0     2
Name: count, dtype: int64

In [218]:
try700_df = pd.read_csv('try700_data.csv')

In [219]:
try800_df = pd.read_csv('try800_data.csv')

In [220]:
differences = try700_df['label'].compare(try800_df['label'])
differences = differences[differences['self'] != differences['other']]

# Calcular la suma de cuántos valores cambian
num_differences = differences.shape[0]

print("Número de valores que cambian:", num_differences)


Número de valores que cambian: 47


In [198]:
# from sklearn.metrics import accuracy_score, f1_score
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.impute import SimpleImputer
# from sklearn.model_selection import GridSearchCV

# # Identificar la variable objetivo y las características para el entrenamiento
# target_column = 'label'  # Nombre real de la variable objetivo
# features_train = train_end.drop(columns=[target_column])
# target_train = train_end[target_column]

# # Identificar las características para la predicción en el conjunto de prueba
# features_test = test_end.drop(columns=[target_column])

# # Inicializar el modelo de Random Forest para clasificación
# model = RandomForestClassifier(random_state=20)

# # Definir los hiperparámetros a buscar
# param_grid = {
#     'n_estimators': [50, 100, 150],  # Número de árboles en el bosque
#     'max_depth': [10, 20, 30],      # Profundidad máxima de los árboles
#     'min_samples_split': [2, 5, 10],   # Número mínimo de muestras requeridas para dividir un nodo interno
#     'min_samples_leaf': [1, 2, 4],     # Número mínimo de muestras requeridas para ser una hoja
#     'max_features': ['sqrt', 'log2', None]  # Número máximo de características consideradas para dividir un nodo
# }

# # Realizar la búsqueda en cuadrícula con validación cruzada
# grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='f1_weighted', n_jobs=-1)
# grid_search.fit(features_train, target_train)

# # Obtener el mejor modelo y sus hiperparámetros
# best_model = grid_search.best_estimator_
# best_params = grid_search.best_params_

# # Imprimir los mejores hiperparámetros encontrados
# print("Mejores hiperparámetros encontrados:")
# print(best_params)

# # Predecir las clases de las variables categóricas faltantes en el conjunto de prueba
# predicted_classes = best_model.predict(features_test)

# # Calcular el accuracy del modelo
# accuracy = accuracy_score(test_end[target_column], predicted_classes)
# print("Accuracy del modelo:", accuracy)

# # Calcular el F1-score del modelo
# f1 = f1_score(test_end[target_column], predicted_classes, average='weighted')
# print("F1-score del modelo:", f1)


In [199]:
# predicted_df.drop(columns=['index'], inplace=True)

# # Renombrar la columna 'level_0' a 'index'
# predicted_df.rename(columns={'level_0': 'index'}, inplace=True)

# predicted_df['ID'] = range(len(predicted_df))
# # Guardar las columnas 'index' y 'label' en un archivo CSV
# predicted_df[['ID', 'label']].to_csv('try500_data.csv', index=False)

In [200]:
# try500_df = pd.read_csv('try500_data.csv')

In [201]:
# try500_df['label'].value_counts()

### XG Boost

In [202]:
# import numpy as np
# import pandas as pd
# from sklearn.model_selection import train_test_split, GridSearchCV
# from sklearn.metrics import accuracy_score, f1_score
# import xgboost as xgb

# # Dividir los datos en características (X) y variable objetivo (y)
# X = df.drop(columns=['label'])  # Características
# y = df['label']  # Variable objetivo

# # Dividir los datos en conjuntos de entrenamiento y prueba
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# # Definir el número de clases en la variable objetivo
# num_classes = len(np.unique(y))

# # Crear un objeto DMatrix para los datos de entrenamiento y prueba
# dtrain = xgb.DMatrix(X_train, label=y_train)
# dtest = xgb.DMatrix(X_test, label=y_test)

# # Definir los parámetros iniciales del modelo XGBoost
# params = {
#     'objective': 'multi:softmax',  # Problema de clasificación multiclase
#     'eval_metric': 'mlogloss',  # Métrica de evaluación
#     'eta': 0.1,  # Tasa de aprendizaje
#     'max_depth': 6,  # Profundidad máxima del árbol
#     'subsample': 0.8,  # Submuestreo de filas
#     'colsample_bytree': 0.8,  # Submuestreo de columnas
#     'seed': 42,  # Semilla para reproducibilidad
#     'num_class': num_classes  # Número de clases en la clasificación multiclase
# }

# # Definir los hiperparámetros a buscar en la cuadrícula
# param_grid = {
#     'eta': [0.01, 0.1, 0.3],  # Tasa de aprendizaje
#     'max_depth': [3, 6, 9],  # Profundidad máxima del árbol
#     'subsample': [0.6, 0.8, 1.0],  # Submuestreo de filas
#     'colsample_bytree': [0.6, 0.8, 1.0]  # Submuestreo de columnas
# }

# # Inicializar el clasificador XGBoost
# xgb_model = xgb.XGBClassifier(objective='multi:softmax', num_class=num_classes, seed=42)

# # Realizar búsqueda en cuadrícula
# grid_search = GridSearchCV(estimator=xgb_model, param_grid=param_grid, cv=3, scoring='f1_weighted', verbose=2)
# grid_search.fit(X_train, y_train)

# # Obtener los mejores hiperparámetros encontrados
# best_params = grid_search.best_params_
# print("Mejores hiperparámetros encontrados:", best_params)

# # Entrenar el modelo con los mejores hiperparámetros encontrados
# best_model = grid_search.best_estimator_
# best_model.fit(X_train, y_train)

# # Realizar predicciones en el conjunto de prueba
# y_pred = best_model.predict(X_test)

# # Calcular la precisión del modelo (accuracy score)
# accuracy = accuracy_score(y_test, y_pred)
# print("Precisión del modelo:", accuracy)

# # Calcular el F1-score del modelo
# f1 = f1_score(y_test, y_pred, average='weighted')
# print("El F1-score del modelo es:", f1)

