In [8]:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
from tabulate import tabulate
from joblib import dump

# Carga de datos y preprocesamiento
df_wdbc = pd.read_csv('data.csv')
df_wdbc.drop(['Unnamed: 32', 'id'], axis=1, inplace=True)
df_wdbc.diagnosis.replace({"M": 1, "B": 0}, inplace=True)

X = df_wdbc.drop('diagnosis', axis=1)
y = df_wdbc['diagnosis']

# Estandarizamos los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Crea una instancia de PCA y especifica el número de componentes deseados
pca3 = PCA(n_components=1)

# Aplica PCA a los datos estandarizados
X_pca3 = pca3.fit_transform(X_scaled)

# Dividir los datos en conjunto de entrenamiento y conjunto de prueba
X_train, X_test, y_train, y_test = train_test_split(X_pca3, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo de regresión logística
modelo = LogisticRegression()
modelo.fit(X_train, y_train)

# Validación cruzada
scores = cross_val_score(modelo, X_train, y_train, cv=10)
mean_score = scores.mean()
print("Puntajes de validación cruzada:", scores)
print("Precisión media:", mean_score)

# Obtener las predicciones en el conjunto de prueba
y_pred = modelo.predict(X_test)

# Calcular las métricas de evaluación
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Imprimir las métricas de evaluación
print("\nMétricas de evaluación:")
print("------------------------")
print("\tAccuracy:", accuracy)
print("\tPrecisión:", precision)
print("\tRecall:", recall)
print("\tF1-score:", f1)

# Crear la matriz de confusión
confusion_matrix = confusion_matrix(y_test, y_pred)

# Imprimir la matriz de confusión
print("\nMatriz de confusión:")
print(confusion_matrix)

# Guardar el modelo entrenado en un archivo .joblib
dump(modelo, 'modelo_entrenado2.joblib')

Puntajes de validación cruzada: [0.875      0.925      0.925      0.925      0.9        0.875
 0.925      0.925      0.94871795 0.87179487]
Precisión media: 0.9095512820512821

Métricas de evaluación:
------------------------
	Accuracy: 0.9181286549707602
	Precisión: 0.9016393442622951
	Recall: 0.873015873015873
	F1-score: 0.8870967741935485

Matriz de confusión:
[[102   6]
 [  8  55]]


['modelo_entrenado2.joblib']