In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score

# Pregunta #6

In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder

# Cargar los datos
df = pd.read_csv("train.csv")  # Cambia el nombre si es diferente

# Variable objetivo
y = df["SalePrice"]

# 🔸 Eliminar columnas no numéricas o convertirlas a números
df_numeric = df.select_dtypes(include=[np.number])

# 🔸 Opcional: Eliminar la columna Id si no aporta al modelo
if "Id" in df_numeric.columns:
    df_numeric = df_numeric.drop("Id", axis=1)

# 🔸 Separar las características (X)
X = df_numeric.drop("SalePrice", axis=1)

# 🔸 Imputar NaN con la media
imputer = SimpleImputer(strategy="mean")
X_imputed = imputer.fit_transform(X)

# 🔸 Binarizar y: por ejemplo, casas caras vs. baratas
# Aquí hacemos clasificación, no regresión → convertimos SalePrice a 0 o 1
y_binary = (y > y.median()).astype(int)  # 1 = caro, 0 = barato

# 🔸 Separar datos
X_train, X_test, y_train, y_test = train_test_split(X_imputed, y_binary, test_size=0.2, random_state=42)

# 🔸 Entrenar modelo de regresión logística
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# 🔸 Evaluación
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

print(f"Precisión en entrenamiento: {accuracy_score(y_train, y_pred_train):.2f}")
print(f"Precisión en prueba: {accuracy_score(y_test, y_pred_test):.2f}")
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred_test))


Precisión en entrenamiento: 0.90
Precisión en prueba: 0.92
Matriz de confusión:
[[147  14]
 [  8 123]]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


# Pregunta 7

In [6]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Definir el modelo de regresión logística
model = LogisticRegression(solver='liblinear')  # 'liblinear' es un buen solver para pequeña/muy grande regularización

# Definir el espacio de parámetros a explorar
param_grid = {
    'C': [0.01, 0.1, 1, 10, 100],  # Parámetro de regularización
    'penalty': ['l1', 'l2'],       # Tipo de regularización
    'max_iter': [100, 200, 500]    # Número máximo de iteraciones
}

# Realizar la búsqueda de los mejores parámetros utilizando GridSearchCV
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Mostrar los mejores parámetros encontrados
print(f"Mejores parámetros: {grid_search.best_params_}")

# Evaluar el modelo con los mejores parámetros
best_model = grid_search.best_estimator_

# Precisión en entrenamiento
train_accuracy = accuracy_score(y_train, best_model.predict(X_train))
print(f"Precisión en entrenamiento: {train_accuracy:.2f}")

# Precisión en prueba
test_accuracy = accuracy_score(y_test, best_model.predict(X_test))
print(f"Precisión en prueba: {test_accuracy:.2f}")

# Matriz de confusión
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, best_model.predict(X_test))
print("Matriz de confusión:")
print(cm)




Mejores parámetros: {'C': 10, 'max_iter': 500, 'penalty': 'l1'}
Precisión en entrenamiento: 0.92
Precisión en prueba: 0.93
Matriz de confusión:
[[150  11]
 [  8 123]]
