In [65]:

# Importación de las bibliotecas necesarias
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score
from matplotlib.colors import ListedColormap


In [66]:
# Cargando el dataset
dataset = pd.read_csv('Social_Network_Ads.csv')  # Lee el archivo CSV con los datos
X = dataset.iloc[:, [2,3]].values  # Extrae las características (Edad, Salario Estimado)
# :, :-1 significa todas las filas y todas las columnas excepto la última
# :, -1 significa todas las filas y la última columna
y = dataset.iloc[:, -1].values  # Extrae la variable objetivo (Compra o No Compra)


In [67]:
# Dividiendo el dataset en conjunto de entrenamiento y conjunto de prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25)
print("Conjunto de entrenamiento (X_train):")
print(X_train)
print("Etiquetas de entrenamiento (y_train):")
print(y_train)
print("Conjunto de prueba (X_test):")
print(X_test)
print("Etiquetas de prueba (y_test):")
print(y_test)


Conjunto de entrenamiento (X_train):
[[4.70e+01 3.00e+04]
 [6.00e+01 4.20e+04]
 [4.10e+01 5.20e+04]
 [3.70e+01 7.00e+04]
 [3.70e+01 8.00e+04]
 [5.40e+01 2.60e+04]
 [2.70e+01 5.70e+04]
 [4.50e+01 4.50e+04]
 [2.90e+01 1.48e+05]
 [3.80e+01 7.10e+04]
 [6.00e+01 8.30e+04]
 [3.10e+01 6.60e+04]
 [1.80e+01 4.40e+04]
 [2.30e+01 4.80e+04]
 [2.90e+01 6.10e+04]
 [5.90e+01 7.60e+04]
 [2.80e+01 7.90e+04]
 [4.80e+01 3.00e+04]
 [4.80e+01 1.41e+05]
 [3.10e+01 7.40e+04]
 [3.20e+01 1.00e+05]
 [3.00e+01 4.90e+04]
 [3.10e+01 3.40e+04]
 [4.00e+01 7.20e+04]
 [3.70e+01 6.20e+04]
 [3.70e+01 3.30e+04]
 [3.20e+01 1.17e+05]
 [4.10e+01 6.00e+04]
 [1.90e+01 2.50e+04]
 [4.50e+01 3.20e+04]
 [4.70e+01 4.70e+04]
 [2.60e+01 1.70e+04]
 [4.70e+01 5.10e+04]
 [3.30e+01 4.30e+04]
 [4.80e+01 1.19e+05]
 [2.90e+01 2.80e+04]
 [5.00e+01 8.80e+04]
 [2.00e+01 8.20e+04]
 [3.10e+01 7.10e+04]
 [2.70e+01 8.40e+04]
 [2.30e+01 8.20e+04]
 [4.20e+01 5.40e+04]
 [2.60e+01 5.20e+04]
 [5.50e+01 1.25e+05]
 [5.30e+01 8.20e+04]
 [2.80e+01 1.23e+0

In [68]:
# Escalado de características (Feature Scaling)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)  # Ajuste y transformación para el conjunto de entrenamiento
X_test = sc.transform(X_test)  # Transformación para el conjunto de prueba
print("Conjunto de entrenamiento escalado (X_train):")
print(X_train)
print("Conjunto de prueba escalado (X_test):")
print(X_test)


Conjunto de entrenamiento escalado (X_train):
[[ 0.95121056 -1.17760066]
 [ 2.2121627  -0.8194254 ]
 [ 0.36923265 -0.52094602]
 [-0.01875262  0.01631687]
 [-0.01875262  0.31479626]
 [ 1.63018479 -1.29699242]
 [-0.9887158  -0.37170633]
 [ 0.75721792 -0.72988159]
 [-0.79472317  2.34445607]
 [ 0.0782437   0.04616481]
 [ 2.2121627   0.40434007]
 [-0.60073053 -0.10307488]
 [-1.86168267 -0.75972953]
 [-1.37670108 -0.64033777]
 [-0.79472317 -0.25231457]
 [ 2.11516638  0.1954045 ]
 [-0.89171948  0.28494832]
 [ 1.04820688 -1.17760066]
 [ 1.04820688  2.1355205 ]
 [-0.60073053  0.13570863]
 [-0.50373421  0.91175502]
 [-0.69772685 -0.61048983]
 [-0.60073053 -1.05820891]
 [ 0.27223633  0.07601275]
 [-0.01875262 -0.22246663]
 [-0.01875262 -1.08805685]
 [-0.50373421  1.41916998]
 [ 0.36923265 -0.28216251]
 [-1.76468635 -1.32684036]
 [ 0.75721792 -1.11790479]
 [ 0.95121056 -0.67018571]
 [-1.08571212 -1.56562386]
 [ 0.95121056 -0.55079396]
 [-0.40673789 -0.78957746]
 [ 1.04820688  1.47886585]
 [-0.7947

In [69]:

# Entrenando el modelo de Regresión Logística sobre el conjunto de entrenamiento
classifier = LogisticRegression(random_state = 0)
classifier.fit(X_train, y_train)  # Ajusta el modelo a los datos de entrenamiento

# Predicción de un nuevo resultado (Ejemplo: Edad = 30, Salario = 87000)
resultado = classifier.predict(sc.transform([[30, 87000]]))  # Predice si comprará o no
print(f"Predicción para edad 30 y salario 87000: {resultado}")


Predicción para edad 30 y salario 87000: [0]


In [70]:
# Predicción sobre el conjunto de prueba
y_pred = classifier.predict(X_test)  # Predice las etiquetas para el conjunto de prueba
print("Predicciones sobre el conjunto de prueba:")
print(np.concatenate((y_pred.reshape(len(y_pred), 1), y_test.reshape(len(y_test), 1)), 1))  # Compara las predicciones con las etiquetas reales


Predicciones sobre el conjunto de prueba:
[[0 1]
 [0 1]
 [0 0]
 [0 0]
 [0 0]
 [0 1]
 [1 1]
 [0 0]
 [1 1]
 [1 1]
 [1 0]
 [1 1]
 [0 0]
 [1 0]
 [0 0]
 [1 1]
 [0 1]
 [0 0]
 [0 0]
 [0 1]
 [1 1]
 [0 1]
 [0 0]
 [0 1]
 [0 0]
 [0 0]
 [0 0]
 [1 1]
 [0 0]
 [1 1]
 [1 1]
 [1 1]
 [0 0]
 [1 1]
 [1 1]
 [0 1]
 [0 0]
 [0 1]
 [0 0]
 [0 0]
 [0 0]
 [0 0]
 [0 0]
 [1 0]
 [0 0]
 [1 1]
 [1 1]
 [1 1]
 [0 0]
 [0 0]
 [1 1]
 [0 0]
 [0 0]
 [1 1]
 [1 1]
 [0 0]
 [0 0]
 [1 1]
 [1 1]
 [0 0]
 [1 0]
 [0 0]
 [0 0]
 [1 0]
 [1 1]
 [0 0]
 [1 1]
 [0 0]
 [0 0]
 [1 1]
 [1 1]
 [1 1]
 [0 0]
 [0 0]
 [0 0]
 [0 0]
 [0 0]
 [0 0]
 [1 1]
 [0 0]
 [0 0]
 [0 0]
 [1 1]
 [0 0]
 [1 1]
 [0 0]
 [0 0]
 [0 0]
 [1 1]
 [1 1]
 [0 0]
 [0 0]
 [0 0]
 [0 0]
 [0 1]
 [0 0]
 [0 0]
 [1 1]
 [0 1]
 [0 0]]


In [71]:
# Creando la Matriz de Confusión
cm = confusion_matrix(y_test, y_pred)  # Genera la matriz de confusión
print("Matriz de Confusión:")
print(cm)
print("Precisión del modelo:")
accuracy = accuracy_score(y_test, y_pred)
print(accuracy)  # Muestra la precisión del modelo

Matriz de Confusión:
[[53  5]
 [11 31]]
Precisión del modelo:
0.84


In [72]:
# # Visualización de los resultados en el conjunto de entrenamiento
# X_set, y_set = sc.inverse_transform(X_train), y_train  # Inversa para visualizar en la escala original
# X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 10, stop = X_set[:, 0].max() + 10, step = 0.25),
#                      np.arange(start = X_set[:, 1].min() - 1000, stop = X_set[:, 1].max() + 1000, step = 0.25))
# plt.contourf(X1, X2, classifier.predict(sc.transform(np.array([X1.ravel(), X2.ravel()]).T)).reshape(X1.shape),
#              alpha = 0.75, cmap = ListedColormap(('red', 'green')))
# plt.xlim(X1.min(), X1.max())
# plt.ylim(X2.min(), X2.max())
# for i, j in enumerate(np.unique(y_set)):
#     plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1], c = ListedColormap(('red', 'green'))(i), label = j)
# plt.title('Regresión Logística (Conjunto de Entrenamiento)')
# plt.xlabel('Edad')
# plt.ylabel('Salario Estimado')
# plt.legend()
# plt.show()

In [73]:
# # Visualización de los resultados en el conjunto de prueba
# X_set, y_set = sc.inverse_transform(X_test), y_test  # Inversa para visualizar en la escala original
# X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 10, stop = X_set[:, 0].max() + 10, step = 0.25),
#                      np.arange(start = X_set[:, 1].min() - 1000, stop = X_set[:, 1].max() + 1000, step = 0.25))
# plt.contourf(X1, X2, classifier.predict(sc.transform(np.array([X1.ravel(), X2.ravel()]).T)).reshape(X1.shape),
#              alpha = 0.75, cmap = ListedColormap(('red', 'green')))
# plt.xlim(X1.min(), X1.max())
# plt.ylim(X2.min(), X2.max())
# for i, j in enumerate(np.unique(y_set)):
#     plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1], c = ListedColormap(('red', 'green'))(i), label = j)
# plt.title('Regresión Logística (Conjunto de Prueba)')
# plt.xlabel('Edad')
# plt.ylabel('Salario Estimado')
# plt.legend()
# plt.show()
