# Regresión logística

Para empezar la practica, importamos las librerias que vamos a utilizar durante la practica de regresion lineal

In [1]:
import numpy as np
import pandas as pd
from sklearn import linear_model

Cargamos el dataset

In [149]:
df = pd.read_csv('Social_Network_Ads.csv')
df.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


Visualizamos la forma del dataset

In [150]:
df.shape

(400, 5)

Visualizamos la informacion del dataset

In [122]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   User ID          400 non-null    int64 
 1   Gender           400 non-null    object
 2   Age              400 non-null    int64 
 3   EstimatedSalary  400 non-null    int64 
 4   Purchased        400 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 15.8+ KB


Observamos en la celda anterior que en la columna genero 
contiene valores de tipo string, por lo que vamos a convertirlos a valores numericos

In [151]:
from sklearn.preprocessing import LabelEncoder

# Crear una instancia de LabelEncoder
labelencoder = LabelEncoder()

# Convertir la columna 'Gender' a numérica
df['Gender'] = labelencoder.fit_transform(df['Gender'])

# Ver el resultado
print(df)

      User ID  Gender  Age  EstimatedSalary  Purchased
0    15624510       1   19            19000          0
1    15810944       1   35            20000          0
2    15668575       0   26            43000          0
3    15603246       0   27            57000          0
4    15804002       1   19            76000          0
..        ...     ...  ...              ...        ...
395  15691863       0   46            41000          1
396  15706071       1   51            23000          1
397  15654296       0   50            20000          1
398  15755018       1   36            33000          0
399  15594041       0   49            36000          1

[400 rows x 5 columns]


Extraemos las columnas que usaremos para x,y

In [152]:
x = df[['Gender', 'Age', 'EstimatedSalary']]
y = df['Purchased']

Vemos el contenido de x

In [153]:
x

Unnamed: 0,Gender,Age,EstimatedSalary
0,1,19,19000
1,1,35,20000
2,0,26,43000
3,0,27,57000
4,1,19,76000
...,...,...,...
395,0,46,41000
396,1,51,23000
397,0,50,20000
398,1,36,33000


Vemos el contenido de y

In [156]:
y

0      0
1      0
2      0
3      0
4      0
      ..
395    1
396    1
397    1
398    0
399    1
Name: Purchased, Length: 400, dtype: int64

Dividimos  los datos en datasets de prueba y entrenamiento

In [157]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split (x, y, test_size=0.3, random_state=0)

Entrenamos el clasificador de regresión logística

In [158]:
# Ajustar (entrenar) el clasificador de regresión logística
lgm = linear_model.LogisticRegression(C=1e40, solver='newton-cg')
hw_model = lgm.fit(X_train, Y_train)



Hacemos predicciones sobre el conjunto de prueba

In [159]:
Y_train_pred = hw_model.predict(X_train)
Y_test_pred = hw_model.predict(X_test)

Ingresamos valores de prueba para predecir si la persona compro el producto o no

In [160]:
Gender = 1
Age = 31
EstimatedSalary = 74000

# Predicción
prediction = lgm.predict ([(Gender, Age, EstimatedSalary)])




Imprimimos la prediccion anterior

In [161]:
if prediction[0]==0:
    result = "Compro"
else:
    result = "No Compro"

print("La persona : " + result)

La persona : Compro


### Mostrar los valores de los parámetros
![alt text](https://miro.medium.com/max/2220/1*siWAvCzFy2zp81pDNoa4UA.png)

Imprimimos los valores de los coeficientes y la intersección

In [162]:
# Se tienen 3 valores de theta

# para theta_0
print (hw_model.intercept_)
print(hw_model.coef_)

[-12.1729694]
[[2.73123595e-01 2.26683467e-01 3.41059643e-05]]


## Modelos de clasificación y métricas

Importamos las librebrias para los modelos de clasificacion y las metricas

In [163]:
# Importar modelos y clases de evaluación de rendimiento desde sklearn

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_auc_score

Generamos los modelos de clasificacion y las metricas

In [164]:
print(" Exactitud (Accuracy) {0:.2f}%\n".format(100*
                        accuracy_score(Y_test, Y_test_pred)))

# Muestra la matriz de confusión
print('Matriz de confusión\n')
print(confusion_matrix(Y_test, Y_test_pred))

# tn, fp, fn, tp = confusion_matrix(logreg_prediction, Y_test).ravel()
tn, fp, fn, tp = confusion_matrix(Y_test,Y_test_pred).ravel()
print ("\nVerdaderos negativos: ", tn)
print ("\nFalsos positivos: ",fp)
print ("\nFalsos negativos: ",fn)
print ("\nVerdaderos positivos: ",tp)

 Exactitud (Accuracy) 89.17%

Matriz de confusión

[[74  5]
 [ 8 33]]

Verdaderos negativos:  74

Falsos positivos:  5

Falsos negativos:  8

Verdaderos positivos:  33


Generamos el reporte de clasificacion

In [165]:
# Reporte de clasificación
print(classification_report(Y_test, Y_test_pred))

              precision    recall  f1-score   support

           0       0.90      0.94      0.92        79
           1       0.87      0.80      0.84        41

    accuracy                           0.89       120
   macro avg       0.89      0.87      0.88       120
weighted avg       0.89      0.89      0.89       120



Y por ulimo obtenemos el puntaje de precision

In [166]:
# Obtener el puntaje ROC-AUC
print("Puntaje ROC-AUC Regresión Logística {0:.2f}".
         format(roc_auc_score(Y_test, Y_test_pred)))

Puntaje ROC-AUC Regresión Logística 0.87
