## Regresión logística

<div style="text-align: justify"> 
La regresión logística a diferencia de la regresión lineal no busca predecir un valor numérico, sino que determina la probabilidad de pertenecer de una categoría de acuerdo a los valores de las variables independientes. Otro elemento que diferencia a estas dos regresiones es el supuesto de normalidad, donde la regresión logística estima la probabilidad de ocurrencia de un acontecimiento siguiendo una distribución de probabilidad binomial.
</div>
    
$$odds=\frac{\text{Probabilidad de éxito}}{\text{Probabilidad de fracaso}}\$$\\


<div style="text-align: justify">
La regresión logística se basa en el logaritmo natural de este cociente, como se muestra en la ecuación, en la que los valores positivos de beta aumentan la probabilidad de ocurrencia
</div>
    
$$\ln(\frac{P}{1-P})= \beta_{0} +\beta_{1}x_{1}+\beta_{2}x_{2}+\beta_{3}x_{3} $$



### Importar módulos/ paquetes

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

### Cargar y preparar conjunto de datos para ajuste del modelo de regresión

In [None]:
r = "Automobile per gallon.csv"
datos = pd.read_csv(r,sep=",",index_col=0)

# Nombre de las variables dependientes e independientes
nombres = ['mpg', 'cyl', 'displ', 'hp', 'weight', 'accel', 'yr', 'size',"origin"]  

In [35]:
datos.info

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr,size
count,392.0,392.0,392.0,392.0,392.0,392.0,392.0,392.0
mean,23.445918,5.471939,194.41199,104.469388,2977.584184,15.541327,75.979592,26.62681
std,7.805007,1.705783,104.644004,38.49116,849.40256,2.758864,3.683737,15.20831
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0,7.227136
25%,17.0,4.0,105.0,75.0,2225.25,13.775,73.0,13.754831
50%,22.75,4.0,151.0,93.5,2803.5,15.5,76.0,21.83229
75%,29.0,8.0,275.75,126.0,3614.75,17.025,79.0,36.29563
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0,73.387778


In [None]:
X = datos.drop(["name","color","marker","origin"],axis=1).values    # Se especifican las variables independientes
y = datos["origin"].values                  # Se especifica la variable dependiente

# Se realiza la partición del conjunto de observaciones en un subconjunto para prueba y otro para
# entrenamiento. En este caso 80/20

# Particionar datos de prueba y entrenamiento
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)

In [None]:
# Como parte del pre-procesamiento se escalan o normalizan las observaciones 

scaler = preprocessing.StandardScaler().fit(X_train) 

X_train_scaled = scaler.transform(X_train) # Se escalan las observaciones de entrenamiento

X_test_scaled = scaler.transform(X_test)   # Se escalan las observaciones de prueba

### Entrenamiento del modelo

In [None]:
logreg = LogisticRegression(max_iter=100) 
logreg.fit(X_train_scaled,y_train)        # Se ajusta el modelo con los datos de entrenamiento

In [None]:
# Se crea un data frame para visualizar los datos para cada regresión 

coef = pd.DataFrame(logreg.coef_, columns=nombres[:-1])
print("Coeficientes de regresión: \n")
coef

### Prueba y evaluación de desempeño del modelo

In [None]:
predict = logreg.predict(X_test_scaled)   # Pronósticar nuevas observaciones. Se usan datos de prueba

print(confusion_matrix(y_test,predict))       # Imprimir la matriz de confusión
print(classification_report(y_test,predict))  # Imprimir un reporte de clasificación

In [None]:
plt.hist([y_test,predict],label=["Valor pronosticado","Valor real"]) # Histograma de valores pronosticados
plt.title("Valor observado vs pronóstico")
plt.ylabel('Frecuencia')
plt.xlabel("Clase")
plt.legend(loc=0)
plt.show()

### Selección de características

In [32]:
rfe = RFE(logreg)
ref = rfe.fit(X_train_scaled,y_train)
car = pd.DataFrame(ref.ranking_,index=nombres[:-1],columns=["Importancia"])
print("Listado de las variables:")
print(car.sort_values(by="Importancia"))

Listado de las variables:
        Importancia
displ             1
hp                1
weight            1
size              1
mpg               2
yr                3
cyl               4
accel             5


Incluyendo las variable identificadas como influyentes

In [None]:
Best = ref.ranking_ == 1  # Se seleccionan las variables consideradas como las mejores

K=[]                      # Se crea una variable para almacenar las que fueron identificadas como las mejores
for i in range(0,len(X)):
    K.append(X[i][Best])
X_new = np.asarray(K)

X_train2,X_test2 = train_test_split(X_new,test_size=0.2, random_state=1234)
scaler2 = preprocessing.StandardScaler().fit(X_train2)
X_train_scaled2 = scaler2.transform(X_train2)
X_test_scaled2 = scaler2.transform(X_test2)
X_test_scaled2

# Predicción con los mejores

logreg2 = LogisticRegression()
logreg2.fit(X_train_scaled2,y_train)

predict2=logreg2.predict(X_test_scaled2)
print(confusion_matrix(y_test,predict2))
print(classification_report(y_test,predict2))

In [None]:
plt.hist([y_test,predict2],label=["Valor pronosticado","Valor real"])
plt.title("Valor observado vs pronóstico")
plt.ylabel('error')
plt.legend(loc=0)
plt.show()