#   Que es Regresion Logistica?

Es una herrramineta estadistica que se usa para describir relaciones lineales entre una variable
y un conjunto de datos (Y,X).
Comunmente es utilizada para respuestas binarias (si ocurre o no ocurre), pero tambien encontramos
regresion logica multinominal

Ejemplos: 
* Clasificar si un correo es spam o no
* A partir de historial bancarios conceder un credito o no
* Predecir si las acciones en la bolsa puede subir o bajar


Formula:

<img src="https://www.revista-portalesmedicos.com/revista-medica/paralisis-facial-variables-predictivas-pronostico-recuperacion/formula-regresion-logistica/">

fuente de imagen:https://www.revista-portalesmedicos.com/revista-medica/paralisis-facial-variables-predictivas-pronostico-recuperacion/4/


# ¿Cómo usar Regresión Logística en Python?

* Importa la librería numérica NumPy <br>
import numpy as np

* Prepara los datos de entrenamiento <br>
X serán los datos de entrada, y los de salida en este ejemplo

* Importa el módulo LogisticRegression de la librería scikit-learn <br>
from sklearn.linear_model import LogisticRegression

* Crea una instancia de la Regresión Logística <br>
regresion_logistica = LogisticRegression()

* Entrena la regresión logística con los datos de entrenamiento <br>
regresion_logistica.fit(X,y)

* Usa el modelo entrenado para obtener las predicciones con datos nuevos <br>
prediccion = regresion_logistica.predict(X_nuevo)

* Opcionalmente, obtén las probabilidades de la predicción <br>
probabilidades_prediccion = regresion_logistica.predict_proba(X_nuevo)


Fuente: https://iartificial.net/como-usar-regresion-logistica-en-python/


In [127]:
import pandas as pd
import os
import numpy as np
from sklearn import linear_model
from sklearn import model_selection
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn import datasets

In [86]:
#Se escribe la ruta donde se encuentran los datos
mainpath= "\\Users\\Luisr\\Documents\\Luis\\Clases\\Inteligencia Artificial\\2Parcial\\ExamenLuisRivera\\titanic"
filename="titanic3.csv"
fullpath= os.path.join(mainpath,filename)

In [87]:
data= pd.read_csv(fullpath)

In [88]:
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [90]:
# Entender los datos
print("Información del dataset")
print(data.keys())

Información del dataset
Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')


In [91]:
#Se obtiene la media de los años, ya que es la edad mas cercana que tenia la mayoria
media=data["age"].mean()
data["age"]=data["age"].fillna(media)
#Se cambian los valores desconocidos
data["sex"]= data["sex"].fillna("Desconocido")
#Se cambian los valores desconocidos
data["survived"]= data["survived"].fillna("Desconocido")
#Se cambian los valores desconocidos
data["pclass"]= data["pclass"].fillna("Desconocido")


In [92]:
# Realizar la separación de los datos de prueba y los datos de entrenamiento
# Un 20% será como train
from sklearn.model_selection import train_test_split

In [93]:
# Ahora escalamos los datos ya que las caracterisitcas son
# completamente distintas en magnitudes, unidades y rangos
# Por lo que lo mejor es escalarlos para llevarlos a un mismo nivel de magnitudes
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2 )

In [94]:
# convertimos los datos de sex en 1 y 0 para que no genere un error al momento de usar "linear_model.LogisticRegression()"
#Esta es parte de la limpieza de datos
data2=pd.get_dummies(data2,columns=["sex"], drop_first=True)

In [95]:
data2.head()

Unnamed: 0,pclass,survived,name,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,sex_male
0,1,1,"Allen, Miss. Elisabeth Walton",29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO",0
1,1,1,"Allison, Master. Hudson Trevor",0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON",1
2,1,0,"Allison, Miss. Helen Loraine",2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",0
3,1,0,"Allison, Mr. Hudson Joshua Creighton",30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON",1
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",0


In [96]:
#Cargamos las columnas en ka variable X  excluyendo las que no necesitamos y dejamos las que usaremos para el modelo que son: sex, age, pclass
X = np.array(data2.drop(["survived", "name","sibsp", "parch", "ticket", "fare", "cabin", "embarked", "boat", "body", "home.dest"],1))
X.shape

(1309, 3)

In [97]:
#Cargamos la columna survuved en la variable Y
y = np.array(data2["survived"])

In [117]:
#Y creamos nuestro modelo y hacemos que se ajuste (fit) a nuestro conjunto de entradas X y salidas ‘y’.
model = linear_model.LogisticRegression()
model.fit(X,y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [118]:
#Una vez compilado nuestro modelo, le hacemos clasificar todo nuestro conjunto de entradas X utilizando el método «predict(X)» y revisamos algunas de sus salidas y vemos que coincide con las salidas reales de nuestro archivo csv.
predictions = model.predict(X)
predictions[0:5]

array([1, 1, 1, 0, 1], dtype=int64)

In [119]:
#Y confirmamos cuan bueno fue nuestro modelo utilizando model.score() que nos devuelve la precisión media de las predicciones, en nuestro caso del 78.5%.
model.score(X,y)

0.7853323147440795

#   Validar nuestro modelo

In [120]:
#Para ello, subdividimos nuestros datos de entrada en forma aleatoria (mezclados) utilizando 80% de registros para entrenamiento y 20% para validar.
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, y, test_size=validation_size, random_state=seed)

In [121]:
#Volvemos a compilar nuestro modelo de Regresión Logística pero esta vez sólo con 80% de los datos de entrada y calculamos el nuevo scoring que ahora nos da 77%.
name='Logistic Regression'
kfold = model_selection.KFold(n_splits=10, random_state=seed)
cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring='accuracy')
msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
print(msg)

Logistic Regression: 0.770788 (0.032101)


In [122]:
#Y ahora hacemos las predicciones -en realidad clasificación- utilizando nuestro «cross validation set», es decir del subconjunto que habíamos apartado. En este caso vemos que los aciertos fueron del 80% pero hay que tener en cuenta que el tamaño de datos era pequeño.
predictions = model.predict(X_validation)
print(accuracy_score(Y_validation, predictions))


0.8015267175572519


# matriz de confusión

In [125]:
#donde muestra cuantos resultados equivocados tuvo de cada clase (los que no están en la diagonal), por ejemplo predijo 
print(confusion_matrix(Y_validation, predictions))

[[135  17]
 [ 35  75]]


<img src="imagenes\Captura.jpg"> 

In [128]:
#También podemos ver el reporte de clasificación con nuestro conjunto de Validación. En nuestro caso vemos que se utilizaron como «soporte» 152 mujeres y 110 hombres. Podemos ver la precisión con que se acertaron cada una de las clases y vemos que por ejemplo con las mujeres se tuvo un mayor porcentaje de acierto (0.89 recall). La valoración que de aqui nos conviene tener en cuenta es la de F1-score, que tiene en cuenta la precisión y recall. El promedio de F1 es de 84% lo cual no está nada mal.


print(classification_report(Y_validation, predictions))
print(classification_report(Y_validation, predictions))

precision    recall  f1-score   support

           0       0.79      0.89      0.84       152
           1       0.82      0.68      0.74       110

    accuracy                           0.80       262
   macro avg       0.80      0.78      0.79       262
weighted avg       0.80      0.80      0.80       262

              precision    recall  f1-score   support

           0       0.79      0.89      0.84       152
           1       0.82      0.68      0.74       110

    accuracy                           0.80       262
   macro avg       0.80      0.78      0.79       262
weighted avg       0.80      0.80      0.80       262



In [None]:
#https://www.aprendemachinelearning.com/regresion-logistica-con-python-paso-a-paso/