# Regresion Logistica

In [None]:
from sklearn.linear_model import LogisticRegression
import pandas as pd
import numpy as np
from sklearn.model_selection import GridSearchCV, train_test_split, LearningCurveDisplay
import matplotlib.pyplot as plt

## Cargar los datos procesados

In [None]:
df = pd.read_csv('output.csv')

## Encontrar los Mejores Hiperparametros

Dividir los datos en las variables de entrada y salida

In [None]:
y = df['y']
X = df.drop('y', axis=1)

In [None]:
y

In [None]:
X

In [None]:
logReg = LogisticRegression()

In [None]:
param_grid = {
    'penalty' : ['none', 'l1', 'l2', 'elasticinet'],
    'C' : np.logspace(-4, 4, 20),
    'solver' : ['lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'],
    'max_iter' : [100, 1000, 2500, 5000]
}

print(param_grid)

In [None]:
clf = GridSearchCV(logReg, param_grid = param_grid, cv = 3, verbose = True, n_jobs = -1)

In [None]:
best_clf = clf.fit(X, y)

In [None]:
best_clf.best_estimator_

In [None]:
print(f'La mejor exactitud: {best_clf.score(X, y):.3f}')

## Curva de Aprendizaje

In [None]:
logReg = LogisticRegression(C = 0.0001, penalty = 'l1', solver = 'liblinear')

In [None]:
LearningCurveDisplay.from_estimator(logReg, X, y, cv = 10)


## Diagnostico

En nuestra curva de aprendizaje, podemos notar que nuestro modelo a medida que aumenta el tamaño de los datos de entrenamiento este poco a poco esta generalizando mas los datos, es decir, la distancia entre las curvas de aprendizaje y validación es cada vez menor, sin embargo, a su vez vemos que la curva de validacion se quedo estancada en un valor, y esta no se mueve (o al menos no se puede apreciar el movimiento de esta).
<br>
Una de las primeras conclusiones que podemos sacar es que nuestro modelo no sufre de overfitting o underfitting, esto debido a que nuestras curvas de aprendizaje convergen a un valor y al final no se puede apreciar una diferencia entre estas.
<br>
El hecho de que la curva de validacion no se mueva puede deverse a cosas como que el modelo es muy simple y no es capaz de aprender mas sobre los datos, o que los datos que tenemos no son suficientes para poder predecir nuestras variables adecuadamente.
<br>
<br>
Recomendaciones:
* Recolectar una mayor cantidad de datos, los cuales no dependan de contacto previo con los clientes, como puede ser, cantidad de productos financieros que ha tenido en su vida, estados financieros de personas allegadas a este, etc; esto debido a que debido a lo simple y generales que son nuestros datos finales que escogimos, estos no puedan estar dando un patron (o tal vez puede ser el siguiente punto) muy claro, o no estan dando informacion suficiente para poder realizar una prediccion mas acertada.
* Probar con otros modelos de clasificacion mas complejos, puede ser que nuestro modelo de regresion logistica sea demasiado simple para poder capturar los patrones que tienen nuestros datos, si esto fuera cierto, haria que no importa cuanta mayor cantidad de datos le metamos, el porcentaje de aciertos (de los datos de validacion) no aumentaria.

En resumen de las recomendaciones para este modelo, serian hacer una mayor recoleccion de caracteristicas de los clientes e intentar usar otros modelos mas complejos.

`Nota: cabe recalcar que cuando digo recolectar mas caracteristicas, me refiero a mas columnas, no necesariamente aumentar la cantidad de filas, aunque por obvias razones, mientras mas filas mejor.`