# Ejemplo de Regresión Logística

Los datos fueron descargados de: https://www.kaggle.com/blastchar/telco-customer-churn

In [1]:
# Importar las librerías necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LogisticRegression

from IPython.display import Image
import pydotplus # Si no lo tienen instalado: conda install -c conda-forge pydotplus


### Importamos los datos

In [2]:
data = pd.read_csv('telcoChurn.csv')

In [3]:
#Imputamos los nulos que figuran como "vacios"
data['TotalCharges'] = data['TotalCharges'].replace(' ',-1).astype(float)

### Convertirmos las variables categóricas a Dummies

In [4]:
# Seleccionamos las variables categóricas
cat_vars = ['gender', 'Partner', 'Dependents', 'PhoneService','MultipleLines', 'InternetService',
           'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
           'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
           'PaymentMethod']

In [5]:
# Iteramos sobre cada variable creando su dummie         
for var in cat_vars:
    cat_list='var'+'_'+var
    cat_list = pd.get_dummies(data[var], prefix=var)
    data1=data.join(cat_list)
    data=data1

In [6]:
# Descartamos las variables originales
data = data.drop(cat_vars, axis = 1)

In [7]:
# El target también los convertimos en una variable numérica dummie
data['target'] = np.where(data.Churn == 'Yes',1,0)

In [8]:
# Eliminamos la variable Target y el ID de cliente que no arroja información (realmente no tiene información?)
data = data.drop(['Churn', 'customerID'], axis = 1)

In [9]:
data.head()

Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges,TotalCharges,gender_Female,gender_Male,Partner_No,Partner_Yes,Dependents_No,Dependents_Yes,...,Contract_Month-to-month,Contract_One year,Contract_Two year,PaperlessBilling_No,PaperlessBilling_Yes,PaymentMethod_Bank transfer (automatic),PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check,target
0,0,1,29.85,29.85,1,0,0,1,1,0,...,1,0,0,0,1,0,0,1,0,0
1,0,34,56.95,1889.5,0,1,1,0,1,0,...,0,1,0,1,0,0,0,0,1,0
2,0,2,53.85,108.15,0,1,1,0,1,0,...,1,0,0,0,1,0,0,0,1,1
3,0,45,42.3,1840.75,0,1,1,0,1,0,...,0,1,0,1,0,1,0,0,0,0
4,0,2,70.7,151.65,1,0,1,0,1,0,...,1,0,0,0,1,0,0,1,0,1


In [10]:
# Separamos la base en las columnas Independientes y la Dependiente (X e Y)
X, y = data.drop(data.columns[-1], axis=1), data.iloc[:,-1]

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

In [12]:
print("Tamaño de Base:", data.shape)
print("Tamaño de Muestra de Entrenamiento:", X_train.shape)
print("Tamaño de Muestra de Testeo", X_test.shape)
print("Tamaño del Target de Entrenamiento:", y_train.shape)
print("Tamaño del Target de Testeo", y_test.shape)

Tamaño de Base: (7043, 46)
Tamaño de Muestra de Entrenamiento: (4930, 45)
Tamaño de Muestra de Testeo (2113, 45)
Tamaño del Target de Entrenamiento: (4930,)
Tamaño del Target de Testeo (2113,)


In [14]:
costo# Definimos los parámetros de nuestor modelo
logreg = LogisticRegression(solver = 'lbfgs', penalty='l2') # Otros Solvers: ‘liblinear’, ‘newton-cg’, ‘sag’, ‘saga’, ‘lbfgs’. Penalty:  ‘l1’ Lasso, ‘l2’ Ridge, ‘elasticnet’ or ‘none’

In [15]:
# Hacemos un Fit del modelo en nuestros datos
logreg.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='lbfgs',
          tol=0.0001, verbose=0, warm_start=False)

In [16]:
# Nos guardamos la predicción que hizo el modelo
y_pred = logreg.predict(X_test)

In [17]:
pd.crosstab(np.asarray(y_test), y_pred)

col_0,0,1
row_0,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1393,146
1,260,314


In [18]:
# Calculo el Accuracy 
# ¿Qué porcentaje de predicciones fue correcta? (1389 + 328) / 2113 =
metrics.accuracy_score(np.asarray(y_test), y_pred)

0.8078561287269286

In [19]:
# Calculo el Error Medio Absoluto 
# ¿Qué porcentaje de predicciones fue incorrecta? (246 + 150) / 2113 =
metrics.mean_absolute_error(np.asarray(y_test), y_pred)

0.19214387127307148

In [20]:
# Calculo el Recall 
# ¿Qué porcentaje de casos positivos fueron capturados? 328 / (246 + 328) =
metrics.recall_score(np.asarray(y_test), y_pred)

0.5470383275261324

In [21]:
# Calculo de la Precisión
# ¿Qué porcentaje de predicciones positivos fueron correctas? 328 / (150 + 328) =
metrics.precision_score(np.asarray(y_test), y_pred)

0.6861924686192469

In [35]:
logreg.coef_

array([[ 2.23954025e-01, -5.77928380e-02,  1.46740904e-03,
         3.13397221e-04, -3.26342623e-02, -1.03702869e-01,
        -7.79026409e-02, -5.84344901e-02, -2.49632008e-02,
        -1.11373930e-01,  1.09922827e-01, -2.46259958e-01,
        -2.15169582e-01,  1.09922827e-01, -3.10903755e-02,
        -3.52119679e-01,  3.29098972e-01, -1.13316424e-01,
         2.18398705e-01, -1.13316424e-01, -2.41419412e-01,
         9.98956553e-02, -1.13316424e-01, -1.22916363e-01,
        -3.31813585e-03, -1.13316424e-01, -1.97025715e-02,
         1.44203340e-01, -1.13316424e-01, -1.67224048e-01,
        -2.38371056e-02, -1.13316424e-01,  8.16398262e-04,
        -1.50575547e-01, -1.13316424e-01,  1.27554839e-01,
         5.91527897e-01, -7.76291476e-02, -6.50235881e-01,
        -2.07020230e-01,  7.06830986e-02, -8.21009339e-02,
        -1.66174954e-01,  2.28965393e-01, -1.17026636e-01]])