### Aprendizaje por clasificación

In [1]:
import pandas as pd
import numpy as np

import seaborn as sns
from matplotlib import pyplot as plt
%matplotlib inline


In [3]:
df = pd.read_csv('data.csv')

In [4]:
len(df)

7043

### Preparación inicial de los datos

In [5]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [6]:
df.head().T

Unnamed: 0,0,1,2,3,4
customerID,7590-VHVEG,5575-GNVDE,3668-QPYBK,7795-CFOCW,9237-HQITU
gender,Female,Male,Male,Male,Female
SeniorCitizen,0,0,0,0,0
Partner,Yes,No,No,No,No
Dependents,No,No,No,No,No
tenure,1,34,2,45,2
PhoneService,No,Yes,Yes,No,Yes
MultipleLines,No phone service,No,No,No phone service,No
InternetService,DSL,DSL,DSL,DSL,Fiber optic
OnlineSecurity,No,Yes,Yes,Yes,No


In [7]:
df.dtypes

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

In [8]:
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')
df['TotalCharges'] = df['TotalCharges'].fillna(0)

In [9]:
df.columns = df.columns.str.lower().str.replace(' ', '_')

cadena_columnas = list(df.dtypes[df.dtypes == 'object'].index)

for col in cadena_columnas:
    df[col] = df[col].str.lower().str.replace(' ', '_')

In [10]:
df.churn = (df.churn == 'yes').astype(int)

In [11]:
df.head().T

Unnamed: 0,0,1,2,3,4
customerid,7590-vhveg,5575-gnvde,3668-qpybk,7795-cfocw,9237-hqitu
gender,female,male,male,male,female
seniorcitizen,0,0,0,0,0
partner,yes,no,no,no,no
dependents,no,no,no,no,no
tenure,1,34,2,45,2
phoneservice,no,yes,yes,no,yes
multiplelines,no_phone_service,no,no,no_phone_service,no
internetservice,dsl,dsl,dsl,dsl,fiber_optic
onlinesecurity,no,yes,yes,yes,no


### Uso de librerías scikit-learn

In [12]:
from sklearn.model_selection import train_test_split

In [13]:
df_train_completo, df_test = train_test_split(df, test_size=0.2, random_state=1)

In [14]:
df_train, df_val = train_test_split(df_train_completo, test_size=0.33, random_state=11)

In [15]:
y_train = df_train.churn.values
y_val = df_val.churn.values

In [16]:
del df_train['churn']
del df_val['churn']

### EDA

In [17]:
df_train_completo.isnull().sum()

customerid          0
gender              0
seniorcitizen       0
partner             0
dependents          0
tenure              0
phoneservice        0
multiplelines       0
internetservice     0
onlinesecurity      0
onlinebackup        0
deviceprotection    0
techsupport         0
streamingtv         0
streamingmovies     0
contract            0
paperlessbilling    0
paymentmethod       0
monthlycharges      0
totalcharges        0
churn               0
dtype: int64

 Verificamos la distribución de valores en la variable objetivo.

In [21]:
df_train_completo.churn.value_counts()

churn
0    4113
1    1521
Name: count, dtype: int64

Calcular la tasa de abandono de clientes: el método `mean()`. 

In [22]:
media_global = df_train_completo.churn.mean()
round(media_global, 3)

0.27

Las variables categóricas como las numéricas en el conjunto de datos son importantes, pero también son diferentes y necesitan un tratamiento diferente.

In [24]:
categoricas = ['gender', 'seniorcitizen', 'partner', 'dependents',
               'phoneservice', 'multiplelines', 'internetservice',
               'onlinesecurity', 'onlinebackup', 'deviceprotection',
               'techsupport', 'streamingtv', 'streamingmovies',
               'contract', 'paperlessbilling', 'paymentmethod']
numericas = ['tenure', 'monthlycharges', 'totalcharges']


Imprimamos cuántos valores únicos tiene cada variable.


In [25]:
df_train_completo[categoricas].nunique()

gender              2
seniorcitizen       2
partner             2
dependents          2
phoneservice        2
multiplelines       3
internetservice     3
onlinesecurity      3
onlinebackup        3
deviceprotection    3
techsupport         3
streamingtv         3
streamingmovies     3
contract            3
paperlessbilling    2
paymentmethod       4
dtype: int64

### Importancia de características

#### Tasa de abandono

Comprobemos primero la variable `gender`.  Esta variable `gender` puede tomar dos valores `female` y  `male`. Hay dos grupos de clientes: los que tienen `gender == 'female'` y los que tienen `gender == 'male'`.

In [26]:
media_female = df_train_completo[df_train_completo.gender == 'female'].churn.mean()
print('gender == female:', round(media_female, 3))

media_male = df_train_completo[df_train_completo.gender == 'male'].churn.mean()
print('gender == male:  ', round(media_male, 3))

gender == female: 0.277
gender == male:   0.263


In [27]:
media_female / media_global

1.0253955354648652

In [29]:
media_male/media_global

0.9749802969838747

Ahora echemos un vistazo a otra variable: `partner`. Toma valores de `yes`  y `no`, por lo que hay dos grupos de clientes: aquellos para los que `partner == 'yes'` y aquellos para los que `partner == 'no'`. 


In [30]:
si_partner = df_train_completo[df_train_completo.partner == 'yes'].churn.mean()
print('partner == yes:', round(si_partner, 3))

no_partner = df_train_completo[df_train_completo.partner == 'no'].churn.mean()
print('partner == no :', round(no_partner, 3))

partner == yes: 0.205
partner == no : 0.33


In [31]:
si_partner /media_global

0.7594724924338315

In [32]:
no_partner /media_global

1.2216593879412643

#### Tasa de riesgo

Calculemos los riesgos por `gender` en el conjunto de datos. 




In [33]:
df_grupo = df_train_completo.groupby(by='gender').churn.agg(['mean'])
df_grupo['diff'] = df_grupo['mean'] - media_global
df_grupo['risk'] = df_grupo['mean'] / media_global
df_grupo

Unnamed: 0_level_0,mean,diff,risk
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.276824,0.006856,1.025396
male,0.263214,-0.006755,0.97498


Ahora hagamos eso para todas las variables categóricas. Podemos iterar a través de ellos y aplicar el mismo código para cada uno: 

In [35]:
from IPython.display import display

In [36]:
media_global = df_train_completo.churn.mean()
media_global

0.26996805111821087

In [37]:
for col in categoricas:
    df_grupo = df_train_completo.groupby(by=col).churn.agg(['mean'])
    df_grupo['diff'] = df_grupo['mean'] - media_global
    df_grupo['risk'] = df_grupo['mean'] / media_global
    #display(df_grupo)

### Información mutua

Para las variables categóricas indica cuánta información aprendemos sobre una variable si aprendemos el valor de la otra variable.

In [38]:
from sklearn.metrics import mutual_info_score

In [39]:
def calcula_mi(series):
    return mutual_info_score(series, df_train_completo.churn)

df_mi = df_train_completo[categoricas].apply(calcula_mi)
df_mi = df_mi.sort_values(ascending=False).to_frame(name='MI')


display(df_mi.head())
display(df_mi.tail())


Unnamed: 0,MI
contract,0.09832
onlinesecurity,0.063085
techsupport,0.061032
internetservice,0.055868
onlinebackup,0.046923


Unnamed: 0,MI
partner,0.009968
seniorcitizen,0.00941
multiplelines,0.000857
phoneservice,0.000229
gender,0.000117


#### Coeficiente de correlación

Calculemos el coeficiente de correlación en Pandas.

In [40]:
df_train_completo[numericas].corrwith(df_train_completo.churn).to_frame('correlation')

Unnamed: 0,correlation
tenure,-0.351885
monthlycharges,0.196805
totalcharges,-0.196353


In [41]:
df_train_completo.groupby(by='churn')[numericas].mean()

Unnamed: 0_level_0,tenure,monthlycharges,totalcharges
churn,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,37.531972,61.176477,2548.021627
1,18.070348,74.521203,1545.689415


### Ingeniería de características

#### Codificación one-hot para variables categóricas


In [42]:
from sklearn.feature_extraction import DictVectorizer

In [43]:
train_dict = df_train[categoricas + numericas].to_dict(orient='records')

In [45]:
train_dict[0]

{'gender': 'male',
 'seniorcitizen': 0,
 'partner': 'yes',
 'dependents': 'no',
 'phoneservice': 'yes',
 'multiplelines': 'no',
 'internetservice': 'dsl',
 'onlinesecurity': 'yes',
 'onlinebackup': 'yes',
 'deviceprotection': 'yes',
 'techsupport': 'yes',
 'streamingtv': 'yes',
 'streamingmovies': 'yes',
 'contract': 'two_year',
 'paperlessbilling': 'yes',
 'paymentmethod': 'bank_transfer_(automatic)',
 'tenure': 71,
 'monthlycharges': 86.1,
 'totalcharges': 6045.9}

Ahora podemos usar `DictVectorizer`. Lo creamos y luego lo ajustamos a la lista de diccionarios que creamos previamente: 


In [46]:
dv = DictVectorizer(sparse=False)
dv.fit(train_dict)

Después de ajustar el vectorizador, podemos usarlo para convertir los diccionarios en una matriz usando el método `transform`: 

In [47]:
X_train = dv.transform(train_dict)

In [48]:
X_train.shape

(3774, 45)

In [49]:
X_train[0]

array([0.0000e+00, 0.0000e+00, 1.0000e+00, 1.0000e+00, 0.0000e+00,
       0.0000e+00, 0.0000e+00, 1.0000e+00, 0.0000e+00, 1.0000e+00,
       1.0000e+00, 0.0000e+00, 0.0000e+00, 8.6100e+01, 1.0000e+00,
       0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 1.0000e+00,
       0.0000e+00, 0.0000e+00, 1.0000e+00, 0.0000e+00, 1.0000e+00,
       0.0000e+00, 1.0000e+00, 1.0000e+00, 0.0000e+00, 0.0000e+00,
       0.0000e+00, 0.0000e+00, 1.0000e+00, 0.0000e+00, 0.0000e+00,
       0.0000e+00, 1.0000e+00, 0.0000e+00, 0.0000e+00, 1.0000e+00,
       0.0000e+00, 0.0000e+00, 1.0000e+00, 7.1000e+01, 6.0459e+03])

Podemos aprender los nombres de todas estas columnas usando el método `get_feature_names`: 


In [96]:
import warnings
from sklearn.feature_extraction import DictVectorizer

warnings.filterwarnings("ignore")
dv = DictVectorizer()
data = [{'foo': 1, 'bar': 2}, {'foo': 3, 'baz': 4}]
X = dv.fit_transform(data)
feature_names = dv.get_feature_names_out()
print(feature_names)


['bar' 'baz' 'foo']


### Aprendizaje automático para clasificación 

#### Regresión logística


In [97]:
from sklearn.linear_model import LogisticRegression

In [99]:
modeloRL = LogisticRegression(solver='liblinear', random_state=1)
modeloRL.fit(X_train, y_train)

Veamos qué tan bien se comporta el modelo.Para hacer eso, necesitamos aplicar el esquema de codificación one-hot a todas las variables categóricas.

In [107]:
val_dict = df_val[categoricas + numericas].to_dict(orient='records')
X_val = dv.transform(val_dict)

Ahora estamos listos para poner esta matriz en el modelo. Para obtener las probabilidades, usamos el método `predict_proba` del modelo: 


In [111]:
modeloRL.predict_proba(X_val)

ValueError: X has 3 features, but LogisticRegression is expecting 45 features as input.

**Ejercicio**

* Escribe solo la segunda columna de la predicción.
* Selecciona un umbral de 0.5 para realizar  predicciones binarias y calcula la exactitud del modelo.

In [114]:
## Tus respuestas

segunda_columna = X_val [:, 1]
print(segunda_columna)

segunda_columna = X_val[:, 1]

predicciones_binarias = segunda_columna >= 0.5

exactitud = (predicciones_binarias == y_val).mean()

print("Exactitud del modelo:", exactitud)






Exactitud del modelo: 0.7387096774193549


###  Interpretación del modelo 

Calculamos el sesgo del modelo.

In [116]:
modeloRL.intercept_[0]

-0.10740402123437304

Para ver qué característica está asociada con cada peso, usemos el método `get_feature_names` de `DictVectorizer`. Podemos comprimir los nombres de las características junto con los coeficientes antes de mirarlos: 

In [118]:
dict(zip(dv.get_feature_names(), modeloRL.coef_[0].round(3))) # https://book.pythontips.com/en/latest/zip.html

AttributeError: 'DictVectorizer' object has no attribute 'get_feature_names'

Para comprender cómo funciona el modelo, entrenemos un modelo más simple y más pequeño que use solo tres variables: `contract` , `tenure` y `totalcharges`.

In [119]:
subconjunto = ['contract', 'tenure', 'totalcharges']
train_dict_sub = df_train[subconjunto].to_dict(orient='records')
dv_sub = DictVectorizer(sparse=False)
dv_sub.fit(train_dict_sub)

X_sub_train = dv_sub.transform(train_dict_sub)
dv_sub.get_feature_names()

AttributeError: 'DictVectorizer' object has no attribute 'get_feature_names'

In [120]:
submodeloRL = LogisticRegression(solver='liblinear', random_state=1)
submodeloRL.fit(X_sub_train, y_train)

In [121]:
submodeloRL.intercept_[0]

-0.577229912199359

In [122]:
dict(zip(dv_sub.get_feature_names(), submodeloRL.coef_[0].round(3)))

AttributeError: 'DictVectorizer' object has no attribute 'get_feature_names'

In [123]:
sub_val_dict = df_val[subconjunto].to_dict(orient='records')
X_sub_val = dv_sub.transform(sub_val_dict)

In [124]:
sub_y_pred = submodeloRL.predict_proba(X_sub_val)[:, 1]

### Usando el modelo

Ahora podemos aplicar el modelo a los clientes para calificarlos.

In [126]:
cliente = {
    'customerid': '8879-zkjof',
    'gender': 'female',
    'seniorcitizen': 0,
    'partner': 'no',
    'dependents': 'no',
    'tenure': 41,
    'phoneservice': 'yes',
    'multiplelines': 'no',
    'internetservice': 'dsl',
    'onlinesecurity': 'yes',
    'onlinebackup': 'no',
    'deviceprotection': 'yes',
    'techsupport': 'yes',
    'streamingtv': 'yes',
    'streamingmovies': 'yes',
    'contract': 'one_year',
    'paperlessbilling': 'yes',
    'paymentmethod': 'bank_transfer_(automatic)',
    'monthlycharges': 79.85,
    'totalcharges': 3320.75,
}

In [132]:
X_test = dv.transform([cliente])
modeloRL.predict_proba(X_test)[0,1]

ValueError: X has 3 features, but LogisticRegression is expecting 45 features as input.

**Ejercicio** Realiza el mismo procedimiento y explica tu respuesta con el siguiente perfil de cliente.

In [134]:
cliente = {
    'gender': 'female',
    'seniorcitizen': 1,
    'partner': 'no',
    'dependents': 'no',
    'phoneservice': 'yes',
    'multiplelines': 'yes',
    'internetservice': 'fiber_optic',
    'onlinesecurity': 'no',
    'onlinebackup': 'no',
    'deviceprotection': 'no',
    'techsupport': 'no',
    'streamingtv': 'yes',
    'streamingmovies': 'no',
    'contract': 'month-to-month',
    'paperlessbilling': 'yes',
    'paymentmethod': 'electronic_check',
    'tenure': 1,
    'monthlycharges': 85.7,
    'totalcharges': 85.7
}

In [138]:
# Tu respuesta
X_test = dv.transform([cliente])
probabilidad_positiva = modeloRL.predict_proba(X_test)[0, 1]

print("Probabilidad de la clase positiva:", probabilidad_positiva)


NameError: name 'valor1' is not defined

### Ejercicios

1. Puedes probar un par de cosas para aprender mejor el tema: En el cuaderno anterior, implementamos muchas cosas nosotros mismos, incluida la regresión lineal y la división de conjuntos de datos. En este cuaderno aprendimos a usar Scikit-learn para eso. Intenta rehacer el proyecto del cuaderno  anterior usando Scikit-learn. Para usar la regresión lineal, necesita `LinearRegression` del paquete `sklearn.linear_model`. Para usar la regresión regularizada, debe importar `Ridge` desde el mismo paquete `sklearn.linear_model`. 

In [142]:
## Tu respuesta
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import mean_squared_error

df = pd.read_csv('data.csv')

X = df.drop('objetivo variable: ', axis=1)
y = df['objetivo variable']
print(X, y)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

regression = LinearRegression()

regression.fit(X_train, y_train)

y_pred = regression.predict(X_test)
print(y_pred)

mse = mean_squared_error(y_test, y_pred)
print('Error cuadrático medio (Lineal):', mse)

ridge = Ridge(alpha=0.5)  

ridge.fit(X_train, y_train)

y_pred_ridge = ridge.predict(X_test)

mse_ridge = mean_squared_error(y_test, y_pred_ridge)
print('Error cuadrático medio (Regularizada):', mse_ridge)


KeyError: "['objetivo variable: '] not found in axis"

2. Analizamos las métricas de importancia de las características para obtener información sobre el conjunto de datos, pero en realidad no usamos esta información para otros fines. Una forma de usar esta información podría ser eliminar las características que no son útiles del conjunto de datos para hacer que el modelo sea más simple, más rápido y potencialmente mejor. Intenta excluir las dos características menos útiles (`gender` y `phoneservices`) de la matriz de datos de entrenamiento y observa qué sucede con la exactitud de la validación. ¿Qué pasa si eliminamos la característica más útil (`contract`)?.


In [143]:
## Tu respuesta
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

df = pd.read_csv('data.csv')

X = data.drop('Variable Objetivo', axis=1)
y = data['Variable Objetivo']

X_reduced = X.drop(['gender', 'phoneservices'], axis=1)

X_train, X_test, y_train, y_test = train_test_split(X_reduced, y, test_size=0.2, random_state=42)

model = LogisticRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print('Exactitud de la validación (Características reducidas):', accuracy)

X_reduced_2 = X.drop('contract', axis=1)

X_train_2, X_test_2, y_train_2, y_test_2 = train_test_split(X_reduced_2, y, test_size=0.2, random_state=42)

model_2 = LogisticRegression()

model_2.fit(X_train_2, y_train_2)

y_pred_2 = model_2.predict(X_test_2)

accuracy_2 = accuracy_score(y_test_2, y_pred_2)
print('Exactitud de la validación (Eliminando "contract"):', accuracy_2)


AttributeError: 'list' object has no attribute 'drop'

3. Los modelos de clasificación se utilizan a menudo con fines de marketing y uno de los problemas que resuelve es la puntuación de clientes potenciales (`lead scoring`). Un cliente potencial (`lead`) es un cliente potencial que puede convertirse (convertirse en un cliente real) o no. En este caso, la conversión es el objetivo que queremos predecir. Puedes tomar un conjunto de datos de https://www.kaggle.com/ashydv/leads-dataset y crear un modelo para eso. Puedes notar que el problema de puntuación de clientes potenciales es similar a la predicción de abandono, pero en un caso, queremos que un nuevo cliente firme un contrato con nosotros y en otro caso, queremos que un cliente no cancele el contrato. 

In [None]:
## Tu respuesta