introducción: Con el siguiente Data Frame, se creará el modelo más adecuado para el  comportamiento de los suscriptores que ya se han cambiado a los planes nuevos.


In [1]:
#abrir los archivos del data frame
import pandas as pd

from sklearn.model_selection import train_test_split

# Cargar el dataset
data = pd.read_csv('/datasets/users_behavior.csv')

# Mostrar las primeras filas del dataset
print(data.head())

# Información básica sobre el dataset
print(data.info())

# Describir el dataset para entender mejor las variables
print(data.describe())

   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None
             calls      minutes     messages       mb_used     is_ultra
count  3214.000000  3214.000000  3214.000000   3214.000000  3214.000000
mean     63.038892   438.208787    38.281269  17207.673836     0.306472
std      33.236368   234.569872    36.148326   7570.968246  

In [2]:
#se hace el análisis de la base
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [3]:
data

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.90,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
...,...,...,...,...,...
3209,122.0,910.98,20.0,35124.90,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0


In [4]:
#contar los valores ausentes
print(data.isna().sum())

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64


In [5]:
#contar valores duplicados
duplicados = data.duplicated().sum()

print(f"Número de duplicados en 'data': {duplicados}")


Número de duplicados en 'data': 0


no se pudo hallar errores en la base de datos, con ello se prepara para aplicar a un modelo de machine learning

In [6]:
#se segmenta los datos con train_test_split


# Dividir el dataset
train_data, temp_data = train_test_split(data, test_size=0.3, random_state=42)
validation_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)

print(f'Tamaño del conjunto de entrenamiento: {train_data.shape}')
print(f'Tamaño del conjunto de validación: {validation_data.shape}')
print(f'Tamaño del conjunto de prueba: {test_data.shape}')

Tamaño del conjunto de entrenamiento: (2249, 5)
Tamaño del conjunto de validación: (482, 5)
Tamaño del conjunto de prueba: (483, 5)


In [7]:
#se ajusta el hiperparámetro con max_depth
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split, GridSearchCV

# Dividir los datos
df_train, df_valid = train_test_split(data, test_size=0.25, random_state=12345)

# Definir características y objetivo
features_train = df_train.drop(['is_ultra', 'mb_used'], axis=1)
target_train = df_train['is_ultra']
features_valid = df_valid.drop(['is_ultra', 'mb_used'], axis=1)
target_valid = df_valid['is_ultra']  # Corrige esto

# Ajuste manual de hiperparámetros
for depth in range(1, 6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    print('max_depth =', depth, ': ', end='')
    print(accuracy_score(target_valid, predictions_valid))

# Ajuste automático de hiperparámetros usando GridSearchCV
param_grid = {'max_depth': range(1, 6)}
grid_search = GridSearchCV(DecisionTreeClassifier(random_state=12345), param_grid, cv=5)
grid_search.fit(features_train, target_train)

# Imprimir el mejor parámetro y su puntuación
print('Mejor max_depth:', grid_search.best_params_)
print('Mejor precisión:', grid_search.best_score_)


 

max_depth = 1 : 0.7574626865671642
max_depth = 2 : 0.7686567164179104
max_depth = 3 : 0.7736318407960199
max_depth = 4 : 0.7723880597014925
max_depth = 5 : 0.7736318407960199
Mejor max_depth: {'max_depth': 4}
Mejor precisión: 0.7609958506224066


In [8]:
#calidad del modelo:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import train_test_split, GridSearchCV


# Dividir en entrenamiento (75%) y el resto (25%)
df_train, df_temp = train_test_split(data, test_size=0.25, random_state=12345)

# Dividir el resto en validación (12.5%) y prueba (12.5%)
df_valid, df_test = train_test_split(df_temp, test_size=0.5, random_state=12345)

# Definir características y objetivo para entrenamiento y validación
features_train = df_train.drop(['is_ultra', 'mb_used'], axis=1)
target_train = df_train['is_ultra']
features_valid = df_valid.drop(['is_ultra', 'mb_used'], axis=1)
target_valid = df_valid['is_ultra']

# Ajuste automático de hiperparámetros usando GridSearchCV
param_grid = {'max_depth': range(1, 6)}
grid_search = GridSearchCV(DecisionTreeClassifier(random_state=12345), param_grid, cv=5)
grid_search.fit(features_train, target_train)

# Mejor modelo
best_model = grid_search.best_estimator_

# Evaluar en el conjunto de validación
valid_predictions = best_model.predict(features_valid)
print('Precisión en validación:', accuracy_score(target_valid, valid_predictions))

# Preparar conjunto de prueba
features_test = df_test.drop(['is_ultra', 'mb_used'], axis=1)
target_test = df_test['is_ultra']

# Evaluar en el conjunto de prueba
test_predictions = best_model.predict(features_test)

# Calcular y mostrar métricas de calidad
print('Precisión en prueba:', accuracy_score(target_test, test_predictions))
print('Reporte de clasificación:\n', classification_report(target_test, test_predictions))

Precisión en validación: 0.7661691542288557
Precisión en prueba: 0.7786069651741293
Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.77      0.99      0.86       283
           1       0.89      0.29      0.43       119

    accuracy                           0.78       402
   macro avg       0.83      0.64      0.65       402
weighted avg       0.80      0.78      0.74       402



se puede hallar que se mejoró la calidad del modelo y se mejoró a un 0.76 con la precisión de validación y de prueba a un 0.77

In [9]:
#prueba de cordura del modelo:

# Evaluar en el conjunto de validación
valid_predictions = best_model.predict(features_valid)
valid_accuracy = accuracy_score(target_valid, valid_predictions)
print(f'\nPrecisión en validación: {valid_accuracy:.4f}')

# Preparar conjunto de prueba
features_test = df_test.drop(['is_ultra', 'mb_used'], axis=1)
target_test = df_test['is_ultra']

# Evaluar en el conjunto de prueba
test_predictions = best_model.predict(features_test)
test_accuracy = accuracy_score(target_test, test_predictions)

# Calcular y mostrar métricas de calidad
print(f'\nPrecisión en prueba: {test_accuracy:.4f}')
print('Reporte de clasificación en prueba:\n', classification_report(target_test, test_predictions))

# Comparación de rendimiento
print(f'\nDiferencia de precisión: {valid_accuracy - test_accuracy:.4f}')


Precisión en validación: 0.7662

Precisión en prueba: 0.7786
Reporte de clasificación en prueba:
               precision    recall  f1-score   support

           0       0.77      0.99      0.86       283
           1       0.89      0.29      0.43       119

    accuracy                           0.78       402
   macro avg       0.83      0.64      0.65       402
weighted avg       0.80      0.78      0.74       402


Diferencia de precisión: -0.0124
