# Introducción

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.
La empresa ha entregado el cojunto de datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos.

La empresa desea implementar un modelo de ML de Clasificación para determinar que plan escojerá el cliente. 

# Inicialización 

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

# Carga de datos

In [2]:
try:
    users_df = pd.read_csv("/datasets/users_behavior.csv")
except:
    users_df = pd.read_csv("users_behavior.csv")

In [3]:
# Visualizamos los datos

users_df.head(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


In [4]:
# Verificamos la calidad del conjunto de datos.
users_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


**Conclusiones:**

- El cojunto de datos no tine valores ausentes y el tipo de datos para sus varables es correcto.

# Segmentando el conjunto de datos

In [5]:
# Definimos características y objetivos
train_features = users_df.drop(['is_ultra'], axis= 1)
train_target = users_df['is_ultra']

**Para este modelo segmentaremos en relación 3:1:1 para el conjunto de entrenamiento, validación y prueba respectivamente.**

In [6]:
# Obtenemos los datos de entrenamiento 60% del conjunto de datos.
train_features, valid_features, train_target, valid_target = train_test_split(train_features, train_target, test_size= 0.4, random_state= 42)

In [7]:
# Obtenemos los datos de validación y prueba 20% y 20% respectivamente.
valid_features, test_features, valid_target, test_target = train_test_split(valid_features, valid_target, test_size= 0.5, random_state= 42)

In [8]:
# Validamos que la cantidad de datos para cada conjunto sea la correcta.
print('train_features', train_features.shape)
print('valid_features', valid_features.shape)
print('test_features', test_features.shape)
print('train_target', train_target.shape)
print('valid_target', valid_target.shape)
print('test_target', test_target.shape)

train_features (1928, 4)
valid_features (643, 4)
test_features (643, 4)
train_target (1928,)
valid_target (643,)
test_target (643,)


# Desarrollo y entrenamiento del modelo

Para este problema ya que el objetivo es una variable categórica se define como un problema de calificación, entrenaremos tres modelos (Decision Tree Classifier, Random Fores Classifier y Logistic Regression) y obtenfremos el modelo con mejor puntuación.

## Modelo: Decision Tree Classifier

Se realizará el entrenamiento de un modelo de DecisionTreeClassifier y se determinará su calidad con el cojunto de prueba.

In [9]:
# Realizamos el entrenamiento del modelo y se evalúa la calidad del mismo.
tree_model = DecisionTreeClassifier(random_state= 42)
tree_model.fit(train_features, train_target)
train_predictions = tree_model.predict(train_features)
valid_predictions = tree_model.predict(valid_features)

train_accuracy = accuracy_score(train_target, train_predictions)
valid_accuracy = accuracy_score(valid_target, valid_predictions)

print('Conjunto de entrenamiento:', train_accuracy)
print('Conjunto de validación:', valid_accuracy)

Conjunto de entrenamiento: 1.0
Conjunto de validación: 0.7278382581648523


**Conclusiones: **

- El modelo responde bien ante el conjunto de entranamiento, esto descarta la presencia de subajuste, sin embargo para el conjunto de prueba presenta un 73,52 %, a pesar de que es un alto nivel de precisión nos indica que hay sobreajuste y que el modelo puede ser mejorado.

## Modelo: Random Forest Classifier

In [10]:
# Realizamos el entrenamiento del modelo y se evalúa la calidad del mismo.
forest_model = RandomForestClassifier(random_state= 42)
forest_model.fit(train_features, train_target)
train_predictions = forest_model.predict(train_features)
valid_predictions = forest_model.predict(valid_features)

train_accuracy = accuracy_score(train_target, train_predictions)
valid_accuracy = accuracy_score(valid_target, valid_predictions)

print('Conjunto de entrenamiento:', train_accuracy)
print('Conjunto de validación:', valid_accuracy)

Conjunto de entrenamiento: 1.0
Conjunto de validación: 0.80248833592535


**Conclusiones:**

- Al igual que el anterior modelo, este es capaz de predecir correctamente con su conjunto de entrenamiento por lo tanto no hay subajuste, y a pesar de que hay presencia de sobreajuste ya que la precisión con el conjunto de prueba es de 78,19 % el resultado es mucho mejor que el anterior modelo.

## Modelo: Logistic Regresion

In [13]:
# Realizamos el entrenamiento del modelo y se evalúa la calidad del mismo.
regresion_model = LogisticRegression(random_state= 42, solver= 'liblinear')
regresion_model.fit(train_features, train_target)
train_predictions = regresion_model.predict(train_features)
valid_predictions = regresion_model.predict(valid_features)

train_accuracy = accuracy_score(train_target, train_predictions)
valid_accuracy = accuracy_score(valid_target, valid_predictions)

print('Conjunto de entrenamiento:', train_accuracy)
print('Conjunto de validación:', valid_accuracy)

Conjunto de entrenamiento: 0.7136929460580913
Conjunto de validación: 0.7200622083981337


**Conclusiones:**

- En este caso se puede observar una precisión del 71,36 % en el conjunto de datos de entrenamiento, eso significa que existe subajuste en este modelo. Para este probleama este modelo es el menos preciso.

# Mejoramiento de la calidad del modelo

En esta sección realizaremos un mejoramiento de la calidad de cada modelo modificando los hiperparámetros y seleccionando el mejor set de hiperparámetros para cada caso.

## Mejoramiento del modelo: Decision Tree Classifier

In [27]:
# Realizamos un for para probar con diferentes valores de "max_depht"
best_depth = 0
best_dtc_model = None
best_score = 0

for depth in range(1,20):
    dtc_model = DecisionTreeClassifier(max_depth= depth, random_state= 42)
    dtc_model.fit(train_features, train_target)
    score = dtc_model.score(valid_features, valid_target)
    
    
    if score > best_score:
        best_depth = depth
        best_dtc_model = dtc_model
        best_score = score
        
print(f'El mejor score es: {best_score}, con max_depth= {best_depth}')        

El mejor score es: 0.7962674961119751, con el max_depth: 8


In [40]:
# Probamos el mejor modelo y verificamos su calidad con el conjunto de datos de prueba.
print(f'El score del mejor modelo con datos de prueba es: {best_dtc_model.score(test_features, test_target)}')

El score del mejor modelo con datos de prueba es: 0.7978227060653188


**Conclusiones:**

- El modelo encontrado es de buena calidad ya que supera la precisión mínima que es de 0.75, además tenemos resultados de 0.79 para ambos grupos de datos, prueba y validación.

## Mejoramiento del modelo: Random Forest Classifier

In [35]:
# Realizmas un for anidado para probar con las hiperparámetros 'max_depth' y 'n_estimators'.

best_depth = 0
best_rfc_model = None
best_score = 0
best_est = 0

for depth in range(1, 10):
    for est in range(5, 26, 5):
        
        rfc_model = RandomForestClassifier(max_depth = depth, n_estimators= est, random_state= 42)
        rfc_model.fit(train_features, train_target)
        score = rfc_model.score(valid_features, valid_target)
        
        if score > best_score:
            best_depth = depth
            best_rfc_model = rfc_model
            best_score = score
            best_est = est
            
print(f'El mejor score es: {best_score}, con max_depth= {best_depth} y n_estimators= {best_est}')

El mejor score es: 0.8149300155520995, con max_depth= 9 y n_estimators= 25


In [41]:
# Probamos el mejor modelo y verificamos su calidad con el conjunto de datos de prueba.
print(f'El score del mejor modelo con datos de prueba es: {best_rfc_model.score(test_features, test_target)}')

El score del mejor modelo con datos de prueba es: 0.8195956454121306


**Conclusión:**

- El modelo es de buena calidad ya que para ambos conjuntos de datos, prueba y validación la precisión es de 0.81, superior a la precisión mínima.

## Mejoramiento del modelo: Logistic Regression

In [63]:
# Realizmas un for anidado para probar con las hiperparámetros 'max_iter'.

best_lr_model = None
best_score = 0
best_solver = ''
solvers = ['liblinear', 'newton-cg', 'lbfgs', 'sag', 'saga']

for solver in solvers:
    lr_model = LogisticRegression( random_state= 42, solver= solver)
    lr_model.fit(train_features, train_target)
    score = lr_model.score(valid_features, valid_target)
    
        
    if score > best_score:
        best_solver = solver
        best_lr_model = lr_model
        best_score = score
       
            
print(f'El mejor score es: {best_score}, con solver= {best_solver}.')

El mejor score es: 0.7402799377916018, con solver= newton-cg.


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [64]:
# Probamos el mejor modelo y verificamos su calidad con el conjunto de datos de prueba.
print(f'El score del mejor modelo con datos de prueba es: {best_lr_model.score(test_features, test_target)}')

El score del mejor modelo con datos de prueba es: 0.7682737169517885


**Conclusión:**

- En el caso de la regresión logística no se logró llegar a la precisión mínima de 0.75, sin embargo el mejor modelo al ser evaluado con el conjunto de prueba llega a tener una puntuación de 0.76. Por lo que no queda descartado ya que se tendría que realizar pruebas con otros cojuntos de datos.