# Descripción del proyecto  

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.
Tienes acceso a los datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos (del proyecto del curso de Análisis estadístico de datos). Para esta tarea de clasificación debes crear un modelo que escoja el plan correcto. Como ya hiciste el paso de procesar los datos, puedes lanzarte directo a crear el modelo.
Desarrolla un modelo con la mayor exactitud posible. En este proyecto, el umbral de exactitud es 0.75. Usa el dataset para comprobar la exactitud.

## Instrucciones del proyecto.
1. Abre y examina el archivo de datos. Dirección al archivo:datasets/users_behavior.csv 
2. Segmenta los datos fuente en un conjunto de entrenamiento, uno de validación y uno de prueba.
3. Investiga la calidad de diferentes modelos cambiando los hiperparámetros. Describe brevemente los hallazgos del estudio.
4. Comprueba la calidad del modelo usando el conjunto de prueba.
5. Tarea adicional: haz una prueba de cordura al modelo. Estos datos son más complejos que los que habías usado antes así que no será una tarea fácil. Más adelante lo veremos con más detalle.

## Descripción de datos
Cada observación en el dataset contiene información del comportamiento mensual sobre un usuario. La información dada es la siguiente:
- сalls — número de llamadas,
- minutes — duración total de la llamada en minutos,
- messages — número de mensajes de texto,
- mb_used — Tráfico de Internet utilizado en MB,
- is_ultra — plan para el mes actual (Ultra - 1, Smart - 0).

## Cargar librerías

In [1]:
#Cargar todas las librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
from sklearn import metrics
from pprint import pprint
from scipy.stats import randint
from sklearn.model_selection import RandomizedSearchCV

## Cargar datos

In [2]:
df=pd.read_csv('datasets/users_behavior.csv')
df.head(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [4]:
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


Haciendo una visualización inicial de los datos, tenemos 5 columnas y 3214 filas, de los cuales a simple vista no vemos ningún ausente. Ya veremos más a fondo esto. 

In [5]:
#Calculamos los ausentes
print('Ausentes:\n',df.isna().sum())

Ausentes:
 calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64


In [6]:
#Calculamos los duplicados
print('Duplicados:\n',df.duplicated().sum())


Duplicados:
 0


Podemos evidenciar que no contamos con valores ausentes ni valores duplicados en el dataset y tenemos datos limpios listos para el modelo de clasificación.

## Segmentación de los datos

In [7]:
#Usamos la semilla para los datos pseudoaleatorios
seed=54321
#Segmentamos primero los datos de entrenamiento y los datos de prueba
df_train,df_test=train_test_split(df,test_size=0.2,random_state=seed)
features=df_train.drop('is_ultra',axis=1)
target=df_train['is_ultra']

In [8]:
#Segmentamos ahora los datos de entrenamiento y validación
features_train,features_valid,target_train,target_valid=train_test_split(features,target,test_size=0.2,random_state=seed)

Ahora tenemos 80% de datos de entrenamiento, 20% de datos de validación y 20% de datos de prueba. A continuación vamos a entrenar los modelos.

## Prueba de modelos de clasificación

### Arbol de desición

In [9]:
best_score_1=0
best_depth_1=0
for depth in range(1,11):
    model_1=DecisionTreeClassifier(random_state=seed,max_depth=depth)
    model_1.fit(features_train,target_train)
    prediction_1=model_1.predict(features_valid)
    result_1=metrics.accuracy_score(target_valid,prediction_1)
    if result_1 > best_score_1:
        best_score_1=result_1
        best_depth_1=depth
print(f'max_depth = {depth} : {result_1}')


max_depth = 10 : 0.7805825242718447


Obtenemos una exactitud del 78% en el arbol de desición con una profundidad de 10 ramas en el arbol, sin embargo, es una profundidad muy alta que puede costarnos un sobreentrenamiento.

### Bosque Aleatorio

In [10]:
best_depth_2=0
best_estimator_2=0
best_score_2=0
for est in range(1,51):
    for depth in range(1,10):
        model_2=RandomForestClassifier(random_state=seed,max_depth=depth,n_estimators=est)
        model_2.fit(features_train,target_train)
        prediction_2 = model_2.predict(features_valid)
        result_2=metrics.accuracy_score(target_valid,prediction_2)
        if result_2 > best_score_2:
            best_score_2=result_2
            best_estimator_2=est
            best_depth_2=depth
print(f'El mejor resultado es {best_score_2} con {best_estimator_2} estimadores y {best_depth_2} de profundidad.')


El mejor resultado es 0.8310679611650486 con 3 estimadores y 7 de profundidad.


El mejor resultado hasta el momento es el bosque aleatorio con 11 estimadores y 4 de profundidad del arbol. Al tener varios estimadores, no nos preocupa el sobreentrenamiento, además la exactitud es de 82%.

### Regresión Logística

In [11]:
model_3=LogisticRegression(random_state=seed,solver='liblinear')
model_3.fit(features_train,target_train)
result_3_train=model_3.score(features_train,target_train)
result_3_valid=model_3.score(features_valid,target_valid)
print(f'Resultado entrenamiento: {result_3_train}\nResultado validación: {result_3_valid}')

Resultado entrenamiento: 0.7217898832684825
Resultado validación: 0.7184466019417476


La regresión logística es un algoritmo rápido, sin embargo, tiene el porcentaje de exactitud más bajo con 71,8%.

El modelo escogido para la prueba con el conjunto de prueba es el **bosque aleatorio con 4 de profundidad y 11 estimadores.**

### Evaluación del modelo

In [12]:
features_test=df_test.drop('is_ultra',axis=1)
target_test=df_test['is_ultra']

In [13]:
model_final=RandomForestClassifier(random_state=seed,max_depth=4,n_estimators=11)
model_final.fit(features_train,target_train)
prediction_test=model_final.predict(features_test)
result_final=metrics.accuracy_score(target_test,prediction_test)
print(f'El resultado final tiene una exactitud de {result_final*100}%.')

El resultado final tiene una exactitud de 78.53810264385692%.


In [14]:
print(metrics.classification_report(target_test, prediction_test))

              precision    recall  f1-score   support

           0       0.78      0.95      0.85       427
           1       0.81      0.47      0.59       216

    accuracy                           0.79       643
   macro avg       0.80      0.71      0.72       643
weighted avg       0.79      0.79      0.77       643



Al evaluar el modelo obtenemos una exactitud del 78,53%, mayor a lo esperado que era 75%, por lo cual podemos concluír que el algoritmo es adecuado para la predicción del dataset de prueba.

Adicionalmente al ver las otras métricas nuestra precisión es buena para ambos datasets, sin embargo, al estar nuestros datos desbalanceados, el recall de la clase 1 es mas baja.

### Prueba de cordura

In [15]:
#Para hacer la prueba de cordura, vamos a comprar el modelo escogido con el modelo DummyClassifier 
model_safe_test=DummyClassifier(random_state=seed)
model_safe_test.fit(features_train,target_train)
prediction_safe_t=model_safe_test.predict(features_test)
result_safe_t=metrics.accuracy_score(target_test,prediction_safe_t)
print(f'El resultado final tiene una exactitud de {result_safe_t*100}%.')
print(f'La diferencia es del {(result_final-result_safe_t)*100}%')

El resultado final tiene una exactitud de 66.40746500777604%.
La diferencia es del 12.130637636080877%


Al realizar la prueba de cordura, podemos ver que la calidad del modelo es más alta (**78%**) que la del modelo DummyClassifier (**Exactitud: 66%**), por lo cual nuestro modelo pasa la prueba.

### Mejora del modelo con RandomizedCV

In [16]:
#Primero revisamos los parametros que se están usando actualmente
model_to_improve=RandomForestClassifier()
print('Parameters currently in use:\n')
pprint(model_to_improve.get_params())

Parameters currently in use:

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}


In [17]:
#Ahora vamos a pasar la lista de parametros que queremos iterar:
n_estimators = [int(x) for x in np.linspace(start = 200, stop = 2000, num = 10)]
# Número de features a considerar para cada separación
max_features = randint(1, 11)
# Máximo número de niveles a considerar en el arbol
max_depth = [int(x) for x in np.linspace(10, 110, num = 11)]
max_depth.append(None)
# Número mínimo  de pruebas requeridas para las eparación de un nodo
min_samples_split = [2, 5, 10]
# Número minimo de pruebas requeridas para cada nodo hoja
min_samples_leaf = [1, 2, 4]
# Metodo de selección de pruebas para el entrenamiento de cada árbol
bootstrap = [True, False]
# Creación de la malla aleatoria
random_grid = {'n_estimators': n_estimators,
               'max_features': max_features,
               'max_depth': max_depth,
               'min_samples_split': min_samples_split,
               'min_samples_leaf': min_samples_leaf,
               'bootstrap': bootstrap}
pprint(random_grid)

{'bootstrap': [True, False],
 'max_depth': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, None],
 'max_features': <scipy.stats._distn_infrastructure.rv_discrete_frozen object at 0x000001D7F2CBF1A0>,
 'min_samples_leaf': [1, 2, 4],
 'min_samples_split': [2, 5, 10],
 'n_estimators': [200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, 2000]}


In [18]:
#Ahora junto con la malla y el RandomizedCV vamos a generar el mejor modelo con los mejores hiperparametros 
model_random = RandomizedSearchCV(estimator = model_to_improve, param_distributions = random_grid, n_iter = 100, cv = 3, verbose=2, random_state=seed, n_jobs = -1)
# Entrenamos el modelo
model_random.fit(features_train,target_train)
print(model_random.best_params_)

Fitting 3 folds for each of 100 candidates, totalling 300 fits


KeyboardInterrupt: 

In [None]:
best_random = model_random.best_estimator_
random_prediction = best_random.predict(features_test)
random_accuracy=metrics.accuracy_score(target_test,random_prediction)
print("Accuracy:",random_accuracy)

Accuracy: 0.7916018662519441


Con este método, logramos mejorar la exactitud del modelo a 79%

## Conclusión

El mejor modelo de clasificación es el **Bosque Aleatorio** con un **82%** de exactitud con el dataset de validación y **78%** con el modelo de prueba.

Si análizamos la exactitud del modelo, podemos ver que el modelo adivinó el 81% de los usuarios con plan Ultra y el 78% de los usuarios con plan Smart.

Además, tenemos un recall de 95% de los de plan ultra y 47% de plan smart, lo que significa que predijo más cantidad de personas con el plan ultra y menos con el plan smart, por lo que tenemos una oportunidad de mejora frente a esto.

Finalmente al hacer la prueba de cordura, nuestro modelo pasa la prueba con una diferencia del 12% por encima, lo que indica que nuestro modelo es bueno.