## Descripción del proyecto

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

Tienes acceso a los datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos (del proyecto del sprint de Análisis estadístico de datos). Para esta tarea de clasificación debes crear un modelo que escoja el plan correcto. Como ya hiciste el paso de procesar los datos, puedes lanzarte directo a crear el modelo.

Desarrolla un modelo con la mayor exactitud posible. En este proyecto, el umbral de exactitud es 0.75. Usa el dataset para comprobar la exactitud.

## Paso 0. Librerías

In [1]:
import pandas as pd
import random
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

## Paso 1. Carga de datos.

In [2]:
df = pd.read_csv('./ignore/users_behavior.csv')

In [3]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


Descripción de datos
Cada observación en el dataset contiene información del comportamiento mensual sobre un usuario. La información dada es la siguiente:

- `сalls`: número de llamadas,
- `minutes`: duración total de la llamada en minutos,
- `messages`: número de mensajes de texto,
- `mb_used`: Tráfico de Internet utilizado en MB,
- `is_ultra`: plan para el mes actual (Ultra - 1, Smart - 0).

## Paso 2. Segmentación de datos.

Segmentar los datos fuente en un conjunto de entrenamiento, uno de validación (25%) y uno de prueba (75%).


In [5]:
# df_train, df_valid = train_test_split(df, test_size=0.25, random_state=12345)

# print(f"Tamaño del dataset de entranameinto: {df_train.shape}")
# print(f"Tamaño del dataset de validación: {df_valid.shape}")

In [6]:
features = df.drop(['is_ultra'],axis=1)
target = df['is_ultra']

features_train, features_valid, target_train, target_valid = train_test_split(features, target,test_size=0.25, random_state=12345)

print(f"Tamaño de las características de enetrenamiento: {features_train.shape}")
print(f"Tamaño del objetivo de entreamiento: {target_train.shape}")
print(f"Tamaño de las características de validación: {features_valid.shape}")
print(f"Tamaño del objetivo de validación: {target_valid.shape}")

Tamaño de las características de enetrenamiento: (2410, 4)
Tamaño del objetivo de entreamiento: (2410,)
Tamaño de las características de validación: (804, 4)
Tamaño del objetivo de validación: (804,)


## Paso 3. Probando diferentes modelos de clasificación.

Investiga la calidad de diferentes modelos cambiando los hiperparámetros. Describe brevemente los hallazgos del estudio.

### Árboles de desición.

Debido a que el sobreajuste empieza afectar a la exactitud de nustros árboles, mostraremos la exactitud que tuvo el modelo con hiperparametros de profundidad de 1 a 10.

In [7]:
# best_depth = 0
# best_score = 0
# print(f"Árboles de Desición")
# for depth in range(1,11):
#     model = DecisionTreeClassifier(random_state=54321, max_depth=depth)
#     model.fit(features_train,target_train)
#     valid_predictions = model.predict(features_valid)
#     score = accuracy_score(target_valid,valid_predictions)
#     print(f"Exactitud de max_depth igual a {depth}")
#     print(f"Conjunto de prueba: {score}\n")
    
#     if score > best_score:
#         best_depth = depth
#         best_score = score
        
# print(f"max_depth del modelo con mayor exactitud: {best_depth}")
# print(f"Mejor exactitud: {best_score}")

In [8]:
best_depth = 0
best_score = 0
print(f"Árboles de Desición")
for depth in range(1,11):
    model = DecisionTreeClassifier(random_state=54321, max_depth=depth)
    model.fit(features_train,target_train)
    score = model.score(features_valid,target_valid)
    print(f"Exactitud de max_depth igual a {depth}")
    print(f"Conjunto de prueba: {score}\n")
    
    if score > best_score:
        best_depth = depth
        best_score = score
        
print(f"max_depth del modelo con mayor exactitud: {best_depth}")
print(f"Mejor exactitud: {best_score}")

Árboles de Desición
Exactitud de max_depth igual a 1
Conjunto de prueba: 0.75

Exactitud de max_depth igual a 2
Conjunto de prueba: 0.7835820895522388

Exactitud de max_depth igual a 3
Conjunto de prueba: 0.7885572139303483

Exactitud de max_depth igual a 4
Conjunto de prueba: 0.7810945273631841

Exactitud de max_depth igual a 5
Conjunto de prueba: 0.7810945273631841

Exactitud de max_depth igual a 6
Conjunto de prueba: 0.7599502487562189

Exactitud de max_depth igual a 7
Conjunto de prueba: 0.7860696517412935

Exactitud de max_depth igual a 8
Conjunto de prueba: 0.7898009950248757

Exactitud de max_depth igual a 9
Conjunto de prueba: 0.7860696517412935

Exactitud de max_depth igual a 10
Conjunto de prueba: 0.7873134328358209

max_depth del modelo con mayor exactitud: 8
Mejor exactitud: 0.7898009950248757


Para establecer cuales es el mejor hiperparametro que va tener la mejor exactitud de nuestro modelo de `DecisionTreeClassifier`, se elaboró un bucle que va de 1 al 10 y se comparó la exactitud de cada uno. El modelo con el hiperparamtro `max_depth = 8` fue el que tuve mayor exactitud con un `0.7898`

### Random Forest.


Como su nombre los indica obtendremos un cinjunto de árboles de desición mejor conocido como ``RandomForest`, en el que declarremos su hiperparametro para que solo nos muestre la exactitud de 25 árboles.

In [9]:
best_score = 0
best_est = 0
for est in range(1, 26):
    model = RandomForestClassifier(random_state=54321,n_estimators=est)
    model.fit(features_train,target_train)
    score = model.score(features_valid,target_valid)
    print(f"Exactitud de n_estimators igual a {est}")
    print(f"Mejor exactitud: {score}\n")
    
    if score > best_score:
        best_est = est
        best_score = score

print(f"n_estimators del modelo con mayor exactitud: {best_est}")
print(f"Mejor exactitud: {best_score}")

Exactitud de n_estimators igual a 1
Mejor exactitud: 0.7151741293532339

Exactitud de n_estimators igual a 2
Mejor exactitud: 0.7674129353233831

Exactitud de n_estimators igual a 3
Mejor exactitud: 0.7686567164179104

Exactitud de n_estimators igual a 4
Mejor exactitud: 0.7885572139303483

Exactitud de n_estimators igual a 5
Mejor exactitud: 0.7848258706467661

Exactitud de n_estimators igual a 6
Mejor exactitud: 0.7860696517412935

Exactitud de n_estimators igual a 7
Mejor exactitud: 0.7835820895522388

Exactitud de n_estimators igual a 8
Mejor exactitud: 0.7835820895522388

Exactitud de n_estimators igual a 9
Mejor exactitud: 0.7798507462686567

Exactitud de n_estimators igual a 10
Mejor exactitud: 0.7798507462686567

Exactitud de n_estimators igual a 11
Mejor exactitud: 0.7748756218905473

Exactitud de n_estimators igual a 12
Mejor exactitud: 0.7848258706467661

Exactitud de n_estimators igual a 13
Mejor exactitud: 0.7835820895522388

Exactitud de n_estimators igual a 14
Mejor exac

### Regresión Logística

In [10]:
model = LogisticRegression(random_state=54321)
model.fit(features_train,target_train)
score = model.score(features_valid,target_valid)
print(f"Exactitud del modelo en el conjunto de validación: {score}")

Exactitud del modelo en el conjunto de validación: 0.7599502487562189


### ¿Qué modelo es el mejor?

Se entraron 3 modelos diferentes para saber cual es el que tiene  mejor exactitud y el que mejor conviene usar.

Exactitud: El modelo que tuvo la mejor exactitud fueron RandomForest, en segundo DecisionTree y por último LogisticRegression.

Velocidad: El modelo que más trado en procesar, debido al número de iteraciones, fue el RandomForest con 1.2 segundos. Lo más rapidos fueron  y LogisticRegression con menos de un segundo.

El modelo con el que vamos a trabajar es **RandomForest**.

In [11]:
#Entrenamos el modelo con todos elementos del dataset y lo guardamos.
import joblib
features = df.drop('is_ultra',axis=1)
target = df['is_ultra']
model = RandomForestClassifier(random_state=54321,n_estimators=20)
model.fit(features,target)
joblib.dump(model,'model.joblib')

['model.joblib']

### Paso 4. Tarea adicional: haz una prueba de cordura al modelo.

Estos datos son más complejos que los que habías usado antes así que no será una tarea fácil. Más adelante lo veremos con más detalle.

Se realizaron dos pruebas.

La función `test_predicitons` establece y calcula que plan le conviene al usuario tener de acuerdo a la predición del modelo.

In [12]:
def test_prediction(x):
    predictions = model.predict(x)
    print(x,"\n")
    for index,prediction in enumerate(predictions):
        name = x.iloc[index].name
        if prediction == 0:
            print(f"Al usuario {name+1} le conviene el plan smart.\n")
        else:
            print(f"Al usuario {name+1} le conviene el plan ultra.\n")

#### Prueba 1.

Obtendremos promedio, mediana, máximo y mínimo de cada columna para descubrir si estos "usuarios" son recomendados por el modelo para que tengan plan `ultra` o `smart`.

In [13]:
dict_mean = {}
dict_median = {}
dict_max = {}
dict_min = {}
df_test = df.copy()
df_test = df_test.drop('is_ultra',axis=1)
for i in df_test.columns:
    dict_mean[i] = df[i].mean()
    dict_median[i] = df[i].median()
    dict_max[i] = df[i].max()
    dict_min[i] = df[i].min()

In [14]:
test_values = pd.DataFrame([dict_mean,dict_median,dict_max,dict_min],index=['mean','median','max','min'])
print(test_values)
predictions = model.predict(test_values)
predictions
for index,prediction in enumerate(predictions):
    name = test_values.iloc[index].name
    print("\n")
    if prediction == 0:
        print(f"El plan del usuario '{name}' es smart")
    else:
        print(f"El plan del usuario '{name}' es ultra")

             calls      minutes    messages       mb_used
mean     63.038892   438.208787   38.281269  17207.673836
median   62.000000   430.600000   30.000000  16943.235000
max     244.000000  1632.060000  224.000000  49745.730000
min       0.000000     0.000000    0.000000      0.000000


El plan del usuario 'mean' es smart


El plan del usuario 'median' es smart


El plan del usuario 'max' es ultra


El plan del usuario 'min' es ultra


Obtuvimos que los usuario `mean` y `median` le recomiendan el plan `smart`. Por otro lado, los usuarios `max` y `min` les recomendaron el plan `ultra`. Recordemos que nuestro modelo tuvo una exactitud de `0.79`.

Resultados que su obtuvieron, en una tabla:

| Usuario   | Plan recomendado|
|:---------:|:---------------:|
| mean      | smart           |
| median    | smart           |
| max       | ultra           |
| min       |  ultra          |

#### Prueba 2.


Realizaremos otra simulación creando un dataset donde los valores de la columnas se llanarán con valores aleatorios que se encuentran en el dataset original.

In [15]:
list = []
dict = {}
random.seed(41)
columns = ['calls', 'minutes', 'messages', 'mb_used']
for column in columns:
        list.append([random.choice(df[column]) for x in range(1,10)])
for index,column in enumerate(columns):
    dict[column] = list[index]
test_prediction(pd.DataFrame(dict))

   calls  minutes  messages   mb_used
0   91.0   250.56       0.0  22268.87
1  128.0   442.22      12.0  15811.56
2   50.0   499.29      79.0  13572.96
3  126.0  1184.93      35.0  21445.05
4   24.0   155.22      17.0  21969.01
5   52.0   146.18      75.0  31239.78
6   40.0   702.47      19.0  19921.86
7  160.0   108.69      21.0   7357.66
8   72.0   338.91      27.0   9766.09 

Al usuario 1 le conviene el plan smart.

Al usuario 2 le conviene el plan smart.

Al usuario 3 le conviene el plan smart.

Al usuario 4 le conviene el plan smart.

Al usuario 5 le conviene el plan smart.

Al usuario 6 le conviene el plan ultra.

Al usuario 7 le conviene el plan smart.

Al usuario 8 le conviene el plan ultra.

Al usuario 9 le conviene el plan smart.



Con el dataset hecho aletoriamente nos dió como resultado 7 usuarios dieron con el plan `smart` y el resto con `ultra`.

Resultados:

| Usuario   | Plan recomendado|
|:---------:|:---------------:|
| 1      | smart           |
| 2    | smart         |
| 3       | smart           |
| 4       |  smart          |
| 5       |  smart          |
| 7       |  ultra          |
| 7       |  smart          |
| 8       |  ultra          |
| 9      |  smart          |

### Conclusiones.

Entrenamos lo datos con 3 tipos de algoritmos diferentes que se consideraron los mejores para predecir la recomendación del plan del usuario. El primero que se puso a prueba fue Árboles de Decisión el cual tuvo un exactitud media pero la velocidad de entrenamiento fue la más rapida. El segundo modelo fue Bosques Aleatorios que tuvo una exactitud alta y velocidad media. Por último, Regresión Logística, a pesar de que fue el más rápido en ser entrenado, su exactitud fue la más baja. El rango de exactitud de los modelos fue de 0.76 a 0.79. Si se quisiera mayor exactitud, debemos tener en cuenta con la velocidad de entrenamiento no será muy rápido y viceversa. Para definir que modelo es el mejor, se deben considerar el tamaño del dataset y estas 2 características.


Poniendo los criterios en una tabla:

| Modelos            | Exactitud     | Velocidad |
| -----------       |:-------------:| -----:|
| RandomForest      | Alta  (0.791)        | Media |
| DecisionTree      | Media (0.7898)        |  Alta |
| LogisticRegresion | Baja (0.76)          |  Alta |