<h1>Tabla de contenido<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Introduccion" data-toc-modified-id="Introduccion-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Introduccion</a></span></li><li><span><a href="#Paso-a-paso-del-proyecto" data-toc-modified-id="Paso-a-paso-del-proyecto-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Paso a paso del proyecto</a></span><ul class="toc-item"><li><span><a href="#Librerias-necesarias-para-el-proyecto." data-toc-modified-id="Librerias-necesarias-para-el-proyecto.-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Librerias necesarias para el proyecto.</a></span></li><li><span><a href="#Lectura-del-dataset." data-toc-modified-id="Lectura-del-dataset.-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Lectura del dataset.</a></span></li><li><span><a href="#--Segmentamos-los-datos-en-conjuntos-para-el-modelo." data-toc-modified-id="--Segmentamos-los-datos-en-conjuntos-para-el-modelo.-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>- Segmentamos los datos en conjuntos para el modelo.</a></span></li><li><span><a href="#Calidad-y-pruebas-del-modelo." data-toc-modified-id="Calidad-y-pruebas-del-modelo.-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Calidad y pruebas del modelo.</a></span></li></ul></li><li><span><a href="#Conclusiones." data-toc-modified-id="Conclusiones.-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Conclusiones.</a></span></li></ul></div>

## Introduccion

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

Nos acceso a los datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos. Para esta tarea de clasificación vamos a crear un modelo que escoja el plan correcto. Sabemos que los datos ya fueron procesados previamente por lo que nos iremos directo a crear el modelo.

Desarrollaremos un modelo con la mayor exactitud posible. En este proyecto, el umbral de
exactitud es 0.75. Usaremos el dataset para comprobar la exactitud.

## Paso a paso del proyecto

### Librerias necesarias para el proyecto.

- Importamos las librerias que utlizaremos en el proyecto.

In [1]:
import pandas
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score

### Lectura del dataset.
- Leemos el dataset que utilizaremos en el proyecto.

In [2]:
df_megaline=pandas.read_csv('/datasets/users_behavior.csv')

- Comprobamos los datos del dataset.

In [3]:
print('Informacion del dataset:')
df_megaline.info()

Informacion del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [4]:
print('Descripcion del dataset.')
df_megaline.describe()

Descripcion del dataset.


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


In [5]:
print('Comprobamos los datos duplicados en el dataset.')
print('El dataset tiene',df_megaline.duplicated().sum(),'duplicados.')

Comprobamos los datos duplicados en el dataset.
El dataset tiene 0 duplicados.


In [6]:
print('Comprobamos si hay datos nulos.')
print(df_megaline.isnull().sum())

Comprobamos si hay datos nulos.
calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64


Segun lo visto el dataset no tiene datos duplicados y tampoco tien datos nulos por lo que efectivamente esta procesado, por lo que podemos continuar con el proyecto.

### - Segmentamos los datos en conjuntos para el modelo.

- Dividimos el dataset en 3 conjuntos, uno de entrenamientos, validacion y prueba.

In [7]:
# Manera aprendida en el sprint 8 que divide en 2 conjuntos con proporcion 3:1.
# megaline_train,megaline_valid= train_test_split(df_megaline,test_size=0.2,random_state=54321)

# Manera investigada para dividir en 3 conjuntos con proporcion 3:1:1.

# Obtenemos el conjunto de 'test' y dejamos otro conjunto llamado 'rest'.
megaline_rest,megaline_test=train_test_split(df_megaline,test_size=0.2,random_state=54321)

# Del conjunto 'rest' obtendemos el conjunto de entrenamiento y validacion.
megaline_train,megaline_valid=train_test_split(megaline_rest,test_size=0.25,random_state=54321)

- Teniendo los conjuntos de entrenamiento,validacion y prueba, separamos cada uno en las caracteristicas y el objetivo para nuestro modelo con una proporcion de 3:1:1  (un 60 % para el conjunto de entrenamiento y un 20 % para los conjuntos de validación y prueba).

In [8]:
#Entrenamiento
features_train=megaline_train.drop(['is_ultra'],axis=1)
target_train=megaline_train['is_ultra']
#Validacion
features_valid=megaline_valid.drop(['is_ultra'],axis=1)
target_valid= megaline_valid['is_ultra']
#Prueba
features_test=megaline_test.drop(['is_ultra'],axis=1)
target_test=megaline_test['is_ultra']

### Calidad y pruebas del modelo.

- Comenzamos con la creacion del modelo, en este caso eligimos el modelo de bosque aleatorio (RandomForestClassifier), aprovechando la creacion del bosque aleatorio realizaremos los preparativos para las pruebas del modelo.

In [9]:
# Declaramos variables para medir mce y exactitud de los modelos.
best_score=0
best_est_score=0
best_est_mse=0
best_depth=0
best_mse=0
for est in range(5,20,5): # Entrenaremos 20 modelos en intervalos de 5
    for depth in range (1,5): # La profundidad de los arboles sera de 1 a 5
        model_megaline=RandomForestClassifier(random_state=54321,n_estimators=est, max_depth=depth) # Configuramos el numero de arboles.
        model_megaline.fit(features_train,target_train) # Entrenamos el modelo con el conjunto de entrenamiento.
        predictions_valid= model_megaline.predict(features_valid) # Realizamos prediciones con el conjunto de validación.
        mse=mean_squared_error(target_valid,predictions_valid)**0.5 # Calculamos el ECM
        score= model_megaline.score(features_test,target_test) # Calculamos la puntuacion de accuracy en el conjunto de test.
        if score>best_score:
            best_score=score # Guardamos la mejor puntuacion de accurracy en el conjunto de validación.
            best_est_score=est # Guardamos el número de estimadores que corresponden a la mejor punturación de exactitud.
        if mse>best_mse:
            best_mse=mse # Guardamos la mejor prueba de MCE.
            best_est_mse=est # Guardamos el número de estimadores que corresponden a la mejor prueba de MCE.
            best_depth= depth # Guardamos la mejor profundidad para los arboles del bosque.

- Solo nos queda mostrar las metricas conseguidas en las pruebas del modelo con bosque aleatorio, comenzamos por el RECM (raíz del error cuadrático medio).

In [10]:
print("El RECM del mejor modelo en el conjunto de validación:", best_mse, "con estimadores de:", best_est_mse, "y mejor profundidad:", best_depth)

El RECM del mejor modelo en el conjunto de validación: 0.4797614752091583 con estimadores de: 15 y mejor profundidad: 1


- Mostramos la exactitud del mejor modelo del bosque aleatorio.

In [11]:
print("La exactitud del mejor modelo en el conjunto de pruebas con n_estimators(estimadores) {}) es de : {}".format(best_est_score, best_score))

La exactitud del mejor modelo en el conjunto de pruebas con n_estimators(estimadores) 15) es de : 0.7776049766718507


- Probaremos con otro modelo, utilizaremos el modelo árbol de decisión(DecisionTreeRegressor), aprovechando la creacion del arbol realizaremos los preparativos para las pruebas del modelo.

In [12]:
# Declaramos variables para medir mce y exactitud de los modelos.
best_score=0
best_depth=0
best_mse=0
for depth in range(1,6): # Seleccionamos el rango del hiperparámetro.
    model_megaline= DecisionTreeClassifier(max_depth=depth,random_state=12345) # Declaramos el modelo.
    model_megaline.fit(features_train,target_train) # Entrenamos el modelo en el conjunto de entrenamiento.
    predictions_valid = model_megaline.predict(features_valid) # Obtenemos las predicciones del modelo en el conjunto de validación.
    mse =mean_squared_error(target_valid,predictions_valid)**0.5# calcula la RECM en el conjunto de validación
    score= model_megaline.score(features_test,target_test) # Calculamos la puntuacion de accuracy en el conjunto de test.
    if mse > best_mse:
        best_mse = mse
        best_depth = depth
    if score>best_score:
        best_score=score # Guardamos la mejor puntuacion de accurracy en el conjunto de validación.


- Solo nos queda mostrar las metricas conseguidas en las pruebas del modelo con bosque aleatorio, comenzamos por el RECM (raíz del error cuadrático medio).

In [13]:
print("El RECM del mejor modelo en el conjunto de validación:", best_mse,"y mejor profundidad:", best_depth)

El RECM del mejor modelo en el conjunto de validación: 0.4732338040350594 y mejor profundidad: 1


- Mostramos la exactitud del mejor modelo del arbol de decisiones.

In [14]:
print("La exactitud del mejor modelo en el conjunto de pruebas es de : {}".format(best_score))

La exactitud del mejor modelo en el conjunto de pruebas es de : 0.7682737169517885


## Conclusiones.

Fue un desafio el crear 3 conjuntos ya que durante el sprint fuimos realizando practicas solo creando conjuntos de entrenamiento y validacion, al crear 3 conjuntos fue mas sencillo saber cuales utilizariamos para entrenar el modelo(conjunto de entrenamiento), medir la exactitud del modelo(conjunto de validación) y la métrica de evaluación de error cuadrático medio o ECM(conjunto de prueba). Si gusta puedo dejar la fuente de donde aprendi a realizar los 3 conjuntos con proporcion 3:1:1.

Decidi utilizar en este caso el  algoritmo de aprendizaje bosque aleatorio por que entrena una gran cantidad de árboles independientes y toma una decisión mediante el voto ya que con un bosque aleatorio obtenemos mejores resultados y a evitamos el sobreajuste.

Gracias a esto sabemos que el mejor modelo contempla:

- 15 estimadores
- Una profunidad maxima de 1
- Un RECM de 0.48(0.4797614752091583)
- Una exactitud de 0.77(0.7776049766718507)

Se decidio probar con otro modelo, un modelo de árbol de decision, donde realizamos un proceso similar con el modelo del bosque aleatorio, conseguimos metricas bastante similares:

- Una profunidad maxima de 1
- Un RECM de 0.47(0.4732338040350594)
- Una exactitud de 0.77(0.7682737169517885)

Recordemos que el obejtivo del proyecto era desarrollar un modelo con la mayor exactitud posible. El umbral de exactitud del proyecto es 0.75 y con el mejor modelo conseguimos una exactitud que supera ese umbral aun que sea por poco. 