# ¡Hola, Héctor!  

Mi nombre es Carlos Ortiz, soy code reviewer de Practicum y voy a revisar el proyecto que acabas de desarrollar.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión. 

Encontrarás mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres**.

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>
¡Empecemos!

# Contenido

* [Introducción](#intro)
* [Inicialización](#inicio)
    * [Cargar los datos](#charge)
    * [Separar Datasets](#datasets)
* [Modelo de clasificación](#clasificacion)
    * [Árbol de decisiones](#tree)
        * [Mejora modelo árbol de decisión](#best_tree)
    * [Bosque aleatorio](#forest)
        * [Mejor modelo Bosque aleatorio](#best_forest)
    * [Regresión logística](#logistica)
        * [Mejor Regresión logística](#best_logistica)
    * [Elección de modelo](#eleccion)

# Modelo de análisis comportamiento de clientes planes telefónicos <a id='intro'></a>

Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

# Inicialización <a id='inicio'></a>

Se cargan las librerías principales a usar durante este proyecto

In [1]:
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

## Cargar los datos <a id='charge'></a>

In [2]:
try:
    df = pd.read_csv('users_behavior.csv')
except:
    df = pd.read_csv('/datasets/users_behavior.csv')

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con esta importación de librerías y de datos.
</div>

In [3]:
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## Separación de Datasets <a id='datasets'></a>

El dataset original se separa en dos set, uno para entrenamiento y uno de validación.

In [5]:
df_train, df_valid_probe = train_test_split(df, test_size = 0.4, random_state = 12345)

In [6]:
df_valid, df_probe = train_test_split(df_valid_probe, test_size=0.5, random_state= 12345)

In [7]:
df_train.shape

(1928, 5)

In [8]:
df_valid.shape

(643, 5)

In [9]:
df_probe.shape

(643, 5)

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Has hecho bien con esta separación de datos.
</div>

# Modelo de Clasificación <a id='clasificacion'></a>

Debido a que tenemos que elegir un plan adecuado apra los usuarios existentes, la mejor forma de abordar la predicción es con clasificación, esto tomando en cuenta la cantidad de llamadas, mensajes y datos utilizados al mes.

Para los ejercisios de crearán los datasets features_train, target_train, features_valid y target_valid para probar todos los métodos y elegir el más adecuado.

In [10]:
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']

In [11]:
features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']

In [12]:
features_probe = df_probe.drop(['is_ultra'], axis=1)
target_probe = df_probe['is_ultra']

## Árbol de decisión <a id='tree'></a>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a><br>
    Se eliminó la linea de código y se integro al inicio.
</div>

In [13]:
treemodel = DecisionTreeClassifier(random_state=12345)

In [14]:
treemodel.fit(features_valid, target_valid)

DecisionTreeClassifier(random_state=12345)

In [15]:
treeanswer = treemodel.predict(features_valid)

In [16]:
print(accuracy_score(target_valid, treeanswer))

1.0


El valor de efectividad del árbol de decisiones nos da un valor de 1.0, esto nos indica que el modelo no cometió errores al predicr los datos, sin embargo ya que conocemos que los modelos no son perfectos se realizarán experimentos para comprbar este valor

### Mejor modelo árbol de decisión <a id='best_tree'></a>

Se creará un bucle en el que se seleccionará el método con mejor exactitud.

In [17]:
best_treemodel = None
best_treeresult = 0
best_depth = 0
for depth in range(1,6):
    treemodel = DecisionTreeClassifier(max_depth = depth, random_state=12345)
    treemodel.fit(features_train, target_train)
    
    predictions_valid = treemodel.predict(features_valid)
    result = accuracy_score(target_valid, predictions_valid)
    
    if result > best_treeresult:
        best_treemodel = treemodel
        best_treeresult = result
        best_depth = depth
        treemodel = DecisionTreeClassifier(max_depth = best_depth, random_state = 12345)
        treemodel.fit(features_train, target_train)
print("Exactitud del mejor modelo en el conjunto de validación: ", best_treeresult)
print("El valor para max_depth es: ", best_depth)

Exactitud del mejor modelo en el conjunto de validación:  0.7853810264385692
El valor para max_depth es:  3


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

## Bosque Aleatorio <a id='forest'></a>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a><br>
    Se eliminó la linea de código y se integro al inicio.
</div>

In [18]:
forestmodel = RandomForestClassifier(random_state=12345)

In [19]:
forestmodel.fit(features_train, target_train)

RandomForestClassifier(random_state=12345)

In [20]:
forestanswer = forestmodel.predict(features_valid)

In [21]:
print(accuracy_score(target_valid, forestanswer))

0.7853810264385692


### Mejor modelo Bosque aleatorio <a id='best_forest'></a>

In [22]:
best_forestscore = 0
best_forestest = 0
for est in range(1,11):
    forestmodel = RandomForestClassifier(random_state=12345, n_estimators=est)
    forestmodel.fit(features_train, target_train)
    forestscore = forestmodel.score(features_valid, target_valid)
    if forestscore > best_forestscore:
        best_forestscore = forestscore
        best_forestest = est
        forestmodel = RandomForestClassifier(random_state = 12345, n_estimators = best_forestest)
        forestmodel.fit(features_train, target_train)
print("(n_estimators = {}): {}".format(best_forestest, best_forestscore))

(n_estimators = 10): 0.7853810264385692


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

La efectividad del modelo de bosque aleatorio con 10 es la mejor opción para ajustar el método y buscar tener mayor certidumbre para las predicciones solicitadas

## Regresión Logística <a id='logistica'></a>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a><br>
    Se eliminó la linea de código y se integro al inicio.
</div>

In [23]:
logistic_model = LogisticRegression(random_state=12345, solver='liblinear')

In [24]:
logistic_model.fit(features_train, target_train)

LogisticRegression(random_state=12345, solver='liblinear')

In [25]:
logistics_score_train = logistic_model.score(features_train, target_train)
print(logistics_score_train)

0.7505186721991701


In [26]:
logistics_score_valid = logistic_model.score(features_valid, target_valid)
print(logistics_score_valid)

0.7589424572317263


Usando la regresión logística se encontró que el modelo esta subajustado ya que la eficacia es mayor con el dataset de entrenamiento que con el dataset de validación.

## Elección de modelo <a id='eleccion'></a>

Con los experimentos realizados encontramos que el modelo más eficiente al momento de calcular el plan de los usuarios es el árbol de decisiones, por lo que se probará con el dataset df_probe, para determinar si esto se cumple y podemos definir el modelo final para este ejercicio.

### Prueba de modelo con dataset de prueba <a id='probe'></a>

Se toma como modelo más exacto el árbol de decisiones con el hiperpárametro `max_depth = 3`.

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a><br>
    Se eliminó la linea de código y se integro en la sección con los otros datasets.
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a><br>
    Se eliminó la linea de código corrigiendo para usar el modelo generado anteriormente.
</div>

In [27]:
answers = treemodel.predict(features_probe)

In [28]:
print(accuracy_score(target_probe, answers))

0.7838258164852255


# Conclusión <a id='conclusion'></a>

Este proyecto se buscó determinar el mejor método para la predicción de los planes. 
Como primer paso se dividió el dataset para poder realizar el entrenamiento del modelo, validación y prueba, se dividé en el 60% de los datos se utilizarán para entrenar el modelo, el otro 40% se divide en veinte y veinte porciento.

Debido a la pregunta que tenemos de elegir entre dos planes se decide realizar la prueba con los modelos de clasificación.

En primer lugar se realiza la prueba con `Árbol de Decisiones`, la primer instancia se muestra una efecitivada de 1.0, sin embargo la lógica muestra que este valor no es correcto ya que siempre se tiene que considerar el error de cálculo.
Se hace la prueba para determinar los hiperparámetros más adecuados, en este caso nos enfocamos `max_depth`, encontrando que el valor de 3 es el modelo con la mayor eficiencia.

Posteriormente pasamos a realizar prueba con el `Bosque Aleatorio`, después buscamos mejorar el modelo buscando el número de estimaciones con los que incrementa la eficiencia, encontrando que `n_estimators` con un valor de 10, con esto el valor de eficiencia es igual al valor del modelo de árbol de decisiones.

Para continuar y probar otro modelo, usamos la `Regresión Logística`, al obtener el valor más bajo de eficiencia descartamos el modelo.

Con los métodos `Árbol de decisiones` y `Bosque Aleatorio` con el mismo valor de eficiencia se decide probar el modelo de árbol de decisiones con el dataset de prueba. Usando el modelo encontramos que la eficiencia baja 3 milesimas. Esto me lleva a preguntar si realmente el modelo quedó ajustado y será el adecuado. Por otro lado logicamente se busca determinar si la eficiencia es correcta.
El experimento de Bernouilli funciona para este tipo de problemas, esto debido a que tenemos solo dos decisiones que tomar, si el plan es `Ultra` o `Smart`, la probabilidad de cada uno es del 50% por lo que lo mínimo que podemos esperar obtener es una eficiencia del 0.5, el valor obtenido del modelo es mayor al 0.75 por lo que se acepta de momento el modelo presentado para estas predicciones.

<div class="alert alert-block alert-danger">
    
# Comentarios generales
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Muy buen trabajo, Héctor. Nos quedan algunos elementos tanto de forma como de fondo que debemos solucionar antes de poder aprobar tu proyecto. He dejado comentarios a lo largo del documento para ello.
</div>

<div class="alert alert-block alert-success">
    
# Comentarios generales
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Todo corregido. Has aprobado un nuevo proyecto.
</div>