# ¡Hola, Anthony!  

Mi nombre es Carlos Ortiz, soy code reviewer de Practicum y voy a revisar el proyecto que acabas de desarrollar.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión. 

Encontrarás mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres**.

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>
¡Empecemos!

<div class="alert alert-block alert-info">
<b>Hola Carlos! Gracias por tus observaciones, espero haber entendido todo.</b> <a class="tocSkip"></a>
</div>

### Proyecto Compañía Móvil Megaline 

En el siguiente proyecto se trabajará con los datos de la Compañía Móvil Megaline, la cual quiere desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de la empresa, Smart o Ultra. Para este modelo la compañía busca un umbral de exactitud del 75%.

- Contenidos:

| Objetivos         | Descripción |
|--------------|--------------|
| Análisis exploratorio de datos (Python    |  Carga de librerías y archivos csv  |
|                                           | Preprocesamiento de datos    |
| Segmentación de los datos    | Elección de modelos    |
|     | Validación de modelos    |
|     | Prueba de cordura    |
| Conclusiones generales  |     |

### Análisis exploratorio de datos (Python)

In [33]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error
from sklearn.dummy import DummyClassifier

In [23]:
try:
    df = pd.read_csv('users_behavior.csv')
except:
    df = pd.read_csv('/datasets/users_behavior.csv')

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con esta importación de datos y de librerías.
</div>

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [25]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


### Segmentación de los datos

- En este paso se dividirá el data frame en 3: El 60% será para entrenamiento, el 20% para validación y otro 20% para prueba.

In [26]:
df_train, df_valid_test = train_test_split(df, test_size=0.6, random_state=1234)
df_valid, df_test = train_test_split(df_valid_test, test_size=0.5, random_state=1234)

- Dado el origen del objetivo, se utilizarán modelos de clasificación.

- Primer modelo: Árbol de decisiones.

In [27]:
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']
features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']
features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']

- Se creará un bucle para max_depth de 1 a 5, con el fin de encontrar a qué profundidad se puede conseguir la mejor acertividad con el modelo de árbol de decisiones.

In [28]:
for depth in range (1, 6):
    model = DecisionTreeClassifier(random_state=1234, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    print('max_depth =', depth, ': ', end='')
    print(accuracy_score(target_valid, predictions_valid))

max_depth = 1 : 0.7468879668049793
max_depth = 2 : 0.770746887966805
max_depth = 3 : 0.7800829875518672
max_depth = 4 : 0.766597510373444
max_depth = 5 : 0.779045643153527


- En el modelo Árbol de Decisiones se puede usar un max_depth de 3 para tener la máxima acertividad, la cual es de un 78%

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

- Segundo modelo: Bosque Aleatorio.

In [29]:
best_score = 0
best_est = 0
for est in range(1, 11):
    model = RandomForestClassifier(random_state=4321, n_estimators=est)
    model.fit(features_train, target_train)
    score = model.score(features_valid, target_valid)
    if score > best_score:
        best_score = score
        best_est = est

print('Accuracy del mejor modelo es el conjunto de validación (n_estimators = {}):{}'.format(best_est, best_score))

Accuracy del mejor modelo es el conjunto de validación (n_estimators = 8):0.7800829875518672


- En el modelo Bosque Aleatorio, se puede usar un n_estimators de 10 para tener la máxima acertividad, la cual es de un 78%

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Bien hecho.
</div>

- Tercer modelo: Regresión Logística.

In [30]:
model = LogisticRegression(random_state=4321, solver='liblinear')
model.fit(features_train, target_train)
score_train = model.score(features_train, target_train)
score_valid = model.score(features_valid, target_valid)
print('Accuracy del modelo de regresión logística en el conjunto de entrenamiento:', score_train)
print('Accuracy del modelo de regresión logística en el conjunto de validación:', score_valid)

Accuracy del modelo de regresión logística en el conjunto de entrenamiento: 0.7035019455252919
Accuracy del modelo de regresión logística en el conjunto de validación: 0.6939834024896265


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con este modelo.
</div>

- En el modelo Regresión Logística, la asertividad del conjunto de entrenamiento es de un 70,35% y del conjunto de validación es de un 69,40%

In [31]:
final_model = DecisionTreeClassifier(random_state=1234, max_depth=3)
final_model.fit(features_train, target_train)
predictions_test = final_model.predict(features_test)
print('max_depth =', depth, ': ', end='')
print(accuracy_score(target_test, predictions_test))

max_depth = 5 : 0.8145077720207254


- La asertividad del conjunto de test es de 81.45%

- Prueba de cordura: Se utilizará DummyClassifier, porque hace predicciones ignorando los inputs del conjunto features. Se utilizará el parámetro “most_frequent”, dado que este método siempre devuelve la etiqueta de clase más frecuente.

In [32]:
dummy_classifier = DummyClassifier(strategy="most_frequent")
dummy_classifier.fit(features_train, target_train)
y_pred = dummy_classifier.predict(features_test)
dummy_classifier.score(features_test, target_test)

0.694300518134715

La prueba de cordura a través de DummyClassifier es de 69.43% de asertividad.

- Conclusiones Generales

- Los modelos utilizados fueron los de clasificación dado que se quiere pronosticar si un usuario va a elegir un plan u el otro.
- El modelo con mayor asertividad en el entremiento fue el Árbol de decisiones con un 80%.
- Los otros dos modelos fueron el Bosque Aleatorio y Regresión Logística, que tuvieron como resultado una acertividad menos al 80%, pero mayor al 69%.
- En la comprobación de calidad del modelo, al usar el conjunto de prueba, la asertividad fue de un 70%.
- En la prueba de cordura se demostró que los resultados del objetivo 0, o sea, que el usuario elija plan Smart, la presición fue de un 81% y un 82% para los planes Ultra.

<div class="alert alert-block alert-danger">
    
# Comentarios generales 
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo, Anthony. Nos quedan unos pocos elementos pendientes tanto de fondo como de forma para poder aprobar tu proyecto. He dejado comentarios a lo largo del documento para ello.
</div>

<div class="alert alert-block alert-success">
    
# Comentarios generales 
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo, Anthony. Todo ha sido corregido y has aprobado un nuevo proyecto. ¡Felicitaciones!
</div>