Hola **Javier**!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
Muchísimas gracias por las observaciones 🤗
</div>

# __CREACION MODELO__ 

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

In [107]:
# Cargamos librerias para probar los 3 métodos y dataset
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

df = pd.read_csv('G:/.shortcut-targets-by-id/1ec4irvsZdM58w7ZpjkoK9daldWphQX4A/Proyectos/datasets/users_behavior.csv')

<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con la carga e importación de librerías! Sólo hay que tener cuidado con el uso de rutas absolutas a tus archivos, ya que se debe procurar una correcta ejecución de los notebooks y no todos tendrán el archivo en la misma dirección, por eso es mejor usar la librería `os` para construir la ruta o usar una más sencilla cómo `/datasets/file.csv`
    
</div>

In [108]:
# Procedemos a procesar y revisar los datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [109]:
df.tail(5)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
3209,122.0,910.98,20.0,35124.9,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0
3213,80.0,566.09,6.0,29480.52,1


No existen valores nulos y el formato de los datos es el correcto

In [110]:
# Establecemos el objetivo el cual es predecir el tipo de plan(0  para Smart y 1 para Ultra) que el usuario va a elegir de acuerdo a las caracteristicas que se le presentan
# Eliminamos la columna plan para que no sea parte de las caracteristicas y establecemos el target
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

# Segmentamos el modelo en un conjunto de entrenamiento y otro temporal para validación y prueba
df_train, df_temp = train_test_split(df, test_size=0.20, random_state=54321) # segmentamos el 20% para validación y prueba

#Dividimos el conjunto temporal (20%) en validación 10% y prueba 10%
df_valid, df_test = train_test_split(df_temp, test_size=0.50, random_state=54321)

Procedemos a probar varios modelos para la clasificacion del programa

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Muy bien realizada la división de los datos para evaluar correctamente los modelos
</div>

## __ARBOL DE DESICION__

In [111]:
# Establecemos las caracteristicas y el target para cada conjunto
features_train = df_train.drop('is_ultra', axis=1)  # caracteristicas de entrenamiento
target_train = df_train['is_ultra']  # target de entrenamiento
features_valid = df_valid.drop('is_ultra', axis=1)  # caracteristicas de validación
target_valid = df_valid['is_ultra']  # target de validación
features_test = df_test.drop('is_ultra', axis=1)  # caracteristicas de prueba
target_test = df_test['is_ultra']  # target de prueba

# Creamos modelo de arbol de decisión con hiperparametros por defecto
for depth in range(1,11):  # selecciona el rango del hiperparámetro
    model_tree=DecisionTreeClassifier(max_depth =depth,random_state =54321)
    model_tree.fit(features_train,target_train)

    predictions_valid=model_tree.predict(features_valid)
    accuracy = accuracy_score(target_valid,predictions_valid)

    print(f"max_depth= {depth} : {accuracy:.4f}")


max_depth= 1 : 0.6947
max_depth= 2 : 0.7414
max_depth= 3 : 0.7539
max_depth= 4 : 0.7508
max_depth= 5 : 0.7508
max_depth= 6 : 0.7632
max_depth= 7 : 0.7664
max_depth= 8 : 0.7695
max_depth= 9 : 0.7695
max_depth= 10 : 0.7726


<div class="alert alert-block alert-info">
<b>Podemos concluir que el modelo con mejor entrenamiento seria con 9 arboles el cul probaremos a continuacion  </b> <a class=“tocSkip”></a>
</div>

In [112]:
# Realizamos la predicción con el mejor hiperparámetro
model_tree=DecisionTreeClassifier(max_depth =9,random_state =54321)
model_tree.fit(features_train,target_train)
predictions_test=model_tree.predict(features_test)
accuracy = accuracy_score(target_test,predictions_test) # Calculamos exactitud

#Contamos el número de errores
errors_tree = (predictions_test != target_test).sum()
print (f"Numero de errores en el Test: {errors_tree}")

print(f"max_depth= 6 : {accuracy:.4f}") # Imprimimos la exactitud

Numero de errores en el Test: 68
max_depth= 6 : 0.7888


<div class="alert alert-block alert-info">
<b>Efectivamente probamos 79% de exactitud teniendo únicamente 68 errores en la prueba  </b> <a class=“tocSkip”></a>
</div>

## __BOSQUE ALEATORIO__

In [113]:
# Creamos modelo de bosque aleatorio con hiperparametros por defecto
best_score = 0
best_est = 0
for est in range(1,21): # selecciona el rango del hiperparámetro
    model_forest = RandomForestClassifier(random_state=54321, n_estimators= est) # configura el número de árboles
    model_forest.fit(features_train,target_train) # entrena el modelo en el conjunto de entrenamiento
    score = model_forest.score(features_valid,target_valid) # calcula la puntuación de accuracy en el conjunto de validación
    if score > best_score:
        best_score = score # guarda la mejor puntuación de accuracy en el conjunto de validación
        best_est = est # guarda el número de estimadores que corresponden a la mejor puntuación de exactitud

print("La exactitud del mejor modelo en el conjunto de validación (n_estimators = {}): {}".format(best_est, best_score))

La exactitud del mejor modelo en el conjunto de validación (n_estimators = 17): 0.7912772585669782


In [114]:
# Realizamos la predicción con el mejor hiperparámetro
model_forest = RandomForestClassifier(random_state=54321, n_estimators= best_est)
model_forest.fit(features_train,target_train)
predictions_test=model_forest.predict(features_test)
accuracy = accuracy_score(target_test,predictions_test) # Calculamos exactitud

#Contamos el número de errores
errors_forest = (predictions_test != target_test).sum()
print (f"Numero de errores en el Test: {errors_forest}")

#Impriimimos la exactitud
print(f"n_estimators= {best_est} : {accuracy:.4f}")

Numero de errores en el Test: 71
n_estimators= 17 : 0.7795


<div class="alert alert-block alert-info">
<b>Aplicando el modelo de bosque aletorio nos da una exactitud de 78% con 71 errores  </b> <a class=“tocSkip”></a>
</div>

## __REGRESION LOGISTICA__

In [115]:
# Creamos modelo de regresión logística
model_logistic = LogisticRegression(random_state=54321)
model_logistic.fit(features_train,target_train)
predictions_test=model_logistic.predict(features_test)
score_train = model_logistic.score(features_train,target_train) # calcula la puntuación de accuracy en el conjunto de entrenamiento
score_valid = model_logistic.score(features_valid,target_valid) # calcula la puntuación de accuracy en el conjunto de validación

print("Accuracy del modelo de regresión logística en el conjunto de entrenamiento:", score_train)
print("Accuracy del modelo de regresión logística en el conjunto de validación:", score_valid)

Accuracy del modelo de regresión logística en el conjunto de entrenamiento: 0.7596266044340724
Accuracy del modelo de regresión logística en el conjunto de validación: 0.6978193146417445


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [116]:
# Realizamos la predicción con el mejor hiperparámetro
predictions_test=model_logistic.predict(features_test)
accuracy = accuracy_score(target_test,predictions_test) # Calculamos exactitud

#Contamos el número de errores
errors_logistic = (predictions_test != target_test).sum()
print (f"Numero de errores en el Test: {errors_logistic}")

#Impriimimos la exactitud
print(f"Accuracy del modelo de regresión logística en el conjunto de prueba: {accuracy:.4f}")

Numero de errores en el Test: 93
Accuracy del modelo de regresión logística en el conjunto de prueba: 0.7112


<div class="alert alert-block alert-info">
<b>Con la regresión lgistica tenemos la menor exactitud y el mayor número de errores  </b> <a class=“tocSkip”></a>
</div>

# __SELECCION MEJOR MODELO__


<div class="alert alert-block alert-info">
<b>Seleccionamos el modelo de árbol de desición con 9 ramas debido a que nos arroja el mejor resultado de exactitud y menores errores  </b> <a class=“tocSkip”></a>
</div>

In [117]:
df.head(5) # Mostramos los primeros 5 registros del dataset

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


## Prueba de Cordura

In [118]:
# Prueba de cordura
# Seleccionamos un registro aleatorio
test_cases = pd.DataFrame({
    'calls': [40, 5000],
    'minutes': [312, 1000],
    'messages': [83, 1000],
    'mb_used': [15000, 50000]
})

predictions = model_tree.predict(test_cases)
print(predictions)

[0 1]


In [119]:
# Prueba de cordura 2: Exactitud con los datos originales
# Predecir con los datos originales (que se usaron para entrenar)
predictions_original = model_tree.predict(features)
accuracy = accuracy_score(target, predictions_original)
print(accuracy)

0.8500311138767891


<div class="alert alert-block alert-info">
<b>Podemos concluir que nuestro modelo seleccionado es el más optimo de acuerdo a los parametros de cada cliente ya que nos arroja el 85% de exactitud al probar con los datos originales del entrenamiento, por lo que la compañía tendra una mejor selección del plan para los nuevos clientes con ciertas carácteristicas que tenga cada uno</b> <a class=“tocSkip”></a>
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con tu proyecto Javier! Entrenaste los modelos correctamente y los fuiste mejorando cambiando los hiperparámetros logrando así una métrica por encima del umbral que se propuso para este proyecto.
    
También podrías realizar un EDA de los datos con los que vas a entrenar tu modelo, puedes generar gráficas y explorar las diferentes variables ya que así entenderás mejor los datos y sabrás que es lo que puede afectar tu modelo.
    
Saludos!
</div>