# Hola Eduardo!

Mi nombre es David Bautista, soy code reviewer de TripleTen y voy a revisar el proyecto que acabas de desarrollar.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión.

Encontrarás mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres.**

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>

¡Empecemos!

# Descripcion del proyecto

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

Tienes acceso a los datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos (del proyecto del sprint de Análisis estadístico de datos). Para esta tarea de clasificación debes crear un modelo que escoja el plan correcto.

Como ya hiciste el paso de procesar los datos, puedes lanzarte directo a crear el modelo.
Desarrolla un modelo con la mayor exactitud posible. En este proyecto, el umbral de exactitud es 0.75. Usa el dataset para comprobar la exactitud.

## Instrucciones del proyecto

- Abre y examina el archivo de datos. Dirección al archivo:datasets/users_behavior.csv Descarga el dataset
- Segmenta los datos fuente en un conjunto de entrenamiento, uno de validación y uno de prueba.
- Investiga la calidad de diferentes modelos cambiando los hiperparámetros. Describe brevemente los hallazgos del estudio.
- Comprueba la calidad del modelo usando el conjunto de prueba.
- Tarea adicional: haz una prueba de cordura al modelo. Estos datos son más complejos que los que habías usado antes así que no será una tarea fácil. Más adelante lo veremos con más detalle.

## Descripcion de datos


Cada observación en el dataset contiene información del comportamiento mensual sobre un usuario. La información dada es la siguiente:

- сalls — número de llamadas,
- minutes — duración total de la llamada en minutos,
- messages — número de mensajes de texto,
- mb_used — Tráfico de Internet utilizado en MB,
- is_ultra — plan para el mes actual (Ultra - 1, Smart - 0).

## Evaluación del proyecto

Hemos definido los criterios de evaluación para el proyecto. Lee esto con atención antes de pasar al ejercicio. 
Esto es lo que los revisores buscarán cuando evalúen tu proyecto:

- ¿Cómo leíste los datos después de descargarlos?
- ¿Segmentaste correctamente los datos en conjuntos de entrenamiento, validación y prueba?
- ¿Cómo escogiste el tamaño de los conjuntos?
- ¿Evaluaste correctamente la calidad del modelo?
- ¿Qué modelos e hiperparámentros usaste?
- ¿Cuáles fueron tus hallazgos?
- ¿Probaste los modelos correctamente?
- ¿Cuál es tu puntuación de exactitud?
- ¿Te ceñiste a la estructura del proyecto y mantuviste limpio el código?

Tienes tus hojas informativas y los resúmenes de los capítulos así que ya puedes continuar con el proyecto.
¡Buena suerte!

<div class="alert alert-block alert-success">
<b>Comentario del revisor </b> <a class="tocSkip"></a>
    
Hola Eduardo, buen trabajo dejando la sección de introducción del proyecto, ahora bien, si lo deseas podrías modificarlo para hacer el contenido del proyecto más personalizado.  </div>

### Abrir y examinar el archivo de datos

In [28]:
# Importar librerias necesarias para el proyecto
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from IPython.display import HTML


# Importar Archivos
df = pd.read_csv("datasets/users_behavior.csv")

# Mostrar datos relevantes del dataframe
display(HTML('<hr>'))
display(HTML('<h1> Datos de comportamiento de usuarios '))
display(df.head())
display(df.info())
display(HTML('<hr>'))

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


None

<div class="alert alert-block alert-danger">
<b>Comentario del revisor </b> <a class="tocSkip"></a>
    
Buen trabajo importando las librerías necesarias para el desarrollo del proyecto, así mismo con la carga de los datos. Ahora bien, sería interesante que se puedan ampliar un poco más la exploración inicial de los datos por medio de la revisión de componentes como la presencia de valores duplicados / nulos o el uso de métodos adicionales como ``describe()``.  Por otro lado, si lo ves interesante, podrías generar un comentario contando lo encontrado en la sección. </div>

### Segmentacion de datos en conjuntos de entrenamiento, validacion y prueba

In [24]:
# Dividir los datos en características (X) y la variable objetivo (y)
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

# Dividir los datos en conjuntos de entrenamiento (70%), validación (15%), y prueba (15%)
X_train, X_temp, y_train, y_temp = train_test_split(features, target, test_size=0.3, random_state=12345)
X_valid, X_test, y_valid, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=12345)

# Muestra el tamaño de cada conjunto
print("Tamaño del conjunto de entrenamiento:", len(X_train))
print("Tamaño del conjunto de validación:", len(X_valid))
print("Tamaño del conjunto de prueba:", len(X_test))

Tamaño del conjunto de entrenamiento: 2249
Tamaño del conjunto de validación: 482
Tamaño del conjunto de prueba: 483


<div class="alert alert-block alert-success">
<b>Comentario del revisor </b> <a class="tocSkip"></a>
    
Perfecto, buen trabajo creando los sets necesarios para el despliegue de los modelos.   </div>

### Aplicar modelo Random Forest y evaluacion

In [25]:
# Inicializa el modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=150, max_depth=10, min_samples_leaf=4, min_samples_split=2, random_state=12345)

# Entrena el modelo en el conjunto de entrenamiento
rf_model.fit(X_train, y_train)

# Realiza predicciones en el conjunto de validación
predictions_valid_rf = rf_model.predict(X_valid)

# Calcula la exactitud del modelo en el conjunto de validación
accuracy_rf_valid = accuracy_score(y_valid, predictions_valid_rf)
print("Exactitud con Random Forest en el conjunto de validación:", accuracy_rf_valid)

Exactitud con Random Forest en el conjunto de validación: 0.8049792531120332


### Aplicar modelo Logistic Regression y evaluacion

In [26]:
# Inicializar el modelo de regresión logística
lr_model = LogisticRegression(random_state=12345, C=0.1, penalty='l1', solver='liblinear', max_iter=200)

# Entrenar el modelo en el conjunto de entrenamiento
lr_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de validación
predictions_valid_lr = lr_model.predict(X_valid)

# Calcular la exactitud del modelo en el conjunto de validación
accuracy_lr_valid = accuracy_score(y_valid, predictions_valid_lr)
print("Exactitud con Logistic Regression en el conjunto de validación:", accuracy_lr_valid)


Exactitud con Logistic Regression en el conjunto de validación: 0.7655601659751037


### Prueba de cordura

In [32]:
# Analiza la importancia de las características
rf_feature_importances = pd.DataFrame(rf_model.feature_importances_, index=X_train.columns, columns=['importance']).sort_values('importance', ascending=False)
print("Importancia de características:\n", rf_feature_importances)


Importancia de características:
           importance
mb_used     0.372219
minutes     0.227689
messages    0.203097
calls       0.196996


<div class="alert alert-block alert-danger">
<b>Comentario del revisor </b> <a class="tocSkip"></a>
    
Realizas un buen trabajo desplegando los modelos; sin embargo, hay algunos comentarios que quiero dejar para que los puedas tener en cuenta: 

- Primero que todo, sería interesante poder explorar alguna manera de optimizar los hiperparámetros usados dentro de los algoritmos, ya sea con el uso de bucles o grillas de optimización de hiperparámetros. 

- No se está terminando de usar la lógica del set de testeo de manera correcta, fíjate que ninguno de los modelos lo testeas con dicho set. </div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor </b> <a class="tocSkip"></a>
    
# Comentario General

Hola Eduardo, te felicito por el desarrollo del proyecto hasta el momento. Ahora bien, he dejado comentarios para que los puedas tener en cuenta para la siguiente entrega. Quedo atento. </div>