¡Hola Andrea! Como te va?

Mi nombre es Facundo Lozano! Un gusto conocerte, seré tu revisor en este proyecto.

A continuación un poco sobre la modalidad de revisión que usaremos:

Cuando enccuentro un error por primera vez, simplemente lo señalaré, te dejaré encontrarlo y arreglarlo tú cuenta. Además, a lo largo del texto iré haciendo algunas observaciones sobre mejora en tu código y también haré comentarios sobre tus percepciones sobre el tema. Pero si aún no puedes realizar esta tarea, te daré una pista más precisa en la próxima iteración y también algunos ejemplos prácticos. Estaré abierto a comentarios y discusiones sobre el tema.

Encontrará mis comentarios a continuación: **no los mueva, modifique ni elimine**.

Puedes encontrar mis comentarios en cuadros verdes, amarillos o rojos como este:

<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Exito. Todo se ha hecho de forma exitosa.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Observación. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Necesita arreglos. Este apartado necesita algunas correcciones. El trabajo no puede ser aceptado con comentarios rojos. 
</div>

Puedes responder utilizando esto:

<div class="alert alert-block alert-info">
<b>Respuesta de estudiante.</b> <a class="tocSkip"></a>
</div>

# Proyecto integrado 8

<div class="alert alert-block alert-success">
<b>Review General. (Iteración 1) </b> <a class="tocSkip"></a>

Buenas Andrea! Siempre me tomo este tiempo al inicio de tu proyecto para comentarte mis apreciaciones generales de esta iteración de tu entrega. 

Me gusta comenzar dando la bienvenida al mundo de los datos a los estudiantes, te deseo lo mejor y espero que consigas lograr tus objetivos. Personalmente me gusta brindar el siguiente consejo, "Está bien equivocarse, es normal y es lo mejor que te puede pasar. Aprendemos de los errores y eso te hará mejor programando ya que podrás descubrir cosas a medida que avances y son estas cosas las que te darán esa experiencia para ser mejor como  Data Scientist"

Ahora si yendo a esta notebook. Lo he dicho al final del proyecto pero lo resalto aquí nuevamente Andrea, tu proyecto está muy bien resuelto, resalta capacidad y comprensión de todas las herrramientas, como a la vez esta ordenado y es sencillo de seguir, felictiaciones!

Este proyecto está en condiciones de ser aprobado! Éxitos dentro de tu camino en el mundo de los datos!

Saludos Andrea!

El objetivo del presente proyecto es desarrollar un modelo que pueda analizar el comportamiento de los clientes y así, poder recomendar uno de los planes ofrecidos por *Megaline*: Smart o Ultra.

# Contenido <a id='back'></a>

* [Etapa 1. Abrir el arhivo de datos y análisis general](#data_review)
* [Etapa 2. Preparar los datos](#data_preprocessing)
* [Etapa 3. Analizar la calidad de diferentes modelos](#model_quality)
* [Etapa 4. Comprando la calidad del modelo](#quality)
* [Etapa 5. Prueba de cordura al modelo](#sanity_check)
* [Etapa 6. Conclusión](#end)

## Etapa 1. Abrir el archivo de datos y análisis general <a id='data_review'></a>

In [26]:
#Llamar a las librerías
import pandas as pd
from sklearn import set_config
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error, accuracy_score
from sklearn.model_selection import GridSearchCV
import numpy as np

In [27]:
#Llamar a la base de datos
clientes = pd.read_csv('/datasets/users_behavior.csv')

In [28]:
#Observar información general de la data
print(clientes.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None


In [29]:
#Convertir variables
clientes['calls'] = clientes['calls'].astype(int)
clientes['messages'] = clientes['messages'].astype(int)
clientes['is_ultra'] = clientes['is_ultra'].astype(int)

In [30]:
print(clientes.head())

   calls  minutes  messages   mb_used  is_ultra
0     40   311.90        83  19915.42         0
1     85   516.75        56  22696.96         0
2     77   467.66        86  21060.45         0
3    106   745.53        81   8437.39         1
4     66   418.74         1  14502.75         0


In [31]:
print(clientes.describe())

             calls      minutes     messages       mb_used     is_ultra
count  3214.000000  3214.000000  3214.000000   3214.000000  3214.000000
mean     63.038892   438.208787    38.281269  17207.673836     0.306472
std      33.236368   234.569872    36.148326   7570.968246     0.461100
min       0.000000     0.000000     0.000000      0.000000     0.000000
25%      40.000000   274.575000     9.000000  12491.902500     0.000000
50%      62.000000   430.600000    30.000000  16943.235000     0.000000
75%      82.000000   571.927500    57.000000  21424.700000     1.000000
max     244.000000  1632.060000   224.000000  49745.730000     1.000000


In [32]:
#Ver si hay duplicados
print(clientes.duplicated().sum())

0


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

    
Excelente implementación de importaciones y carga de datos. Felicitaciones por mantener los procesos en celdas separadas! A la vez excelente implementación de los métodos para observar la composición de los datos!

### Conclusión etapa 1
Pudo observarse que en la data **clientes** no hay valores perdidos. Sin embargo, y debido a que se observó que las variables *calls* y *messages* eran de tipo numérico continuo, se realizó un cambió sobre las mismas para que sean de tipo numérico discreto. Adicionalmente, se observa que la variable *is_ultra* también está como numérica, cuando sería más adecuado que sea categórica; sin embargo, para poder realizar los modelos de manera adecuada solo se procederá a establecerla como un entero. Además, a partir del valor de la desviación estándar, es posible concluir que la mayoría de variables tienen datos atípicos. Finalmente, no se observan duplicados. 

## Etapa 2. Analizar los datos <a id='data_preprocessing'></a>

In [33]:
#Definición de las características y del objetivo
features = clientes.drop(columns=['is_ultra'])
target = clientes['is_ultra']

In [34]:
#División de datos en conjuntos de entrenamiento y en conjunto temporal
features_train, features_temp, target_train, target_temp = train_test_split(features, target, test_size=0.4, random_state=12345)

In [35]:
#Dividir el conjunto temporal en conjunto de validación y en conjunto de prueba
features_valid, features_test, target_valid, target_test = train_test_split(features_temp, target_temp, test_size=0.5, random_state=12345)

In [36]:
#Tamaño de cada conjunto
print(f'Tamaño del conjunto de entrenamiento: {features_train.shape}')
print(f'Tamaño del conjunto de validación: {features_valid.shape}')
print(f'Tamaño del conjunto de prueba: {features_test.shape}')

Tamaño del conjunto de entrenamiento: (1928, 4)
Tamaño del conjunto de validación: (643, 4)
Tamaño del conjunto de prueba: (643, 4)


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

    
Nuevamente excelente Andrea! División perfecta de los datos en los 3 conjuntos correspondientes, bien hecho!

### Conclusión etapa 2
Se definieron dos nuevas datas, a partir del dataset original, siendo estas **features**, la cual contiene las características de interés, y **target**, la cual contiene el objetivo del análisis. Posteriormente se realizó la división para establecer el conjunto de entrenamiento (60%), el de validación (40%) y el de prueba (40%). Debido a que esta distribución permite asegurar que el modelo se encuentre bien ajustado y que generalice bien nuevos datos. 

## Etapa 3. Analizar la calidad de diferentes modelos<a id='model_quality'></a>

<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

    
Respecto a esta sección lo hemos hecho muy bien Andrea! Sin embargo marcaré como una recomendación que quitemos los cálculos de 

In [37]:
#Árboles de decisión

best_score = 0
best_depth = 0
best_rmse = float('inf')

for depth in range(1, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    score = accuracy_score(target_valid, predictions_valid)
    rmse = mean_squared_error(target_valid, predictions_valid, squared=False)
    
    if score > best_score:
        best_score = score
        best_depth = depth
        best_rmse = rmse
        
print("Mejor profundidad del árbol:", best_depth)
print("Mejor exactitud en el conjunto de validación:", best_score)
print("Mejor RECM en el conjunto de validación:", best_rmse)

Mejor profundidad del árbol: 3
Mejor exactitud en el conjunto de validación: 0.7853810264385692
Mejor RECM en el conjunto de validación: 0.46326987119974766


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

Bien hecho Andrea! Perfecta implementación lógica con el loop iterando sobre los diferentes valores de hiperparámteros, a la vez perfecto procedimiento de entrenamiento y testeo! Sigamos!

Se delimitó *max_depth* en 3 debido a que hiperparámetro brinda el árbol de decisión con la mejor exactitud y el mejor RECM en el conjunto de validación.

En efecto, se observa que la exactitud es de 78.5%, mientras que el RECM es de 0.46. Lo anterior indica que, en promedio, este modelo  clasifica los datos de manera correcta en 8 de cada 10 casos y difiere de las respuestas correctas en 0.46 clientes.

In [38]:
#Bosques aleatorios

best_score = 0
best_est = 0
best_rmse = float('inf')

for est in range (1,11):
    model = RandomForestClassifier(random_state=12345,n_estimators=est)
    model.fit(features_train, target_train)
    score = model.score(features_valid,target_valid)
    valid_predictions = model.predict(features_valid)
    rmse = mean_squared_error(target_valid, valid_predictions, squared=False)
    
    if score > best_score:
        best_score = score
        best_est = est
        best_rmse = rmse

print("La exactitud del mejor modelo en el conjunto de validación (n_estimators = {}): {}".format(best_est, best_score))
print("El RECM del mejor modelo en el conjunto de validación (n_estimators = {}): {}".format(best_est, best_rmse))

La exactitud del mejor modelo en el conjunto de validación (n_estimators = 10): 0.7853810264385692
El RECM del mejor modelo en el conjunto de validación (n_estimators = 10): 0.46326987119974766


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

Procedimiento similar al anterior, excelente en este caso con un doble loop, muy bien hecho!

Se delimitó el *n_estimators* en 10 debido a que hiperparámetro brinda el árbol de decisión con la mejor exactitud y el mejor RECM en el conjunto de validación.

Efectivamente, se observa que este modelo tiene una exactitud de 78.5% y un RECM de 0.46. Lo anterior indica que, en promedio, este modelo clasifica los datos de manera correcta en 8 de cada 10 casos y difiere de las respuestas correctas en 0.46 clientes.

In [39]:
#Definir el modelo de regresión 
log_reg = LogisticRegression(random_state=12345, max_iter=1000)

#Entrenar el modelo
log_reg.fit(features_train, target_train)

#Predecir en el conjunto de validación
log_reg_valid_predictions = log_reg.predict(features_valid)

#Calcular el RECM y la exactitud
log_reg_rmse = mean_squared_error(target_valid, log_reg_valid_predictions, squared=False)
log_reg_accuracy = accuracy_score(target_valid, log_reg_valid_predictions)

print(f'Regresión logística - RECM: {log_reg_rmse}, Exactitud: {log_reg_accuracy}')

Regresión logística - RECM: 0.5378373837154948, Exactitud: 0.7107309486780715


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

    
Excelente creación de modelo, en este caso un más tradicional pero un perfecto entrenamiento y obtención de resultados con las métricas correspondientes. Bien hecho!

Se delimitó *max_iter* en 1000 y 10 debido a que esto asegura que el modelo converga de manera adecuada.

Sumado a lo anterior, se observa que este modelo tiene un RECM de 0.54 y una exactitud de 71.1%. Lo anterior indica que, en promedio, este modelo difiere de las respuestas correctas en 0.54 clientes y que clasifica los datos de manera correcta en 7 de cada 10 casos.

### Conclusión etapa 3
En base a los modelos expuestos con anterioridad, se conluye que existe un empate entre los modelos **Bosques aleatorios** y **Árbol de decisión**. Los motivos de la afirmación anterior son los siguientes: 
1. Mayor exactitud. Siendo en ambos casos del 78.5%, es posible afirmar que estos modelos predicen adecuadamente 8 de cada 10 casos. 
2. Menor RECM. Siendo en ambos casos 0.46, es posible afirmar que en términos comparativos, las predicciones de estos modelos están más cerca de las respuestas correctas. 

## Etapa 4. Comprando la calidad del modelo<a id='quality'></a>

In [40]:
#Árbol de decisión

#Usar el mejor modelo para predecir en el conjunto de prueba
best_tree_model = DecisionTreeClassifier(random_state=12345, max_depth=best_depth)
best_tree_model.fit(features_train, target_train)
test_predictions = best_tree_model.predict(features_test)

#Calcular la exactitud y el RECM en el conjunto de prueba
test_accuracy = accuracy_score(target_test, test_predictions)
test_rmse = mean_squared_error(target_test, test_predictions, squared=False)

print(f'Exactitud en el conjunto de prueba: {test_accuracy}')
print(f'RECM en el conjunto de prueba: {test_rmse}')

Exactitud en el conjunto de prueba: 0.7791601866251944
RECM en el conjunto de prueba: 0.46993596731342624


El árbol de decisión tiene un RECM de 0.47 y una exactitud de 77.9% en el conjunto de prueba. Ello quiere decir que el modelo difiere de las respuestas correctas en 0.47 clientes y que clasifica los datos de manera correcta en 8 de cada 10 casos.

In [41]:
# Usar el mejor modelo para predecir en el conjunto de prueba
best_forest_model = RandomForestClassifier(random_state=12345, n_estimators=best_est)
best_forest_model.fit(features_train, target_train)
test_predictions = best_forest_model.predict(features_test)

# Calcular la exactitud y el RECM en el conjunto de prueba
test_accuracy = accuracy_score(target_test, test_predictions)
test_rmse = mean_squared_error(target_test, test_predictions, squared=False)

print(f'Exactitud en el conjunto de prueba: {test_accuracy}')
print(f'RECM en el conjunto de prueba: {test_rmse}')

Exactitud en el conjunto de prueba: 0.7807153965785381
RECM en el conjunto de prueba: 0.46827833968854665


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

    
Y tal como debíamos hemos evaluado sobre el conjunto de prueba, excelente Andrea! Solo tengamos en cuenta que debemos medir únicamente el accuracy y no el recm! Sigamos!

El bosque aleatorio tiene un RECM de 0.47 y una exactitud de 78.1% en el conjunto de prueba. Ello quiere decir que el modelo difiere de las respuestas correctas en 0.47 clientes y que clasifica los datos de manera correcta en 8 de cada 10 casos.

### Conclusión etapa 4
En base a los modelos expuestos con anterioridad, se conluye que exoste el mejor modelo es el **bosque aleatorio** debido que demuestra un mejor desempeño tanto en la exactitud como en el RECM.

## Etapa 5. Prueba de cordura al modelo <a id='sanity_check'></a>

In [42]:
#Modelo de bosque aleatorio entrenado
model = RandomForestClassifier(random_state=12345,n_estimators=10)
model.fit(features_train, target_train)

#Predicciones en el conjunto de prueba
test_predictions = model.predict(features_test)

In [43]:
#Calcular la exactitud y el RECM en el conjunto de prueba
test_accuracy = accuracy_score(target_test, test_predictions)
test_rmse = mean_squared_error(target_test, test_predictions, squared=False)

print(f'Exactitud en el conjunto de prueba: {test_accuracy}')
print(f'RECM en el conjunto de prueba: {test_rmse}')

Exactitud en el conjunto de prueba: 0.7807153965785381
RECM en el conjunto de prueba: 0.46827833968854665


El bosque aleatorio tiene un RECM de 0.47 y una exactitud de 78.1% en el conjunto de prueba. Ello quiere decir que el modelo difiere de las respuestas correctas en 0.47 clientes y que clasifica los datos de manera correcta en 8 de cada 10 casos.

In [44]:
#Generar predicciones aleatorias
np.random.seed(12345)  # Para reproducibilidad
random_predictions = np.random.choice([0, 1], size=target_test.shape)

#Calcular la exactitud y el RECM de las predicciones aleatorias
random_accuracy = accuracy_score(target_test, random_predictions)
random_rmse = mean_squared_error(target_test, random_predictions, squared=False)

print(f'Exactitud de predicciones aleatorias: {random_accuracy}')
print(f'RECM de predicciones aleatorias: {random_rmse}')

Exactitud de predicciones aleatorias: 0.4821150855365474
RECM de predicciones aleatorias: 0.7196422128137374


<div class="alert alert-block alert-success">

<b>Comentario del revisor. (Iteración 1)
    
</b> <a class="tocSkip"></a>

Y tal como debíamos hemos implementado una prueba de cordura para corroborar la validez de implementar nuestro modelo, muy bien hecho!

Las predicciones aleatorios tienen una exactitud del 48% y un RECM del 72.0. Por tanto, este tipo de predicciones no serían fiables para hacer predicciones precisas. Adicionalmente, este tipo de predicciones estarían más lejos de los valores reales. 

## Etapa 6. Conclusión <a id='end'></a>

En base a todo lo anterior, se puede concluir que el mejor modelo que puede implementar la compañía móvil Megaline es el de bosques aleatorios con el hiperparámetro *n_estimators* en 10. Lo anterior debido a que este modelo presentó la mayor exactitud (78.1% - 78.5%) y el menor RECM (0.46 - 0.47), tanto en el conjunto de validación como en el conjunto de prueba. Adicionalmente, se comprueba que este modelo funciona considerablemente mejor que la elección aleatoria. 