# ¡Hola Sebastian! 😊

Mi nombre es **Alejandro Castellanos** y hoy tengo el placer de ser el revisor de tu proyecto.

Voy a revisar todo tu código con detalle, buscando tanto los puntos fuertes como aquellos en los que podrías mejorar. Te dejaré comentarios a lo largo del notebook, destacando lo que has hecho bien y sugiriendo ajustes donde sea necesario. Si encuentro algún error, no te preocupes, te lo haré saber de forma clara y te daré información útil para que puedas corregirlo en la próxima iteración. Si en algún punto tienes comentarios, siéntete libre de dejarlos también.


Encontrarás mis comentarios específicos dentro de cajas verdes, amarillas o rojas, es muy importante que no muevas, modifiques o borres mis comentarios, con el fin de tener un seguimiento adecuado de tu proceso:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

A continuación te dejaré un comentario general con mi valoración del proyecto. **¡Mi objetivo es que sigas aprendiendo y mejorando con cada paso!**

----

<div class="alert alert-block alert-warning">
<b>Comentario General del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Sebastian has hecho un buen trabajo. En este proyecto pusiste en práctica habilidades muy importantes como dividir correctamente los datos, entrenar modelos de clasificación, probar diferentes algoritmos y ajustar hiperparámetros para mejorar el resultado.
    
No obstante, para cumplir con el objetivo del proyecto debes usar correctamente y de forma estrategica los subconjuntos de entrenamiento, validación y prueba para la implementación de los modelos.  El conjunto de **entrenamiento** permite que el modelo aprenda patrones; por otro lado, el de **validación** se utiliza en la optimización de hiperparámetros, con el fin de encontrar la configuración con la que cada modelo tiene mejor rendimiento, además de que sirve para detectar sobreajuste; finalmente el subconjunto de **prueba** evalúa su capacidad de generalización en datos completamente nuevos y permite hacer una comparación final en el desempeño de varios modelos. Esta separación garantiza una evaluación objetiva, evita el sobreajuste y asegura que el modelo sea confiable. Acá te comparto una explicación más detallada de cómo usar los [sets de entrenamiento, validación y prueba](https://codificandobits.com/blog/sets-entrenamiento-validacion-y-prueba/)
    
¡No te preocupes! Cada ajuste que haces es una oportunidad para aprender y mejorar. Vas por buen camino, y estoy seguro de que en la siguiente versión harás un gran trabajo y lograrás completar el proyecto con éxito. ¡Sigue adelante! 

Estaré atento a tu próxima iteración 👀


    
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante (1ra Iteración)</b> <a class=“tocSkip”></a>

Hola Alejandro, primero que nada gracias por tomarte el tiempo de revisar mi trabajo. Y gracias por el Link, me aclaro varias cosas. Espero que con estos cambios se hayan subsanado todas las observaciones. 🙂
    
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteración)</b> <a class=“tocSkip”></a>

¡Sebatian excelente trabajo con los ajustes! Tu proyecto ahora cumple con todos los objetivos propuestos. Me alegra saber que la información que te compartí te fue útil, esto será clave para los siguientes proyectos. ¡Éxito en tu próximo sprint! 🚀

*Estado del Proyecto:* **Aprobado**

</div>

-----

# Proyecto Sprint 9

## Descripción del proyecto

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

Desarrolla un modelo con la mayor exactitud posible. En este proyecto, el umbral de exactitud es 0.75. 

## Manipulación de datos

In [1]:
#Cargamos librerias
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

In [2]:
#Verificamos el DataFrame para ver su contenido
df = pd.read_csv("users_behavior.csv", sep=",")

print(df)
print()
print(df.info())

      calls  minutes  messages   mb_used  is_ultra
0      40.0   311.90      83.0  19915.42         0
1      85.0   516.75      56.0  22696.96         0
2      77.0   467.66      86.0  21060.45         0
3     106.0   745.53      81.0   8437.39         1
4      66.0   418.74       1.0  14502.75         0
...     ...      ...       ...       ...       ...
3209  122.0   910.98      20.0  35124.90         1
3210   25.0   190.36       0.0   3275.61         0
3211   97.0   634.44      70.0  13974.06         0
3212   64.0   462.32      90.0  31239.78         0
3213   80.0   566.09       6.0  29480.52         1

[3214 rows x 5 columns]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 no

Viendo los datos, podemos determinar lo siguiente:

1. Las columnas "calls", "minutes", "messages" y "mb_used" son nuestras caracteristicas.
2. La clumna "is_ultra" es nuestro objetivo.
3. La columna objetivo al contener valores booleanos nos indica que estamos ante una tarea de clasificacion.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Muy buen trabajo importando las librerías y los datos del proyecto. Adicionalmente usaste correctamente las funciones `info` y `head`, esto te permite hacer una primera revisión de los datos, su estructura y contenido. 

<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>
    
Una buena práctica al momento de hacer la revisión inicial de los datos es incluir tu interpretación de la información obtenida, con el fin de tener claridad sobre la estrategia que se va a implementar al momento de trabajar con el dataset.

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante (1ra Iteración)</b> <a class=“tocSkip”></a>
    
Tienes razon, coloque un pequeño comentario sobre los datos.
    

</div>

## Comparacion de Modelos

In [3]:
#Imprimimos el largo del DataFrame como referencia
print("Datos fuente(total de datos):", len(df))
print()


#Separamos los datos en tres conjuntos, uno para entrenar el modelo, otro para validarlo y el ultimo para probarlo. con una proporcion de 3:1:1
df_train_and_test, df_valid = train_test_split(df, test_size=0.20, random_state=1)

df_train, df_test = train_test_split(df_train_and_test, test_size=0.25, random_state=1)

#Entrenamiento 60%
features_train = df_train.drop(["is_ultra"], axis=True)
target_train = df_train["is_ultra"]
print("Datos de entrenamiento: ", len(df_train))

#Validacion 20%
features_valid = df_valid.drop(["is_ultra"], axis=True)
target_valid = df_valid["is_ultra"]
print()
print("Datos de validacion: ", len(df_valid))

#Prueba 20%
features_test = df_test.drop(["is_ultra"], axis=True)
target_test = df_test["is_ultra"]
print()
print("Datos de prueba: ", len(df_test))

Datos fuente(total de datos): 3214

Datos de entrenamiento:  1928

Datos de validacion:  643

Datos de prueba:  643


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante (1ra Iteración)</b> <a class=“tocSkip”></a>

Ahora si, dividi el DataFrame en tres conjuntos. uno para entrenamiento, otro para validacion y el ultimo para prueba.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Ten en cuenta que para este caso de estudio se pide dividir el dataset en 3 subconjuntos: **Entrenamiento**, **Validación** y **Prueba**
    
Dividir un dataset en entrenamiento, validación y prueba permite desarrollar, ajustar y evaluar un modelo de forma justa y efectiva.

- El conjunto de entrenamiento se usa para enseñar al modelo a reconocer patrones.

- El de validación se emplea para ajustar hiperparámetros y prevenir sobreajuste.

- El de prueba sirve para medir el rendimiento final del modelo con datos nunca vistos.
    
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante (1ra Iteración)</b> <a class=“tocSkip”></a>

En esta ocasion dividi cada modelo en dos bloques:
- Uno para entrenar y determinar el ajuste (que es como estaba el proyecto en la primera iteracion).
- Y el otro, a modo de correcion de las observaciones que me indicaste. En donde sabiendo cual es el hiperparametro mas optimo se procede a entrenar, validar y probar el modelo ya ajustado.
    
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteración)</b> <a class=“tocSkip”></a>

Hiciste una correcta segmentación del dataset en los subconjuntos de entrenamiento, validación y prueba, lo cual permite evaluar el rendimiento real del modelo y prevenir el sobreajuste. Esta separación garantiza que el modelo generalice bien y no solo funcione con los datos que utilizó para aprender.

</div>

### Arbol de decision

#### Entrenamiento y validacion para determinar el ajuste

In [4]:
#empezaremos con el arbol de decision, iterando sobre el hiperparametro de profundidad maxima para ajustar la exactitud.
for depth in range(1, 11):
    model = DecisionTreeClassifier(random_state=3, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    accuracy = round(accuracy_score(target_valid, predictions_valid), 4)
    print("Con una profundidad maxima de {} obtenemos una exactitud de: {}".format(depth, accuracy))

Con una profundidad maxima de 1 obtenemos una exactitud de: 0.717
Con una profundidad maxima de 2 obtenemos una exactitud de: 0.7621
Con una profundidad maxima de 3 obtenemos una exactitud de: 0.7745
Con una profundidad maxima de 4 obtenemos una exactitud de: 0.776
Con una profundidad maxima de 5 obtenemos una exactitud de: 0.7792
Con una profundidad maxima de 6 obtenemos una exactitud de: 0.7792
Con una profundidad maxima de 7 obtenemos una exactitud de: 0.79
Con una profundidad maxima de 8 obtenemos una exactitud de: 0.7854
Con una profundidad maxima de 9 obtenemos una exactitud de: 0.7854
Con una profundidad maxima de 10 obtenemos una exactitud de: 0.7869


El mejor modelo fue el que tuvo una profundidad maxima de 7

#### Prueba del modelo

In [5]:
#conociendo el ajuste del hiperparametro volvemos a entrenar el modelo desde el principio de forma ordenada

#creacion de modelo con una profundidad maxima de 7, tambien se cambia el valor de random_state
model_decision_tree = DecisionTreeClassifier(random_state=4, max_depth=7)

#entrenamiento
model_decision_tree.fit(features_train, target_train)

#validacion
predictions_valid = model_decision_tree.predict(features_valid)
accuracy = round(accuracy_score(target_valid, predictions_valid), 4)
print("Con una profundidad maxima de 7 obtenemos una exactitud de: {} con los datos de validacion".format(accuracy))
print()

#prueba con conjunto de datos desconocidos
predictions_test = model_decision_tree.predict(features_test)
accuracy_test = round(accuracy_score(target_test, predictions_test), 4)
print("Obtuvimos una exactitud de: {} con los datos de prueba".format(accuracy_test))



Con una profundidad maxima de 7 obtenemos una exactitud de: 0.7869 con los datos de validacion

Obtuvimos una exactitud de: 0.7869 con los datos de prueba


Tanto en la validacion como en la prueba obtuvimos una exactitud similar. lo cual indicaria que el modelo es bastante preciso aun con datos desconocidos para este.

### Bosque aleatorio

#### Entrenamiento y validacion para determinar el ajuste

In [6]:
#seguimos con el bosque aleatorio, iterando sobre el hiperparametro de numero de estimadores para llegar al mas exacto.
for est in range(1, 11):
    model = RandomForestClassifier(random_state=5, n_estimators=est)
    model.fit(features_train, target_train)
    score = model.score(features_valid, target_valid)
    print("La exactitud del modelo con {} arbolitos es de: {}".format(est, round(score,4)))

La exactitud del modelo con 1 arbolitos es de: 0.7247
La exactitud del modelo con 2 arbolitos es de: 0.7574
La exactitud del modelo con 3 arbolitos es de: 0.776
La exactitud del modelo con 4 arbolitos es de: 0.7823
La exactitud del modelo con 5 arbolitos es de: 0.7745
La exactitud del modelo con 6 arbolitos es de: 0.7698
La exactitud del modelo con 7 arbolitos es de: 0.7698
La exactitud del modelo con 8 arbolitos es de: 0.7807
La exactitud del modelo con 9 arbolitos es de: 0.7667
La exactitud del modelo con 10 arbolitos es de: 0.7838


El mejor modelo fue el que tuvo un numero de estimadores o arboles de 10

#### Prueba del modelo

In [7]:
#conociendo el ajuste del hiperparametro volvemos a entrenar el modelo desde el principio de forma ordenada

#creacion de modelo con un numero de 10 estimadores, tambien se cambia el valor de random_state
model_random_forest = RandomForestClassifier(random_state=6, n_estimators=10)

#entrenamiento
model_random_forest.fit(features_train, target_train)

#validacion
predictions_valid = model_random_forest.predict(features_valid)
score_valid = model_random_forest.score(features_valid, target_valid)
print("Con un numero de 10 arbolitos obtuvimos una exactitud de: {} con los datos de validacion".format(round(score_valid,4)))
print()

#prueba con conjunto de datos desconocidos
predictions_test = model_random_forest.predict(features_test)
score_test = model_random_forest.score(features_test, target_test)
print("Obtuvimos una exactitud de: {} con los datos de prueba".format(round(score_test,4)))



Con un numero de 10 arbolitos obtuvimos una exactitud de: 0.7885 con los datos de validacion

Obtuvimos una exactitud de: 0.7932 con los datos de prueba


Tenemos una buena precison y la exactitud vario un poco entre los valores de validacion y de prueba, pero esto es algo esperable.

### Regresion logistica

In [8]:
#En el caso de regresion logistica al no haber un hiperparametro que ajustar simplemente vamos a entrenar el modelo

#creacion de modelo
model_log_reg = LogisticRegression(random_state=7, solver="liblinear")

#entrenamiento
model_log_reg.fit(features_train, target_train)

#validacion (datos de entrenamiento y validacion)
score_train_log_reg = model_log_reg.score(features_train, target_train)
score_valid_log_reg = model_log_reg.score(features_valid, target_valid)
print("La exactitud del modelo en el conjunto de entrenamiento fue de:", round(score_train_log_reg, 4))
print()
print("La exactitud del modelo en el conjunto de validaciónfue de:", round(score_valid_log_reg, 4))
print()


#prueba con conjunto de datos desconocidos
score_test_log_reg = model_log_reg.score(features_test, target_test)
print("La exactitud del modelo en el conjunto de prueba fue de:", round(score_test_log_reg, 4))

La exactitud del modelo en el conjunto de entrenamiento fue de: 0.751

La exactitud del modelo en el conjunto de validaciónfue de: 0.7138

La exactitud del modelo en el conjunto de prueba fue de: 0.7496


Desafortunadamente el modelo no cumplio con nuestro requisito de exactitud de 75%

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Implementaste correctamente los modelos de clasifiación, incluyendo la etapa de optimización de hiperpárametros. No obstante, la implementación de los modelos debe hacerse usando los 3 subconjuntos que te mencioné más arriba: **Entrenamiento**, **Validación** y **Prueba**
    

</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteración)</b> <a class=“tocSkip”></a>

Excelente Sebastian, ahora el flujo de implementación de los modelos es más robusto, lo cual te puede permitir llegar a tener mejores rendimientos

</div>

### Conclusion

Los modelos Arbol de Decision y Bosque Aleatorio tuvieron un desempeño my similar al ajustar sus hipercampos, ambos alcanzando una exactitud de aproximadamente el 79%. Lo cual cumple con nuestro requisito minimo de exactitud que es del 75%.

En cuanto al modelo de Regresion Logistica su desempeño no fue el mejor. Sin embargo, podriamos decir que en cuanto a tareas de categorizacion este modelo no es el mejor. Mas bien esta pensado para tareas de regresion.

## Conclusion General

Ya habiendo entrenado los diferentes modelos vimos que el Arbol de decision y el Bosque Aleatorio alcanzaron una exactitud identica. 

Ahora bien, cada modelo tiene sus caracteristicas que los hacen mas o menos adecuados dependiendo de la tarea y los recursos con los que se cuentan, siendo sus caracteristicas las siguientes:

* Arbol de decision: Exactitud baja / Velocicad alta

* Bosque aleatorio: Exactitud alta / Velocidad baja

Entonces, si la exactitud fue la misma para ambos modelos; tomaremos logicamente el modelo mas veloz.

### Conclusion final

Para la tarea de clasificacion de usuarios segun su plan, debemos utilizar el modelo de Arbol de Decision y ajustar su profundidad maxima a 7.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteración)</b> <a class=“tocSkip”></a>

Has logrado comparar correctamente los modelos en función de su exactitud y velocidad, y justificas de forma lógica la elección final del Árbol de Decisión como el modelo más adecuado para la tarea específica. Además, defines claramente el parámetro clave a ajustar, lo que refuerza la aplicabilidad directa de tu análisis.

</div>