Hola Katherine!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

# Megaline

## Análisis exploratorio de datos (Python):

### Inicialización:

In [1]:
# Librerías necesarias

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

### Cargar Datos:

In [2]:
# Cargar el dataset
data_cruda = pd.read_csv('/datasets/users_behavior.csv')

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con la carga de datos e importación de librerías a utilizar
</div>

### Visualización de datos:

In [3]:
# Inspección inicial
display(data_cruda.head())


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Cuando muestres resultados de `.head()` es mejor utilizar `display()` en lugar del print para mosra los datos en forma de tabla en lugar de solo texto
</div>

<div class="alert alert-block alert-info">
<b>Se realizó correción, se agregó el metodo display </b> <a class=“tocSkip”></a>
</div>

### Estudiar los datos que contienen:

In [4]:
data_cruda.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [5]:
data_cruda.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


## Preparar los datos:

### Revisión de datos nulos:

In [6]:
data_cruda.isna().sum()

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

### Revisión de datos duplicados:

In [7]:
data_cruda.duplicated().sum()

0

## Analisis de Datos:

### Segmentación de datos:

#### Entrenamiento:

**- La función devuelve dos conjuntos:** 

     - train_full: este es el conjunto de entrenamiento con el 80% de los datos.
     - test: este es el conjunto de prueba con el 20% de los datos.  
     
**- Ambos serán aleatorios, lo que significa que cada vez que ejecutes la división, podrías obtener un conjunto diferente**

In [8]:
train_full, test = train_test_split(data_cruda, test_size=0.2)

In [9]:
train_full

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
2588,54.0,402.92,53.0,21925.27,0
1124,1.0,1.00,48.0,20375.87,0
527,67.0,458.14,24.0,22320.92,0
114,158.0,1078.86,51.0,30681.14,1
2533,36.0,227.35,25.0,20406.06,0
...,...,...,...,...,...
747,78.0,528.41,11.0,14872.62,0
2511,72.0,439.92,29.0,14472.76,0
5,58.0,344.56,21.0,15823.37,0
1373,121.0,769.36,0.0,42437.52,1


In [10]:
test

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
1622,74.0,545.52,47.0,13534.15,0
2088,138.0,933.86,223.0,22499.79,1
368,31.0,185.63,101.0,14344.72,0
2777,41.0,269.10,0.0,13495.25,0
1574,83.0,561.05,0.0,16539.03,0
...,...,...,...,...,...
2329,86.0,580.55,33.0,8289.21,0
1550,92.0,696.17,21.0,19068.23,0
2917,47.0,350.90,19.0,13867.87,0
1123,76.0,616.50,17.0,18270.05,0


#### Validación:

**- La función devuelve dos conjuntos:**  

   - train: este es el conjunto de entrenamiento, que se usará para entrenar el modelo.  
     
   - validacion: este es el conjunto de validación, que se usará para evaluar el modelo durante el ajuste de hiperparámetros o para verificar su rendimiento mientras se entrena.  
     
   - test_size=0.25 significa que el 25% de `train_full` se utilizará para el conjunto de validación, y el 75% restante se utilizará para el conjunto de entrenamiento.

In [11]:
train, validacion = train_test_split(train_full, test_size=0.25)

In [12]:
validacion

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
1023,76.0,601.10,0.0,17104.36,0
1157,93.0,582.25,58.0,18997.74,0
1533,0.0,0.00,188.0,33189.50,1
2054,76.0,598.44,5.0,14806.27,1
2914,57.0,428.23,5.0,8857.38,1
...,...,...,...,...,...
2377,23.0,163.21,23.0,18806.07,0
2436,81.0,627.34,56.0,17266.00,0
861,43.0,288.43,21.0,21722.72,1
357,39.0,221.18,59.0,17865.23,0


#### Prueba:

In [13]:
caracteristicas_entrenamiento = train.drop('is_ultra', axis = 1)

  - Esta es la nueva variable que contendrá el DataFrame resultante después de haber eliminado la columna 'is_ultra'.
  - Contendrá solo las características que se usarán para entrenar el modelo.

In [14]:
objetivo_entrenamiento = train['is_ultra']

Esta línea de código está extrayendo la variable objetivo del conjunto de datos de entrenamiento para que puedas usarla más adelante en el proceso de entrenamiento del modelo. En otras palabras, estás preparando los datos que el modelo intentará predecir.

In [15]:
caracteristicas_validación = validacion.drop('is_ultra', axis = 1)

Esta línea de código está preparando el conjunto de datos de validación al eliminar la columna que contiene las etiquetas (`is_ultra`). El resultado, `caracteristicas_validación`, contendrá solo las características que se utilizarán para hacer predicciones en el conjunto de validación.

In [16]:
objetivo_validación = validacion['is_ultra']

La línea de código está extrayendo la columna `is_ultra` del DataFrame `validacion` y almacenándola en la variable `objetivo_validación`. Esto significa que `objetivo_validación` ahora contiene los valores reales que se utilizarán para evaluar el rendimiento del modelo en el conjunto de validación.

In [17]:
caracteristicas_prueba = test.drop('is_ultra', axis = 1)

La línea de código está eliminando la columna `is_ultra` del DataFrame `test` y almacenando el resultado en `caracteristicas_prueba`. Esto significa que `caracteristicas_prueba` ahora contiene solo las columnas que se utilizarán como entradas para el modelo.

In [18]:
objetivo_prueba = test['is_ultra']

La línea de código está extrayendo la columna `is_ultra` del DataFrame `test` y almacenando el resultado en `objetivo_prueba`. Esto significa que `objetivo_prueba` ahora contiene la variable objetivo que se utilizará para comparar las predicciones realizadas por el modelo.

In [19]:
print(caracteristicas_entrenamiento.shape)

(1928, 4)


In [20]:
print(caracteristicas_validación.shape)

(643, 4)


In [21]:
print(caracteristicas_prueba.shape)

(643, 4)


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con la división de tus datos!
</div>

#### Arbol de decision:

El código está diseñado para evaluar cómo la profundidad de un árbol de decisión afecta su rendimiento en conjuntos de datos de prueba y validación. Esto permite identificar la profundidad óptima que maximiza la precisión sin causar sobreajuste.

In [22]:
for profundidad in range(1,15):
    
    modelo_arbol_decision = DecisionTreeClassifier(max_depth=profundidad, random_state=12345)
    modelo_arbol_decision.fit(caracteristicas_entrenamiento,objetivo_entrenamiento)
    print('Profundidad:',profundidad)
    print('Train:',modelo_arbol_decision.score(caracteristicas_prueba,objetivo_prueba))
    print('Validacion:',modelo_arbol_decision.score(caracteristicas_validación,objetivo_validación))
    print()

Profundidad: 1
Train: 0.7589424572317263
Validacion: 0.749611197511664

Profundidad: 2
Train: 0.7931570762052877
Validacion: 0.7776049766718507

Profundidad: 3
Train: 0.8087091757387247
Validacion: 0.7853810264385692

Profundidad: 4
Train: 0.8102643856920684
Validacion: 0.7807153965785381

Profundidad: 5
Train: 0.8102643856920684
Validacion: 0.7947122861586314

Profundidad: 6
Train: 0.80248833592535
Validacion: 0.7822706065318819

Profundidad: 7
Train: 0.7993779160186625
Validacion: 0.7869362363919129

Profundidad: 8
Train: 0.7978227060653188
Validacion: 0.7776049766718507

Profundidad: 9
Train: 0.807153965785381
Validacion: 0.7776049766718507

Profundidad: 10
Train: 0.7931570762052877
Validacion: 0.7838258164852255

Profundidad: 11
Train: 0.7667185069984448
Validacion: 0.7573872472783826

Profundidad: 12
Train: 0.7698289269051322
Validacion: 0.7713841368584758

Profundidad: 13
Train: 0.7698289269051322
Validacion: 0.7558320373250389

Profundidad: 14
Train: 0.7589424572317263
Validacio

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Vas por buen camino con el entrenamiento del modelo! Sin embargo no estás cambiando la profundidad con la que lo estás entrenando ya que tu parámetro `depth` siempre es igual a 1 por lo que el desempeño será siempre el mismo, deberías usar el número que tienes en el for algo así `depth=profundidad` para que tengas resultados diferentes. También te invito a probar con otro modelo como LogisticRegression para que compares los resultados y no olvides redactar tus conclusiones!
</div>

<div class="alert alert-block alert-info">
<b>Se realizó correción, se corrigió `depth=profundidad` </b> <a class=“tocSkip”></a>
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteracion)</b> <a class=“tocSkip”></a>

Correcto! Ahora obtuviste resultados diferentes según la profundidad de tu modelo, pero si notas a medida que tienes más profundidad las métricas cambian y no necesariamente para bien esto suele suceder con este tipo de modelos basados en árboles por lo que hay que ser bastante cuidadoses con el mejor parámetro a escoger
</div>

#### Modelo de regresión Logística:

Este código crea y entrena un modelo de regresión logística, hace predicciones sobre los datos de entrenamiento y validación, y luego calcula e imprime varias métricas de rendimiento para evaluar la efectividad del modelo. 

In [23]:
# Crear el modelo de regresión logística
modelo_regresion_logistica = LogisticRegression(random_state=12345, max_iter=1000)

# Entrenar el modelo
modelo_regresion_logistica.fit(caracteristicas_entrenamiento, objetivo_entrenamiento)

# Predicciones
predicciones_entrenamiento_lr = modelo_regresion_logistica.predict(caracteristicas_entrenamiento)
predicciones_validacion_lr = modelo_regresion_logistica.predict(caracteristicas_validación)

- Aquí se calculan y se imprimen varias métricas de evaluación:
  - **Exactitud**: Proporción de predicciones correctas sobre el total de predicciones, tanto para el conjunto de entrenamiento como para el de validación.
  - **Precisión**: Proporción de verdaderos positivos sobre el total de positivos predichos. Indica cuántas de las predicciones positivas fueron realmente correctas.
  - **Recall (Sensibilidad)**: Proporción de verdaderos positivos sobre el total de positivos reales. Mide cuántos de los positivos fueron correctamente identificados.
  - **F1 Score**: Media armónica entre la precisión y el recall. Es útil cuando hay un desbalance en las clases y se quiere un solo número que represente el rendimiento del modelo.

In [24]:
# Métricas para regresión logística
print("Resultados para Regresión Logística:")
print(f'Exactitud Entrenamiento: {accuracy_score(objetivo_entrenamiento, predicciones_entrenamiento_lr):.4f}')
print(f'Exactitud Validación: {accuracy_score(objetivo_validación, predicciones_validacion_lr):.4f}')
print(f'Precisión: {precision_score(objetivo_validación, predicciones_validacion_lr):.4f}')
print(f'Recall: {recall_score(objetivo_validación, predicciones_validacion_lr):.4f}')
print(f'F1 Score: {f1_score(objetivo_validación, predicciones_validacion_lr):.4f}')
print()

Resultados para Regresión Logística:
Exactitud Entrenamiento: 0.7412
Exactitud Validación: 0.7403
Precisión: 0.8919
Recall: 0.1684
F1 Score: 0.2833



#### Comparación de Metricas:

En resumen, este código crea y entrena un modelo de árbol de decisión, hace predicciones sobre los datos de entrenamiento y validación, y luego calcula e imprime varias métricas de rendimiento para evaluar la efectividad del modelo. Esto permite comparar el rendimiento del árbol de decisión con el de otros modelos, como la regresión logística, que se había analizado previamente.

In [25]:
# Comparar con el árbol de decisión
modelo_arbol_decision = DecisionTreeClassifier(max_depth=5, random_state=12345)
modelo_arbol_decision.fit(caracteristicas_entrenamiento, objetivo_entrenamiento)

# Predicciones del árbol de decisión
predicciones_entrenamiento_dt = modelo_arbol_decision.predict(caracteristicas_entrenamiento)
predicciones_validacion_dt = modelo_arbol_decision.predict(caracteristicas_validación)

# Métricas para árbol de decisión
print("Resultados para Árbol de Decisión:")
print(f'Exactitud Entrenamiento: {accuracy_score(objetivo_entrenamiento, predicciones_entrenamiento_dt):.4f}')
print(f'Exactitud Validación: {accuracy_score(objetivo_validación, predicciones_validacion_dt):.4f}')
print(f'Precisión: {precision_score(objetivo_validación, predicciones_validacion_dt):.4f}')
print(f'Recall: {recall_score(objetivo_validación, predicciones_validacion_dt):.4f}')
print(f'F1 Score: {f1_score(objetivo_validación, predicciones_validacion_dt):.4f}')
print()


Resultados para Árbol de Decisión:
Exactitud Entrenamiento: 0.8154
Exactitud Validación: 0.7947
Precisión: 0.8200
Recall: 0.4184
F1 Score: 0.5541



# Conclusiones:

En el proyecto de clasificación para la empresa Megaline, se buscó desarrollar un modelo que pudiera predecir correctamente el plan adecuado (Smart o Ultra) para sus usuarios, utilizando datos de comportamiento como llamadas, mensajes, minutos de uso y tráfico de Internet. El objetivo era alcanzar una exactitud mínima de 0.75 en la predicción de los planes.

Se probaron dos modelos principales: **Regresión Logística** y **Árbol de Decisión**.

- La **Regresión Logística** presentó una exactitud en los conjuntos de entrenamiento y validación de 0.7070 y 0.7030, respectivamente. Aunque la precisión fue aceptable (0.7778), el modelo mostró un rendimiento deficiente en cuanto a la identificación de usuarios del plan Ultra, con un recall de 0.0357 y un F1 score de 0.0683. Estos resultados indican que este modelo tiene dificultades para detectar correctamente a los usuarios del plan Ultra, lo que lo hace menos adecuado para la tarea.

- El **Árbol de Decisión**, por otro lado, superó las expectativas al lograr una exactitud en el conjunto de validación de 0.7900, superior al umbral mínimo requerido. Además, presentó un buen equilibrio entre precisión (0.8144), recall (0.4031) y F1 score (0.5392). Esto demuestra que este modelo no solo predice de manera confiable los usuarios que pertenecen al plan Ultra, sino que también ofrece una mejora notable en la identificación de estos usuarios en comparación con la Regresión Logística.

**En resumen**, el **Árbol de Decisión** es el modelo más adecuado para la tarea de clasificación planteada por Megaline, ya que cumple con el requisito de exactitud y presenta un mejor balance entre precisión y recall, logrando así una recomendación más precisa de los planes para los usuarios. La Regresión Logística, aunque precisa en algunos aspectos, no es lo suficientemente robusta para este caso en particular.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteracion)</b> <a class=“tocSkip”></a>

Muy buen trabajo Katherine! Obtuviste un modelo con desempeño bastante bueno y por encima del umbral requerido para este proyecto. Además, analizaste muy bien los resultados de los dos modelos entrenados para escoger el mejor, te felicito!
</div>