# Hola &#x1F600;

Soy **Hesus Garcia**  como "Jesús" pero con H. Sé que puede ser confuso al principio, pero una vez que lo recuerdes, ¡nunca lo olvidarás! &#x1F31D;	. Como revisor de código de Practicum, estoy emocionado de examinar tus proyectos y ayudarte a mejorar tus habilidades en programación. si has cometido algún error, no te preocupes, pues ¡estoy aquí para ayudarte a corregirlo y hacer que tu código brille! &#x1F31F;. Si encuentro algún detalle en tu código, te lo señalaré para que lo corrijas, ya que mi objetivo es ayudarte a prepararte para un ambiente de trabajo real, donde el líder de tu equipo actuaría de la misma manera. Si no puedes solucionar el problema, te proporcionaré más información en la próxima oportunidad. Cuando encuentres un comentario,  **por favor, no los muevas, no los modifiques ni los borres**. 

Revisaré cuidadosamente todas las implementaciones que has realizado para cumplir con los requisitos y te proporcionaré mis comentarios de la siguiente manera:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

</br>

**¡Empecemos!**  &#x1F680;

### Archivo de datos

In [2]:
import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt
from scipy import stats as st
from sklearn.tree import DecisionTreeClassifier
from joblib import dump
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error

# Confusion Matrix
from sklearn.metrics import confusion_matrix

# Accuracy
from sklearn.metrics import accuracy_score

# Recall
from sklearn.metrics import recall_score

# Precision
from sklearn.metrics import precision_score

#F1 Score
from sklearn.metrics import f1_score

#Classification Report
from sklearn.metrics import classification_report

<div class="alert alert-block alert-success">
    <b>Comentarios del Revisor</b> <a class="tocSkip"></a><br>
    Excelente trabajo en tu sección de imports de Python. Es muy importante seguir buenas prácticas de codificación en este aspecto, y veo que has sido muy cuidadoso al elegir las bibliotecas que se necesitan y la forma en que las has importado. El uso correcto de import y from en Python puede mejorar la legibilidad del código y evitar conflictos de nombres. Continúa con el buen trabajo! </div>

In [3]:
df = pd.read_csv('/datasets/users_behavior.csv')

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [5]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


### Segmentación de los datos fuente

In [6]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']

#### Segmentación conjunto de validación, conjunto de entrenamiento y conjunto de prueba.

In [7]:
df_train, df_valid  = train_test_split(df, test_size=0.25, random_state=12345)

In [8]:
df_train, df_test  = train_test_split(df, test_size=0.25, random_state=12345)

####  Conjunto de entrenamiento

In [9]:
train_features = df_train.drop(['is_ultra'], axis=1)
train_target = df_train['is_ultra']

#### Conjunto de validación

In [10]:
valid_features = df_valid.drop(['is_ultra'], axis=1)
valid_target = df_valid['is_ultra']

#### Conjunto de prueba ###

In [11]:
test_features = df_test.drop(['is_ultra'], axis=1)
test_target = df_test['is_ultra']

### Calidad de los modelos

#### Calidad del modelo de árbol de decisión con el conjunto de entrenamiento

##### Calidad con diferentes hiperparámetros.

###### Hiperparámetro min_samples_leaf

In [12]:
for samples_leaf in range(1, 6):
    model = DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=samples_leaf, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, random_state=12345,
                       splitter='best')
    model.fit(train_features, train_target)
    predictions = model.predict(valid_features)
    print('min_samples_leaf =', samples_leaf, ': ', end='')
    print(accuracy_score(valid_target, predictions))

min_samples_leaf = 1 : 0.7213930348258707
min_samples_leaf = 2 : 0.7251243781094527
min_samples_leaf = 3 : 0.7288557213930348
min_samples_leaf = 4 : 0.7338308457711443
min_samples_leaf = 5 : 0.746268656716418


El aumento en la cantidad de hojas del árbol aumenta la calidad del modelo progresivamente, hasta lograr una exactitud de 0.7462 con un número de hojas igual a 5.

###### Hiperparámetro min_samples_split

In [13]:
for samples_split in range(2, 6):
    model = DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=samples_split,
                       min_weight_fraction_leaf=0.0, random_state=12345,
                       splitter='best')
    model.fit(train_features, train_target)
    predictions = model.predict(valid_features)
    print('min_samples_split =', samples_split, ': ', end='')
    print(accuracy_score(valid_target, predictions))

min_samples_split = 2 : 0.7213930348258707
min_samples_split = 3 : 0.7114427860696517
min_samples_split = 4 : 0.7101990049751243
min_samples_split = 5 : 0.7201492537313433


El aumento en la partición de los nodos del árbol primero disminuye y luego aumenta la calidad del modelo progresivamente, hasta lograr una exactitud de 0.7201 en la cantidad de nodos igual a 5.

###### Hiperparámetro max_depth

In [14]:
for depth in range(1, 6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(train_features, train_target)
    predictions = model.predict(valid_features)
    print('max_depth =', depth, ': ', end='')
    print(accuracy_score(valid_target, predictions))

max_depth = 1 : 0.75
max_depth = 2 : 0.7835820895522388
max_depth = 3 : 0.7885572139303483
max_depth = 4 : 0.7810945273631841
max_depth = 5 : 0.7810945273631841


El aumento en la profundidad del árbol aumenta la calidad del modelo y posterior se deteriora, hasta lograr una exactitud de 0.7810 en la profundidad de árbol igual a 5.

En conclusión, se puede notar que el parámetro de profundidad es el que tiene la capacidad de mejorar la calidad de mayor manera de los tres hiperpaámetros probados en esta sección.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
¡Muy bien! 👏👏 Los cálculos de esta sección están correctos y eso es un gran logro. Sigue así y verás cómo poco a poco te irás convirtiendo en un experto en esta área. 💪💻</div>

#### Calidad del modelo de bosque aleatorio con el conjunto de entrenamiento

In [15]:
best_score = 0
best_est = 0
for est in range(1, 11):
    model = RandomForestClassifier(random_state=54321, n_estimators=est)
    model.fit(train_features, train_target)
    #test_predictions = model.predict(valid_features)
    score = model.score(valid_features, valid_target)
    if score > best_score:
        best_score = score
        best_est = est

print("Exactitud del mejor modelo en el conjunto de entrenamiento (n_estimators = {}): {}".format(best_est, best_score))

Exactitud del mejor modelo en el conjunto de entrenamiento (n_estimators = 4): 0.7885572139303483


La calidad del modelo mejora utilizando bosque aleatorio ajustando el hiperparámetro de estimadores en 4, para quedar en 0.7885

#### Calidad del modelo de regresión logística con el conjunto de entrenamiento

In [16]:
model = LogisticRegression(random_state=54321, solver='liblinear')
model.fit(train_features, train_target)
score_train = model.score(train_features, train_target)
score_valid = model.score(valid_features, valid_target)

print("Exactitud del modelo de regresión logística en el conjunto de entrenamiento:", score_train)
print("Exactitud del modelo de regresión logística en el conjunto de validación:", score_valid)

Exactitud del modelo de regresión logística en el conjunto de entrenamiento: 0.74149377593361
Exactitud del modelo de regresión logística en el conjunto de validación: 0.753731343283582


La calidad del modelo es menor utilizando la regresión logística, quedando para el conjunto de validación en 0.7537 que es inferior al modelo probado anteriormente. 

En conclusión, el modelo que mejor calidad arroja es el de bosque aleatorio con 4 estimadores. Por encima del modelo de árbol de decisión y regresión logística.

#### Calidad del modelo con el conjunto de prueba

##### Predicción con hiperparámetro de profundidad

In [17]:
for depth in range(1, 6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(train_features, train_target)
    test_predictions = model.predict(test_features)
    print('max_depth =', depth, ': ', end='')
    print(accuracy_score(test_target, test_predictions))

max_depth = 1 : 0.75
max_depth = 2 : 0.7835820895522388
max_depth = 3 : 0.7885572139303483
max_depth = 4 : 0.7810945273631841
max_depth = 5 : 0.7810945273631841


In [18]:
best_model = None
best_result = 0
for depth in range(1, 6):
	model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
	model.fit(train_features, train_target)
	test_predictions = model.predict(test_features)
	result = accuracy_score(test_target, test_predictions)
	if result > best_result:
		best_model = model
		best_result = result
        
print("Exactitud del mejor modelo en el conjunto de prueba:", best_result) 

Exactitud del mejor modelo en el conjunto de prueba: 0.7885572139303483


La exactitud del mejor modelo en el conjunto de prueba es mejor que aquellos evaluados anteriormente con el conjunto de entrenamiento. Esto indica que el modelo de entrnamiento tiene un subajuste respecto al modelo de prueba.

Nota: se utilizaron los datos de prueba tanto para ajustar el modelo (model.fit) como para hacer las predicciones (model.predict).

In [19]:
def error_count(answers, predictions):
    count = 0
    for i in range(len(answers)):
        if answers[i] != predictions[i]:
            count += 1
    return count

print('Errores:', error_count(test_target.values, test_predictions))

Errores: 176


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a><s>
En esta sección es necesario evaluar el modelo utilizando métodos como classification_report() o la mátriz de confusión. Sigue así y verás cómo poco a poco te irás convirtiendo en un experto en esta área. 💪💻</div>

#### Prueba de cordura del conjunto de prueba

In [20]:
# Accuracy
print('Exactitud:', accuracy_score(test_target, test_predictions))
# Recall
print('Sensibilidad:', recall_score(test_target, test_predictions))
# Precision
print('Precision:', precision_score(test_target, test_predictions))
# F1 Score
print('Puntaje F1:', f1_score(test_target, test_predictions))

Exactitud: 0.7810945273631841
Sensibilidad: 0.4066390041493776
Precision: 0.7480916030534351
Puntaje F1: 0.5268817204301075


In [21]:
print(classification_report(test_target, test_predictions))

              precision    recall  f1-score   support

           0       0.79      0.94      0.86       563
           1       0.75      0.41      0.53       241

    accuracy                           0.78       804
   macro avg       0.77      0.67      0.69       804
weighted avg       0.78      0.78      0.76       804



- La sensibilidad indica la proporción de instancias positivas reales que se recuperaron de la suma de positivos reales y negativos falsos, ésta se encuentra en 0.49 lo que indica que solamente se identificaron la mitad de positivos reales (1).

- La precisión es  la proporción de instancias positivas entre la suma de instancias de positivos verdaderos y positivos falsos. Éste se encuentra en  0.92 lo que indica que la mayoría de las identificaciones positivas son realmente correctas.

- El puntaje F1 es la media armónica ponderada de la precisión y la sensibilidad, mientras más se acerque a 1 mejor será el desempeño del modelo. Éste se encuentra en 0.64, por lo que el desempeño del modelo es bajo.

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a> 
    <s>¡Excelente trabajo por implementar la prueba de cordura en tu modelo de aprendizaje automático! Sin embargo, es importante tener en cuenta que el desempeño de nuestro modelo no se limita solo a su capacidad para predecir datos de prueba. También debemos considerar cómo se comporta en datos nuevos y no vistos. Es por eso que es crucial revisar la precisión del modelo y asegurarnos de que no esté sobreajustando los datos de entrenamiento.

Un puntaje de 1.0 en precisión puede indicar que nuestro modelo está sobreajustando los datos de entrenamiento y que no es lo suficientemente generalizable para datos nuevos. Por lo tanto, debemos considerar ajustar nuestros modelos o implementar técnicas de regularización para evitar el sobreajuste y mejorar su capacidad para predecir datos nuevos y no vistos. ¡Sigue así y sigue mejorando tus habilidades de análisis de datos!</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a><br> ¡Excelente trabajo por implementar la prueba de cordura en <s>¡Hola! Gracias por compartir tu proyecto conmigo. 
En general, veo que has trabajado bien en el análisis exploratorio de datos y en la implementación de varios modelos de aprendizaje automático. <br>

Aún hay un par de cosas con las que debemos mejorar así que te recomiendo lo siguiente: 
   
- Revisaremos  la función de evaluación de calidad del modelo, ya que esto puede influir en los resultados que has obtenido.

- Incluiremos otros dos modelos y los optimizaremos con hiperparametros.
    
En resumen, sigue adelante y continúa mejorando tu proyecto. ¡Estoy seguro de que lo harás bien! No dudes en preguntar si necesitas ayuda adicional.

</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a><br> 
Hola, muchas gracias por las correciones, has implementado de muy buena forma todas las recomendaciones. Muy buen trabajo. :)  
    
Sin embargo aún debemos trabajar en el punto dos que hemos señalado. Recuerda que demos incluir otros dos modelos. Tal y como lo menciona el siguiente punto de las instrucciones del proyecto. 
    
Investiga la calidad de diferentes modelos cambiando los hiperparámetros. Describe brevemente los hallazgos del estudio.
    
Sigo atento a tus correciones. 
    
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a><br> 
Haz realizado las correcciones pertinentes gracias. 
    
</div>