Hola Jimena!

Soy **Patricio Requena** 👋. Es un placer ser el revisor de tu proyecto el día de hoy!

Revisaré tu proyecto detenidamente con el objetivo de ayudarte a mejorar y perfeccionar tus habilidades. Durante mi revisión, identificaré áreas donde puedas hacer mejoras en tu código, señalando específicamente qué y cómo podrías ajustar para optimizar el rendimiento y la claridad de tu proyecto. Además, es importante para mí destacar los aspectos que has manejado excepcionalmente bien. Reconocer tus fortalezas te ayudará a entender qué técnicas y métodos están funcionando a tu favor y cómo puedes aplicarlos en futuras tareas. 

_**Recuerda que al final de este notebook encontrarás un comentario general de mi parte**_, empecemos!

Encontrarás mis comentarios dentro de cajas verdes, amarillas o rojas, ⚠️ **por favor, no muevas, modifiques o borres mis comentarios** ⚠️:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

SPRINT 8 - MACHINE LEARNING
--
Descripcion.

La compañía móvil Megaline no está satisfecha al ver que muchos de sus clientes utilizan planes heredados. Quieren desarrollar un modelo que pueda analizar el comportamiento de los clientes y recomendar uno de los nuevos planes de Megaline: Smart o Ultra.

Se trabaja con datos de comportamiento de los suscriptores que ya se han cambiado a los planes nuevos. 

Buscaremos un umbral de exactitud del 0.75. 

Preparacion de datos y herramientas de trabajo.
---

In [1]:
#IMPORTAR LIBRERIAS
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.metrics import f1_score

In [2]:
df = pd.read_csv('dataset/users_behavior.csv')
df.info()
display(df.head(10))

print('\nPodemos ver que tenemos ',df.duplicated().sum(),'duplicados')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0



Podemos ver que tenemos  0 duplicados


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo cargando tus librerías y tus datasets en celdas separadas, estoy ayuda a que la lectura de tu proyecto sea más fácil de llevarla
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Recuerda que para mostrar el resultado de tu DataFrame no es recomendable usar print ya que esto le quita al notebook la capacidad de mostrar el resultado cómo una tabla. Te recomiendo en su lugar usar `display()`
</div>

In [45]:
print(df.groupby('is_ultra').sum())
print(df.groupby('is_ultra').count())

             calls    minutes  messages      mb_used
is_ultra                                            
0         130315.0  904846.84   74413.0  36128672.83
1          72292.0  503556.20   48623.0  19176790.88
          calls  minutes  messages  mb_used
is_ultra                                   
0          2229     2229      2229     2229
1           985      985       985      985


Podemos ver que tenemos mas clientes utilizando el plan SMART que el plan ULTRA. 
Por esto, la cantidad de mensajes, llamadas y de uso de datos será mayor en el plan SMART. 
Tambien podemos ver con ayuda de info() que no contamos con valores nulos y de igual forma no tenemos valores duplicados.

Dividir el dataset en un conjunto de entrenamiento y en un conjunto de validacion y preuba con un porcentaje del 40%, para despues dividir este conjunto entre dos, uno para validacion y otro para prueba; el valor de estado random de 54321. 
Tendremos 2410 filas en el conjunto de entrenamiento y 804 filas en el conjunto de validacion. 

In [46]:
#Dividir el data set en validacion,prueba y entrenamiento.
df_train, df_valid_test = train_test_split(df, test_size=0.4, random_state=54321)
df_train.info()
display(df_train.head())
print()
df_valid_test.info()
display(df_valid_test.head())

<class 'pandas.core.frame.DataFrame'>
Index: 1928 entries, 389 to 2641
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     1928 non-null   float64
 1   minutes   1928 non-null   float64
 2   messages  1928 non-null   float64
 3   mb_used   1928 non-null   float64
 4   is_ultra  1928 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 90.4 KB


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
389,118.0,908.61,54.0,29678.6,1
1066,90.0,653.62,0.0,15697.77,0
36,76.0,543.18,43.0,31845.11,1
1903,134.0,940.77,56.0,2921.57,1
1373,121.0,769.36,0.0,42437.52,1



<class 'pandas.core.frame.DataFrame'>
Index: 1286 entries, 1727 to 1482
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     1286 non-null   float64
 1   minutes   1286 non-null   float64
 2   messages  1286 non-null   float64
 3   mb_used   1286 non-null   float64
 4   is_ultra  1286 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 60.3 KB


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
1727,104.0,739.28,55.0,21940.11,1
2885,67.0,469.58,63.0,7952.07,1
2730,74.0,549.14,20.0,17160.61,0
899,31.0,205.14,22.0,10250.58,0
2119,26.0,172.87,16.0,6431.26,0


In [47]:
df_valid, df_test = train_test_split(df_valid_test, test_size=0.5, random_state=54321)
df_valid.info()
display(df_valid.head())

print()

df_test.info()
display(df_test.head())

<class 'pandas.core.frame.DataFrame'>
Index: 643 entries, 98 to 977
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
 4   is_ultra  643 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 30.1 KB


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
98,67.0,454.43,31.0,19776.5,0
2941,57.0,470.3,88.0,9346.0,1
2626,6.0,50.95,5.0,3771.34,0
1653,80.0,538.39,51.0,21691.46,0
2389,35.0,205.35,52.0,35177.94,1



<class 'pandas.core.frame.DataFrame'>
Index: 643 entries, 40 to 817
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
 4   is_ultra  643 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 30.1 KB


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
40,34.0,183.28,0.0,18631.66,0
2523,39.0,257.01,52.0,19450.11,0
1529,69.0,453.26,18.0,14427.4,0
2850,46.0,309.91,105.0,6444.87,0
1109,69.0,479.79,0.0,17559.43,0


<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

Buen trabajo con la división! Recuerda que para fines de evaluación de los modelos entrenados se necesita dividir los datos en 3 sets: Entrenamiento, validación, y pruebas cómo indica la descripción del proyecto
</div>


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>

Que tal! muchas gracias por sus comentarios, hice algunas correcciones respecto los conjuntos de entrenamiento, prueba y validacion. 
Dividí el conjunto original en 60% entrenamiento, 40% prueba y validacion.
Despues dividí prueba y validacion a la mitad, para obtener los 3 conjuntos. 
Esta bien como lo planteé o hay otra forma?
</div>


Generar 6 diferentes datasets. 
- 2 datasets con los datos de entrenamiento. Un dataset con la columna objetivo de is_ultra y otro dataset con las demas columnnas para formar el dataset de caracteristicas. 
- 2 datasets con los datos de validacion. Un dataset con la columna objetivo de is_ultra y otro dataset con las demas columnnas para formar el dataset de caracteristicas. 
- 2 datasets con los datos de prueba. Un dataset con la columna objetivo de is_ultra y otro dataset con las demas columnnas para formar el dataset de caracteristicas.

In [48]:
#CARACTERISTICAS Y OBJETIVO DE ENTRENAMIENTO
features_train = df_train.drop('is_ultra',axis=1)
target_train = df_train['is_ultra']
features_train.info()
print()
target_train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1928 entries, 389 to 2641
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     1928 non-null   float64
 1   minutes   1928 non-null   float64
 2   messages  1928 non-null   float64
 3   mb_used   1928 non-null   float64
dtypes: float64(4)
memory usage: 75.3 KB

<class 'pandas.core.series.Series'>
Index: 1928 entries, 389 to 2641
Series name: is_ultra
Non-Null Count  Dtype
--------------  -----
1928 non-null   int64
dtypes: int64(1)
memory usage: 30.1 KB


In [49]:
#CARACTERISTICAS Y OBJETIVO DE VALIDACION
features_valid = df_valid.drop('is_ultra',axis=1)
target_valid = df_valid['is_ultra']
features_valid.info()
print()
target_valid.info()

<class 'pandas.core.frame.DataFrame'>
Index: 643 entries, 98 to 977
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
dtypes: float64(4)
memory usage: 25.1 KB

<class 'pandas.core.series.Series'>
Index: 643 entries, 98 to 977
Series name: is_ultra
Non-Null Count  Dtype
--------------  -----
643 non-null    int64
dtypes: int64(1)
memory usage: 10.0 KB


In [50]:
#CARACTERISTICAS Y OBJETIVO DE PRUEBA
features_test = df_test.drop('is_ultra',axis=1)
target_test = df_test['is_ultra']
features_test.info()
print()
target_test.info()

<class 'pandas.core.frame.DataFrame'>
Index: 643 entries, 40 to 817
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
dtypes: float64(4)
memory usage: 25.1 KB

<class 'pandas.core.series.Series'>
Index: 643 entries, 40 to 817
Series name: is_ultra
Non-Null Count  Dtype
--------------  -----
643 non-null    int64
dtypes: int64(1)
memory usage: 10.0 KB


ACCURACY.
---

Decision Tree Classifier Model. 

Random_state de 54321.
Primero calcular la exactitud con una max_depth predeterminado. 
Segundo revisar que exactitud es la mejor modificando el max_depth, usaremos un rango de 1 a 10.

In [51]:
#modelo de clasificacion de arbol
model_tree = DecisionTreeClassifier(random_state=54321)
model_tree.fit(features_train,target_train)

#Prediccion del modelo de clasificacion con los valores de validacion
valid_tree_prediction = model_tree.predict(features_valid)
print('Exactitud del conjunto de validacion:', accuracy_score(target_valid,valid_tree_prediction))

Exactitud del conjunto de validacion: 0.687402799377916


In [70]:
#DECISION TREE CLASSIFIER DIFERENTES PROFUNDIDADES
best_score_tree = 0
for depth in range(1,11):
    model_tree = DecisionTreeClassifier(random_state=54321 , max_depth= depth)
    model_tree.fit(features_train , target_train)
    valid_tree_prediction = model_tree.predict(features_valid)
    print('max_depth = ' , depth , ': ' , end= '')
    score_tree = accuracy_score(target_valid,valid_tree_prediction)
    print(score_tree)
    if score_tree > best_score_tree:
        best_score_tree = score_tree
        best_max_depth = depth
        best_model_tree = model_tree
        best_valid_tree_prediction = valid_tree_prediction

print('\nEl modelo con la mejor exactitud ', best_score_tree,'con un max_depth = ',best_max_depth,'\nel modelo fue:',best_model_tree)
#print(valid_tree_prediction)


max_depth =  1 : 0.7216174183514774
max_depth =  2 : 0.7418351477449455
max_depth =  3 : 0.7651632970451011
max_depth =  4 : 0.744945567651633
max_depth =  5 : 0.7651632970451011
max_depth =  6 : 0.7542768273716952
max_depth =  7 : 0.7433903576982893
max_depth =  8 : 0.7511664074650077
max_depth =  9 : 0.7682737169517885
max_depth =  10 : 0.7822706065318819

El modelo con la mejor exactitud  0.7822706065318819 con un max_depth =  10 
el modelo fue: DecisionTreeClassifier(max_depth=10, random_state=54321)


Podemos ver que el modelo arbol de decision con  valores predeterminados, tiene una exactitud muy baja, 68%.
Al modificar el hipervalor de max_depth podemos ver que la exactitud mejora a una 78%, esta con una profundidad de 10.
Estamos arriba del 75%, hay que seguir revisando los otros modelos para llegar a una conclusion.

RANDOM FOREST CLASSIFER MODEL.

Trabajaremos en esta seccion con el modelo bosque aleatorio, utilizando de igualforma el random state de 54321 y un numero de arboles de 3. 
Despues revisar con diferentes valores de numero de arboles para comparar que valor de n_estimators nos da una mejor exactitud. 

In [71]:
#modelo de clasificacion de bosque
model_forest = RandomForestClassifier(random_state= 54321 , n_estimators=3)
model_forest.fit(features_train , target_train)
valid_forest_prediction = model_forest.predict(features_valid)
#Predicciones del modelo de bosque 
print('Exactitud del conjunto de validacion:', model_forest.score(features_valid , target_valid))

Exactitud del conjunto de validacion: 0.7293934681181959


In [74]:
best_score_forest = 0
best_est_forest = 0
for est in range (1,20):
    model_forest = RandomForestClassifier(random_state=54321 , n_estimators= est)
    model_forest.fit(features_train , target_train)
    print('n_estimators = ' , est , ': ' , end= '')
    score_forest = model_forest.score(features_valid , target_valid)
    print('Con la exactitud',score_forest)
    if best_score_forest < score_forest:
        best_score_forest = score_forest
        best_est_forest = est

print('\nLa mejor exactitud es de {} con (n_estimators = {})'.format(best_score_forest,best_est_forest))

n_estimators =  1 : Con la exactitud 0.6780715396578538
n_estimators =  2 : Con la exactitud 0.7247278382581649
n_estimators =  3 : Con la exactitud 0.7293934681181959
n_estimators =  4 : Con la exactitud 0.7356143079315708
n_estimators =  5 : Con la exactitud 0.7293934681181959
n_estimators =  6 : Con la exactitud 0.7465007776049767
n_estimators =  7 : Con la exactitud 0.7325038880248833
n_estimators =  8 : Con la exactitud 0.7573872472783826
n_estimators =  9 : Con la exactitud 0.7620528771384136
n_estimators =  10 : Con la exactitud 0.7698289269051322
n_estimators =  11 : Con la exactitud 0.7651632970451011
n_estimators =  12 : Con la exactitud 0.7698289269051322
n_estimators =  13 : Con la exactitud 0.7682737169517885
n_estimators =  14 : Con la exactitud 0.7729393468118196
n_estimators =  15 : Con la exactitud 0.7636080870917574
n_estimators =  16 : Con la exactitud 0.7744945567651633
n_estimators =  17 : Con la exactitud 0.7729393468118196
n_estimators =  18 : Con la exactitud 0.

El modelo con n_estimators de 16 tuvo la mejor exactitud, 77.4%. Podemos que hay mucha variacion dentro de las predicciones ya que la exactitud varia mucho. 
Al llegar a los 9 arboles la exactitud se estanca un poco, para despues en 16 arboles volver a estabilizarse, pero notemos que al tener 18 arboles la exactitud es la misma que 16 arboles.

REGRESION LOGISTICA. 

Detro de la regresión logistica igualmente utilizaremos el random state de 54321. 
Calificaremos la exactitud utilizando el conjunto de valores tanto de entrenamiento como de validacion. 

In [76]:
model_regression= LogisticRegression(random_state= 54321 , solver='liblinear')
model_regression.fit(features_train,target_train)
score_train_regression = model_regression.score(features_train,target_train)
score_valid_regression = model_regression.score(features_valid,target_valid)

print('La exactitud del modelo de regresion logistica en el conjunto de entrenamiento', score_train_regression)
print('La exactitud del modelo de regresion logistica en el conjunto de validacion', score_valid_regression)

La exactitud del modelo de regresion logistica en el conjunto de entrenamiento 0.7131742738589212
La exactitud del modelo de regresion logistica en el conjunto de validacion 0.6780715396578538


Podemos ver una exactitud muy baja de en este modelo, sin embargo, revisemos el error cuadratico de los modelos para poder eleguir uno de manera correcta. 

F1_SCORE
---
Métrica utilizada para evaluar la precisión de un modelo de clasificación. Es la media armónica de la precisión y la recuperación.
- 0.9 - 1.0: Excelente
- 0.8 - 0.9: Muy bueno
- 0.7 - 0.8: Bueno
- 0.6 - 0.7: Aceptable
- 0.5 - 0.6: Regular
- < 0.5: Pobre

In [87]:
#DECISION TREE REGRESSOR. f1_Score
best_f1_tree = 0
best_f1_depth = 0
for depth in range(1,15):
    model_tree_f1 = DecisionTreeClassifier(random_state=54321 , max_depth= depth)
    model_tree_f1.fit(features_train, target_train)
    valid_tree_prediction_f1 = model_tree_f1.predict(features_valid)
    print('max_depth = ' , depth , ': ' , end= '')
    f1_tree = f1_score(target_valid, valid_tree_prediction_f1)
    print('f1_tree',f1_tree)
    if best_f1_tree < f1_tree:
        best_model_tree = model_tree_regressor
        best_f1_tree = f1_tree
        best_f1_depth = depth

print('\nThe model with the best f1_score was:\n',best_model_tree,'\nwith a f1_score of : ' , best_f1_tree) 


max_depth =  1 : f1_tree 0.3848797250859107
max_depth =  2 : f1_tree 0.5088757396449705
max_depth =  3 : f1_tree 0.5722379603399433
max_depth =  4 : f1_tree 0.4605263157894737
max_depth =  5 : f1_tree 0.5438066465256798
max_depth =  6 : f1_tree 0.5182926829268293
max_depth =  7 : f1_tree 0.4954128440366973
max_depth =  8 : f1_tree 0.5402298850574713
max_depth =  9 : f1_tree 0.5983827493261455
max_depth =  10 : f1_tree 0.6256684491978609
max_depth =  11 : f1_tree 0.6096256684491979
max_depth =  12 : f1_tree 0.5736842105263158
max_depth =  13 : f1_tree 0.5778894472361809
max_depth =  14 : f1_tree 0.5812807881773399

The model with the best f1_score was:
 DecisionTreeRegressor(max_depth=10, random_state=54321) 
with a f1_score of :  0.6256684491978609


En el modelo arbol de decision tnemos un f1_score aceptable con 0.625. 
Podemos ver un brinco muy grande de usar 1 solo nivel de profundidad a 2, ya de tener un f1_score de 0.3 es un muy bajo. Subir a 2 niveles de profundidad ayudo considerablemente a nuestro modelo. 

In [104]:
#DECISION TREE CLASSIFIER. F1_SCORE
best_f1_forest = 0
best_f1_est = 0
for est in range(1,20):

    model_forest_f1 = RandomForestClassifier(random_state=54321 , n_estimators=est)
    model_forest_f1.fit(features_train, target_train)
    valid_forest_prediction_f1 = model_forest_f1.predict(features_valid)
    print('n_estimators = ' , est , ': ' , ': ' ,end= '')
    f1_forest = f1_score(target_valid, valid_forest_prediction_f1)
    print('f1_forest',f1_forest)
    if best_f1_forest < f1_forest:
        best_f1_model_forest = model_forest_f1
        best_f1_forest = f1_forest
        best_f1_est = est

print('\nEl mejor f1_score {} se obtuvo con (n_estimators = {})'.format(best_f1_forest,best_f1_est))

n_estimators =  1 :  : f1_forest 0.5059665871121718
n_estimators =  2 :  : f1_forest 0.5014084507042254
n_estimators =  3 :  : f1_forest 0.5714285714285714
n_estimators =  4 :  : f1_forest 0.5251396648044693
n_estimators =  5 :  : f1_forest 0.5606060606060606
n_estimators =  6 :  : f1_forest 0.5434173669467787
n_estimators =  7 :  : f1_forest 0.5520833333333334
n_estimators =  8 :  : f1_forest 0.5617977528089888
n_estimators =  9 :  : f1_forest 0.5941644562334217
n_estimators =  10 :  : f1_forest 0.5888888888888889
n_estimators =  11 :  : f1_forest 0.6015831134564644
n_estimators =  12 :  : f1_forest 0.5934065934065934
n_estimators =  13 :  : f1_forest 0.6089238845144357
n_estimators =  14 :  : f1_forest 0.6054054054054054
n_estimators =  15 :  : f1_forest 0.6
n_estimators =  16 :  : f1_forest 0.6070460704607046
n_estimators =  17 :  : f1_forest 0.6178010471204188
n_estimators =  18 :  : f1_forest 0.6070460704607046
n_estimators =  19 :  : f1_forest 0.6145833333333334

El mejor f1_scor

Podemos ver que usando 13 arboles en el modelo bosque aleatorio, el f1_score tiene un 0.608. Es decir, tiene una precisión aceptable. 
Sin embargo, podemos que el f1_score no mejora mas alla del 0.61, que fue el f1_score mas alto con 17 arboles.

In [107]:
#DECISION TREE CLASSIFIER. F1_SCORE
best_f1_forest_2 = 0
best_f1_est_2 = 0
for est_2 in range(10,50,10):
    for depth_f1_2 in range(1,20):
        model_forest_f1_2 = RandomForestClassifier(random_state=54321 , n_estimators=est_2, max_depth=depth_f1_2)
        model_forest_f1_2.fit(features_train, target_train)
        valid_forest_prediction_f1_2 = model_forest_f1_2.predict(features_valid)
        print('n_estimators = ' , est_2 , ': ' , 'max_depth = ' , depth_f1_2 , ': ' ,end= '')
        f1_forest_2 = f1_score(target_valid, valid_forest_prediction_f1_2)
        print('f1_forest',f1_forest_2)
        if best_f1_forest_2 < f1_forest_2:
            best_f1_model_forest_2 = model_forest_f1_2
            best_f1_forest_2 = f1_forest_2
            best_f1_est_2 = est_2
            best_f1_depth_2 = depth_f1_2

print('\nEl mejor f1_score {} se obtuvo con (n_estimators = {}) y (max_depth = {})'.format(best_f1_forest_2,best_f1_est_2,best_f1_depth_2))

n_estimators =  10 :  max_depth =  1 : f1_forest 0.37800687285223367
n_estimators =  10 :  max_depth =  2 : f1_forest 0.5075528700906344
n_estimators =  10 :  max_depth =  3 : f1_forest 0.5060975609756098
n_estimators =  10 :  max_depth =  4 : f1_forest 0.6123595505617978
n_estimators =  10 :  max_depth =  5 : f1_forest 0.6050420168067226
n_estimators =  10 :  max_depth =  6 : f1_forest 0.6017191977077364
n_estimators =  10 :  max_depth =  7 : f1_forest 0.6046511627906976
n_estimators =  10 :  max_depth =  8 : f1_forest 0.6366197183098592
n_estimators =  10 :  max_depth =  9 : f1_forest 0.6204986149584487
n_estimators =  10 :  max_depth =  10 : f1_forest 0.6520547945205479
n_estimators =  10 :  max_depth =  11 : f1_forest 0.6118980169971672
n_estimators =  10 :  max_depth =  12 : f1_forest 0.6016713091922006
n_estimators =  10 :  max_depth =  13 : f1_forest 0.6318681318681318
n_estimators =  10 :  max_depth =  14 : f1_forest 0.5994550408719346
n_estimators =  10 :  max_depth =  15 : f1

Agregando los hipervalores de numero de estimadores y maxima profundidad, podemos ver que tenemos un valor aceptable de 0.65 con 10 arboles y una profundidad de 10.
Intentemos con regresion logica para ver si tenemos una mejora. 

In [100]:
#LOGISTIC REGRESSION. F1_SCORE

model_logistic_f1 = LogisticRegression(random_state= 54321 , solver='liblinear')
model_logistic_f1.fit(features_train, target_train)

valid_logistic_prediction_f1 = model_logistic_f1.predict(features_valid)

f1_score_v = f1_score(target_valid,valid_logistic_prediction_f1)

print('El f1_Score del modelo de regresion logistica en el conjunto de validacion', f1_score_v)

El f1_Score del modelo de regresion logistica en el conjunto de validacion 0.16194331983805668


Se obtuvo un valor de f1_score muy pobre con 0.16, por lo que la precision de este modelo no es nada aceptable. 

ERROR CUADRATICO MEDIO
---

Vamos a revisar el error medio cuadratico (EMC) de cada uno de los modelos para elegir el mejor. 

In [56]:
# Declaracion para el RECM. 
features = df.drop(['is_ultra'],axis=1)
target = df['is_ultra']
features_train_ecm , features_valid_ecm , target_train_ecm, target_valid_ecm = train_test_split(features, target,test_size=0.25,random_state=54321)
print(features_train_ecm.shape)
print(features_valid_ecm.shape)
print(target_train_ecm.shape)
print(target_valid_ecm.shape)


(2410, 4)
(804, 4)
(2410,)
(804,)


In [57]:
#Prueba de cordura
predictions_cordura = pd.Series(target.mean(),index=target.index)
mse = mean_squared_error(target,predictions_cordura)
rmse = mse ** 0.5
print('El RECM en base al promedio de los valores de target es -> ',rmse)

El RECM en base al promedio de los valores de target es ->  0.46102797293043907


In [58]:
#DECISION TREE REGRESSOR. RECM
best_RECM_tree = 10000
best_depth = 0
for depth in range(1,11):
    model_tree_regressor = DecisionTreeRegressor(random_state=54321 , max_depth= depth)
    model_tree_regressor.fit(features_train_ecm , target_train_ecm)
    valid_tree_prediction_ecm = model_tree_regressor.predict(features_valid_ecm)
    print('max_depth = ' , depth , ': ' , end= '')
    RECM_tree = mean_squared_error(target_valid_ecm, valid_tree_prediction_ecm) ** 0.5
    print('RECM',RECM_tree)
    if RECM_tree < best_RECM_tree:
        best_model_tree = model_tree_regressor
        best_RECM_tree = RECM_tree

print('\nThe model with the best RECM was:\n',best_model_tree,'\nwith a RECM of : ' , best_RECM_tree)


max_depth =  1 : RECM 0.44098405178305866
max_depth =  2 : RECM 0.41935202725776616
max_depth =  3 : RECM 0.40919632941340167
max_depth =  4 : RECM 0.404940364204513
max_depth =  5 : RECM 0.40033089897845153
max_depth =  6 : RECM 0.39920585182877466
max_depth =  7 : RECM 0.4051436635073566
max_depth =  8 : RECM 0.4038884724633892
max_depth =  9 : RECM 0.4063362159345581
max_depth =  10 : RECM 0.4107715233752954

The model with the best RECM was:
 DecisionTreeRegressor(max_depth=6, random_state=54321) 
with a RECM of :  0.39920585182877466


Al analizar el Error Medio Cuadratico del modelo del árbol de desición de regresión, el modelo que mejor responde es el que tiene la profundidad de 6, con un 0.399 de RECM.
Este resultado es mejor que el RECM en la prueba de cordura.  

In [59]:
#Bosque aleatorio de regresion. RECM.
best_RECM_forest = 10000
best_est_forest = 0
best_depth_forest = 0
for est in range (10,30,10):
    print()
    for depth in range(1 , 11):
        model_forest_regressor = RandomForestRegressor(random_state=54321 , n_estimators= est , max_depth=depth)
        model_forest_regressor.fit(features_train_ecm , target_train_ecm)
        valid_forest_prediction_ecm = model_forest_regressor.predict(features_valid_ecm)
        RECM_forest = mean_squared_error(target_valid_ecm, valid_forest_prediction_ecm)**0.5
        print('El RECM es',RECM_forest, 'con el numero de arboles de',est,'y una profundidad de : ',depth)
        if RECM_forest < best_RECM_forest:
            best_RECM_forest = RECM_forest
            best_est_forest = est
            best_model_forest = model_forest_regressor
            best_max_depth_forest = depth
         

print('\nEl mejor RECM {} se obtuvo con (n_estimators = {}) y (max_depth = {})'.format(best_RECM_forest,best_est_forest,best_max_depth_forest))


El RECM es 0.43030643644756944 con el numero de arboles de 10 y una profundidad de :  1
El RECM es 0.4159120698914129 con el numero de arboles de 10 y una profundidad de :  2
El RECM es 0.4076383317865406 con el numero de arboles de 10 y una profundidad de :  3
El RECM es 0.3987678217072082 con el numero de arboles de 10 y una profundidad de :  4
El RECM es 0.39395586231233054 con el numero de arboles de 10 y una profundidad de :  5
El RECM es 0.3894803800929814 con el numero de arboles de 10 y una profundidad de :  6
El RECM es 0.3892000351356857 con el numero de arboles de 10 y una profundidad de :  7
El RECM es 0.3851956570606119 con el numero de arboles de 10 y una profundidad de :  8
El RECM es 0.3869745634090257 con el numero de arboles de 10 y una profundidad de :  9
El RECM es 0.3876881630086166 con el numero de arboles de 10 y una profundidad de :  10

El RECM es 0.43162530291565276 con el numero de arboles de 20 y una profundidad de :  1
El RECM es 0.4150566324763324 con el 

Despues de hacer varias pruebas de diferentes rangos, se puede ver  que para el modelo Bosque aleatorio los mejores hipervalores son (n_estimators = 20) y (max_depth = 9), con un 0.3838 de RECM. 
Podemos ver que despues del .38 ya no hay tanta mejora, pero al varias el sistema podemos ver una pequeña variacion que nos puede beneficiar. 
Este modelo tuvo una mejora en comparacion con la prueba de cordura y el modelo arbol de desicion. 

In [60]:
#Modelo de Regresion Lineal 
model_linel = LinearRegression()
model_linel.fit(features_train_ecm,target_train_ecm)
prediction_lineal_valid_ecm = model_linel.predict(features_valid_ecm)
RECM_linel = mean_squared_error(target_valid_ecm,prediction_lineal_valid_ecm)**0.5

print('RECM del modelo de regresion lineal en el conjunto de validacion',RECM_linel)

RECM del modelo de regresion lineal en el conjunto de validacion 0.45504947446604305


<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteracion)</b> <a class=“tocSkip”></a>

El problema presentado para este proyecto es uno de clasificación, por lo que la evaluación mediante `mean_squared_error` no es la adecuada para este caso. Te recomiendo revisar los modelos de clasificación y las métricas cómo el accuracy, confusion matrix, o el f1-score para evaluarlos.
</div>

<div class="alert alert-block alert-info">
<b>Comentario del estudiante</b> <a class=“tocSkip”></a>
Hice unos cambios y agregué el metodo de f1_score.

</div>

De nuevo, podemos ver que no es el mejor modelo en comparacion a los otros 2, esta por debajo de la prueba de cordura.
Sin embargo, el RECM es muy alto en comparacion al modelo bosque aleatorio. 

SELECCIÓN DE MODELO FINAL Y CONCLUSIONES
---

De acurdo con las pruebas anteriores, el mejor modelo a trabajar para determinar que plan es el utilizado y cual es el mas recomendable dependiendo el uso de datos, llamadas y mensajes, es el Bosque Aleatorio. 
Esto es por su buena exactitud utilizando un numero de arboles de 7.
Utilizando el conjunto de prueba con el modelo final podemos concluir que este modelo nos da respuestas una exactitud del 97%  

In [109]:
#Usando el conjunto de prueba 
final_model = RandomForestClassifier(random_state=54321,n_estimators=10)
final_model.fit(features_test,target_test)

predictions_final = final_model.predict(features_test)
#score = final_model.score(features_test,target_test)
score = accuracy_score(target_test,predictions_final)

print('La exactitud obtenida con el modelo de bosque aleatorio con 7 arboles es:',score)

La exactitud obtenida con el modelo de bosque aleatorio con 7 arboles es: 0.9720062208398134


<div class="alert alert-block alert-info">
<b>Comentario general (1ra Iteracion)</b> <a class=“tocSkip”></a>

Jimena vas por buen camino! Pero hay que identificar el problema que se desea resolver para poder escoger que modelos entrenar, el modelo de LogisticRegression, y RandomForestClassifier está muy bien para este caso ya que la columna o el target que se requiere predecir es un 1 o 0 que indica si es ultra o no.
    
El modelo de regresión que entrenaste es mejor para casos donde se requieren predecir valores continuos cómo precios, ganancias, etc. Estos son los puntos que te invito a revisar para tu siguiente iteración:
 
- Dividir tu dataset en 3, uno para entrenamiento, otro para pruebas y finalmente otro para evaluación.
- Sobre el dataset de evaluación es sobre el cual harás tus últimas evaluaciones del modelo para verificar que cumplan con el umbral descrito para este proyecto
- Hay que identificar cuando se trata de un problema de clasificación o de regresión para escoger el modelo y las métricas a utilizar

Saludos!
</div>

<div class="alert alert-block alert-info">
<b>Comentario del estudiante</b> <a class=“tocSkip”></a>


Respecto a elegir el modelo... Bosque Aleatorio, esta bien para este problema cierto? 
Elegí este modelo porque era el que mejor exactitud me daba cuando utilicé el conjunto de validacion, y de igual forma en la presicion evaluada con el F1_SCORE
De igual forma lo cambié a RandomForestClassifier, en vez de regressor por el tipo de problema que es. (GRACIAS POR ESA NOTA)


Saludos!
</div>