INTRODUCCION

El proposito de este proyecto es desarrollar un modelo de machine learning que permita a Megaline ofrecer recomendaciones personalizadas a sus clientes, mejorando así la satisfacción del usuario y la rentabilidad de la compañía.

Objetivo:

-Crear un modelo con la mayor exactitud posible, que supere un umbral de exactitud del 75%.

-Crear un modelo de clasificación que prediga si un cliente de Megaline debería cambiarse al plan Smart o Ultra.


TABLA DE CONTENIDO

Importación de librerias y modulos.
Visualización de datos.
Segmantacion de datos en un conjunto de entrenamiento.
Encontrar el modelo adecuado.
Comprobar la calidad de modelo.
Conclusión.

1. Importación de librerias y módulos.

In [2]:
import pandas as pd
import statistics
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

2. Visualizacion de los datos

In [5]:
df = pd.read_csv('users_behavior.csv')

In [6]:
print(df.head(10))

   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0
5   58.0   344.56      21.0  15823.37         0
6   57.0   431.64      20.0   3738.90         1
7   15.0   132.40       6.0  21911.60         0
8    7.0    43.39       3.0   2538.67         1
9   90.0   665.41      38.0  17358.61         0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


3. Segmentación de datos en un conjunto de entrenamiento.

In [9]:
# Separar los datos de entrenamiento.

df_train, df_resto = train_test_split(df, test_size=0.4, random_state=12345)

features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']

# separar datos de validación y de prueba.

df_valid, df_test = train_test_split(df_resto , test_size=0.5, random_state=12345)

features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']

features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']


4. Encontrar el modelo adecuado.

Para este proyecto evaluo los 3 modelos de clasificación: Arbol de decisión con el hiperparametro(random_stare), Bosque Aleatorio con lños hiperparametros(random_state, n_estimators) y Regresión Logística y sus hiperparametros(random_state, solver=liblinear).

In [10]:
# ARBOL DE DECISION

model = DecisionTreeClassifier(random_state=12345)
model.fit(features_train, target_train)
predictions_valid =  model.predict(features_valid)

print('Exactitud de modelo Arbol de Decisión es:', accuracy_score(target_valid, predictions_valid))

Exactitud de modelo Arbol de Decisión es: 0.713841368584759


In [11]:
# BOSQUE ALEATORIO

n_estimators = [5, 10,  15, 20, 25, 30]
best_score = 0
best_estimator = None
best_model = None


for estimator in n_estimators:
    model = RandomForestClassifier(random_state=12345, n_estimators=estimator) 
    model.fit(features_train, target_train)
    predictions_valid =  model.predict(features_valid)

    score = model.score(features_valid, target_valid) 

    if score > best_score:
        best_estimator = estimator
        best_model = model
        best_score = score
        
print(f'El mejor modelo para el Bosque Aleatorio tiene un n_estimator: {best_estimator} y una exactitud es de: {best_score}')

El mejor modelo para el Bosque Aleatorio tiene un n_estimator: 20 y una exactitud es de: 0.7869362363919129


In [12]:
# REGRESION LOGISTICA
    
model = LogisticRegression(random_state=12345, solver = 'liblinear')
model.fit(features_train, target_train) 
predictions_valid = model.predict(features_valid)


print('Exactitud de modelo Regresion Logistican es:', accuracy_score(target_valid, predictions_valid))

Exactitud de modelo Regresion Logistican es: 0.7573872472783826


Para encontrar el modelo adecuado, utilicé tres modelos de clasificación: Árbol de Decisión, Bosque Aleatorio y Regresión Logística. Los probé con el conjunto de datos y calculé el promedio de exactitud de cada modelo. El mejor modelo debe superar el umbral de exactitud de 0.75. Teniendo en cuenta este umbral, el modelo de Bosques Aleatorios es el más indicado para resolver este ejercicio, con una exactitud de 0.786.


5. Comprobar la calidad del modelo

In [13]:
best_model = RandomForestClassifier(random_state=12345, n_estimators=20) 
best_model.fit(features_train, target_train)

print('La exactitud del conjunto de entrenamiento es:', best_model.score(features_train, target_train))
print('La exactitud del conjunto de validación es:', best_model.score(features_test, target_test))
print('La exactitud del conjunto de prueba es:', best_model.score(features_test, target_test))


La exactitud del conjunto de entrenamiento es: 0.9891078838174274
La exactitud del conjunto de validación es: 0.7822706065318819
La exactitud del conjunto de prueba es: 0.7822706065318819


En esta etapa del proceso se hace la comprobación de la calidad de modelo, procesando el conjunto de entrenamiento y evaluando la exactitud de los tres conjuntos de dataset. La exactitud del conjunto de prueba es de 0.782.

Predicciones del Modelo

In [14]:
target_predict = best_model.predict(features_test)
print('Las predicciones del conjunto de prueba son:', "\n" , target_predict)

Las predicciones del conjunto de prueba son: 
 [0 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 1
 1 1 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0
 0 0 1 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0
 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 1 0 1 0 0 0
 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0
 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0 0 0 1 0 1 0 1 0 1 1 0 0 0 1 0
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 1 1 0 1 1 0 0 1 0 0 0 1 1 0 0
 0 0 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0
 0 0 0 0 0 0 1 1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1
 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1
 0 1 0 1 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 1 1 0 1 1 1 0 1 1 1 0 1 0 0 0 0 0
 1 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0
 0 0 1 1 0 0 1 0 1 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 

In [15]:
mean_target_predict = statistics.mean(target_predict)
print(mean_target_predict)

0


6. Conclusión:

El modelo que mejor se ajusta al proyecto es el Bosque Aleatorio, ya que tiene una gran exactitud debido a la cantidad de árboles de datos que procesa. En este dataset en particular, la exactitud es de 0.7869 con 20 estimadores (n_estimators), superando el umbral de exactitud de 0.75.

Al analizar el conjunto de prueba con una exactitud de 0.7823, se concluye que el modelo tiene un 78.2% de aciertos y un 21.8% de error. Según el análisis, el plan recomendado para este grupo de usuarios es "0", que corresponde al plan "Smart".