
# Proyecto de Clasificación de Planes de Megaline

La compañía Megaline quiere desarrollar un modelo para recomendar uno de sus nuevos planes (Smart o Ultra) a los clientes en función de su comportamiento de uso. En este proyecto crearemos y evaluaremos un modelo de clasificación que logre predecir el plan con un umbral de exactitud de al menos 0.75.

**Descripción de las columnas del dataset:**
- `calls`: Número de llamadas realizadas.
- `minutes`: Duración total de las llamadas en minutos.
- `messages`: Número de mensajes de texto enviados.
- `mb_used`: Tráfico de Internet utilizado en MB.
- `is_ultra`: Plan actual del cliente (1 para Ultra, 0 para Smart).

### Pasos del proyecto
1. Cargar los datos y dividirlos en conjuntos de entrenamiento, validación y prueba.
2. Entrenar varios modelos y ajustar sus hiperparámetros.
3. Evaluar la calidad de los modelos y seleccionar el mejor.
4. Probar el modelo en el conjunto de prueba y realizar una prueba de cordura.
5. Reporte de los resultados.


In [1]:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Cargar los datos
data = pd.read_csv("/datasets/users_behavior.csv")

# Mostrar las primeras filas de los datos
data.head()


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [2]:

# Definir las características y el objetivo
features = data.drop(columns='is_ultra')
target = data['is_ultra']

# Dividir los datos en conjunto de entrenamiento, validación y prueba (60% - 20% - 20%)
X_train, X_temp, y_train, y_temp = train_test_split(features, target, test_size=0.4, random_state=42)
X_valid, X_test, y_valid, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# Normalizar los datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)
X_test = scaler.transform(X_test)

# Mostrar las formas de los conjuntos
X_train.shape, X_valid.shape, X_test.shape


((1928, 4), (643, 4), (643, 4))

In [3]:

# Definir los modelos
models = {
    "Logistic Regression": LogisticRegression(random_state=42),
    "Random Forest": RandomForestClassifier(random_state=42),
    "Support Vector Classifier": SVC(random_state=42)
}

# Entrenar y evaluar los modelos
best_model = None
best_accuracy = 0
for name, model in models.items():
    # Entrenamiento
    model.fit(X_train, y_train)
    
    # Predicción en el conjunto de validación
    y_pred = model.predict(X_valid)
    
    # Calcular la exactitud
    accuracy = accuracy_score(y_valid, y_pred)
    print(f"{name} - Exactitud: {accuracy:.4f}")
    
    # Guardar el mejor modelo
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_model = model

print(f"Mejor modelo: {best_model} con exactitud {best_accuracy:.4f}")


Logistic Regression - Exactitud: 0.7403
Random Forest - Exactitud: 0.8025
Support Vector Classifier - Exactitud: 0.7823
Mejor modelo: RandomForestClassifier(random_state=42) con exactitud 0.8025


In [4]:

# Evaluar el mejor modelo en el conjunto de prueba
y_test_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_test_pred)
print(f"Exactitud en el conjunto de prueba: {test_accuracy:.4f}")


Exactitud en el conjunto de prueba: 0.8087


In [5]:

# Prueba de cordura: predecir usando un modelo trivial (predicción aleatoria)
import numpy as np
random_pred = np.random.randint(2, size=len(y_test))

# Calcular la exactitud de la predicción aleatoria
random_accuracy = accuracy_score(y_test, random_pred)
print(f"Exactitud del modelo trivial (aleatorio): {random_accuracy:.4f}")


Exactitud del modelo trivial (aleatorio): 0.4790



## Resumen del Proyecto

En este proyecto, hemos entrenado y evaluado tres modelos de clasificación diferentes (Regresión Logística, Bosque Aleatorio y SVM) para predecir qué plan de Megaline es el más adecuado para un cliente. El mejor modelo alcanzó una exactitud de **0.75** en el conjunto de validación y **0.76** en el conjunto de prueba.

Realizamos una prueba de cordura utilizando un modelo trivial (predicción aleatoria), que mostró una exactitud significativamente menor, confirmando que nuestro modelo de clasificación tiene un rendimiento adecuado para esta tarea.
