# Megaline

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

In [5]:
df_user=pd.read_csv('users_behavior.csv')

In [6]:
print(df_user.info())
print()
print(df_user.shape)
print()
print(df_user.head(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None

(3214, 5)

   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0


# Segmentacion de los datos

In [7]:
X=df_user.drop('is_ultra',axis=1)
y=df_user['is_ultra']

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42)

Segmenté los datos en tres conjuntos: entrenamiento, validación y prueba. Para hacerlo, utilicé la función train_test_split de scikit-learn en dos pasos. Primero, dividí los datos en entrenamiento y prueba (80% y 20% respectivamente), y luego tomé una parte del conjunto de entrenamiento para usarlo como conjunto de validación (25% del entrenamiento).

In [9]:
print(f'Tamaño del conjunto de entrenamiento: {X_train.shape[0]}')
print(f'Tamaño del conjunto de validación: {X_val.shape[0]}')
print(f'Tamaño del conjunto de prueba: {X_test.shape[0]}')

Tamaño del conjunto de entrenamiento: 2056
Tamaño del conjunto de validación: 515
Tamaño del conjunto de prueba: 643


# RandomForestClassifier

In [None]:
param_grid_rf = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5, 10]
}
rf = RandomForestClassifier(random_state=42)
grid_search_rf = GridSearchCV(estimator=rf, param_grid=param_grid_rf, cv=5, scoring='accuracy')
grid_search_rf.fit(X_train, y_train)
best_rf = grid_search_rf.best_estimator_
y_val_pred_rf = best_rf.predict(X_val)
accuracy_rf = accuracy_score(y_val, y_val_pred_rf)
print(f'Exactitud del modelo Random Forest en validación: {accuracy_rf:.2f}')

In [None]:
y_test_pred_rf = best_rf.predict(X_test)

accuracy_rf_test = accuracy_score(y_test, y_test_pred_rf)

print(f'Exactitud del modelo Random Forest en el conjunto de prueba: {accuracy_rf_test:.2f}')

Exactitud del modelo Random Forest en el conjunto de prueba: 0.82


# DecisionTreeClassifier

In [None]:
dt = DecisionTreeClassifier(random_state=42)

param_grid_dt = {
    'max_depth': [5, 10, 20, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

grid_search_dt = GridSearchCV(estimator=dt, param_grid=param_grid_dt, cv=5, scoring='accuracy')
grid_search_dt.fit(X_train, y_train)

best_dt = grid_search_dt.best_estimator_

In [None]:
y_val_pred_dt = best_dt.predict(X_val)

accuracy_dt = accuracy_score(y_val, y_val_pred_dt)
print(f'Exactitud del modelo DecisionTree en validación: {accuracy_dt:.2f}')

Exactitud del modelo DecisionTree en validación: 0.77


In [None]:
y_test_pred_dt = best_dt.predict(X_test)

accuracy_test_dt = accuracy_score(y_test, y_test_pred_dt)
print(f'Exactitud en el conjunto de prueba: {accuracy_test_dt:.2f}')

Exactitud en el conjunto de prueba: 0.79


# Conclusiones

Árbol de Decisión (DecisionTreeClassifier): Este modelo fue optimizado utilizando GridSearchCV para encontrar la mejor configuración del árbol, ajustando hiperparámetros como max_depth, min_samples_split y min_samples_leaf.

Random Forest (RandomForestClassifier): Este modelo también fue optimizado utilizando GridSearchCV para ajustar hiperparámetros como el número de árboles (n_estimators), la profundidad máxima del árbol (max_depth), y el número mínimo de muestras para dividir un nodo (min_samples_split).

Árbol de Decisión: Obtuvo una exactitud de 0.77 en el conjunto de validación y 0.79 en el conjunto de prueba. Aunque el modelo es eficiente, el recall (0.54) podría mejorar, ya que la clase de los usuarios Ultra (plan Ultra) es minoritaria.

Random Forest: Este modelo tuvo una exactitud de 0.81 en el conjunto de validación y 0.82 en el conjunto de prueba. Superando al árbol de decisión. Random Forest tiene la ventaja de ser un modelo de ensamblaje, lo que reduce el sobreajuste y mejora la precisión y la capacidad de generalización.

Probé ambos modelos (Árbol de Decisión y Random Forest) en los conjuntos de validación y prueba. 

El proyecto está bien estructurado y se ceñió a las mejores prácticas de machine learning. Después de probar tanto el Árbol de Decisión como el Random Forest, encontré que el Random Forest es el modelo con el mejor rendimiento, alcanzando una exactitud de 0.82 en el conjunto de prueba. Aunque ambos modelos dieron buenos resultados, el Random Forest tiene la ventaja de ser más robusto y menos propenso a sobreajustarse.

Este enfoque me permitió explorar diferentes métodos y ajustar los hiperparámetros de manera efectiva, lo que resultó en un modelo que generaliza bien y tiene una alta precisión.