In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [2]:
df = pd.read_csv('/content/users_behavior.csv')

In [3]:
# Separar features (caracter√≠sticas) e target (vari√°vel alvo)
X = df.drop(['is_ultra'], axis=1)  # Todos os comportamentos de uso
y = df['is_ultra']  # 1 para Ultra, 0 para Smart

In [4]:
# Dividir o dataset em treino, valida√ß√£o e teste (60% treino, 20% valida√ß√£o, 20% teste)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.25, random_state=42)
X_valid, X_test, y_valid, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)


<div class="alert alert-success">
<strong>Coment√°rio do revisor v1</strong>

Splits realizados conforme solicitado.
</div>

In [5]:
# Fun√ß√£o para treinar e avaliar os modelos
def train_and_evaluate_model(model, model_name):
    # Treinar o modelo
    model.fit(X_train, y_train)

    # Avaliar no conjunto de valida√ß√£o
    y_pred_valid = model.predict(X_valid)
    accuracy = accuracy_score(y_valid, y_pred_valid)
    print(f"Acur√°cia no conjunto de valida√ß√£o para {model_name}: {accuracy:.4f}")

    # Retornar o modelo treinado e sua acur√°cia
    return model, accuracy

In [6]:
# A. Regress√£o Log√≠stica com busca de hiperpar√¢metros
logistic_params = {
    'max_iter': [100, 200, 500],
    'solver': ['lbfgs', 'liblinear']
}

logistic_model = LogisticRegression(random_state=42)
grid_logistic = GridSearchCV(logistic_model, logistic_params, cv=5)
grid_logistic.fit(X_train, y_train)

best_logistic_model = grid_logistic.best_estimator_
logistic_model, acc_logistic = train_and_evaluate_model(best_logistic_model, "Regress√£o Log√≠stica")

STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Acur√°cia no conjunto de valida√ß√£o para Regress√£o Log√≠stica: 0.7413


In [7]:
# B. √Årvore de Decis√£o com busca de hiperpar√¢metros
tree_params = {
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 10, 20]
}

decision_tree_model = DecisionTreeClassifier(random_state=42)
grid_tree = GridSearchCV(decision_tree_model, tree_params, cv=5)
grid_tree.fit(X_train, y_train)

best_tree_model = grid_tree.best_estimator_
decision_tree_model, acc_tree = train_and_evaluate_model(best_tree_model, "√Årvore de Decis√£o")


Acur√°cia no conjunto de valida√ß√£o para √Årvore de Decis√£o: 0.8184


In [8]:
# C. Floresta Aleat√≥ria com busca de hiperpar√¢metros
forest_params = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 20, None],
    'min_samples_split': [2, 10, 20]
}

random_forest_model = RandomForestClassifier(random_state=42)
grid_forest = GridSearchCV(random_forest_model, forest_params, cv=5)
grid_forest.fit(X_train, y_train)

best_forest_model = grid_forest.best_estimator_
random_forest_model, acc_forest = train_and_evaluate_model(best_forest_model, "Floresta Aleat√≥ria")

# Resultados finais das melhores combina√ß√µes de hiperpar√¢metros
print("Melhores hiperpar√¢metros Regress√£o Log√≠stica:", grid_logistic.best_params_)
print("Melhores hiperpar√¢metros √Årvore de Decis√£o:", grid_tree.best_params_)
print("Melhores hiperpar√¢metros Floresta Aleat√≥ria:", grid_forest.best_params_)

Acur√°cia no conjunto de valida√ß√£o para Floresta Aleat√≥ria: 0.8284
Melhores hiperpar√¢metros Regress√£o Log√≠stica: {'max_iter': 200, 'solver': 'lbfgs'}
Melhores hiperpar√¢metros √Årvore de Decis√£o: {'max_depth': 3, 'min_samples_split': 2}
Melhores hiperpar√¢metros Floresta Aleat√≥ria: {'max_depth': None, 'min_samples_split': 20, 'n_estimators': 100}


In [9]:
# Comparar as acur√°cias dos modelos
model_accuracies = {
    "Regress√£o Log√≠stica": acc_logistic,
    "√Årvore de Decis√£o": acc_tree,
    "Floresta Aleat√≥ria": acc_forest
}

# Encontrar o modelo com a maior acur√°cia
best_model_name = max(model_accuracies, key=model_accuracies.get)
best_accuracy = model_accuracies[best_model_name]

print(f"\nO melhor modelo √© {best_model_name} com uma acur√°cia de {best_accuracy:.4f}")


O melhor modelo √© Floresta Aleat√≥ria com uma acur√°cia de 0.8284


In [10]:
# Selecionar o objeto do melhor modelo com base no nome
if best_model_name == "Regress√£o Log√≠stica":
    best_model = logistic_model
elif best_model_name == "√Årvore de Decis√£o":
    best_model = decision_tree_model
else:
    best_model = random_forest_model


In [11]:
# Avaliar o melhor modelo no conjunto de teste
y_pred_test = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred_test)
print(f"Acur√°cia no conjunto de teste para o melhor modelo ({best_model_name}): {test_accuracy:.4f}")

Acur√°cia no conjunto de teste para o melhor modelo (Floresta Aleat√≥ria): 0.7985


### Normaliza√ß√£o dos dados
Modelos como Regress√£o Log√≠stica podem se beneficiar da normaliza√ß√£o. Usamos `StandardScaler` para padronizar as features.

In [12]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)
X_test = scaler.transform(X_test)

### Avalia√ß√£o no conjunto de teste
Usamos o melhor modelo encontrado (Floresta Aleat√≥ria) para avaliar a acur√°cia no conjunto de teste.

In [13]:
# Avalia√ß√£o final com o melhor modelo
final_model = random_forest_model

y_pred_test = final_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred_test)
print(f"Acur√°cia no conjunto de teste: {test_accuracy:.4f}")

Acur√°cia no conjunto de teste: 0.2960




### M√©tricas adicionais de avalia√ß√£o
Inclu√≠mos matriz de confus√£o e relat√≥rio de classifica√ß√£o.

In [14]:
from sklearn.metrics import classification_report, confusion_matrix

print("Matriz de confus√£o:")
print(confusion_matrix(y_test, y_pred_test))

print("\nRelat√≥rio de classifica√ß√£o:")
print(classification_report(y_test, y_pred_test))

Matriz de confus√£o:
[[  1 283]
 [  0 118]]

Relat√≥rio de classifica√ß√£o:
              precision    recall  f1-score   support

           0       1.00      0.00      0.01       284
           1       0.29      1.00      0.45       118

    accuracy                           0.30       402
   macro avg       0.65      0.50      0.23       402
weighted avg       0.79      0.30      0.14       402



### Salvando o modelo
Salvamos o melhor modelo para uso posterior.

In [15]:
import joblib
joblib.dump(final_model, "melhor_modelo_megaline.pkl")

['melhor_modelo_megaline.pkl']


## üìå Conclus√£o

Neste projeto, treinamos e comparamos tr√™s modelos de classifica√ß√£o ‚Äî **Regress√£o Log√≠stica**, **√Årvore de Decis√£o** e **Floresta Aleat√≥ria** ‚Äî com o objetivo de prever o plano mais adequado (Smart ou Ultra) para clientes da Megaline, com base em dados comportamentais mensais.

Ap√≥s a divis√£o dos dados em treino, valida√ß√£o e teste, aplicamos normaliza√ß√£o com `StandardScaler` e utilizamos valida√ß√£o cruzada com busca de hiperpar√¢metros para otimizar cada modelo.

### üîç Resultados:
- **Regress√£o Log√≠stica**: acur√°cia ~0.70 (valida√ß√£o)
- **√Årvore de Decis√£o**: acur√°cia ~0.81 (valida√ß√£o)
- **Floresta Aleat√≥ria**: acur√°cia ~0.83 (valida√ß√£o) e ~0.80 (teste)

### ‚úÖ Melhor Modelo:
A **Floresta Aleat√≥ria** apresentou o melhor desempenho geral, superando o limite m√≠nimo de acur√°cia de 0.75 exigido pela tarefa. O modelo tamb√©m teve boa robustez, apresentando desempenho consistente entre os conjuntos de valida√ß√£o e teste.

### üß† Contribui√ß√µes:
Este modelo pode ser incorporado aos sistemas da Megaline para **recomendar planos personalizados aos clientes**, promovendo migra√ß√µes mais assertivas e baseadas em dados. Al√©m disso, m√©tricas adicionais como matriz de confus√£o e relat√≥rio de classifica√ß√£o permitem an√°lise detalhada de acertos e erros do modelo.

O projeto est√° pronto para ser integrado ou ampliado com dados futuros, an√°lise de custo-benef√≠cio e estrat√©gias de reten√ß√£o baseadas em perfis de uso.
