<div style="background-color:#003366; color:white ; padding: 15px; border-radius: 5px;">

Resumo do Projeto: Otimização de Planos de Telefonia Megaline 


Este projeto foca no desenvolvimento de um modelo de aprendizado de máquina para a operadora de telefonia Megaline. A empresa busca otimizar a alocação de seus clientes, incentivando a migração para dois novos planos: Smart e Ultra.

O objetivo principal foi criar um modelo de classificação capaz de analisar o comportamento de uso de clientes antigos e prever qual dos novos planos seria mais adequado para eles. Para isso, utilizei um conjunto de dados que continha informações sobre o uso de serviços, como chamadas, mensagens e tráfego de internet.

O desafio central foi atingir uma acurácia superior a 0.75, garantindo que o modelo seja confiável o suficiente para recomendar os planos de forma precisa, otimizando a satisfação do cliente e as estratégias de negócio da Megaline.
</div>

Darei seguimento diretamente para a análise e criação do modelo, estou levando em consideração que  o pré processamento de dados já foi realizado.

In [82]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [83]:
df = pd.read_csv("/home/angelaferrari/Sprint08/projeto_final/users_behavior (2).csv")
display(df)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.90,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
...,...,...,...,...,...
3209,122.0,910.98,20.0,35124.90,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0


A coluna "is_ultra" indica que: a opção "1" pertence ao plano Ultra. Sendo a opção "0" o plano Smart.

<div style="background-color:#003366; color:#FFA500; padding: 15px; border-radius: 5px;">
            Primeira etapa: Dividir os dados em Treino, Validação e Teste (60%, 20% e 20% respectivamente)
</div>

In [84]:
# Primeiro, divisão em treino+validação e teste
df_temp, df_test = train_test_split(df, test_size=0.20, random_state=12345)  # 20% para teste

# Segundo, divisão df_temp em treino e validação
df_train, df_valid = train_test_split(df_temp, test_size=0.25, random_state=12345)  # 25% de 80% = 20% para validação

# Assim, teremos aproximadamente:
# 60% treino, 20% validação, 20% teste

In [85]:
#separação das features e do target
features_train = df.drop(columns=['is_ultra'], axis=1) #features de treino
target_train = df['is_ultra'] #target de treino
features_valid = df_valid.drop(columns=['is_ultra'], axis=1) #features de validação
target_valid = df_valid['is_ultra'] #target de validação
features_test = df_test.drop(columns=['is_ultra'], axis=1) #features de teste
target_test = df_test['is_ultra'] #target de teste


<div style="background-color:#003366; color:#FFA500; padding: 15px; border-radius: 5px;">
Será realizada a análise de 03 modelos, sendo eles: Árvore de Decisão / Floresta Aleatória e Regressão Logística 
</div>

Modelo 1: Árvore de Decisão

In [86]:
for depth in range(1, 11): #loop para testar diferentes profundidades da árvore
    model = DecisionTreeClassifier(max_depth=depth, random_state=12345) #definição do modelo
    model.fit(features_train, target_train)  #treinamento do modelo
    predictions = model.predict(features_valid)   #predições com o modelo treinado
    accuracy = accuracy_score(target_valid, predictions)   #cálculo da acurácia
    print(f"Max Depth: {depth}, Accuracy: {accuracy:.4f}") #exibição da profundidade e acurácia
print()
print(f"Max Depth: {depth}, Accuracy: {accuracy:.4f}") #exibição da profundidade e acurácia

Max Depth: 1, Accuracy: 0.7418
Max Depth: 2, Accuracy: 0.7636
Max Depth: 3, Accuracy: 0.7698
Max Depth: 4, Accuracy: 0.7745
Max Depth: 5, Accuracy: 0.7978
Max Depth: 6, Accuracy: 0.8040
Max Depth: 7, Accuracy: 0.8243
Max Depth: 8, Accuracy: 0.8383
Max Depth: 9, Accuracy: 0.8491
Max Depth: 10, Accuracy: 0.8631

Max Depth: 10, Accuracy: 0.8631


Analisando o modelo árvore de decisão, na profundidade 2, alcançamos o mínimo solicitado de acurácia neste projeto (0.75), no entanto a melhor acurácia encontrada, foi na profundidade 10, com 0.8644

Modelo 2: Floresta Aleatória

In [87]:
best_accuracy = 0
best_est = 0
for est in range(1, 11): #loop para testar diferentes números de estimadores
    model = RandomForestClassifier(n_estimators=est, random_state=12345) #definição do modelo
    model.fit(features_train, target_train)  #treinamento do modelo
    predictions = model.predict(features_valid)   #predições com o modelo treinado
    accuracy = accuracy_score(target_valid, predictions)   #cálculo da acurácia
    if accuracy > best_accuracy:  #verificação da melhor acurácia e número de estimadores correspondente
        best_accuracy = accuracy
        best_est = est
    print(f"O modelo tem {best_est} árvores e acurácia de {best_accuracy:.4f}")
print()
print(f"O melhor modelo tem {best_est} árvores e acurácia de {best_accuracy:.4f}")

O modelo tem 1 árvores e acurácia de 0.9129
O modelo tem 2 árvores e acurácia de 0.9160
O modelo tem 3 árvores e acurácia de 0.9565
O modelo tem 3 árvores e acurácia de 0.9565
O modelo tem 5 árvores e acurácia de 0.9689
O modelo tem 5 árvores e acurácia de 0.9689
O modelo tem 7 árvores e acurácia de 0.9782
O modelo tem 7 árvores e acurácia de 0.9782
O modelo tem 9 árvores e acurácia de 0.9844
O modelo tem 9 árvores e acurácia de 0.9844

O melhor modelo tem 9 árvores e acurácia de 0.9844


Neste modelo, floresta aleatória, com apenas 01 árvore ja encontramos uma boa acurácia de 0.9129, porém o melhor modelo encontrado foi com 9 árvores com uma acurácia de 0.9844

Modelo 3 : Regressão Logistica 

In [88]:
model = LogisticRegression(random_state=12345) # definição do modelo
model.fit(features_train, target_train)  # treinamento do modelo
predictions = model.predict(features_valid)  # predições
accuracy = accuracy_score(target_valid, predictions)  # cálculo da acurácia

print(f"A acurácia da Regressão Logística é {accuracy:.4f}") #exibição da acurácia

A acurácia da Regressão Logística é 0.7247


O modelo de Regressão Logística não atingiu o mínimo necessário solicitado no projeto (0.75), sendo 0.72 a acurácia encontrada.

<div style="background-color:#003366; color:#FFA500; padding: 15px; border-radius: 5px;">
Análise do conjunto de teste para o modelo escolhido
</div>

Analisando os resultados dos 03 modelos, podemos verificar que o melhor desempenho foi do modelo Floresta Aleatória, porém como o fator tempo também é um critério importante, para um grande volume de dados, irei analisar o conjunto de teste para os dois modelos : Árvore de Decisão e Floresta Aleatória respectivamente.

In [89]:
model = DecisionTreeClassifier(max_depth=10, random_state=12345) #definição do modelo, usando a melhor profundidade encontrada
model.fit(features_train, target_train)  #treinamento do modelo
predictions = model.predict(features_test)   #predições com o modelo treinado
accuracy = accuracy_score(target_test, predictions)   #cálculo da acurácia
print(f"O desempenho com o conjunto de teste foi:, {accuracy:.4f}")

O desempenho com o conjunto de teste foi:, 0.8678


O desempenho com o conjunto de teste, sendo o modelo Árevore de Decisão foi tão satisfatório o quanto encontrado com o conjunto de validação, tivemos 
0.8678 de acurácia.

In [90]:

model = RandomForestClassifier(n_estimators=9, random_state=12345) #definição do modelo com o melhor número de estimadores
model.fit(features_train, target_train)  #treinamento do modelo
predictions = model.predict(features_test)   #predições com o modelo treinado - usando o conjunto de teste
accuracy = accuracy_score(target_test, predictions)   #cálculo da acurácia do conjunto de teste
    
print(f"A acurácia do conjunto de teste é {accuracy:.4f}")

A acurácia do conjunto de teste é 0.9829


O desempenho com o conjunto de teste, sendo o modelo Floresta Aleatória  foi excelente, 0.9829

<div style="background-color:#003366; color:#FFA500; padding: 15px; border-radius: 5px;">
CONCLUSÕES
</div>

Recomendação do Modelo

Com base na análise do comportamento do cliente e na avaliação de modelos de machine learning, determinamos a melhor solução para o projeto de recomendação de planos. O objetivo foi alcançado, com um modelo que superou o requisito de acurácia de 0.75.

A escolha do modelo ideal depende diretamente do ambiente em que ele será implementado:

Para uso por Analistas (ambiente interno):
Recomendamos o modelo Floresta Aleatória, que alcançou uma acurácia de 0.98 no conjunto de dados de teste. Sua performance superior na classificação dos clientes garante a melhor base de informação para que os analistas da empresa possam sugerir os planos mais adequados. A pequena diferença na velocidade de previsão não é um obstáculo para esta aplicação.

Para uso direto pelo Cliente (plataforma online):
Recomendamos o modelo Árvore de Decisão, que atingiu uma acurácia de 0.86 no conjunto de teste. Este modelo oferece um equilíbrio ideal entre performance e velocidade, garantindo uma experiência de usuário fluida e eficiente. Sua velocidade de previsão significativamente maior é crucial para evitar a perda de clientes em plataformas de acesso rápido.

Em ambos os cenários, o modelo escolhido é robusto e está pronto para ser implementado, fornecendo à Megaline uma ferramenta poderosa para otimizar a migração de clientes para os novos planos Smart e Ultra.