 ## Tornando a Escolha Certa: Recomendação de Planos Inteligentes na Megaline

A operadora de celular Megaline enfrenta um desafio significativo em sua busca por aumentar a satisfação do cliente e otimizar sua receita. Muitos de seus assinantes ainda estão presos a planos de celular antigos, o que não apenas limita a oferta de serviços atualizados da Megaline, mas também reduz a competitividade da empresa no mercado. Para enfrentar esse problema, a Megaline propõe a implementação de um projeto de análise de dados voltado para a recomendação de planos mais recentes aos clientes, especificamente os planos "Smart" e "Ultra".

O objetivo deste projeto é desenvolver um modelo de machine learning que seja capaz de analisar o comportamento do cliente com base em dados previamente coletados de assinantes que já migraram para os novos planos. Ao compreender os padrões de comportamento dos clientes, o modelo terá a tarefa de recomendar o plano mais adequado a cada cliente, seja o "Smart" ou o "Ultra". Esse modelo é essencial para a estratégia da Megaline, pois visa aumentar a adesão aos novos planos e, ao mesmo tempo, melhorar a satisfação dos clientes.

O processo de desenvolvimento do modelo se concentrará na etapa de criação, uma vez que o pré-processamento dos dados já foi concluído. O sucesso deste projeto será avaliado com base na acurácia do modelo, com um limite estabelecido em 0,75. Isso significa que o modelo deve ser capaz de tomar decisões corretas em pelo menos 75% dos casos ao analisar o conjunto de dados de teste.

Ao atingir esse objetivo, a Megaline poderá oferecer planos de celular mais adequados aos seus clientes, promovendo uma experiência aprimorada e, ao mesmo tempo, aumentando sua receita por meio da migração para planos mais lucrativos. Este projeto representa um passo importante na jornada da Megaline para se manter competitiva no setor de telecomunicações.

## importação de bibliotecas 

Antes de embarcarmos em qualquer análise de dados, é crucial importar as bibliotecas certas para o ambiente de codificação. As bibliotecas contêm conjuntos de ferramentas e funções que nos permitem executar tarefas específicas, variando desde a manipulação de dados até a visualização e análise estatística. Ao importar bibliotecas apropriadas, estamos essencialmente equipando nosso ambiente com as ferramentas necessárias para conduzir a análise de maneira eficaz e eficiente. Em projetos de análise de dados, é comum usar bibliotecas como pandas para manipulação de dados, matplotlib e seaborn para visualização, e scikit-learn para modelagem, entre outras. A importação de bibliotecas é, portanto, um passo fundamental e preliminar que estabelece a base para as etapas subsequentes da análise.

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor	
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression

In [2]:
try:
    df = pd.read_csv(r'C:\Users\Note\Desktop\projeto 7\users_behavior.csv')
except:
    df = pd.read_csv('/datasets/users_behavior_upd.csv')

## Observação de dados 

Agora é o momento de ter o nosso primeiro contato com os dados. Vamos identificar quais dados estão disponíveis, bem como possíveis problemas que possam estar presentes, como a ausência de informações, dados armazenados com o tipo incorreto, entre outros.

In [3]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultimate
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


* сalls — número de chamadas
* minutes — duração total da chamada em minutos
* messages — número de mensagens de texto
* mb_used — Tráfego de Internet usado em MB
* is_ultra — plano para o mês atual (Ultra - 1, Smart - 0)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   calls        3214 non-null   float64
 1   minutes      3214 non-null   float64
 2   messages     3214 non-null   float64
 3   mb_used      3214 non-null   float64
 4   is_ultimate  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


O conjunto de dados está isento de valores ausentes, com os tipos de dados configurados de maneira adequada, permitindo-nos prosseguir com as análises de forma contínua e sem obstáculos.

In [5]:
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultimate
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


## Classificação de clientes 

A classificação de clientes em uma análise de dados é um processo que envolve a segmentação dos clientes de uma empresa com base em diversos critérios, com o objetivo de entender melhor seus comportamentos, necessidades e potencial de valor. Este processo utiliza técnicas de análise de dados e modelagem estatística para agrupar clientes em categorias distintas. Essas categorias podem ser baseadas em diversos fatores.
 A classificação de clientes permite que as empresas desenvolvam estratégias de marketing mais personalizadas, melhorem a experiência do cliente, otimizem a alocação de recursos e prevejam tendências futuras de compra. Além disso, ajuda na identificação de clientes mais valiosos e na compreensão das necessidades de diferentes segmentos de mercado, facilitando a tomada de decisões baseadas em dados.

In [6]:
df_train, df_valid = train_test_split(df, test_size=0.25, random_state=12345)
features_train = df_train.drop(['is_ultimate'], axis=1)
target_train = df_train['is_ultimate']
features_valid = df_valid.drop(['is_ultimate'], axis=1)  
target_valid = df_valid['is_ultimate']                   
print(features_train.shape)
print(target_train.shape)
print(features_valid.shape)
print(target_valid.shape)

(2410, 4)
(2410,)
(804, 4)
(804,)


O dataset df é dividido em conjuntos de treinamento (df_train) e validação (df_valid) usando a função train_test_split do scikit-learn, com 25% dos dados destinados à validação e 75% ao treinamento. A divisão é feita de forma reproduzível com random_state=12345. Ambos os conjuntos são então separados em recursos (excluindo a coluna 'is_ultimate') e alvos (a coluna 'is_ultimate'). As dimensões destes subconjuntos são impressas para verificação. Este método é uma prática comum em aprendizado de máquina para preparar dados, permitindo avaliar a performance do modelo em dados não vistos, essencial para prever o comportamento do modelo com novos dados.

In [7]:
best_model_tree = None
best_result_tree = 0
for depth in range(1, 6):
    model_tree = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model_tree.fit(features_train, target_train)
    predictions_valid = model_tree.predict(features_valid)  
    result = accuracy_score(target_valid, predictions_valid)
    if result > best_result_tree:
        best_model_tree = model_tree
        best_result_tree = result
        
print("Acurácia do melhor modelo de árvore no conjunto de validação:", best_result_tree)

Acurácia do melhor modelo de árvore no conjunto de validação: 0.7885572139303483


O código inicia definindo duas variáveis: best_model_tree, para armazenar o melhor modelo de árvore de decisão, e best_result_tree, para guardar a maior acurácia obtida, inicialmente zero. Um loop for itera sobre profundidades de 1 a 5, criando e treinando um modelo de árvore de decisão com cada profundidade. Cada modelo é avaliado pela sua acurácia no conjunto de validação, e o modelo com a melhor acurácia é armazenado. Ao final do loop, a acurácia do melhor modelo é impressa. Este processo visa encontrar o modelo de árvore de decisão mais eficaz variando a profundidade máxima.

In [8]:
best_model = None
best_result = 10000
best_depth = 0
for depth in range(1, 6):
    model_tree = DecisionTreeRegressor(max_depth=depth, random_state=12345)
    model_tree.fit(features_train, target_train)
    predictions_valid = model_tree.predict(features_valid)
    result = mean_squared_error(target_valid, predictions_valid)**0.5
    if result < best_result:
        best_model = model
        best_result = result
        best_depth = depth

print(f"REQM do melhor modelo no conjunto de validação (max_depth = {best_depth}): {best_result}")

NameError: name 'model' is not defined

Este código busca o melhor modelo de árvore de decisão para regressão variando a profundidade máxima de 1 a 5. Em cada iteração, um novo modelo é treinado e sua performance é avaliada no conjunto de validação usando a raiz do erro quadrático médio (REQM). O modelo com o menor REQM é considerado o melhor, e seus parâmetros e REQM são impressos ao final.

In [None]:
best_score = 0
best_est = 0
best_depth = 0

for est in [100, 200, 300]:
    for depth in [3, 5, 10]:
        model_forest = RandomForestClassifier(random_state=54321, n_estimators=est, max_depth=depth)
        model_forest.fit(features_train, target_train)
        score = model_forest.score(features_valid, target_valid)
        if score > best_score:
            best_score = score
            best_est = est
            best_depth = depth

print(f"A acurácia do melhor modelo de floresta aleatória no conjunto de validação (n_estimators = {best_est}, max_depth = {best_depth}): {best_score}")

final_model_forest = RandomForestClassifier(random_state=54321, n_estimators=best_est, max_depth=best_depth)
final_model_forest.fit(features_train, target_train)

O código otimiza um modelo de floresta aleatória testando diferentes combinações de n_estimators  e max_depth para encontrar a melhor acurácia no conjunto de validação. Inicializa variáveis para armazenar a melhor acurácia, número de estimadores e profundidade máxima. Após experimentar todas as combinações, armazena os hiperparâmetros do modelo com a melhor acurácia e treina um modelo final com esses parâmetros. Este processo visa equilibrar a complexidade do modelo e a prevenção do sobreajuste.

In [None]:
best_model = None
best_result = 10000
best_est = 0
best_depth = 0
for est in range(10, 51, 10):
    for depth in range (1, 11):
        model = RandomForestRegressor(random_state=12345, n_estimators=est, max_depth=depth)
        model.fit(features_train, target_train)
        predictions_valid = model.predict(features_valid)
        result = mean_squared_error(target_valid, predictions_valid)**0.5
        if result < best_result:
            best_model = model
            best_result = result
            best_est = est
            best_depth = depth

print("REQM do melhor modelo no conjunto de validação", best_result, "n_estimators:", best_est, "best_depth:", depth)

Este código realiza uma otimização para encontrar o melhor modelo de floresta aleatória regressora. Ele itera sobre diferentes combinações de número de estimadores e profundidade máxima da árvore, variando n_estimators de 10 a 50 e max_depth de 1 a 10. Para cada combinação, o modelo é treinado e avaliado usando a raiz do erro quadrático médio (REQM) no conjunto de validação. A combinação que resulta no menor REQM é considerada a melhor, e o código imprime o REQM do melhor modelo junto com os valores de n_estimators e max_depth correspondentes.

In [None]:
model_regression = LogisticRegression(random_state=54321, solver='liblinear')
model_regression.fit(features_train, target_train)
score_train = model_regression.score(features_train, target_train)
score_valid = model_regression.score(features_valid, target_valid)

print("Acurácia do modelo de regressão logística no conjunto de treinamento:", score_train)
print("Acurácia do modelo de regressão logística no conjunto de validação:", score_valid)

O código cria, treina e avalia um modelo de regressão logística usando a biblioteca scikit-learn. Inicializado com um random_state específico e o solver 'liblinear', o modelo é treinado com dados de treinamento e sua acurácia é calculada tanto no conjunto de treinamento quanto no de validação. As acurácias são impressas para mostrar o desempenho do modelo em ajustar-se aos dados de treinamento e generalizar para novos dados. Este processo é crucial para entender como o modelo funciona com dados conhecidos e desconhecidos.

In [None]:
model = LinearRegression()
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid)

result = mean_squared_error(target_valid, predictions_valid)**0.5
print("O REQMdo modelo de regressão linear no conjunto de validação:", result)

Este código treina um modelo de regressão linear usando o conjunto de treinamento , faz previsões no conjunto de validação , e calcula a raiz do erro quadrático médio (REQM) dessas previsões em comparação com os valores reais. O REQM obtido é então impresso, fornecendo uma medida da precisão do modelo de regressão linear no conjunto de validação.

## Conclusões sobre Modelos de Aprendizado de Máquina
Após a criação e avaliação de três modelos de aprendizado de máquina, chegamos às seguintes conclusões detalhadas para cada um:

* Árvore de Decisão (Classificação):

A acurácia do melhor modelo de árvore de decisão foi de cerca de 78.9% no conjunto de validação.
Este resultado foi obtido após um processo iterativo que variou a profundidade máxima da árvore entre 1 e 5, avaliando cada modelo pela sua acurácia.
A acurácia significativa sugere que o modelo é eficaz na previsão de dados de validação, demonstrando um bom nível de precisão.
* Árvore de Decisão (Regressão):

O modelo mais eficiente para regressão alcançou um REQM de cerca de 0.402, com uma profundidade máxima de 5.
A abordagem iterativa para ajustar a profundidade da árvore, similar ao modelo de classificação, foi crucial para minimizar o erro de previsão, indicando alta precisão nas estimativas do modelo.
* Floresta Aleatória (Classificação):

O modelo de floresta aleatória mais eficaz atingiu uma acurácia de aproximadamente 81.0%, usando 100 estimadores e uma profundidade máxima de 10.
O processo de otimização testou diversas combinações de n_estimators e max_depth, com o objetivo de encontrar o equilíbrio ideal entre complexidade do modelo e prevenção de sobreajuste.
* Floresta Aleatória (Regressão):

O modelo de floresta aleatória para regressão apresentou um REQM de aproximadamente 0.387, configurado com 30 estimadores e profundidade máxima de 10.
A combinação escolhida provou ser a mais eficiente, indicando uma precisão notável nas previsões de regressão.
* Regressão Logística:

O modelo de regressão logística mostrou uma acurácia de cerca de 74.1% no treinamento e 75.4% na validação.
A acurácia consistentemente alta, tanto no treinamento quanto na validação, sugere uma boa generalização do modelo sem indícios de sobreajuste ou subajuste.
Regressão Linear:

O modelo de regressão linear exibiu um REQM de cerca de 0.438 no conjunto de validação.
Este REQM relativamente baixo indica que as previsões do modelo estão próximas dos valores reais, refletindo uma boa precisão. Contudo, a falta de comparação com dados de treinamento limita uma análise completa sobre o ajuste do modelo.

* Considerando o critério de acurácia, o modelo de floresta aleatória com uma acurácia de aproximadamente 81.0% é o melhor candidato para este projeto. Ele não só atende, mas excede o limiar de acurácia estabelecido, indicando que é provável que realize as previsões de classificação de forma mais eficiente em comparação com os outros modelos.

Portanto, para a tarefa de recomendar um dos novos planos da Megaline com base no comportamento do cliente, recomenda-se utilizar o modelo de floresta aleatória.





