------------------------

*Nome: Izabela Hammerschlag*

data: 10/06/2024

------------------------

Megaline - Projeto proposto pela Tripleten

# Descrição do Projeto

**A operadora de celular Megaline está insatisfeita com o fato de muitos de seus clientes estarem usando planos antigos. Eles querem desenvolver um modelo que possa analisar o comportamento do cliente e recomendar um dos planos mais recentes da Megaline: Smart ou Ultra.**

Você tem acesso a dados de comportamento dos assinantes que já mudaram para os novos planos. Para esta tarefa de classificação, você precisa desenvolver um modelo que escolherá o plano certo. Como você já executou a etapa de pré-processamento de dados no projeto anterior da empresa Megaline, pode ir direto para a criação do modelo.

Desenvolva um modelo com a maior acurácia possível. Neste projeto, o limite para acurácia é 0,75. Verifique a acurácia usando o conjunto de dados de teste.

* Abra e examine o arquivo de dados. Caminho para o arquivo: datasets/users_behavior.csv 

## Visão geral dos dados

Importando as bibliotecas necessárias para a execução do projeto

In [53]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

Lendo arquivo dos assinantes que já mudaram para os novos planos.

In [54]:
df = pd.read_csv('./users_behavior.csv')
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [55]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [56]:
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


In [57]:
#df['calls'].describe()

In [58]:
#df['minutes'].describe()

In [59]:
#df['messages'].describe()

In [60]:
#df['mb_used'].describe()

In [61]:
#df['is_ultra'].value_counts() 

* Dividindo os dados de origem em um conjunto de treinamento, um conjunto de validação e um conjunto de teste.

In [62]:
df_train, df_valid_test = train_test_split(df, train_size=0.6, test_size=0.4, random_state=54321)

Vamos olhar para o tamanho dos conjuntos dado o df:

In [63]:
df.shape # dados de origem

(3214, 5)

In [64]:
df_train.shape # dados de treinamento

(1928, 5)

In [65]:
df_valid_test.shape # dados para validação/teste

(1286, 5)

In [66]:
df_valid, df_test = train_test_split(df_valid_test, train_size=0.5, test_size=0.5, random_state=54321)

In [67]:
df_valid.shape # dados para validação

(643, 5)

In [68]:
df_test.shape # dados para test 

(643, 5)

Separando as features (características) e target (objetivo) para os conjuntos de treinamento, validação e teste.

In [69]:
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']
features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']
features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']

In [70]:
features_train.head()

Unnamed: 0,calls,minutes,messages,mb_used
389,118.0,908.61,54.0,29678.6
1066,90.0,653.62,0.0,15697.77
36,76.0,543.18,43.0,31845.11
1903,134.0,940.77,56.0,2921.57
1373,121.0,769.36,0.0,42437.52


In [71]:
target_train.head()

389     1
1066    0
36      1
1903    1
1373    1
Name: is_ultra, dtype: int64

In [72]:
features_valid.head()

Unnamed: 0,calls,minutes,messages,mb_used
98,67.0,454.43,31.0,19776.5
2941,57.0,470.3,88.0,9346.0
2626,6.0,50.95,5.0,3771.34
1653,80.0,538.39,51.0,21691.46
2389,35.0,205.35,52.0,35177.94


In [73]:
target_valid.head()

98      0
2941    1
2626    0
1653    0
2389    1
Name: is_ultra, dtype: int64

In [74]:
features_test.head()

Unnamed: 0,calls,minutes,messages,mb_used
40,34.0,183.28,0.0,18631.66
2523,39.0,257.01,52.0,19450.11
1529,69.0,453.26,18.0,14427.4
2850,46.0,309.91,105.0,6444.87
1109,69.0,479.79,0.0,17559.43


In [75]:
target_test.head()

40      0
2523    0
1529    0
2850    0
1109    0
Name: is_ultra, dtype: int64

* Investigue a qualidade de diferentes modelos alterando hiperparâmetros. 
* Descreva brevemente os resultados do estudo. 
* Verifique a qualidade do modelo usando o conjunto de teste.

**Modelo 1 - DecisionTreeClassifier**

In [76]:
model = DecisionTreeClassifier(random_state=12345) # modelo árvore de decisão 

Treinando o modelo com os dados separados para o treino

In [77]:
model.fit(features_train, target_train)

In [78]:
valid_predictions = model.predict(features_valid)
train_predictions = model.predict(features_train)

In [79]:
print('Acurácia')
print('Сonjunto de treinamento:', accuracy_score(target_train, train_predictions))
print('Conjunto de validação:', accuracy_score(target_valid, valid_predictions))

Acurácia
Сonjunto de treinamento: 1.0
Conjunto de validação: 0.7216174183514774


A acurácia no conjunto de validação está com um valor abaixo 75%, podemos tentar melhorar o modelo variando o max_depth.

Vamos variar o max_depth e utilizar oque apresentar melhor acurácia:

In [80]:
best_dt_model = None
best_result = 0
best_depth = 0
for depth in range(1, 6): #variando depth de 1 a 6
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train,target_train) # treinamento do modelo
    predictions_valid = model.predict(features_valid) # predição do modelo 
    result = accuracy_score(target_valid, predictions_valid) # acurácia
    if result > best_result:
        best_dt_model = model
        best_result = result
        best_depth = depth
        
print("Acurácia do melhor modelo:", best_result)
print("Depth do melhor modelo:", best_depth)

Acurácia do melhor modelo: 0.7651632970451011
Depth do melhor modelo: 3


Vamos utilizar o melhor modelo:

In [81]:
predictions_test = best_dt_model.predict(features_test)

In [82]:
accuracy_score(target_test, predictions_test)

0.8164852255054432

Para este modelo, com depth=3. Encontramos uma acurácia nos dados de teste de aproximadamente 0.82, essa foi a maior acurácia para este modelo.

**Modelo 2 - RandomForestClassifier**

In [83]:
model = RandomForestClassifier(random_state=54321, n_estimators= 40) # modelo Floresta Aleatória

In [84]:
model.fit(features_train,target_train)

In [85]:
score_valid = model.score(features_valid,target_valid)
score_train = model.score(features_train,target_train)

In [86]:
score_train

0.9989626556016598

In [87]:
score_valid

0.7838258164852255

Para n estimators= 40 a acurácia do modelo é de aproximadamente 79%, podemos testar com diferentes hiperparâmetros:

In [88]:
best_rf_model = None
best_score = 0
best_est = 0
for est in range(2, 100): # intervalo do hiperparâmetro - número de árvores
    model = RandomForestClassifier(random_state=54321, n_estimators= est)
    model.fit(features_train,target_train)
    score = model.score(features_valid,target_valid)
    if score > best_score:
        best_score = score
        best_est = est
        best_rf_model = model

print("A acurácia do melhor modelo no conjunto de validação (n_estimators = {}): {}".format(best_est, best_score))


A acurácia do melhor modelo no conjunto de validação (n_estimators = 52): 0.7869362363919129


In [89]:
score_test = best_rf_model.score(features_test,target_test)
score_test

0.8149300155520995

Utilizando n_estimators 52, encontramos aproximadamente 0.79 para os dados de validação e 0.81 para os dados de teste.

**Modelo 3 - LogisticRegression**

In [90]:
model_rl = LogisticRegression(random_state=54321) # Regressão Logística

In [91]:
model_rl.fit(features_train,target_train)

In [92]:
score_train = model_rl.score(features_train,target_train)
score_valid = model_rl.score(features_valid,target_valid)
score_test = model_rl.score(features_test,target_test)

In [93]:
score_train

0.7152489626556017

In [94]:
score_valid

0.6749611197511665

In [95]:
score_test

0.7402799377916018

**Neste modelo, tivemos uma acurácia mais baixa tanto para os dados de treino quanto para os dados de validação e teste. Sendo o decision tree o melhor modelo para este caso, seguido de Random Forest.**

* Tarefa adicional: tirar a prova real do modelo.

In [96]:
df[df['is_ultra'] == 1].mean()

calls          73.392893
minutes       511.224569
messages       49.363452
mb_used     19468.823228
is_ultra        1.000000
dtype: float64

In [97]:
df[df['is_ultra'] == 0].mean()

calls          58.463437
minutes       405.942952
messages       33.384029
mb_used     16208.466949
is_ultra        0.000000
dtype: float64

In [98]:
sintetic_ultra = (df[df['is_ultra'] == 1].mean()*5).reset_index().T
sintetic_ultra

Unnamed: 0,0,1,2,3,4
index,calls,minutes,messages,mb_used,is_ultra
0,366.964467,2556.122843,246.817259,97344.116142,5.0


In [99]:
avg_class = df.groupby('is_ultra').mean().reset_index()
avg_class

Unnamed: 0,is_ultra,calls,minutes,messages,mb_used
0,0,58.463437,405.942952,33.384029,16208.466949
1,1,73.392893,511.224569,49.363452,19468.823228


In [100]:
avg_ultra = avg_class[avg_class['is_ultra'] == 1].drop(columns='is_ultra')
avg_surf = avg_class[avg_class['is_ultra'] == 0].drop(columns='is_ultra')

best_dt_model.predict(avg_ultra)
best_dt_model.predict(avg_surf)

array([0])

In [101]:
best_rf_model.predict(avg_ultra)
best_rf_model.predict(avg_surf)

array([0])

In [102]:
model_rl.predict(avg_ultra)
model_rl.predict(avg_surf)

array([0])

Nenhum modelo está predizendo corretamente o caso do usuário médio que tem o plano Ultra, porém os modelos acertam para o caso surf.

In [103]:
sanity_surf = np.array([1] * (len(df.columns)-1)).reshape(1,-1)
sanity_ultra = np.array([1e9] * (len(df.columns)-1)).reshape(1,-1)
sanity_surf

array([[1, 1, 1, 1]])

In [104]:
best_dt_model.predict(sanity_surf),best_dt_model.predict(sanity_ultra)



(array([0]), array([1]))