**Inicialização**

In [1]:
# importando bibliotecas 
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

In [2]:
# fazendo a leitura do arquivo csv
try:
    df = pd.read_csv('Downloads/users_behavior.csv')
except:
    df = pd.read_csv('/datasets/users_behavior.csv')

**Analisando os dados**

In [3]:
# analisando 5 primeiras linhas do dataframe
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
# analisando 5 ultimas linhas do dataframe
df.tail()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
3209,122.0,910.98,20.0,35124.9,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0
3213,80.0,566.09,6.0,29480.52,1


In [5]:
# analisando informações do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [6]:
# verificando a quantidade de duplicatas
df.duplicated().sum()

0

**Dividindo os dados**

In [7]:
# separando conjunto de caracteristicas do alvo
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

# dividir os dados em treinamento e teste
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=12345)

# dividir os dados de treinamento em treinamento e validação
features_train, features_valid, target_train, target_valid = train_test_split(
    features_train, target_train, test_size=0.25, random_state=12345)

**Modelo - Regressão Logística**

In [8]:
# criar modelo de regressão logística e ajustá-lo aos dados de treinamento
model_logistic_regression = LogisticRegression(random_state=12345,
                                               solver='liblinear')
model_logistic_regression.fit(features_train, target_train)

# avaliar o desempenho do modelo nos conjuntos de treinamento, validação e teste
scores = {
    'treinamento': model_logistic_regression.score(features_train,
                                                   target_train),
    'validação': model_logistic_regression.score(features_valid, target_valid),
    'teste': model_logistic_regression.score(features_test, target_test)
}

# exibir as acurácias do modelo em cada conjunto de dados
for conjunto, score in scores.items():
    print(
        f'Acurácia de {conjunto} de {score:.2f}'
    )

Acurácia de treinamento de 0.70
Acurácia de validação de 0.68
Acurácia de teste de 0.70


**Modelo - Árvore de Decisão**

In [9]:
# define variáveis iniciais
best_depth = 0
best_score_train = 0.0
best_score_valid = 0.0
best_score_test = 0.0

# loop para avaliar a performance do modelo em diferentes profundidades
for depth in range(1, 20):
    # cria modelo com profundidade atual do loop
    model_decision_tree = DecisionTreeClassifier(random_state=12345,
                                                 max_depth=depth)
    # treina modelo
    model_decision_tree.fit(features_train, target_train)

    # avalia desempenho do modelo nos conjuntos de treinamento, validação e teste
    score_train = model_decision_tree.score(features_train, target_train)
    score_valid = model_decision_tree.score(features_valid, target_valid)
    score_test = model_decision_tree.score(features_test, target_test)

    # atualiza variáveis de melhor performance encontrada
    if score_valid > best_score_valid:
        best_depth = depth
        best_score_train = score_train
        best_score_valid = score_valid
        best_score_test = score_test

# imprime melhor profundidade e acurácias correspondentes
print(
    f"A melhor profundidade é {best_depth}\nAcurácia de treinamento de {best_score_train:.2f}\nAcurácia de validação de {best_score_valid:.2f}\nAcurácia de teste de {best_score_test:.2f}"
)

A melhor profundidade é 3
Acurácia de treinamento de 0.80
Acurácia de validação de 0.79
Acurácia de teste de 0.79


**Modelo - Floresta Aleatória**

In [10]:
# define variáveis iniciais
best_est = 0
best_score_train = 0.0
best_score_valid = 0.0
best_score_test = 0.0

# loop para avaliar a performance do modelo em diferentes número de estimadores
for est in range(1, 15):
    # cria modelo com profundidade atual do loop
    model_random_forest = RandomForestClassifier(random_state=12345,
                                                 n_estimators=est)
    # treina modelo
    model_random_forest.fit(features_train, target_train)

    # avalia desempenho do modelo nos conjuntos de treinamento, validação e teste
    score_train = model_random_forest.score(features_train, target_train)
    score_valid = model_random_forest.score(features_valid, target_valid)
    score_test = model_random_forest.score(features_test, target_test)

    # atualiza variáveis de melhor performance encontrada
    if score_valid > best_score_valid:
        best_est = est
        best_score_train = score_train
        best_score_valid = score_valid
        best_score_test = score_test

# imprime o melhor número de estimadores e acurácias correspondentes
print(
    f"O melhor número de estimadores é {best_est}\nAcurácia de treinamento de {best_score_train:.2f}\nAcurácia de validação de {best_score_valid:.2f}\nAcurácia de teste de {best_score_test:.2f}"
)

O melhor número de estimadores é 14
Acurácia de treinamento de 0.99
Acurácia de validação de 0.82
Acurácia de teste de 0.78


**Conclusão**

Foram avaliados três modelos de classificação: Árvore de Decisão, Floresta Aleatória e Regressão Logística. A métrica utilizada para avaliação foi a acurácia, que indica a proporção de acertos do modelo em relação ao total de observações.

Ao avaliar o tempo de processamento e a acurácia, o modelo que apresentou melhor desempenho foi a Árvore de Decisão, com acurácia de treinamento de 0.80, acurácia de validação de 0.79, acurácia de teste de 0.79.

Em seguida, avaliando somente a acurácia, o modelo que apresentou melhor desempenho foi a Floresta Aleatória, com acurácia de treinamento de 0.99, acurácia de validação de 0.82, acurácia de teste de 0.78.

Por fim, o modelo de Regressão Logística apresentou desempenho inferior aos outros dois modelos, com acurácia de treinamento de 0.70, acurácia de validação de 0.68, acurácia de teste de 0.70.

Com base nesses resultados, recomenda-se o uso da Floresta Aleatória caso a prioridade seja a acurácia, ou a Árvore de Decisão caso o tempo de processamento também seja considerado relevante. O modelo de Regressão Logística não apresentou desempenho satisfatório nos dados avaliados.