<a href="https://colab.research.google.com/github/Eucanor/desafio_desistencia/blob/main/analise_desistencia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de desistência de compra de cliente ao site

### Tenho uma análise hipotética de desistência de cliente no site de compras, que a empresa notou que tem uma taxa alta de desistência na finalização de compras.
### São as seguintes etapas:
### 1 - Oferta de mais produtos relacionados ao pedido;
### 2 - visualização das compras;
### 3 - Pagamento das compras (se por cartão, boleto ou PIX);
### 4 - Comprovante (se no caso cartão for com sucesso, aparece o comprovante e se o pagamento e segue para a próxima etapa 5. E se por PIX ou boleto não aparece na hora apenas um aviso que estará aguardando o pagamento).
### 5 - Depois de comprovado o pagamento é enviado um comprovante do pagamento e se foi feito por cartão, boleto pago ou PIX.

### Escolher o modelo que tenha maior exatidão para a análise e depois construir a análise com o modelo escolhido em que etapa e outras informações relevantes.
### Repositório dos Arquivos: https://github.com/Eucanor/desafio_desistencia - branch main

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# abre a tabela - df
df = pd.read_csv("dados_desistencia.csv") # importa a base de dados
display(df)

Unnamed: 0,id_cliente,endereco,cidade,estado,cep,id_pedido,valor_pedido,tipo_pagamento,etapa_pagamento
0,1,Rua E Nº 550,Rio de Janeiro,MG,79964-59,1001,378.15,1,5
1,2,Travessa D Nº 159,Salvador,RS,44519-675,1002,636.65,1,4
2,3,Rua E Nº 975,São Paulo,RS,56060-882,1003,177.20,2,3
3,4,Avenida B Nº 375,Rio de Janeiro,RS,69180-566,1004,768.83,3,1
4,5,Avenida B Nº 354,Contagem,BA,15204-908,1005,541.68,2,1
...,...,...,...,...,...,...,...,...,...
995,996,Rua A Nº 778,Vitória da Conquista,RJ,36002-813,1996,599.90,3,3
996,997,Avenida B Nº 177,Canoas,BA,96724-987,1997,427.42,1,4
997,998,Avenida B Nº 805,Vitória da Conquista,RS,69017-435,1998,691.79,1,3
998,999,Rua E Nº 235,Salvador,BA,88611-715,1999,370.85,3,3


In [8]:
# verificar as informações da tabela
print(df.info())
print(df.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_cliente       1000 non-null   int64  
 1   endereco         1000 non-null   object 
 2   cidade           1000 non-null   object 
 3   estado           1000 non-null   object 
 4   cep              1000 non-null   object 
 5   id_pedido        1000 non-null   int64  
 6   valor_pedido     1000 non-null   float64
 7   tipo_pagamento   1000 non-null   int64  
 8   etapa_pagamento  1000 non-null   int64  
dtypes: float64(1), int64(4), object(4)
memory usage: 70.4+ KB
None
Index(['id_cliente', 'endereco', 'cidade', 'estado', 'cep', 'id_pedido',
       'valor_pedido', 'tipo_pagamento', 'etapa_pagamento'],
      dtype='object')


In [9]:
# Convertendo variáveis categóricas em numéricas (one-hot encoding)
df = pd.get_dummies(df, columns=['cidade', 'estado', 'tipo_pagamento'])

# Verifica se foi mudado
print(df.info())
print(df.columns)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 29 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   id_cliente                   1000 non-null   int64  
 1   endereco                     1000 non-null   object 
 2   cep                          1000 non-null   object 
 3   id_pedido                    1000 non-null   int64  
 4   valor_pedido                 1000 non-null   float64
 5   etapa_pagamento              1000 non-null   int64  
 6   cidade_Belo Horizonte        1000 non-null   bool   
 7   cidade_Campinas              1000 non-null   bool   
 8   cidade_Canoas                1000 non-null   bool   
 9   cidade_Caxias do Sul         1000 non-null   bool   
 10  cidade_Contagem              1000 non-null   bool   
 11  cidade_Feira de Santana      1000 non-null   bool   
 12  cidade_Guarulhos             1000 non-null   bool   
 13  cidade_Niterói     

In [10]:
# Definindo as variáveis independentes (X) e dependente (y)
X = df.drop(['id_cliente', 'id_pedido', 'etapa_pagamento', 'endereco', 'cep'], axis=1)
y = df['etapa_pagamento']

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [11]:
# Treinando os modelos
# 1. Random Forest Classifier
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)
rf_predictions = rf_model.predict(X_test)
rf_accuracy = accuracy_score(y_test, rf_predictions)

# 2. K-Nearest Neighbors Classifier
knn_model = KNeighborsClassifier()
knn_model.fit(X_train, y_train)
knn_predictions = knn_model.predict(X_test)
knn_accuracy = accuracy_score(y_test, knn_predictions)

# Avaliando a performance dos modelos
print(f'Acurácia Random Forest: {rf_accuracy}')
print(f'Acurácia KNN: {knn_accuracy}')


Acurácia Random Forest: 0.305
Acurácia KNN: 0.24


In [13]:
# Como a acurácia do modelo Random Forest foi o melhor, faço a análise com ela
feature_importances = rf_model.feature_importances_
features = X.columns
feature_importance_df = pd.DataFrame({'Feature': features, 'Importance': feature_importances})
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)
print("\nImportância das Features (Random Forest):")
print(feature_importance_df)


Importância das Features (Random Forest):
                        Feature  Importance
0                  valor_pedido    0.547716
19                    estado_RS    0.029928
20                    estado_SP    0.028118
16                    estado_BA    0.027160
17                    estado_MG    0.026998
18                    estado_RJ    0.026201
21             tipo_pagamento_1    0.025064
13             cidade_São Paulo    0.019131
4          cidade_Caxias do Sul    0.019007
2               cidade_Campinas    0.018695
12           cidade_São Gonçalo    0.018271
5               cidade_Contagem    0.018055
22             tipo_pagamento_2    0.017720
9           cidade_Porto Alegre    0.017692
7              cidade_Guarulhos    0.017494
1         cidade_Belo Horizonte    0.017250
6       cidade_Feira de Santana    0.016822
10        cidade_Rio de Janeiro    0.016059
3                 cidade_Canoas    0.016006
15  cidade_Vitória da Conquista    0.015962
14            cidade_Uberlândia  

Explicação o porquê foi feita estes passos na codificação e conclusões:
- Carregamento e Pré-processamento:
    Carregamos os dados do arquivo CSV dados_desistencia.csv.
    Converte variáveis categóricas ('cidade', 'estado', 'tipo_pagamento') em numéricas usando one-hot encoding.

- Definição das Variáveis:
    X: Variáveis independentes (features) usadas para prever a etapa de pagamento.
    y: Variável dependente (target) - a etapa de pagamento que queremos prever.

- Divisão em Treino e Teste:
  Foi Dividido os dados em conjuntos de treino (80%) e teste (20%).
- Treinamento dos Modelos:
    Faz previsões nos dados de teste com ambos os modelos mais usados (RandomForestClassifier e KNeighborsClassifier), que pesquisei rapidamente, podem ter outros que posso usar no futuro.

- Avaliação da Performance entre modelos:
    Calcula a acurácia de cada modelo para avaliar sua performance. E usei o que tem melhor acurácia --> Random Forest

- Interpretação dos Resultados:
    Importância das Features (Campos da tabela acima): As features com maior importância têm maior influência na previsão da etapa de pagamento. As features mais importantes podem indicar os fatores que mais contribuem para a desistência em cada etapa.

- Analisando a Causa da Desistência:
    O valor do pagamento foi fator mais determinante para a desistência das compras. Com base nesta informação a empresa pode fazer alguma campanha para dividir o pagamento ou outra iniciativa de marteketing. Mas cabe a direção da empresa decidir o que fazer com base nas análises fornecidas.