<a href="https://colab.research.google.com/github/hodeaven/CASE_PETLOVE_EDUARDA_INTERAMINENSE/blob/main/%5BPetlove%5D_Case_Eduarda_Interaminense.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  **Petlove - Case Estágio Dados** 🐾❤️

---


### 👉 **Introdução**

A Petlove oferece planos de saúde para pets deseja melhorar a retenção de clientes e a adesão a novos planos. Para isso, a empresa precisa entender melhor o comportamento dos clientes atuais e identificar padrões que possam indicar o risco de cancelamento ou oportunidades de venda de planos adicionais.

### 🎯 **Objetivo**

O objetivo deste case é analisar os dados de clientes e fornecer insights para melhorar a retenção e aumentar a adesão a novos planos de saúde pet.


### 🧩 **Informações sobre o conjunto de dados**

- Cliente ID;

- Pet ID;

- Plano Atual;

- Data de Adesão;

- Número de Consultas;

- Uso de Serviços Adicionais;

- Valor Mensal (R$);

- Cancelamento (Sim/Não).


Incialmente iremos instalar e configurar o ambiente com o objetivo de atender as condições necessárias e importar bibliotecas fundamentais para a execução deste desafio. DIante disto iremos realizar a analise exploratória dos dados

In [None]:
# Bibliotecas utilizadas para ter acesso e leitura aos dados diretamente do Google Drive
from google.colab import drive
import pandas as pd

# Utilizada para converter valores categóricos em númericos
from sklearn.preprocessing import LabelEncoder


In [None]:
# Bibliotecas utilizadas para realizar a automação de dados atualizados
from google.colab import auth
auth.authenticate_user()

import gspread
from google.auth import default
creds, _ = default()

gc = gspread.authorize(creds)


In [None]:
!pip install kora
from kora.xattr import get_id



Nosso próximo passo é coletar nossos dados que estão dentro do Drive e realizar a leitura do nosso dataframe

In [None]:
drive.mount('/content/drive')
dados = '/content/drive/MyDrive/Petlove/dados_petlove.xlsx'
db = pd.read_excel(dados)
db

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Unnamed: 0,Cliente ID,Pet ID,Plano Atual,Data de Adesão,Número de Consultas,Uso de Serviços Adicionais,Valor Mensal (R$),Cancelamento (Sim/Não)
0,1,101,Básico,2022-01-15,5,Sim,15000,Não
1,2,102,Premium,2021-09-10,12,Não,30000,Não
2,3,103,Avançado,2022-05-20,3,Sim,20000,Sim
3,4,104,Básico,2021-11-05,8,Sim,15000,Não
4,5,105,Premium,2021-12-22,7,Não,30000,Sim
5,6,106,Avançado,2022-03-18,4,Sim,20000,Não
6,7,107,Básico,2022-02-01,9,Sim,15000,Não
7,8,108,Premium,2021-08-14,11,Sim,30000,Sim
8,9,109,Avançado,2022-04-25,2,Não,20000,Não
9,10,110,Básico,2022-06-15,6,Não,15000,Não


In [None]:
# Visualizando o tamanho do dataframe (Linhas x Colunas)
db.shape

(29, 8)

Podemos observar o conjunto de dados que iremos trabalhar é "pequeno" possuindo apenas 29 linhas e 8 colunas, vamos explorar mais para compreender melhor nossos dados.

In [None]:
# Visualizando as variáveis do dataframe
pd.set_option('display.float_format', '{:.2f}'.format)
db.columns

Index(['Cliente ID', 'Pet ID', 'Plano Atual', 'Data de Adesão',
       'Número de Consultas', 'Uso de Serviços Adicionais',
       'Valor Mensal (R$)', 'Cancelamento (Sim/Não)'],
      dtype='object')

Aqui podemos visualizar as variáveis dos nossos dados no dataframe

In [None]:
# Analisando os tipos de dados que contem no arquivo da base de dados
db.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Cliente ID                  29 non-null     int64         
 1   Pet ID                      29 non-null     int64         
 2   Plano Atual                 29 non-null     object        
 3   Data de Adesão              29 non-null     datetime64[ns]
 4   Número de Consultas         29 non-null     int64         
 5   Uso de Serviços Adicionais  29 non-null     object        
 6   Valor Mensal (R$)           29 non-null     object        
 7   Cancelamento (Sim/Não)      29 non-null     object        
dtypes: datetime64[ns](1), int64(3), object(4)
memory usage: 1.9+ KB


In [None]:
# Visualizando as variáveis categóricas e númericas
categorical = db.columns[db.dtypes==object].tolist()
total_categorical = len(categorical)
numerical = db.columns[db.dtypes!=object].tolist()
total_numerical = len(numerical)
print('------ Variáveis Categóricas ------ \n ► Total:', total_categorical,'\n ► Variáveis:', categorical)
print('\n ------ Variáveis Numerical ------ \n ► Total:', total_numerical,'\n ► Variáveis:', numerical)

------ Variáveis Categóricas ------ 
 ► Total: 4 
 ► Variáveis: ['Plano Atual', 'Uso de Serviços Adicionais', 'Valor Mensal (R$)', 'Cancelamento (Sim/Não)']

 ------ Variáveis Numerical ------ 
 ► Total: 4 
 ► Variáveis: ['Cliente ID', 'Pet ID', 'Data de Adesão', 'Número de Consultas']


Aqui estamos observando o tipo de dados de cada variável, e identificamos que possuímos 4 variáveis do tipo categórica e 4 variáveis númericas. Um adendo que `datetime` é considerada uma variável temporal e geralmente tratada como numérica para fins de manipulação e cálculos.

In [None]:
db.isnull().sum()

Unnamed: 0,0
Cliente ID,0
Pet ID,0
Plano Atual,0
Data de Adesão,0
Número de Consultas,0
Uso de Serviços Adicionais,0
Valor Mensal (R$),0
Cancelamento (Sim/Não),0


Visto que o método isnull auxilia a identificar variáveis que possuem elementos como (NaN, None, Null), esse tipo de dado é um missing value, que traduzido para o português significa valores nulos, ou seja, quando não possui nenhum dado. Como podemos ver, os resultados indicam que não possuímos valores ausentes em nossos dados. Diante desse contexto, podemos dar prosseguimento. Caso existissem dados faltosos, dependendo do contexto do dataframe, poderíamos realizar algum método como imputação, remoção ou até mesmo a utilização de algum algoritmo para que os dados sejam consistentes e não impactem negativamente nas análises.

Nosso próximo passo é verificar se existem outliers. Antes de tudo, precisamos saber o que é um outlier? De forma resumida, um outlier é um valor atípico que se desvia de forma significativa em relação ao conjunto de dados. Esses valores podem influenciar bastante a análise de dados e os modelos preditivos. Diante dos nossos dados, como é um conjunto pequeno e visto de forma manual, não existem outliers, pois os valores dos planos possuem um padrão, sendo eles: plano Básico custando R\$150,00, Avançado R\$200,00 e Premium R\$300,00. Ademais, se o conjunto de dados possuir um volume significativo, não é viável e nem recomendado realizar isso manualmente, pois existe o risco de ocorrer erros, por exemplo não identificar outliers a olho humano e outras causas possíveis impactando diretamente nas análises.

In [None]:
db['Valor Mensal (R$)'] = db['Valor Mensal (R$)'].replace({',': '.'}, regex=True).astype(float)
renda_mensal = db['Valor Mensal (R$)']

Q1 = np.percentile(renda_mensal, 25)
Q3 = np.percentile(renda_mensal, 75)

IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

print(f"Q1 (25º percentil): {Q1}")
print(f"Q3 (75º percentil): {Q3}")
print(f"IQR: {IQR}")
print(f"Limite Inferior: {limite_inferior}")
print(f"Limite Superior: {limite_superior}")

outliers = [renda for renda in renda_mensal if renda < limite_inferior or renda > limite_superior]
print(f"Outliers: {outliers}")


Q1 (25º percentil): 150.0
Q3 (75º percentil): 300.0
IQR: 150.0
Limite Inferior: -75.0
Limite Superior: 525.0
Outliers: []


 Mesmo nosso conjunto sendo pequeno iremos conferir se realmente não existem outliars, iremos utilizar o método estatístico para identificar os outliers: o IQR (Intervalo Interquartil), que informa a dispersão de um conjunto de dados, ou seja, analisa as variáveis entre os quartis, que dividem o conjunto de dados em quatro partes iguais. Com esse método aplicado, podemos calcular os limites inferiores e superiores para identificar esses "dados fora do padrão", ou seja, valores que estão fora do intervalo entre `Q1 - 1.5 * IQR e Q3 + 1.5 * IQR.` Ao aplicar essa forma, verificamos que não existem outliers em nosso conjunto de dados, já que todos os valores estão dentro dos limites calculados.

In [None]:
db['Cancelamento (Sim/Não)'].unique()

array(['Não', 'Sim'], dtype=object)

In [None]:
db_modificado = db
encoder = LabelEncoder()
db_modificado["Plano Atual"] = encoder.fit_transform(db_modificado["Plano Atual"])
db_modificado["Cancelamento (Sim/Não)"] = encoder.fit_transform(db_modificado["Cancelamento (Sim/Não)"])
db_modificado["Uso de Serviços Adicionais"] = encoder.fit_transform(db_modificado["Uso de Serviços Adicionais"])

Foi realizada uma alteração nos dados de algumas variáveis, convertendo-as para formato binário. As variáveis `Cancelamento (Sim/Não)` e `Uso de Serviços Adicionais` foram transformadas para valores binários. Além disso, foi utilizado o LabelEncoder para codificar a coluna `Plano Atual`, que contém categorias. O código abaixo aplica o LabelEncoder nas variáveis mencionadas para transformá-las em valores numéricos, permitindo que sejam processadas em modelos de aprendizado de máquina.


In [None]:
db_modificado["Data de Adesão"] = pd.to_datetime(db_modificado["Data de Adesão"], errors='coerce')
hoje = pd.to_datetime("today")
db_modificado["Tempo de Permanência"] = (hoje - db_modificado["Data de Adesão"]).dt.days // 30
db_modificado["Tempo de Permanência"] = db_modificado["Tempo de Permanência"].fillna(0)

Foi realizado o cálculo do tempo de permanência do cliente com seu plano atual. Como apenas a data de adesão estava disponível, foi calculada a diferença em meses entre a data de adesão e a data atual.

In [None]:
# Removerndo a vírgula e convertendo para float
db_modificado['Valor Mensal (R$)'] = db_modificado['Valor Mensal (R$)'].replace({',': '.'}, regex=True).astype(float)

In [None]:
from imblearn.over_sampling import SMOTE
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

X = db_modificado[['Plano Atual', 'Número de Consultas', 'Uso de Serviços Adicionais', 'Valor Mensal (R$)', 'Tempo de Permanência']]
y = db_modificado['Cancelamento (Sim/Não)']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

smote = SMOTE(sampling_strategy='auto', random_state=42)
X_res, y_res = smote.fit_resample(X_train, y_train)


knn = KNeighborsClassifier(n_neighbors=3, weights='distance', metric='chebyshev')
knn.fit(X_res, y_res)

y_pred = knn.predict(X_test)
print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       0.67      0.50      0.57         4
           1       0.33      0.50      0.40         2

    accuracy                           0.50         6
   macro avg       0.50      0.50      0.49         6
weighted avg       0.56      0.50      0.51         6



O modelo escolhido teve o melhor desempenho entre os algoritmos testados e foi analisado para nosso problema. Foram utilizadas técnicas de balanceamento das classes, classificação e avaliação de desempenho. Como o nosso conjunto de dados é pequeno, houve dificuldades em alcançar uma acurácia maior.

Foi utilizada a técnica de oversampling, que funciona gerando novos exemplos sintéticos para a classe menor, com a intenção de balancear o conjunto de dados. Como nosso conjunto é reduzido, essa abordagem foi essencial para melhorar a representatividade dos dados.

O classificador escolhido foi o KNN (K-Nearest Neighbors), que faz previsões com base nos vizinhos mais próximos de um ponto. Esse modelo foi utilizado para prever se o cliente irá cancelar ou não seu serviço. A classe 0 representa "Não Cancelou" e a classe 1 representa "Cancelou".

Concluindo, o modelo apresenta uma acurácia de 50%, o que indica que ele acerta metade das previsões. A baixa precisão para a classe 1 (Cancelamento), que é de 33%, sugere que o modelo tem dificuldade em prever corretamente os clientes que irão cancelar. Além disso, o recall de 50% para ambas as classes significa que o modelo identifica metade dos casos de cancelamento e não cancelamento corretamente.

Dado esse desempenho, podemos concluir que há um risco moderado de erro ao prever o cancelamento dos clientes. Isso significa que o modelo pode tanto deixar de identificar clientes que realmente irão cancelar (falso negativo) quanto classificar incorretamente clientes que não cancelariam (falso positivo). Diante dessas informações, iremos nos aprofundar melhor nas análises e fazer a visualização de dados no Looker Data Studio.



Para facilitar e automatizar o processo, vamos implementar um sistema que envia os dados diretamente para uma planilha no Google Drive, garantindo que ela seja atualizada automaticamente sempre que houver alguma alteração nos dados e enviados para o Looker Data Studio

In [None]:
db_modificado['Data de Adesão'] = db_modificado['Data de Adesão'].dt.strftime('%Y-%m-%d')

In [None]:
resume = '/content/drive/MyDrive/Petlove/petlove.gsheet'
id_file_resume = get_id(resume)
print(id_file_resume)


1t-7AKghdjptgGf9GRETJ9ep__w1pua4dnIuQ_58oseM


In [None]:
sheet_resume = gc.open_by_key(id_file_resume).sheet1
sheet_resume.update([db_modificado.columns.values.tolist()] + db_modificado.values.tolist())


{'spreadsheetId': '1t-7AKghdjptgGf9GRETJ9ep__w1pua4dnIuQ_58oseM',
 'updatedRange': "'Página1'!A1:I30",
 'updatedRows': 30,
 'updatedColumns': 9,
 'updatedCells': 270}

In [None]:
sheet_resume.update([db_modificado.columns.values.tolist()] + db_modificado.values.tolist())


{'spreadsheetId': '1t-7AKghdjptgGf9GRETJ9ep__w1pua4dnIuQ_58oseM',
 'updatedRange': "'Página1'!A1:I30",
 'updatedRows': 30,
 'updatedColumns': 9,
 'updatedCells': 270}

Com o objetivo de me desafiar irei utilizar outras ferramentas para realizar o nosso Dahboard, fazer por python é uma ótima opção também. Porém como quero me desafiar iremos construir nosso dash no Looker Data Studio, para acessar o dashboard só clicar no link abaixo.  

# 📊 [**Dashboard**](https://lookerstudio.google.com/reporting/609177aa-5fde-42e4-8404-357627d8ac13)

 <div align="right">
 Até logo, te encontro lá!
  <img src="https://media2.giphy.com/media/Qp8JVw4n37No6spF3s/giphy.webp?cid=790b7611z77p0qsrdhqqr2eerqiy49mlu31i3q3l4d9hzj8n&ep=v1_stickers_search&rid=giphy.webp&ct=s" width="150">
  
</div>