# GOLDEN DATA - ML & IA




## Dataset:

Exclusivamente para essa versão  inicial do modelo, nosso dataset foi gerado a partir de um programa em Python utilizando a biblioteca do Faker para gerar dados ficitícios.


Variáveis:

- Costumer_ID: Um identificador único para cada cliente
- Age: Idade do cliente(18 a 30 anos)
- Gender: Gênero do cliente (M ou F)
- Location: Estado em que o cliente reside
- Purchase_Amount: Valor da compra realizada pelo cliente
- Product_Category: Categoria do produto comprado
- Clicked_Ad: Indica se o cliente clicou em um anúncio para chegar no produto
- Browsing_History: Histórico de navegação do cliente disposto em lista de urls visitadas
- Interest_Score: Pontuação de interesse do cliente, variando 0.5 e 1.0
- Churn_Risk: Risco de churn (cancelamento), que pode ser Baixo, Médio ou Alto.



##Importando bibliotecas

In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score


##Imporanto dados

**O arquivo csv estará disponível no repositório do projeto**

In [2]:
dados = pd.read_csv('costumer_behavior.csv')
dados.head()

Unnamed: 0,Customer_ID,Age,Gender,Location,Purchase_Amount,Product_Category,Clicked_Ad,Browsing_History,Interest_Score,Churn_Risk
0,3195,39,M,PA,9970.4,Esportes,Não,"['https://www.kennedy.com/', 'http://camacho-l...",0.71,Medium
1,6257,29,M,PA,4806.36,Saúde,Sim,"['https://www.estrada-davis.com/', 'http://dou...",0.62,High
2,4038,23,F,SP,3523.12,Moda,Sim,"['http://www.fisher-carter.com/', 'https://www...",0.84,High
3,8945,23,M,MG,6379.58,Games,Sim,"['http://robbins.org/', 'http://www.howard.com...",0.67,Low
4,4184,42,M,BA,6717.54,Livros,Sim,"['http://www.brown.com/', 'https://reed.com/']",0.54,High


In [3]:
# Tamanho do conjunto de dados
dados.shape
print(f'O conjunto de dados tem {dados.shape[0]} linhas e {dados.shape[1]} colunas.')

O conjunto de dados tem 10000 linhas e 10 colunas.


In [4]:
# Nome das colunas
dados.columns

Index(['Customer_ID', 'Age', 'Gender', 'Location', 'Purchase_Amount',
       'Product_Category', 'Clicked_Ad', 'Browsing_History', 'Interest_Score',
       'Churn_Risk'],
      dtype='object')

In [5]:
# Estatísticas descritivas das colunas numéricas
dados.describe()

Unnamed: 0,Customer_ID,Age,Purchase_Amount,Interest_Score
count,10000.0,10000.0,10000.0,10000.0
mean,5490.5915,48.829,4982.433198,0.750798
std,2581.471208,18.246278,2885.156261,0.144318
min,1001.0,18.0,21.08,0.5
25%,3318.0,33.0,2463.815,0.63
50%,5453.0,49.0,4910.585,0.75
75%,7710.25,65.0,7462.385,0.88
max,9999.0,80.0,9999.45,1.0


In [6]:
# Estatísticas descritivas das colunas não numéricas
dados.describe(include='object')

Unnamed: 0,Gender,Location,Product_Category,Clicked_Ad,Browsing_History,Churn_Risk
count,10000,10000,10000,10000,10000,10000
unique,2,10,9,2,9945,3
top,M,AM,Eletronicos,Sim,['https://smith.com/'],Medium
freq,5044,1056,1170,5022,4,3394


In [7]:
# Tratamento de dados

# Preenchendo valores nulos com a média
dados['Interest_Score'].fillna(dados['Interest_Score'].mean(), inplace=True)

# Convertendo variáveis categóricas em numéricas
le = LabelEncoder()
dados['Gender'] = le.fit_transform(dados['Gender'])
dados['Location'] = le.fit_transform(dados['Location'])
dados['Product_Category'] = le.fit_transform(dados['Product_Category'])

# Normalizando variáveis numéricas
scaler = StandardScaler()
dados[['Age', 'Purchase_Amount', 'Interest_Score']] = scaler.fit_transform(dados[['Age', 'Purchase_Amount', 'Interest_Score']])

# Selecionando variáveis independentes e dependentes
X = dados[['Product_Category', 'Age', 'Gender']]
y = dados['Clicked_Ad']

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinando o modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Fazendo previsões
y_pred = knn.predict(X_test)

# Avaliando o modelo
print(f'Acurácia: {accuracy_score(y_test, y_pred)}')
print(f'Precisão: {precision_score(y_test, y_pred, pos_label="Sim")}')
print(f'Recall: {recall_score(y_test, y_pred, pos_label="Sim")}')

Acurácia: 0.49733333333333335
Precisão: 0.5067204301075269
Recall: 0.49345549738219896


In [8]:
# Treinando o modelo Decision Tree
dtree = DecisionTreeClassifier()
dtree.fit(X_train, y_train)

# Fazendo previsões
y_pred_dtree = dtree.predict(X_test)


# Avaliando o modelo
print(f'Acurácia: {accuracy_score(y_test, y_pred)}')
print(f'Precisão: {precision_score(y_test, y_pred, pos_label="Sim")}')
print(f'Recall: {recall_score(y_test, y_pred, pos_label="Sim")}')

Acurácia: 0.49733333333333335
Precisão: 0.5067204301075269
Recall: 0.49345549738219896


In [9]:
# Selecionando variáveis independentes e dependentes
X_churn = dados[['Location', 'Interest_Score']]
y_churn = dados['Churn_Risk']

# Dividindo os dados em treino e teste
X_train_churn, X_test_churn, y_train_churn, y_test_churn = train_test_split(X_churn, y_churn, test_size=0.3, random_state=42)

# Treinando o modelo KNN
knn_churn = KNeighborsClassifier(n_neighbors=3)
knn_churn.fit(X_train_churn, y_train_churn)

# Fazendo previsões
y_pred_churn = knn_churn.predict(X_test_churn)

# Avaliando o modelo
print(f'Acurácia: {accuracy_score(y_test, y_pred)}')
print(f'Precisão: {precision_score(y_test, y_pred, average="micro")}')
print(f'Recall: {recall_score(y_test, y_pred, average=None)}')

Acurácia: 0.49733333333333335
Precisão: 0.49733333333333335
Recall: [0.5013587 0.4934555]


In [10]:
# Treinando o modelo Decision Tree
dtree_churn = DecisionTreeClassifier()
dtree_churn.fit(X_train_churn, y_train_churn)

# Fazendo previsões
y_pred_churn_dtree = dtree_churn.predict(X_test_churn)

# Avaliando o modelo
print(f'Acurácia: {accuracy_score(y_test_churn, y_pred_churn_dtree)}')
print(f'Precisão: {precision_score(y_test_churn, y_pred_churn_dtree, average="micro")}')
print(f'Recall: {recall_score(y_test_churn, y_pred_churn_dtree, average=None)}')


Acurácia: 0.343
Precisão: 0.343
Recall: [0.41129032 0.33368644 0.28759398]
