## Carrega bibliotecas necessárias e a base de dados processada

In [16]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

In [2]:
dataset = pd.read_csv("../data/dataset_categorizado.csv")

## Qual a distribuição entre os sensíveis às camapanhas e os não sensíveis?

In [11]:
# Avalia a distribuição de grupos
for res in [0, 1]:
    subset = dataset.loc[dataset["Response"] == res]
    grupos = set(subset["grupo_cliente"].values)
    
    print(f"Clientes com {res} para campanha")
    for grupo in grupos:
        qntd = list(subset["grupo_cliente"].values).count(grupo)
        pp = round(qntd * 100 / len(subset), 2)
        print(f"Grupo {grupo} ({qntd}): {pp}%")
    print("")

Clientes com 0 para campanha
Grupo 0 (242): 25.47%
Grupo 1 (197): 20.74%
Grupo 2 (142): 14.95%
Grupo 3 (170): 17.89%
Grupo 4 (199): 20.95%

Clientes com 1 para campanha
Grupo 0 (23): 19.17%
Grupo 1 (26): 21.67%
Grupo 2 (13): 10.83%
Grupo 3 (27): 22.5%
Grupo 4 (31): 25.83%



In [14]:
# Avalia a distribuição para tipos de produtos
campos = {
    "MntWines": 0,
    "MntFruits": 0,
    "MntMeatProducts": 0,
    "MntFishProducts": 0,
    "MntSweetProducts": 0,
    "MntGoldProds": 0
}

for res in [0, 1]:
    print(f"Clientes com {res} para campanha")
    subset = dataset.loc[dataset["Response"] == res]
    
    # Computa as quantidades em cada tipo de produto
    total_compras = 0
    for campo in campos.keys():
        total = sum(subset[campo].values)
        campos[campo] = total
        total_compras = total_compras + total
        
    # Compila as porcentagens
    for campo in campos.keys():
        pp = round(campos[campo] * 100 / total_compras, 2)
        print(f"{campo} ({campos[campo]}): {pp}%")
    print("")

Clientes com 0 para campanha
MntWines (182435): 59.69%
MntFruits (8930): 2.92%
MntMeatProducts (68044): 22.26%
MntFishProducts (14136): 4.63%
MntSweetProducts (9586): 3.14%
MntGoldProds (22507): 7.36%

Clientes com 1 para campanha
MntWines (34988): 61.77%
MntFruits (1554): 2.74%
MntMeatProducts (12508): 22.08%
MntFishProducts (2206): 3.89%
MntSweetProducts (1540): 2.72%
MntGoldProds (3843): 6.79%



In [15]:
# Avalia a distribuição as formas de compra
campos = {
    "NumDealsPurchases": 0,
    "NumWebPurchases": 0,
    "NumCatalogPurchases": 0,
    "NumStorePurchases": 0
}

for res in [0, 1]:
    print(f"Clientes com {res} para campanha")
    subset = dataset.loc[dataset["Response"] == res]
    
    # Computa as quantidades em cada forma de compra
    total_formas = 0
    for campo in campos.keys():
        total = sum(subset[campo].values)
        campos[campo] = total
        total_formas = total_formas + total
        
    # Compila as porcentagens
    for campo in campos.keys():
        pp = round(campos[campo] * 100 / total_formas, 2)
        print(f"{campo} ({campos[campo]}): {pp}%")
    print("")

Clientes com 0 para campanha
NumDealsPurchases (2104): 18.38%
NumWebPurchases (3181): 27.79%
NumCatalogPurchases (1430): 12.49%
NumStorePurchases (4732): 41.34%

Clientes com 1 para campanha
NumDealsPurchases (319): 19.0%
NumWebPurchases (538): 32.04%
NumCatalogPurchases (270): 16.08%
NumStorePurchases (552): 32.88%



## Encontra um modelo classificativo

In [34]:
# Prepara os dados para modelagem
y = dataset["Response"].values
x = dataset[[
    "encoder_escolaridade",
    "encoder_estado_civil",
    "encoder_nascimento",
    "encoder_renda"
]].values

# Separa o conjunto de treino e de teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.2, random_state=0)

# Executa a classificação
classificador = GaussianNB()
classificador.fit(x_treino, y_treino)

# Avalia acurácia
y_pred = classificador.predict(x_teste)
acuracia = accuracy_score(y_teste, y_pred)

print(f"Encontrada acurácia de {round(acuracia, 2)}")

Encontrada acurácia de 0.89
