# INTRODUÇÃO A CIENCIA DE DADOS (SCC5848)

### **Trabalho Final** - Análise do _dataset_ [A Symphony of Customer Interactions](https://www.kaggle.com/datasets/youssefismail20/a-symphony-of-customer-interactions)

### Profª. Roseli Ap. Francelin Romero

### Alunos:

- __Julyana Flores de Prá__ (NUSP: 15600911)

- __Thiago Rafael Mariotti Claudio__ (NUSP: 15611674)

---



A base de dados [A Symphony of Customer Interactions](https://www.kaggle.com/datasets/youssefismail20/a-symphony-of-customer-interactions) apresenta um conjunto de interações e aquisições em um _e-commerce_ através de diferentes atributos, como dados do comprador, ocupação, recepção à campanhas de _marketing_ e operações de compra, permitindo um estudo sobre o comportamento humano e suas interações financeiras.  
Ao longo da análise esperamos responder algumas hipóteses.

---



## 1. Inicialização da base de dados

Nesta seção executaremos operações básicas para carregar, explorar e validar o conjunto de dados, a fim de encontrar valores desconhecidos ou não numéricos, verificar a tipagem dos dados e, caso necessário, efetuar correções com o intuito de preparar o _dataset_ para as fases de exploração e análise.

In [1]:
import pandas as pd

initial_df = pd.read_csv("A Symphony of Customer Interactions.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'A Symphony of Customer Interactions.csv'

In [None]:
display(initial_df)

In [None]:
display(initial_df.info())

Como observado acima, não foram encontrados valores desconhecidos em todas entradas do conjunto, em decorrência do _score_ de usabilidade do _dataset_ no _Kaggle_.  
Verifica-se no entanto que alguns atributos apresentados como listas de valores numéricos são dados como objetos, possivelmente uma cadeia unitária de caracteres.

In [None]:
import ast 
is_it_string_question_mark = initial_df['Purchase_Amounts'][1]

if isinstance(is_it_string_question_mark, str):
    print("O valor é uma string")
    print(is_it_string_question_mark)
    print(is_it_string_question_mark[0])
    print(type(is_it_string_question_mark[0]))
else:
    print("O valor é uma lista de reais")

print("======LINEBREAK======")
    
float_list = ast.literal_eval(is_it_string_question_mark)
print(float_list) #lista de purchase amounts
print(float_list[0])
print("O valor agora é uma lista de reais.", type(float_list[0]))

Na operação acima, podemos notar que os valores da coluna formatadas como listas são na verdade _strings_  (__'['not','a','list']'__ $\neq$ __['yes','a','list']__, onde a primeira estrutura é uma string com valor __'['not','a','list']'__ e a segunda é uma lista/array de tamanho 3, contendo os valores __yes__,__a__,__list__).  
Podemos realizar a transformação dessas colunas conforme a operação abaixo.

In [None]:
for col in ['Products','Purchase_Amounts','Hashtags_Used','Price_Changes_Over_Time']:
    initial_df[col] = initial_df[col].apply(ast.literal_eval) 

In [None]:
print(f"Valores totais em Customer_ID: {initial_df['Customer_ID'].count()}\nValores unicos: {initial_df['Customer_ID'].nunique()}")

Verifica-se que todas as operações contabilizadas nessa base de dados são de clientes diferentes, uma vez que a contagem de valores é igual para a coluna 'Customer_ID', independente do método de contagem (total ou único).  
Podemos assumir então que a base apresenta a coletânea de compras para clientes distintos, que aparecem UMA ÚNICA VEZ. Dessa maneira podemos realizar algumas transformações nos dados, como a contagem de produtos comprados, através da contagem de itens na lista 'Products'.

<br><br>

Além disso, podemos gerar algumas colunas de atributos importantes, para facilitar análises futuras.  
Nesse caso vamos gerar o __Total de Produtos Comprados__ pelo cliente e o __Total Gasto__ pelo cliente.

In [None]:
initial_df['Products_Bought'] = initial_df['Products'].apply(len)

display(initial_df[['Name','Products','Products_Bought']])
display(initial_df['Products_Bought'].describe()) # Todos os clientes compraram EXATAMENTE 5 produtos cada. POR QUE????????

In [None]:
initial_df['Total_Spent_by_Client'] = initial_df['Purchase_Amounts'].apply(sum)

display(initial_df[['Name','Purchase_Amounts','Total_Spent_by_Client', 'Products_Bought']])
display(initial_df['Total_Spent_by_Client'].describe())

In [None]:
initial_df.describe()

In [None]:
# tbm dá pra tentar fazer assim
# Assim é o unico jeito de fazer, o jeito anterior era uma piada de mal gosto

import re
import datetime

def datetime_fix(datetime_string: str):

    fixed_str_list = datetime_string.replace("datetime.datetime", "datetime").replace(" ", "")
    matches = re.findall(r'datetime\(([^)]+)\)', fixed_str_list)

    date_list = []
    for match in matches:
        args = [int(arg) for arg in match.split(",")]
        dt = datetime.datetime(*args)
        date_list.append(dt)

    return date_list

In [None]:
initial_df['Purchase_Date'] = initial_df['Purchase_Date'].apply(datetime_fix)

display(initial_df['Purchase_Date'])

Podemos também excluir alguns atributos que não acrescem informações à nossa exploração, como __Customer_ID__ e __Name__.

In [None]:

drop_cols = ['Customer_ID','Name']
initial_df = initial_df.drop(columns=drop_cols)
# features não dropadas: 'Occupation','Location', 'Purchase_Date'

Baseado nas informações gerais da base de dados podemos formular algumas hipoteses, como:


1. __Existe correlação entre idade e volume de compras?__  

2. __Existe uma relação entre a idade do cliente e a interação com as campanhas de compra?__  

3. __Existe uma relação entre a taxa de conversão (volume de compra) e as interações no _website_?__  

4. __A faixa socioeconômica do cliente afeta suas interações de escambo?__  

5. __A reação à campanha de _marketing_ é um bom indicativo das interações do cliente? É possível prever sua reação baseada nas interações?__  


---
## 2. Exploração dos dados

Nesta seção estão concentradas as explorações e observações de exploração da base de dados.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 8))


num_df = initial_df.select_dtypes(include=['number'])

corr_mat_num = num_df.corr()

sns.heatmap(corr_mat_num, annot=True, cmap='coolwarm', fmt='.2f')

plt.title('Matriz de Correlação - Dados Númericos')
plt.show()

In [None]:
# 'Products_Brought' removido
attr = ['Age', 'Total_Spent_by_Client'] # como o dataset apresenta sempre 5 produtos comprados por cliente não há como
                                        # observar correlação entre quantidade de produtos comprados, idade e total gasto
corr = initial_df[attr].corr()

sns.heatmap(corr, annot=True, cmap='coolwarm')

plt.title('Matriz de Correlação - Idade x Total Gasto')
plt.show()

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(15, 8))
initial_df.groupby('Age')['Total_Spent_by_Client'].sum().plot(kind='bar', color=['green','blue','red']) # Oneliner is my passion
plt.xlabel('Age Group')
plt.ylabel('Total Spent')
plt.title('Total Spent by Customer Age Group')
plt.show()

In [None]:
initial_df['Age_Group'] = pd.cut(initial_df['Age'], bins=[0, 25, 34, 60, 100], labels=['Youngling', 'Young Adult', 'Adult', 'Elder']) # definição formal das faixas etarias
                                                                                                                          # adolescencia (juventude): 12 a 24
                                                                                                                          # jovem adulto: 25 a 34
                                                                                                                          # adulto: 35 a 60
                                                                                                                          # idoso (terceira idade): 61 em diante

plt.figure(figsize=(15, 8))
initial_df.groupby('Age_Group', observed=True)['Total_Spent_by_Client'].sum().plot(kind='bar', color=['green','blue','red'], style='plain') # Oneliner is my passion
plt.xlabel('Age')
plt.ylabel('Total Spent')
plt.title('Total Spent by Customer Age Group')
plt.show()

#desculpa eu não consigo lidar com codigo com warning 

Embora a matriz de correlação demonstre um baixa relação entre **Idade** e **Total Gasto**, é importante observar como a distribuição do volume de compras se comporta em relação a distribuição da idade do cliente.  
Nesse caso observamos uma boa distribuição em compras por todas as idades, embora o agrupamento por faixa etária possa gerar enviesamento, mostrando uma grande concentração de volume de compras no grupo __Adulto__ (35 à 60 anos). Podemos entender melhor ao observar a distribuição de idade na base de dados.


In [None]:
iqr = initial_df['Age'].quantile(0.75) - initial_df['Age'].quantile(0.25)
std = initial_df['Age'].std()
skew = initial_df['Age'].skew()

fig, axes = plt.subplots(1, 3, figsize=(20, 8))

axes[0].hist(initial_df['Age'], bins=20, edgecolor='black')
axes[0].set_xlabel('Age')
axes[0].set_ylabel('Number of Customers')
axes[0].set_title('Age Distribution')

# IQR
axes[1].boxplot([initial_df['Age']], vert=False, showfliers=False, patch_artist=True)
axes[1].set_xlabel('Age')
axes[1].set_title('Interquartile Range (IQR)')

# STD
axes[2].hist(initial_df['Age'] - initial_df['Age'].mean(), bins=10, edgecolor='black')
axes[2].set_xlabel('Age from Mean')
axes[2].set_ylabel('Number of Customers')
axes[2].set_title('Standard Deviation (STD)')

for ax in axes:
    ax.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

Nota-se uma distribuição normal para as idades dos clientes. A razão para maior volume na faixa etária __Adulto__ vêm do fato de que esse grupo engloba um número maior de clientes, e por isso dá impressão de desbalanceamento.

Dito isso, não parece haver correlação entre idade e volume de compras. Todos as faixas etárias tiveram gastos semelhantes.

Podemos também averiguar a interação entre faixas etárias e campanhas de compra, verificando se algum grupo responde melhor à propagandas, bem como a interação em redes sociais com o _ecommerce_.

In [None]:
campaign_by_age = initial_df.groupby('Age_Group', observed=True)['Response_to_Campaign'].value_counts().unstack(fill_value=0)
display(campaign_by_age.div(campaign_by_age.sum(axis=1), axis=0) * 100)

Podemos constatar que a base de dados está bem balanceada, e portanto todos os grupos etários apresentam a mesma tendência de resposta a campanha.

In [None]:
avg_engagement_by_age = initial_df.groupby('Age_Group', observed=True)[['Email_Open_Rate', 'Click_Through_Rate_Marketing', 'Social_Media_Engagement']].mean()
display(avg_engagement_by_age)

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(avg_engagement_by_age.index, avg_engagement_by_age['Email_Open_Rate'], label='Email Open Rate')
plt.plot(avg_engagement_by_age.index, avg_engagement_by_age['Click_Through_Rate_Marketing'], label='Click-Through Rate')
plt.xlabel('Age Group')
plt.ylabel('Engagement Rate')
plt.title('Engagement Rates by Age Group')
plt.legend()
plt.grid(True)
plt.show()

plt.figure(figsize=(8, 6))
plt.bar(avg_engagement_by_age.index, avg_engagement_by_age['Social_Media_Engagement'])
plt.xlabel('Age Group')
plt.ylabel('Social Media Engagement')
plt.title('Social Media Engagement by Age Group')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

Também não observamos nenhuma diferença entre as faixas etárias e suas interações às redes sociais, _e-mails_ e derivados.

In [None]:
social_interaction_age = initial_df.groupby('Age')[['Email_Open_Rate', 'Click_Through_Rate_Marketing', 'Social_Media_Engagement']].sum()
display(social_interaction_age.sort_values(by=['Email_Open_Rate', 'Click_Through_Rate_Marketing', 'Social_Media_Engagement'], ascending=False))

Embora tenham mais clientes na faixa de __63 anos__ com maior interação ao aspecto social do _ecommerce_ não é possível observar nenhuma tendência, novamente.

In [None]:
#h4 ?
import plotly.express as px

fig_box = px.box(initial_df, x='Income_Level', y='Total_Spent_by_Client',
                 labels={'Income_Level': 'Income Level', 'Total_Spent_by_Client': 'Total Spent'},
                 title='Box Plot: Total Spent by Client by Income Level',
                 color='Income_Level')

fig_box.show()

#nao tem relacao de nada com porra nenhuma

In [None]:
#h5 ?
fig_pie = px.pie(initial_df['Response_to_Campaign'].value_counts(), values=initial_df['Response_to_Campaign'].value_counts().values,
                 names=initial_df['Response_to_Campaign'].value_counts().index,
                 title='Response to Campaign Distribution')

fig_pie.show()

#a gente vai usar só o positivo e negativo como classificador? ou vamos usar alguma tecnica pra transformar 3 em 2 classes?

---
## 3. Analisando a base de dados

Neste seção serão efetuadas operações para análise de dados e teste de hipóteses, bem como o desenvolvimento do classificador relacionado à hipótese 5.

In [None]:
# Cluster para features do marketing
marketing_feats = initial_df[['Total_Spent_by_Client', 'Website_Visits', 'Click_Through_Rate', 'Pages_Viewed', 'Time_Spent_on_Website', 'Social_Media_Engagement', 'Followers_Count', 'Customer_Satisfaction_Score', 'Email_Open_Rate', 'Click_Through_Rate_Marketing']].copy()

display(marketing_feats.head(5))

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

scaler = StandardScaler()
cluster = scaler.fit_transform(marketing_feats)

kmeans = KMeans(n_clusters=3, random_state=13) #petista ou swiftie? 
                                               # Implicando que a Taylor não meteu um 13 na urna se ela é você; mais respeito please

marketing_feats["Cluster"] = kmeans.fit_predict(cluster) # to bobo e tava fazendo kmeans no nada

In [None]:
pca = PCA(n_components=3)
cluster_2d = pca.fit_transform(cluster)

get_centers = pca.transform(kmeans.cluster_centers_)

plt.figure(figsize=(12, 8))

for i in range(0,3,1):
    plt.scatter(cluster_2d[marketing_feats["Cluster"] == i, 0], cluster_2d[marketing_feats["Cluster"] == i, 1], label=f"Cluster{i}")
plt.scatter(get_centers[:, 0], get_centers[:, 1], marker='o', color='black', label="Cluster Center") 
# DEUS DEIXA EU DIGITAR POR FAVOR PARA DE DAR ROLLBACK SERVIDOR MALDITO

plt.title('Marketing Cluster')
plt.xlabel('Component 1')
plt.ylabel('Component 2')
plt.grid(True)
plt.legend()
plt.show()

In [None]:
initial_df['Cluster'] = marketing_feats['Cluster']

crosstab = pd.crosstab(initial_df['Cluster'], initial_df['Loyalty_Status'])

display(crosstab)

In [None]:
initial_df['Cluster'] = marketing_feats['Cluster']

crosstab = pd.crosstab(initial_df['Cluster'], initial_df['Response_to_Campaign'])

display(crosstab)

Não foi observada nenhuma relação entre as interações no _website_ com taxa de conversão ou até mesmo _status_ de lealdade do cliente.
Muito possivelmente tais problemas vêm da base de dados balanceada, criada artificialmente, o que gera uma baixa correlação advinda da não-naturalidade dos dados. 

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

initial_df.drop(columns=['Products', 'Purchase_Date', 'Purchase_Date', 'Purchase_Amounts', 'Hashtags_Used', 'Price_Changes_Over_Time'], inplace=True)

cols_to_encode = ['Gender', 'Age_Group', 'Loyalty_Status', 'Income_Level', 'Education_Level', 'Occupation', 'Response_to_Campaign', 'Location']

for col in cols_to_encode:
    initial_df[col+'_encoded'] = le.fit_transform(initial_df[col])
    
initial_df.drop(columns=cols_to_encode, inplace=True)

---
## 4. Classificador

In [None]:
from sklearn.preprocessing import StandardScaler

def preprocess(X_treino, X_teste):

    scaler = StandardScaler()

    #print(f"Antes do escalonamento.\nX_treino.shape: {X_treino.shape}\nX_teste.shape: {X_teste.shape}")
    
    X_treino_escalonado = scaler.fit_transform(X_treino)
    X_teste_escalonado = scaler.transform(X_treino)

    #print(f"Depois do escalonamento.\nX_treino_escalonado.shape: {X_treino_escalonado.shape}\nX_teste_escalonado.shape: {X_teste_escalonado.shape}")
    
    return X_treino_escalonado, X_teste_escalonado

In [None]:
def confusion_matrix_(y_treino, y_predito):
    if y_treino.shape != y_predito.shape:
        raise ValueError(f"y_treino e y_predito tem tamanhos diferentes.\ny_treino.shape {y_treino.shape} != y_predito.shape {y_predito.shape}")

    n_classes = len(set(y_treino))

    conf_matrix = np.zeros((n_classes, n_classes), dtype=int)

    for i in range(len(y_treino)):
        true_teste = y_treino[i]
        true_preduto = y_predito[i]
        conf_matrix[true_teste, true_preduto] += 1

    return conf_matrix

In [None]:
# Implementar as outras metricas pra facilitar

def acuracia(conf_mat):
    total = conf_mat.sum()
    correct = np.trace(conf_mat)
    return correct / total

def precisao(conf_mat, classe):
    TP = conf_mat[classe, classe]
    FP = conf_mat.sum(axis=0)[classe] - TP
    return TP / (TP + FP)

def recall(conf_mat, classe):
    TP = conf_mat[classe, classe]
    FN = conf_mat.sum(axis=1)[classe] - TP
    return TP / (TP + FN)

In [None]:
# Mudar o nome e os parâmetros da função de acordo com sua métrica 1.
def metric1_f1_score(conf_mat, classe):
    prec = precisao(conf_mat, classe)
    rec = recall(conf_mat, classe)
    return 2 * prec * rec / (prec + rec)

In [None]:
# Mudar o nome e os parâmetros da função de acordo com sua métrica 2.
def metric2_especificidade(conf_mat, classe):
  TN = conf_mat.sum(axis=0)[classe] - conf_mat[classe, classe]
  FN = conf_mat.sum(axis=1)[classe] - conf_mat[classe, classe]
  return TN / (TN + FN)

In [2]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC  # Support Vector Machine
from sklearn.neural_network import MLPClassifier  # Multi-Layer Perceptron
from matplotlib import pyplot as plt
from sklearn.metrics import (
    confusion_matrix, mean_squared_error, f1_score, recall_score,
    precision_score, accuracy_score, roc_auc_score, log_loss, roc_curve
)

def classificacao(data, columns, target, preproc_fn, folds=5, plot=True):
    """
    Executa classificação do conjunto de dados passado
    ---------------------------------------------------------------
    data:       DataFrame. Conjunto de dados
    columns:    Lista de inteiros. Índice das colunas utilizadas no treinamento e teste
    target:     Inteiro. Índice da coluna alvo
    preproc_fn: Função. Faz o pré-processamento da base já separada em treino e teste
    folds:      Inteiro. Número de folds na validação cruzada
    plot:       Booleano. True para plotar os gráficos False para não plotar
    ---------------------------------------------------------------
    Realiza a classificação em vários modelos
    Plota o gráfico de desempenho para cada classificador.
    Retorna um dicionário com os classificadores treinados, as medidas de desempenho e matriz de confusão
    """
    # Inicializa os modelos com os parâmetros solicitados
    knn = KNeighborsClassifier(n_neighbors=3)
    dt = DecisionTreeClassifier(criterion='gini', splitter='best', min_samples_split=int(len(data)*0.1))
    lr = LogisticRegression(solver='lbfgs', max_iter=1000, n_jobs=-1)
    gnb = GaussianNB()
    rf = RandomForestClassifier(n_estimators=100, random_state=14)
    svm = SVC(kernel='linear', probability=True)
    mlp = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(100,), random_state=1)

    clfs = [knn, dt, lr, gnb, rf, svm, mlp]
    clfs_names = ['knn', 'dt', 'lr', 'gnb', 'rf', 'svm', 'mlp']
    
    kf = KFold(n_splits=folds, shuffle=True, random_state=14)
    
    results = {name: [] for name in clfs_names}
    metrics = {
        'Confusion Matrix': confusion_matrix,
        'MSE': mean_squared_error,
        'F1 Score': f1_score,
        'Specificity': lambda y_true, y_pred: recall_score(y_true, y_pred, pos_label=0),
        'Recall': recall_score,
        'Precision': precision_score,
        'Accuracy': accuracy_score,
        'AUC': roc_auc_score,
        'Log Loss': log_loss
    }

    for c, c_name in zip(clfs, clfs_names):
        for train_index, test_index in kf.split(data[columns]):
            x_train, x_test = data[columns].iloc[train_index], data[columns].iloc[test_index]
            y_train, y_test = data.loc[train_index, target], data.loc[test_index, target]

            X_treino_escalonado, X_teste_escalonado = preproc_fn(x_train, x_test)

            clf = c.fit(X=X_treino_escalonado, y=y_train)
            y_pred = clf.predict(X_teste_escalonado)
            y_proba = clf.predict_proba(X_teste_escalonado)[:, 1] if hasattr(clf, "predict_proba") else None
            
            for metric_name, metric_fn in metrics.items():
                if metric_name == 'AUC' and y_proba is None:
                    results[c_name].append(np.nan)
                elif metric_name == 'AUC':
                    results[c_name].append(metric_fn(y_test, y_proba))
                else:
                    results[c_name].append(metric_fn(y_test, y_pred))
            
            # Plot ROC Curve
            if plot and metric_name == 'AUC' and y_proba is not None:
                fpr, tpr, _ = roc_curve(y_test, y_proba)
                plt.plot(fpr, tpr, label=f'{c_name} (AUC = {roc_auc_score(y_test, y_proba):.2f})')

    if plot:
        plt.figure(figsize=(15, 10))
        for metric_name in metrics.keys():
            if metric_name != 'Confusion Matrix':
                plt.bar(range(len(clfs_names)), [mean(results[name][i]) for name in clfs_names], yerr=[std(results[name][i]) for name in clfs_names])
                plt.xticks(range(len(clfs_names)), clfs_names, rotation=45)
                plt.title(f'Desempenho dos classificadores - {metric_name}')
                plt.show()
        
        plt.xlabel('False Positive Rate')
        plt.ylabel('True Positive Rate')
        plt.title('ROC Curve')
        plt.legend(loc='lower right')
        plt.show()
    
    return {'results': results, 'clfs': clfs}


In [None]:
cols_feat = []

#print(df.columns)

for col in df.columns:
    if col != "Response_to_Campaign_encoded":
        cols_feat.append(col)

print("10-fold Cross-Validation:")
print(classificacao(data=initial_df, columns=cols_feat, target='Response_to_Campaign_encoded', preproc_fn=preprocess, score_fn=metric1_f1_score, score_name="F1-Score",fn_conf_matrix=confusion_matrix_, folds=10, plot=True))

print("Leave-One-Out Cross-Validation:")
print(classificacao(data=initial_df, columns=cols_feat, target='Response_to_Campaign_encoded', preproc_fn=preprocess, score_fn=metric2_especificidade, score_name="Especificidade", fn_conf_matrix=confusion_matrix_, folds=len(initial_df), plot=True))