 # Grupo 4 ->Nuno Mendes (2727), Rosário Silva (21138), Tiago Azevedo (21153), Francisco Pereira (21156)

## Introdução

O objetivo deste projeto é implementar e analisar diferentes abordagens e métodos de Machine Learning (ML) para resolver um problema específico usando um conjunto de dados aberto/público. 

Podemos encontrar muitos conjuntos de dados públicos em https://www.kaggle.com/datasets.

O dataset escolhido para este projeto foi "Previsão de Clientes de Cartão de Crédito" uma vez que é um bom exemplo para colocar em prática a matéria abordada na unidade curricular.

O projeto deve usar um único conjunto de dados para regras de classificação, agrupamento e associação.

## Link Git: https://github.com/tiagoazevedo22/LESI3_SmartCampus

## Abordagem para um conjunto de dados para a Regra de Classificação:

- A Regra de Classificação visa a atribuição de classes/categorias:
    - Atribui uma classe aos novos dados;
    - O atributo de classe é discreto, ou seja, tem poucos valores distintos;
    - O modelo é baseado nas relações existentes entre os vários atributos e o atributo de classe. 

Este resultado é o resultado de um modelo de classificação usando o algoritmo KNN. 

A tabela mostra o mapeamento dos diferentes níveis de educação, bandeiras de rotatividade, gênero, estado civil, categoria de renda e categoria de cartão.

A matriz de confusão mostra o número de verdadeiros positivos (2086), falsos positivos (48), falsos negativos (202) e verdadeiros negativos (196) para as previsões do modelo.

O relatório de classificação mostra a precisão, recall, f1-score e suporte para as duas classes, "Existing Customer" e "Attrited Customer". 

A precisão é o número de verdadeiros positivos dividido pela soma de verdadeiros positivos e falsos positivos, e mede quantas das previsões positivas foram corretas. 

O recall é o número de verdadeiros positivos dividido pela soma de verdadeiros positivos e falsos negativos, e mede quantos dos casos positivos reais foram corretamente identificados pelo modelo. 

O f1-score é a média harmônica de precisão e recall, e leva em conta tanto os valores de precisão e recall. O suporte é o número de observações em cada classe.

As estatísticas finais mostram o número total de previsões corretas e incorretas e o percentual de previsões corretas.

Em resumo, a saída mostra o desempenho do modelo KNN na classificação das classes "Existing Customer" e "Attrited Customer".

O modelo tem uma alta precisão de 90% e uma precisão de 91% para a classe "Existing Customer", mas um recall e f1-score menores de 49% e 61% respectivamente para a classe "Attrited Customer". 

Isso significa que o modelo é bom em identificar clientes existentes, mas não tão bom em identificar clientes desistentes.

## Abordagem para um conjunto de dados para a Regra de Agrupamento:

- A Regra de Agrupamento pretende agrupar objetos semelhantes de acordo com as semelhanças encontradas entre os seus atributos:
    - É usado como uma funcionalidade primária de mineração de dados, tal como, para organizar clientes em segmentos;
    - Também pode ser usado como uma técnica de pré-processamento para outros algoritmos, por exemplo, discretizar atributos contínuos na indução de árvores de classificação.

In [2]:
import pandas as pd
from sklearn.cluster import KMeans

print("### Months_Inactive_12_mon")

# Carregar os dados
data = pd.read_csv("BankChurners.csv")

#Selecao dos dados para clustering e filtragem por colunas pretendidas
features = ["CLIENTNUM","Customer_Age","Dependent_count","Months_on_book","Total_Relationship_Count","Months_Inactive_12_mon","Contacts_Count_12_mon","Credit_Limit","Total_Revolving_Bal","Avg_Open_To_Buy","Total_Amt_Chng_Q4_Q1","Total_Trans_Amt","Total_Trans_Ct","Total_Ct_Chng_Q4_Q1","Avg_Utilization_Ratio","Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1","Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2"]
print("### FEATURES")
print(features)

X = data[features]
print("### X")
print(X)

print("### KMEANS")

# Treinar modelo K-Means
kmeans = KMeans(n_clusters=2,n_init=1)
kmeans.fit(X)
print(kmeans)

# Atribuir etiquetas do cluster aos dados 
data["cluster"] = kmeans.labels_
print("### Data")
print(data)

# Contabilizar o numero de clientes em cada cluster
cluster_counts = data.groupby("cluster")["Months_Inactive_12_mon"].sum()
print("### Cluster Counts")
print(cluster_counts) 

# Prever clientes baseado no cluster com mais clientes
if cluster_counts[0] > cluster_counts[1]:
    y_pred = 0
else:
    y_pred = 1

# Avaliar precisao
accuracy = (data["Months_Inactive_12_mon"] == y_pred).mean()
print("Accuracy:", accuracy)

### Months_Inactive_12_mon
### FEATURES
['CLIENTNUM', 'Customer_Age', 'Dependent_count', 'Months_on_book', 'Total_Relationship_Count', 'Months_Inactive_12_mon', 'Contacts_Count_12_mon', 'Credit_Limit', 'Total_Revolving_Bal', 'Avg_Open_To_Buy', 'Total_Amt_Chng_Q4_Q1', 'Total_Trans_Amt', 'Total_Trans_Ct', 'Total_Ct_Chng_Q4_Q1', 'Avg_Utilization_Ratio', 'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1', 'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2']
### X
       CLIENTNUM  Customer_Age  Dependent_count  Months_on_book  \
0      768805383            45                3              39   
1      818770008            49                5              44   
2      713982108            51                3              36   
3      769911858            40                4              34   
4      709106358            40        

## Abordagem para um conjunto de dados para a Regra de Associação:

- A Regra de Associação tem como objetivo básico:
    - Encontrar elementos que implicam na presença de outros elementos em uma mesma transação, ou seja, encontrar relacionamentos ou padrões frequentes entre conjuntos de dados;
    - O termo de transição indica quais itens foram consultados em uma determinada operação de consulta. 

In [5]:
import numpy as np 
import matplotlib.pyplot as plt
import pandas as pd
from apyori import apriori

Data = pd.read_csv('BankChurners.csv')

# Inicializacao da lista
transacoes = []

# Popular a lista de transacoes
for i in range(0, 3000): 
  transacoes.append([str(Data.values[i,j]) for j in range(0, 20)])

regra = apriori(transactions = transacoes, min_support = 0.003, min_confidence = 0.2, min_lift = 3, min_length = 2, max_length = 2)

output = list(regra) 

# Colocar os resultados num dataframe tipo panda
def inspect(output):
    lhs        = [tuple(result[2][0][0])[0] for result in output]
    rhs        = [tuple(result[2][0][1])[0] for result in output]
    support    = [result[1] for result in output]
    confidence = [result[2][0][2] for result in output]
    lift       = [result[2][0][3] for result in output]
    return list(zip(lhs, rhs, support, confidence, lift))

output_DataFrame = pd.DataFrame(inspect(output), columns = ['Left_Hand_Side', 'Right_Hand_Side', 'Support', 'Confidence', 'Lift'])

output_DataFrame.nlargest(n = 10, columns = 'Lift')

#Output na consola dos dados obtidos
print(output_DataFrame)

   Left_Hand_Side    Right_Hand_Side   Support  Confidence       Lift
0         34516.0            $120K +  0.016667    0.367647   4.177807
1            0.32                 33  0.003000    0.900000  11.392405
2           0.423                 37  0.003000    0.900000   9.278351
3           0.429                 30  0.003000    0.450000   7.068063
4           0.455                 32  0.003000    0.450000   6.585366
5           0.462                 38  0.003333    0.588235   6.893382
6           0.478                 34  0.003333    0.714286   9.276438
7           0.481                 40  0.003333    0.833333  12.254902
8           0.519                 41  0.003667    0.687500   9.637850
9           0.522                 35  0.003333    0.666667   7.490637
10          0.536                 43  0.003333    0.909091  12.453300
11          0.538                 40  0.003333    0.500000   7.352941
12          0.542                 37  0.003667    0.500000   5.154639
13          0.545   

## Abordagem SVM

- A abordagem SVM é um algoritmo poderoso e versátil que pode ser usado para resolver problemas de classificação e regressão lineares e não lineares, e é particularmente útil ao trabalhar com dados de alta dimensão;
- O objetivo é escolher um hiperplano com a maior margem possível, pois este terá o menor erro de generalização;
- Os pontos mais próximos do hiperplano, chamados vetores de suporte, determinam a posição do hiperplano.

Este output parece ser o resultado de um processo de treinamento de modelo de aprendizado de máquina e validação cruzada. 

A primeira linha indica que o output é um DataFrame com 10127 linhas e 9 colunas.

As próximas linhas dão o nome de cada coluna e o número de valores não-nulos para cada coluna, bem como o tipo de dados de cada coluna. 

A última linha mostra o uso de memória.

As próximas linhas mostram o processo de ajuste de 10 dobras para cada um dos 18 candidatos, com um total de 180 ajustes. 

O modelo usa o algoritmo SVM com um núcleo linear e rbf, e o parâmetro C com diferentes valores. 

O tempo gasto para ajustar cada candidato também é mostrado. O "CV" significa validação cruzada.

Parece que a saída está mostrando os resultados de um processo de validação cruzada de busca em grade, onde uma grade de todas as combinações possíveis dos parâmetros especificados é treinada e avaliada usando a validação cruzada, a fim de encontrar a melhor combinação de parâmetros para o modelo.

Este é o processo de ajuste fino dos parâmetros do modelo para otimizar seu desempenho.

## Conclusão

- A realização deste projeto permitiu à nossa equipa efetuar uma pesquisa pormenorizada dos diferentes algoritmos especialmente concebidos para a previsão de um determinado resultado mediante o input de um dataset. 
- A nossa equipa reconhece a importância e usabilidade destes algoritmos para a previsão de vários cenários do dia a dia. Isto poderá permitir as empresas de um âmbito comercial puderem analisar as suas listagens de clientes e implementar processos para maximizar vendas ou retenção de clientes.
- Além disto, é de frisar que uma máquina opera estes dados de uma forma mais simples, mais organizada e muito mais rápido do que um humano, pelo que poderá contribuir para a eficiência da empresa no geral. 
