# Projeto 03 - Previsão do Nível de Satisfação de Clientes do Santander

## Definindo o Problema de Negócio
A satisfação do Cliente é uma medida fundamental de sucesso. Clientes insatisfeitos cancelam seus serviços e raramente expressam sua insatisfação antes de sair. Clientes satisfeitos, por outro lado, se tornam defensores da marca!

O Banco Santander está pedindo para ajudá-los a identificar clientes insatisfeitos no início do relacionamento. Isso permitiria que o Santander adotasse medidas proativas para melhorar a experiência destes clientes antes que seja tarde demais.

Neste projeto de aprendizado de máquina, vamos trabalhar com centenas de recursos anônimos para prever se um cliente está satisfeito ou insatisfeito com sua experiência bancária. O desafio é exatamente desconhecer a informação de cada variável e ao mesmo tempo termos uma quantidade enorme delas.

Nosso objetivo é entregar  uma lista de clientes satisfeitos e insatisfeitos para o tomador de decisão, com uma acurácia de 70% em nosso modelo, buscando ter um modelo probabilístico mais simples e generalizável possível, facilitando assim para o tomador de decisão, utilizar seus resultados com boa clareza de entendimento. 

Utilizaremos a linguagem Python e um dataset disponível no Kaggle, pelo endereço:

[https://www.kaggle.com/c/santander-customer-satisfaction](https://www.kaggle.com/c/santander-customer-satisfaction)
    
Note que os dados estão em 2 arquivos separados, train.csv e test.csv. Apenas o arquivo train.csv possui variável resposta, então vamos trabalhar durante o processo de construção do modelo preditivo somente com ele. Usaremos o arquivo test.csv para realizar as previsões do melhor modelo encontrado e entregar ao tomador de decisão.

## Pacotes e Versões

In [4]:
# Imports
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.decomposition import PCA
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import roc_auc_score
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore', category = FutureWarning)

# Versões dos Pacotes
%reload_ext watermark
%watermark --iversions


numpy     : 1.23.5
sklearn   : 1.0.2
matplotlib: 3.6.2
seaborn   : 0.12.2
pandas    : 1.5.2



## Carregando os Datasets

Como explicamos na definição do problema, vamos trabalhar inicialmente somente com o arquivo train.csv.

In [5]:
df = pd.read_csv('Dados/train.csv') 

In [6]:
df.shape

(76020, 371)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76020 entries, 0 to 76019
Columns: 371 entries, ID to TARGET
dtypes: float64(111), int64(260)
memory usage: 215.2 MB


## Limpeza e Análise Exploratória

Vamos verificar se há desequilibrio na variável TARGET...

In [23]:
df.TARGET.value_counts()

0    73012
1     3008
Name: TARGET, dtype: int64

Temos uma variável resposta muito desequilibrada, o que pode tendenciar nosso modelo na previsão de apenas uma categoria. Vamos marcar aqui um ponto de revisão para nosso modelo.

Olhando inicialmente para nossos dados, verificamos que possuimos um número imenso de variáveis sem descrição (370), ou seja, não temos como entender cada variável e analisar seus comportamentos, da forma que estão. Portanto inicialmente vamos verificar se temos dados faltantes (NaN), aplicando uma técnica para solucionar este problema. Logo depois vamos realizar 2 alternativas para uma redução de dimensionalidade, Seleção de Variáveis mais Importantes e Vetorização de Variáveis com PCA, para então criarmos os modelos e compará-los.

In [24]:
pd.isnull(df).sum()

ID                         0
var3                       0
var15                      0
imp_ent_var16_ult1         0
imp_op_var39_comer_ult1    0
                          ..
saldo_medio_var44_hace3    0
saldo_medio_var44_ult1     0
saldo_medio_var44_ult3     0
var38                      0
TARGET                     0
Length: 371, dtype: int64

Não possuimos dados nulos, nem mesmo NaN em nosso dataset de trabalho. Vamos renomear as colunas para facilitar nossas visualizações.

In [25]:
NewCols = []
for i in range(0, 371):
    col = "Var" + str(i)
    NewCols.append(col)
NewCols[0] = 'ID'
NewCols[-1] = 'TARGET'
OldCols = list(df.columns)

In [26]:
DePara = {}
for i,j in zip(OldCols, NewCols):
    DePara[i] = j

In [27]:
df.rename(columns = DePara, inplace = True)

In [28]:
print(df)

           ID  Var1  Var2  Var3   Var4   Var5  Var6  Var7  Var8  Var9  ...  \
0           1     2    23   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   
1           3     2    34   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   
2           4     2    23   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   
3           8     2    37   0.0  195.0  195.0   0.0   0.0   0.0   0.0  ...   
4          10     2    39   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   
...       ...   ...   ...   ...    ...    ...   ...   ...   ...   ...  ...   
76015  151829     2    48   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   
76016  151830     2    39   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   
76017  151835     2    23   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   
76018  151836     2    25   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   
76019  151838     2    46   0.0    0.0    0.0   0.0   0.0   0.0   0.0  ...   

       Var361  Var362  Var363  Var364  Var365  Var366  Var367  

Para continuar com nossos trabalhos, vamos eliminar a varável 'ID' em uma nova versão do nosso Dataset, pois a mesma não possui nenhum ganho de informação estatística.

In [29]:
df1 = df.drop(['ID'], axis =1)

In [30]:
print(df1)

       Var1  Var2  Var3   Var4   Var5  Var6  Var7  Var8  Var9  Var10  ...  \
0         2    23   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   
1         2    34   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   
2         2    23   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   
3         2    37   0.0  195.0  195.0   0.0   0.0   0.0   0.0    0.0  ...   
4         2    39   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   
...     ...   ...   ...    ...    ...   ...   ...   ...   ...    ...  ...   
76015     2    48   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   
76016     2    39   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   
76017     2    23   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   
76018     2    25   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   
76019     2    46   0.0    0.0    0.0   0.0   0.0   0.0   0.0    0.0  ...   

       Var361  Var362  Var363  Var364  Var365  Var366  Var367  Var368  \
0 

Nosso Dataset está organizado e limpo, como temos um número muito grande de variáveis e não sabemos a informação que cada uma representa ao problema de negócio, fica inviável estudar a correlação de cada uma ou mesmo analisar as estatísticas centrais e de dispersão.
Vamos trabalhar na redução de dimensionalidade para alcançar a melhor acurácia possível no nosso modelo preditivo.

## Estratégia de Trabalho

Como vimos temos alguns problemas aqui:

    - Variáveis com Escalas Diferentes
    - Variável TARGET desbalanceada
    - Muitas variáveis, 369 para ser específico.

Vamos criar 2 Cenários para este projeto:

    - Cenário 1 -> Inicialmente vamos trabalhar com a variável TARGET, nossa variável resposta, desbalanceada e absorver este problema com o Algoritmo de Naive Bayes posteriormente. Vamos utilizar o Métodos de redução de dimensionalidade por Importância de Variáveis e Vetorização por PCA. Por fim Avaliamos as métricas e definimos o melhor modelo.
    
    - Cenário 2 -> Aplicamos uma técnica de imputação de dados a Variável TARGET, balanceando o Dataset. Usamos então as mesmas técnicas de redução de dimensionalidade do Cenário 1.
    
No final, comparamos qual o melhor modelo entre os cenários desenvolvidos.

### Cenário 1 - Dataset Desbalanceado + Técnicas de Redução de Dimensionalidade

Inicialmente vamos dividir os dados em Treino e Teste. Usaremos o pacote Sklearn.

In [74]:
Xtreino, Xteste, Ytreino, Yteste = train_test_split(df1.iloc[:, 0:369], df1.iloc[:, -1], test_size = 0.3, random_state = 0)

Separado os Datasets, vamos aplicar uma normalização nos dados de treino e teste para igualar as escalas das variáveis.

In [86]:
scaler = preprocessing.StandardScaler().fit(Xtreino)

In [87]:
XtreinoS = scaler.transform(Xtreino)
XtreinoS

array([[ 3.99807940e-02, -7.89237455e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02, -4.84081375e-04],
       [ 3.99807940e-02,  1.12995969e+00, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02,  1.84784599e+00],
       [ 3.99807940e-02,  5.15816600e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02, -4.20753830e-01],
       ...,
       [ 4.01560803e-02, -7.89237455e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02, -2.66835804e-01],
       [ 3.99807940e-02, -2.51862256e-01, -1.50190114e-02, ...,
        -1.91798836e-02, -2.00718862e-02, -2.81950539e-01],
       [ 3.99807940e-02,  1.66733488e+00, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02, -2.28898997e-01]])

In [91]:
XtesteS = scaler.transform(Xteste)
XtesteS

array([[ 3.99807940e-02, -7.89237455e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02, -1.24801003e-01],
       [ 3.99807940e-02, -7.89237455e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02,  1.36030923e-02],
       [ 3.99807940e-02,  8.22888143e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02, -4.84081375e-04],
       ...,
       [ 3.99807940e-02, -7.89237455e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02,  2.12808818e-01],
       [ 3.99807940e-02, -1.75094370e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02,  1.76104562e-01],
       [ 3.99807940e-02, -7.89237455e-01, -5.24513963e-02, ...,
        -1.91798836e-02, -2.00718862e-02, -4.15936973e-01]])

Datasets com escalas equivalentes, podemos aplicar nosso primeiro método de redução de dimensionalidade. Vamos aplicar um Feature Selection, baseado em um modelo de Regressão Logística, utilizando SelectFromModel do pacote sklearn.

In [104]:
LR = LogisticRegression('l2', random_state = 0, max_iter = 10000).fit(XtreinoS, Ytreino)
model = SelectFromModel(LR, prefit=True)

In [106]:
Xtreino1 = model.transform(XtreinoS)
Xtreino1.shape

(53214, 105)

Chegamos a 105 variáveis importantes para a classificação de nossos Clientes, porém ainda temos muitas variáveis, sendo assim, vamos aplicar mais uma técnica para redução de dimensionalida, o PCA.

In [110]:
Xtreino2 = PCA(n_components = 10).fit_transform(Xtreino1)
Xtreino2.shape

(53214, 10)

Vamos trabalhar com 10 variáveis para este primeiro Modelo e avalir como performa.

#### Modelo Base - Cenário 1 Regressão Logística

In [113]:
modeloBC01 = LogisticRegression(random_state=0, max_iter=10000).fit(Xtreino2, Ytreino)
modeloBC01

LogisticRegression(max_iter=10000, random_state=0)

Aplicando Redução de Dimensionalidade nos dados de Teste para fazermos as previsões.

In [115]:
Xteste1 = model.transform(XtesteS)
Xteste2 = PCA(n_components = 10).fit_transform(Xteste1)
Xteste2.shape

(22806, 10)

Realizando as Previsões com o Modelo Treinado e Avaliando a performance deste modelo base.

In [143]:
prevBC01 = modeloBC01.predict(Xteste2)
AccB01 = accuracy_score(Yteste, prevBC01)
PrecB01 = precision_score(Yteste, prevBC01, average='weighted')
AUCBC01 = roc_auc_score(Yteste, prevBC01)

In [144]:
print('A Acurácia do Modelo Base C1 é ', AccB01)
print('A Precisão do Modelo Base C1 é ', PrecB01)
print('A área sob a Curva ROC do Modelo Base C1 é ', AUCBC01)

A Acurácia do Modelo Base C1 é  0.9528632815925634
A Precisão do Modelo Base C1 é  0.9220152004196759
A área sob a Curva ROC do Modelo Base C1 é  0.49789547734032313


In [146]:
GLMC1 = pd.Series(data=[AccB01, PrecB01, AUCBC01], index=['Acurácia', 'Precisão', 'ROC AUC'])
GLMC1

Acurácia    0.952863
Precisão    0.922015
ROC AUC     0.497895
dtype: float64

In [149]:
Resultado['GLMC1'] = pd.DataFrame(GLMC1)

In [158]:
Resultado

Unnamed: 0,GLMC1
Acurácia,0.952863
Precisão,0.922015
ROC AUC,0.497895
