# Formação Cientista de Dados - DSA

### Big Data Real-Time Analytics com Python e Spark

## Projeto com Feedback 3 - Prevendo o Nível de Satisfação dos Clientes do Santander

https://www.kaggle.com/c/santander-customer-satisfaction

### Leonardo Molero

# Análise Exploratória

In [None]:
# Importação pacotes iniciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

In [None]:
# Faz ajustes para não exibir warnings
warnings.filterwarnings("ignore")

# Parametriza impressão dos gráficos dentro do notebook
%matplotlib inline

In [None]:
# Carrega o dados de treino colocando a coluna ID como index
df = pd.read_csv('dados/train.csv',index_col='ID')

In [None]:
# Checa o tamanho do dataframe
print(df.shape)

In [None]:
# Visualiza os dados treino
df.head(10)

In [None]:
# Verifica os tipos das colunas
df.dtypes

In [None]:
# Verifica os tipos de colunas agrupados (devido a quantidade de colunas)
df.dtypes.value_counts()

In [None]:
# Verifica estatísticas dos dados
df.describe()

In [None]:
# Distribuição da variável alvo
df.groupby('TARGET').size()

In [None]:
# Plota a distribuição da variável alvo
sns.countplot(x='TARGET',data=df,palette="Paired_r")

In [None]:
# Procura por valores nulos
df.isnull().values.any()

In [None]:
# Cria função para balancear os dados (undersampling) devido a diferença da distribuição da variável alvo

# Importação dos pacotes
import math

# Criação da função de balanceamento
def undersample(df, target_col, r=1):
    falses = df[target_col].value_counts()[0]
    trues = df[target_col].value_counts()[1]
    relation = float(trues)/float(falses)
    
    if trues >= r*falses:
        df_drop = df[df[target_col] == True]
        drop_size = int(math.fabs(int((relation - r) * (falses))))
    else: 
        df_drop = df[df[target_col] == False]
        drop_size = int(math.fabs(int((r-relation) * (falses))))
        
    df_drop = df_drop.sample(drop_size)
    df = df.drop(labels=df_drop.index, axis=0)
    return df

# Verifica os dados balanceados
df = undersample(df, 'TARGET')
df.groupby('TARGET').size()

In [None]:
# Plota a nova distribuição da variável alvo
sns.countplot(x='TARGET',data=df,palette="Paired_r")

In [None]:
# Utiliza PCA para redução de dimensionalidade devido a grande quantidade de colunas

# Importação do módulo
from sklearn.decomposition import PCA

# Separa as varíavéis preditoras

var = df.drop('TARGET', axis=1)
y = df['TARGET']

# Seleção de atributos
pca = PCA(n_components = 5)
fit = pca.fit(var)
var_reduzido = pca.fit_transform(var)

X = pd.DataFrame(var_reduzido)

In [None]:
# Separação dados de treino e de teste

#Importação dos módulos
from sklearn.model_selection import train_test_split

# Separa 67% dos dados para treino
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

In [None]:
# Treina Modelo 01 Regressão Logística

# Importação dos módulos
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

# Definindo os valores para o número de folds
num_folds = 10
seed = 7

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo_1 = LogisticRegression()

# Cross Validation
resultado = cross_val_score(modelo_1, X, y, cv = kfold)

# Print do resultado
print("Acurácia Modelo 1: %.3f%%" % (resultado.mean() * 100))

In [None]:
# Normaliza os dados para tentar melhor o modelo

# Importação do módulo
from sklearn.preprocessing import Normalizer

# Separando o array em componentes de input e output
var = df.drop('TARGET',axis=1)
y = df['TARGET']

# Gerando os dados normalizados
scaler = Normalizer().fit(var)
normalizedVar = scaler.transform(var)

In [None]:
# Utiliza PCA para redução de dimensionalidade nos dados normalizados

# Importação do módulo
from sklearn.decomposition import PCA

# Seleção de atributos
pca = PCA(n_components = 5)
fit = pca.fit(normalizedVar)
var_reduzido = pca.fit_transform(normalizedVar)

X = pd.DataFrame(var_reduzido)

In [None]:
# Separação dados de treino e de teste

#Importação dos módulos
from sklearn.model_selection import train_test_split

# Separa 67% dos dados para treino
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

In [None]:
# Treina Modelo 02 Regressão Logística

# Definindo os valores para o número de folds
num_folds = 10
seed = 7

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo_2 = LogisticRegression()

# Cross Validation
resultado = cross_val_score(modelo_2, X, y, cv = kfold)

# Print do resultado
print("Acurácia Modelo 02: %.3f%%" % (resultado.mean() * 100))

In [None]:
# Utiliza PCA para redução de dimensionalidade nos dados normalizados com mais componentes

# Importação do módulo
from sklearn.decomposition import PCA

# Seleção de atributos
pca = PCA(n_components = 50)
fit = pca.fit(normalizedVar)
var_reduzido = pca.fit_transform(normalizedVar)

X = pd.DataFrame(var_reduzido)

In [None]:
# Separação dados de treino e de teste

#Importação dos módulos
from sklearn.model_selection import train_test_split

# Separa 67% dos dados para treino
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

In [None]:
# Treina Modelo 03 com Regressão Logística

# Definindo os valores para o número de folds
num_folds = 10
seed = 7

# Separando os dados em folds
kfold = KFold(num_folds, True)

# Criando o modelo
modelo_3 = LogisticRegression()

# Cross Validation
resultado = cross_val_score(modelo_3, X, y, cv = kfold)

# Print do resultado
print("Acurácia Modelo 03: %.3f%%" % (resultado.mean() * 100))

In [None]:
# Treina Modelo 04 com XGBoost 

# Importação dos módulos
from sklearn.metrics import accuracy_score
from xgboost import XGBClassifier

# Criando o modelo
modelo_4 = XGBClassifier()

# Treinando o modelo
modelo_4.fit(X_train, y_train)

# Fazendo previsões
y_pred = modelo_4.predict(X_test)
previsoes = [round(value) for value in y_pred]

# Avaliando as previsões
accuracy = accuracy_score(y_test, previsoes)
print("Acurácia Modelo 04: %.2f%%" % (accuracy * 100.0))

### Modelo 04 com XGBoost  apresentou acurácia melhor que os modelos de Regressão Logística

In [None]:
# Importa dados de teste

teste = pd.read_csv('dados/test.csv',index_col='ID')

In [None]:
print(teste.shape)

In [None]:
# Normaliza os dados de teste

# Gerando os dados normalizados
scaler = Normalizer().fit(teste)
normalizedTeste = scaler.transform(teste)


# Redução de dimensionalidade com PCA

pca = PCA(n_components = 50)
fit = pca.fit(normalizedTeste)
teste_reduzido = pca.fit_transform(normalizedTeste)

Z = pd.DataFrame(teste_reduzido)

In [None]:
teste_pred = modelo_4.predict(Z)

In [None]:
sample_submission = pd.DataFrame(teste.index)

In [None]:
sample_submission['TARGET'] = teste_pred

In [None]:
sample_submission.head()

In [None]:
sample_submission.groupby('TARGET').size()

In [None]:
pd.DataFrame.to_csv(sample_submission,'sample_submission.csv',index=False)