# Formação Cientista de Dados - DSA

## Projeto com Feedback 3 - Prevendo o Nível de Satisfação dos Clientes do Santander

### Leonardo Molero

In [None]:
# importando pacotes iniciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# carregando o dados de treino
df = pd.read_csv('dados/train.csv',index_col='ID')

In [None]:
# checa o tamanho do dataframe
print(df.shape)

In [None]:
# visualiza os dados treino
df.head(10)

In [None]:
# verifica os tipos das colunas
df.dtypes

In [None]:
# verifica os tipos de colunas agrupados (devido a quantidade de colunas)
df.dtypes.value_counts()

In [None]:
# verifica estatísticas dos dados
df.describe()

In [None]:
# Distribuição da variável alvo
df.groupby('TARGET').size()

In [None]:
# Procura por valores nulos
df.isnull().values.any()

In [None]:
# Normalizar os dados

# Importação do módulo
from sklearn.preprocessing import Normalizer

# Separando o array em componentes de input e output
var = df.drop('TARGET',axis=1)
y = df['TARGET']

# Gerando os dados normalizados
scaler = Normalizer().fit(var)
normalizedVar = scaler.transform(var)

In [None]:
# Utiliza PCA para redução de dimensionalidade

# Importação do módulo
from sklearn.decomposition import PCA

# Seleção de atributos
pca = PCA(n_components = 4)
fit = pca.fit(normalizedVar)
var_reduzido = pca.fit_transform(normalizedVar)

In [None]:
X = pd.DataFrame(var_reduzido)

In [None]:
# Separação dados de treino e de teste

#Importação dos módulos
from sklearn.model_selection import train_test_split

# Separa 67% dos dados para treino
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

In [None]:
# Treina modelo com XGBoost 

# Importação dos módulos
from sklearn.metrics import accuracy_score
from xgboost import XGBClassifier

# Criando o modelo
modelo = XGBClassifier()

# Treinando o modelo
modelo.fit(X_train, y_train)

# Pront do modelo
print(modelo)

# Fazendo previsões
y_pred = modelo.predict(X_test)
previsoes = [round(value) for value in y_pred]

# Avaliando as previsões
accuracy = accuracy_score(y_test, previsoes)
print("Acurácia: %.2f%%" % (accuracy * 100.0))

# DUMP

In [None]:
# Cria função para balancar os dados (undersampling)

import math

def undersample(df, target_col, r=1):
    falses = df[target_col].value_counts()[0]
    trues = df[target_col].value_counts()[1]
    relation = float(trues)/float(falses)
    
    if trues >= r*falses:
        df_drop = df[df[target_col] == True]
        drop_size = int(math.fabs(int((relation - r) * (falses))))
    else: 
        df_drop = df[df[target_col] == False]
        drop_size = int(math.fabs(int((r-relation) * (falses))))
        
    df_drop = df_drop.sample(drop_size)
    df = df.drop(labels=df_drop.index, axis=0)
    return df

In [None]:
# verifica os dados balanceados

df2 = undersample(df, 'TARGET')
df2.groupby('TARGET').size()

In [None]:
# importação módulos

from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA


# Normalizando os dados
scaler = MinMaxScaler(feature_range = (0, 1))
rescaledX = scaler.fit_transform(X)

# Seleção de atributos
pca = PCA(n_components = 4)
fit = pca.fit(rescaledX)
treino_reduzido = pca.fit_transform(rescaledX)

# Sumarizando os componentes
print("Variância: %s" % fit.explained_variance_ratio_)
print(fit.components_)

In [None]:
print(treino_reduzido)

In [None]:
type(treino_reduzido)