# ACURÁCIA DE MODELO PREDITIVO

#  A conta ficará ou não inadimplente no próximo mês?

Criação de um modelo preditivo para classificar a variável "Falta de pagamento no próximo mês".


Regressão logística relacionando as variáveis "Nível educacional [EDUCATION]" e "Falta de pagamento no próximo mês" [default_payment_next_month]" de dataset de empresa de cartão de crédito. 

Divisão do dataset em três pares de conjuntos de dados de treinamento e teste (75/25, 90/10 e 60/40).

Comparação de médias entre os dados de treinamento e teste.

Avaliação da acurácia de classificação (proporção de amostras que foram classificadas corretamente) com uma máscara lógica.

-------------------
Esta postagem interpreta e reproduz a estratégia de análise de Klosterman (2019).


In [1]:
import numpy as np

________________________________ 
A estratégia a seguir é de criação de dados sintéticos. Será criado um valor de resposta, com seed aleatório (dados sintéticos aleatórios criados pelo Numpy). 


In [2]:
np.random.seed(seed=1)
X = np.random.uniform(low=0.0, high=10.0, size=(1000,))
X[0:10]

array([4.17022005e+00, 7.20324493e+00, 1.14374817e-03, 3.02332573e+00,
       1.46755891e+00, 9.23385948e-01, 1.86260211e+00, 3.45560727e+00,
       3.96767474e+00, 5.38816734e+00])

In [3]:
np.random.seed(seed=1)
slope = 0.25
intercept = -1.25
y = slope * X + np.random.normal(loc=0.0, scale=1.0, size=(1000,)) + intercept

IMPORTAR E INSTANCIAR A CLASSE DE MODELO DE REGRESSÃO LINEAR DO SCIKIT-LEARN.
A regressão linear - linha de melhor ajuste - será feita com os dados sintéticos criados acima.

In [4]:
import sklearn

In [5]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg

LinearRegression()

# MÉTRICAS DE DESEMPENHO DE MODELOS PARA CLASSIFICAÇÃO BINÁRIA

# Dataset para análise: cartão de crédito

In [6]:
import pandas as pd

In [7]:
df = pd.read_csv('C:/Users/Joao3/Chapter_1_cleaned_data.csv')

# RELACIONAMENTO ENTRE AS VARIÁVEIS 'EDUCATION' vs 'default payment next month'

# Divisão dos dados para treinamento e teste

# Primeiro exemplo de divisão dos dados: em conjuntos de treinamento (75%) e teste (25%)


In [8]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
df['EDUCATION'].values.reshape(-1,1), df['default payment next month'].values,
test_size=0.25, random_state=24)

VERIFICAÇÃO DOS CONJUNTOS DE TREINAMENTO E TESTE

In [9]:
print(X_train.shape) #X=EDUCATION
print(X_test.shape)
print(y_train.shape) #y=default payment next month
print(y_test.shape)

(19998, 1)
(6666, 1)
(19998,)
(6666,)


# Verificação das médias dos conjuntos de treino e de teste - Frações das classes nos dados.
Observamos a seguir que as médias são semelhantes.

In [10]:
np.mean(y_train)   #Média da variável 'default payment next month' da amostra de treinamento

0.22287228722872288

In [11]:
np.mean(y_test)    #Média da variável 'default payment next month' da AMOSTRA DE TESTE

0.21857185718571856

In [13]:
from sklearn.linear_model import LogisticRegression

In [14]:
example_lr = LogisticRegression(C=0.1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='auto',
          n_jobs=None, penalty='l2', random_state=None, solver='liblinear',
          tol=0.0001, verbose=0, warm_start=False)

In [15]:
example_lr.fit(X_train, y_train)

LogisticRegression(C=0.1, solver='liblinear')

PREDIÇÃO NO CONJUNTO DE TESTE

# Avaliação da métrica acurácia


In [16]:
y_pred = example_lr.predict(X_test)

# Acurácia da classificação com uma máscara lógica

In [17]:
is_correct75 = y_pred == y_test

In [18]:
np.mean(is_correct75)

0.7814281428142814

# Acurácia da classificação com o scikit-learn

In [19]:
example_lr.score(X_test, y_test)

0.7814281428142814

# Medida da acurácia ao comparar os resultados do treino e do teste

In [20]:
from sklearn import metrics

In [21]:
metrics.accuracy_score(y_test, y_pred)

0.7814281428142814

# Segundo exemplo de divisão dos dados: em conjuntos de treinamento (90%) e teste (10%)


In [22]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
df['EDUCATION'].values.reshape(-1,1), df['default payment next month'].values,
test_size=0.10, random_state=24)

In [23]:
print(X_train.shape) #X=EDUCATION
print(X_test.shape)
print(y_train.shape) #y=default payment next month
print(y_test.shape)

(23997, 1)
(2667, 1)
(23997,)
(2667,)


In [24]:
np.mean(y_train)  #Média da variável 'default payment next month' da amostra de treinamento

0.22177772221527692

In [25]:
np.mean(y_test) #Média da variável 'default payment next month' da AMOSTRA DE TESTE

0.22197225346831645

In [26]:
example_lr.fit(X_train, y_train)

LogisticRegression(C=0.1, solver='liblinear')

PREDIÇÃO NO CONJUNTO DE TESTE

In [27]:
y_pred = example_lr.predict(X_test)

# Acurácia da classificação com uma máscara lógica

In [28]:
is_correct90 = y_pred == y_test

In [29]:
np.mean(is_correct90)

0.7780277465316835

# Acurácia da classificação com o scikit-learn

In [30]:
example_lr.score(X_test, y_test)

0.7780277465316835

In [31]:
metrics.accuracy_score(y_test, y_pred)

0.7780277465316835

# Terceiro exemplo de divisão dos dados: em conjuntos de treinamento (60%) e teste (40%)


In [32]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
df['EDUCATION'].values.reshape(-1,1), df['default payment next month'].values,
test_size=0.4, random_state=24)

In [33]:
print(X_train.shape) #X=EDUCATION
print(X_test.shape)
print(y_train.shape) #y=default payment next month
print(y_test.shape)

(15998, 1)
(10666, 1)
(15998,)
(10666,)


In [34]:
np.mean(y_train) #Média da variável 'default payment next month' da amostra de treinamento

0.22209026128266032

In [35]:
np.mean(y_test)  #Média da variável 'default payment next month' da AMOSTRA DE TESTE

0.22135758484905307

In [36]:
example_lr.fit(X_train, y_train)

LogisticRegression(C=0.1, solver='liblinear')

PREDIÇÃO NO CONJUNTO DE TESTE

In [37]:
y_pred = example_lr.predict(X_test)

# Acurácia da classificação com uma máscara lógica

In [38]:
is_correct60 = y_pred == y_test

In [43]:
np.mean(is_correct60) 

0.7786424151509469

# Acurácia da classificação com o scikit-learn

In [44]:
example_lr.score(X_test, y_test) 

0.7786424151509469

In [41]:
metrics.accuracy_score(y_test, y_pred)

0.7786424151509469