# Aula 02 - Aprendizagem de Máquina (Parte I)

## Pré-processamento de dados

In [None]:
from __future__ import division
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

filename = 'files/lending_club_loans.csv'
df = pd.read_csv(filename, low_memory=False)
col_names = df.columns.tolist()
print (col_names)
print ('Number of attributes: ' + str(len(col_names)))

Estudo de caso: queremos prever com base nas informações preenchidas pelo cliente que está solicitando um empréstimo se ele será concedido ou não até certo limite. Usaremos dados do Lending Club. 

Podemos usar o data set para tentar prever empréstimos aceitos com sucesso. Um pedido de empréstimo é bem-sucedido se o valor financiado (funded_amnt) ou o valor financiado pelos investidores (funded_amnt_inv) for próximo ao valor do empréstimo (loan_amnt) solicitado. Nesse sentido, poderíamos colocar um limite no qual a aceitação é baseada como a fórmula: 
$$\frac{loan - funded}{loan}\geq 0.5$$

Apagar as colunas que não são úteis para nosso estudo.

In [None]:
drop_cols = ['id', 'member_id', 'grade', 'sub_grade','earliest_cr_line', 'emp_title', 'verification_status', 'issue_d', 'loan_status', 'pymnt_plan', 'url', 'desc', 'purpose', 'title', 'zip_code', 'addr_state', 'inq_last_6mths', 'mths_since_last_record', 'open_acc', 'pub_rec', 'revol_bal', 'revol_util', 'initial_list_status', 'out_prncp', 'out_prncp_inv', 'total_pymnt', 'total_pymnt_inv', 'total_rec_prncp', 'total_rec_int', 'total_rec_late_fee', 'recoveries', 'collection_recovery_fee', 'last_pymnt_d', 'last_pymnt_amnt', 'next_pymnt_d', 'last_credit_pull_d', 'collections_12_mths_ex_med', 'mths_since_last_major_derog', 'policy_code']

In [None]:
df = df.drop(drop_cols,axis=1)

In [None]:
col_names = df.columns.tolist()
col_names

Checar as features (atributos)

In [None]:
df.head()

Observe as features term, emp_length, home_ownership. 

term e emp_length e emp_length são strings, podemos usar várias estratégias para processá-las: podemos vetorizar os diferentes resultados. Mas observe que existe uma relação de ordem. Nesse caso específico, os valores categóricos podem ser traduzidos diretamente em números que representam essa ordem. Finalmente, house_ownership será vetorizado em tantos recursos quantos forem os valores na variável categórica.

In [None]:
def clear_term (row):
    try:
        if row['term']==' 36 months':
            d = 1
        else:
            if row['term']==' 60 months':
                d = 2
            else:
                if np.isnan(row['term']):
                    d = None
                else:
                    print ('WRONG')
                    print (row['term'])
    except:
        print ('EXCEPT')
        d = None
    return d

df['term_clean'] = df.apply (lambda row: clear_term(row),axis=1)
    

In [None]:
df['term_clean']

In [None]:
#Usaremos um dicionário para fazer o mapeamento
def clean_emp_length(argument):
    switcher = {
        '1 year': 1,
        '2 years': 2,
        '3 years': 3,
        '4 years': 4,
        '5 years': 5,
        '6 years': 6,
        '7 years': 7,
        '8 years': 8,
        '9 years': 9,
        '10+ years': 10,
        '< 1 year': 0,
        'n/a':None,
    }
    try:
        d = switcher[argument['emp_length']]    
    except:
        d = None
    return d

df['emp_length_clean'] = df.apply (lambda row: clean_emp_length(row),axis=1)


In [None]:
df.head()

In [None]:
from sklearn.feature_extraction import DictVectorizer

comb_dict = df[['home_ownership']].to_dict(orient='records')
vec = DictVectorizer()
home = 2*vec.fit_transform(comb_dict).toarray()-1
home[:5]

In [None]:
df_vector = pd.DataFrame(home[:,1:])
vector_columns = vec.get_feature_names()
df_vector.columns = vector_columns[1:]
df_vector.index = df.index
df_vector


In [None]:
#Juntar os dados
df = df.join(df_vector)
df.head()

In [None]:
#Apagar as colunas processadas
df = df.drop(['term','int_rate','emp_length','home_ownership'],axis=1)
df.head()

## Aprendizagem de Máquina Supervisionada - Classificação

Aprendizagem de Máquina (AM) é a ciência (ou a arte) de criar sistemas que podem aprender com base em um **conjunto de dados** (treinamento). Uma definição mais generalista descreve AM como "o campo de estudos que fornece aos computadores a habilidade de aprender sem serem explicitamente programados".

Os sistemas de AM podem ser classificados de acordo com a **quantidade e o tipo de supervisão** que recebem durante o treinamento. Existem três categorias principais: aprendizagem supervisionada, aprendizagem não supervisionada, e aprendizagem semi-supervisionada ou por reforço.

Na aprendizagem supervisionada, o algoritmo "aprende" ou reconhece padrões com base em exemplos. Na classificação, o algoritmo, também chamado de classificador, reconhece o padrão de um conjunto de dados para prever o valor de um atributo especial denominado classe.

Na **aprendizagem supervisionada**, o algoritmo "aprende" ou reconhece padrões com base em dados de treinamento. Os dados que você utiliza para treinar o algoritmo incluem um atributo especial que classifica cada instância do conjunto de dados, chamado de classe ou rótulo. Uma atividade típica da aprendizagem supervisionada é a **classificação**. O filtro de spam é um bom exemplo desta técnica: ele é treinado com muitos e-mails de exemplo, e cada um deles possui a sua classe (spam ou não-spam), e o sistema precisa aprender a classificar novos e-mails com base no conjunto de treinamento.

In [None]:
import matplotlib.pylab as plt

%matplotlib inline 
plt.style.use('seaborn-whitegrid')
plt.rc('text', usetex=True)
plt.rc('font', family='times')
plt.rc('xtick', labelsize=10) 
plt.rc('ytick', labelsize=10) 
plt.rc('font', size=12) 
plt.rc('figure', figsize = (12, 5))


**Conjunto de dados de exemplo**: continuaremos a usar os dados sobre financiamento bancário.

In [None]:
import pickle
ofname = open('files/dataset_small.pkl','rb') 
(x,y) = pickle.load(ofname)

Checar o volume dos dados

In [None]:
dims = x.shape[1]
N = x.shape[0]
print 'atributos: ' + str(dims)+', exemplos: '+ str(N)

**Vamos construir um classificador simples**

A primeira etapa é o **treinamento**: executar o algoritmo usando o conjunto de dados para que ele "aprenda" a reconhecer o padrão de cada classe. A partir daí, o classificador pode ser usada para perver o resultado sobre dados novos.

In [None]:
from sklearn import neighbors
from sklearn import datasets

#Criar uma instância do algoritmo de classificação KNN (K-nearest neighbor)
knn = neighbors.KNeighborsClassifier(n_neighbors=11)

#Treinar o classificador
knn.fit(x,y)

#Calcular o valor previsto de acordo com o modelo
yhat = knn.predict(x)

#Checar o resultado do último exemplo
print 'Valor previsto: ' + str (yhat [ -1]), ', valor real: ' + str (y [ -1])

Verificar a Acurácia: **Número de Previsões Corretas / Total de Previsões**

In [None]:
knn.score(x,y)

A distribuição dos rótulos de predição é dada pelo seguinte gráfico:

In [None]:
#%matplotlib inline
#import matplotlib.pyplot as plt
import numpy as np
plt.pie(np.c_[np.sum(np.where(y==1,1,0)),np.sum(np.where(y==-1,1,0))][0],
        labels=['Financiado parcialmente','Financiado totalmente'],
        colors=['g','r'],
        shadow=False,
        autopct ='%.2f' )
plt.gcf().set_size_inches((6,6))
plt.savefig("pie.png",dpi=300, bbox_inches='tight')


Calcular a matriz de confusão:
+ TP (verdadeiro positivo): o classificador prevê um exemplo como positivo, e ele realmente é positivo.
+ FP (falso positivo): o classificador prevê um exemplo como positivo, mas ele é negativo.
+ TN (verdadeiro negativo): o classificador prevê um exemplo como negativo, e ele realmente é negativo.
+ FN (falso negativo): o classificador prevê um exemplo como negativo, mas ele é positivo.

In [None]:
yhat = knn.predict(x)
TP = np.sum(np.logical_and(yhat==-1,y==-1))
TN = np.sum(np.logical_and(yhat==1,y==1))
FP = np.sum(np.logical_and(yhat==-1,y==1))
FN = np.sum(np.logical_and(yhat==1,y==-1))
print 'TP: '+ str(TP), ', FP: '+ str(FP)
print 'FN: '+ str(FN), ', TN: '+ str(TN)

In [None]:
from sklearn import metrics
metrics.confusion_matrix(yhat,y)

In [None]:
#Treinamento do classificador com K = 1
from sklearn import neighbors
knn = neighbors.KNeighborsClassifier(n_neighbors=1)
knn.fit(x,y)
yhat=knn.predict(x)

print "Acurácia do classificador:", metrics.accuracy_score(yhat, y)
print "Matriz de confusão: \n" + str(metrics.confusion_matrix(yhat, y))

Até este ponto utilizamos dados de treinamento para "avaliar" o desempenho do classificador, mas esta é uma prática não recomendada. Vamos usar um subconjunto dos dados de treinamento para **testar** o desempenho do classificador.

A avaliação do desempenho é uma etapa de **validação** do algoritmo.

In [None]:
# Dividindo o dataset em dois conjuntos de dados, se treinamento e de teste.
import numpy as np
perm = np.random.permutation(y.size)
PRC = 0.7
split_point = int(np.ceil(y.shape[0]*PRC))

X_train = x[perm[:split_point].ravel(),:]
y_train = y[perm[:split_point].ravel()]

X_test = x[perm[split_point:].ravel(),:]
y_test = y[perm[split_point:].ravel()]

print 'Dados de entrada do treinamento: ' + str(X_train.shape), ' , resposta do treinamento: '+str(y_train.shape)
print 'Dados de entrada do teste: ' + str(X_test.shape), ' , resposta do teste: '+str(y_test.shape)

In [None]:
#Treinar o classificador com os dados de treinamento
from sklearn import neighbors
knn = neighbors.KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)

#Visualizar o desempenho
yhat=knn.predict(X_train)

from sklearn import metrics
print "\nESTATÍSTICA DO TREINAMENTO:"
print "Acurácia do classificador:", metrics.accuracy_score(yhat, y_train)
print "Matriz de confusão: \n"+ str(metrics.confusion_matrix(y_train, yhat))

In [None]:
#Analisar com os dados de teste
yhat=knn.predict(X_test)
print "ESTATÍSTICAS DO TESTE:"
print "Acurácia do classificador:", metrics.accuracy_score(yhat, y_test)
print "Matriz de confusão: \n"+ str(metrics.confusion_matrix(yhat,y_test))

É possível automatizar esse processo, com as ferramentas fornecidas pelo pacote scikit-learn

In [None]:
#Divisão feita com os pacotes fornecidos pelo pacote sklearn:
from sklearn.model_selection import train_test_split
from sklearn import neighbors
from sklearn import metrics

PRC = 0.3
acc = np.zeros((10,))
for i in xrange(10):
    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=PRC)
    knn = neighbors.KNeighborsClassifier(n_neighbors=1)
    knn.fit(X_train,y_train)
    yhat = knn.predict(X_test)
    acc[i] = metrics.accuracy_score(yhat, y_test)
acc.shape=(1,10)
print "Erro médio: "+str(np.mean(acc[0]))

Nós podemos usar o processo de validação para a seleção do algoritmo de AM.

Vamos analisar o desempenho de quatro classificadores diferentes sobre o mesmo conjunto de dados.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import neighbors
from sklearn import tree
from sklearn import svm
from sklearn import metrics

PRC = 0.1
acc_r=np.zeros((10,4))
for i in xrange(10):
    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=PRC)
    nn1 = neighbors.KNeighborsClassifier(n_neighbors=1)
    nn3 = neighbors.KNeighborsClassifier(n_neighbors=3)
    svc = svm.SVC()
    dt = tree.DecisionTreeClassifier()
    
    nn1.fit(X_train,y_train)
    nn3.fit(X_train,y_train)
    svc.fit(X_train,y_train)
    dt.fit(X_train,y_train)
    
    yhat_nn1=nn1.predict(X_test)
    yhat_nn3=nn3.predict(X_test)
    yhat_svc=svc.predict(X_test)
    yhat_dt=dt.predict(X_test)
    
    acc_r[i][0] = metrics.accuracy_score(yhat_nn1, y_test)
    acc_r[i][1] = metrics.accuracy_score(yhat_nn3, y_test)
    acc_r[i][2] = metrics.accuracy_score(yhat_svc, y_test)
    acc_r[i][3] = metrics.accuracy_score(yhat_dt, y_test)


plt.boxplot(acc_r);
for i in xrange(4):
    xderiv = (i+1)*np.ones(acc_r[:,i].shape)+(np.random.rand(10,)-0.5)*0.1
    plt.plot(xderiv,acc_r[:,i],'ro',alpha=0.3)
    
ax = plt.gca()
ax.set_xticklabels(['1-NN','3-NN','SVM','Decission Tree'])
plt.ylabel('Acuracia')
plt.savefig("plots/error_ms_1.png",dpi=300, bbox_inches='tight')