## Aprendizagem com padronização e sem Ensemble Learning

In [10]:
import pandas as pd
import numpy as np

base = pd.read_csv('credit_data.csv')
base.loc[base.age < 0, 'age'] = 40.92
               
previsores = base.iloc[:, 1:4].values
classe = base.iloc[:, 4].values

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean')
imputer = imputer.fit(previsores[:, 1:4])
previsores[:, 1:4] = imputer.transform(previsores[:, 1:4])

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

from sklearn.model_selection import train_test_split
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.25, random_state=0)


### Importando o classificador da ávore de decisão
from sklearn.tree import DecisionTreeClassifier, export
### Inicializando o classificador passando como o critério o grau de entropia
classificador = DecisionTreeClassifier(criterion='entropy', random_state=0)
### Encaixando as informações de treinamento
classificador.fit(previsores_treinamento, classe_treinamento)
### Fazendo as previsões com os nossos previsores de teste
previsoes = classificador.predict(previsores_teste)

### Importando bibliotecas para medir o grau de acertividade
from sklearn.metrics import confusion_matrix, accuracy_score
### Medindo a precisão da nossa aprendizagem
precisao = accuracy_score(classe_teste, previsoes)
### Gerando a matriz de confusão
matriz = confusion_matrix(classe_teste, previsoes)

### Exportando a árvore de decisão como arquivo .dot
export.export_graphviz(classificador,
                        out_file = 'arvore_credit_data.dot',
                        feature_names = ['salario', 'idade', 'emprestimo'],
                        class_names = ['alto', 'baixo'],
                        filled = True,
                        leaves_parallel = True)

In [11]:
print("Precisão de {}%".format(round(precisao*100, 5)))
matriz

Precisão de 98.2%


array([[430,   6],
       [  3,  61]], dtype=int64)

## Aprendizagem sem Ensemble Learning e sem Padronização

In [12]:
import pandas as pd
import numpy as np

base = pd.read_csv('credit_data.csv')
base.loc[base.age < 0, 'age'] = 40.92
               
previsores = base.iloc[:, 1:4].values
classe = base.iloc[:, 4].values

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean')
imputer = imputer.fit(previsores[:, 1:4])
previsores[:, 1:4] = imputer.transform(previsores[:, 1:4])

from sklearn.model_selection import train_test_split
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.25, random_state=0)

from sklearn.tree import DecisionTreeClassifier
classificador = DecisionTreeClassifier(criterion='entropy', random_state=0)
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

from sklearn.metrics import confusion_matrix, accuracy_score
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)
print("Precisão de {}%".format(round(precisao*100, 3)))
matriz

Precisão de 98.2%


array([[430,   6],
       [  3,  61]], dtype=int64)

## Aprendizagem com Ensemble Learning e com padronização

In [32]:
import pandas as pd
import numpy as np

base = pd.read_csv('credit_data.csv')
base.loc[base.age < 0, 'age'] = 40.92
               
previsores = base.iloc[:, 1:4].values
classe = base.iloc[:, 4].values

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean')
imputer = imputer.fit(previsores[:, 1:4])
previsores[:, 1:4] = imputer.transform(previsores[:, 1:4])

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

from sklearn.model_selection import train_test_split
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.25, random_state=0)

from sklearn.ensemble import RandomForestClassifier
### n_estimators são o número de ávores utilizadas
classificador = RandomForestClassifier(n_estimators=71, criterion='entropy', random_state=0)
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

from sklearn.metrics import confusion_matrix, accuracy_score
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)
print("Precisão de {}%".format(round(precisao*100, 3)))
matriz

Precisão de 98.4%


array([[433,   3],
       [  5,  59]], dtype=int64)

## Aprendizagem com Ensemble Learning e sem padronização

In [35]:
import pandas as pd
import numpy as np

base = pd.read_csv('credit_data.csv')
base.loc[base.age < 0, 'age'] = 40.92
               
previsores = base.iloc[:, 1:4].values
classe = base.iloc[:, 4].values

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean')
imputer = imputer.fit(previsores[:, 1:4])
previsores[:, 1:4] = imputer.transform(previsores[:, 1:4])

from sklearn.model_selection import train_test_split
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.25, random_state=0)

from sklearn.ensemble import RandomForestClassifier
### n_estimators são o número de ávores utilizadas
classificador = RandomForestClassifier(n_estimators=71, criterion='entropy', random_state=0)
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

from sklearn.metrics import confusion_matrix, accuracy_score
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)
print("Precisão de {}%".format(round(precisao*100, 3)))
matriz

Precisão de 98.4%


array([[433,   3],
       [  5,  59]], dtype=int64)