In [1]:
import pandas as pd
from sklearn.preprocessing import Imputer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

df = pd.read_csv('../data/credit-data.csv')

# conferindo o dataset
df.describe()

# verificando os valores que estão abaixo de 0
df.loc[df['age'] < 0]

# guardando a médida da idade > 0 e substituindo idade < 0 pela média
media_idade = df.loc[df['age'] > 0, 'age'].mean()
df.loc[df['age'] < 0, 'age'] = media_idade

# Separando previsores e classe
previsores = df.iloc[:,1:4].values
previsores[:5]

classe = df.iloc[:,4].values
classe[:5]


# Valores faltantes
print('Existe falores faltantes?', pd.isnull(df).values.any())
for coluna in df.columns:
    if True in pd.isnull(df[coluna]).values or             True in pd.isna(df[coluna]).values:
        print(coluna)

# Substituindo os valores faltantes pela média
imputer = Imputer(missing_values='NaN', strategy='mean', axis=0)
imputer = imputer.fit(previsores)
previsores = imputer.fit_transform(previsores)
previsores[:5]


# Escalonamento dos valores
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)
previsores[:5]


# Separando dados de teste e treinamento
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=.25, random_state=0)

print('Previsores treinamento:', len(previsores_treinamento))
print('Previsores teste:', len(previsores_teste))
print('Classe treinamento:', len(classe_treinamento))
print('Classe teste:', len(classe_teste))


Existe falores faltantes? True
age
Previsores treinamento: 1500
Previsores teste: 500
Classe treinamento: 1500
Classe teste: 500




## Bayes

In [2]:
from sklearn.naive_bayes import GaussianNB

In [3]:
classificador = GaussianNB()
classificador.fit(previsores_treinamento, classe_treinamento)

GaussianNB(priors=None, var_smoothing=1e-09)

In [4]:
previsoes = classificador.predict(previsores_teste)
previsoes[:10]

array([1, 0, 0, 0, 0, 0, 0, 0, 0, 0])

### Métricas

In [5]:
from sklearn.metrics import confusion_matrix, accuracy_score

In [6]:
precisao = accuracy_score(classe_teste, previsoes)
precisao

0.938

In [7]:
matriz = confusion_matrix(classe_teste, previsoes)
matriz

array([[428,   8],
       [ 23,  41]])

428 registros da classe 0 foram classificados como 0

8 registros da classe 0 foram classificados como 1
...