![CrazyTechGuys](http://www.crazytechguys.com/wp-content/uploads/2016/02/logoCTG-4.png)



# Workshop Machine Learning


## Importando os módulos necessários


In [1]:
import pandas as pd 
import matplotlib.pyplot as plt      

# Usamos isso para determiniar que os gráficos resultantes devem ser renderizados no jupyter.
%matplotlib inline

## Carregando o dataset  

In [2]:
# Neste ponto carregamos os dados do arquivo específico em um objeto chamado df
# Nosso dataset agora será um dataframe
df = pd.read_csv("./pima-data.csv")

## Verificando o formato do dataframe

In [3]:
# Com essa função sabemos quantas linhas e colunas tem nosso
df.shape

(768, 10)

## Verificando os tipos de dados do dataframe

In [4]:
# Aqui conseguimos determinar com quais tipos de dados estamos trabalhando em cada coluna ou atributo
df.dtypes

num_preg          int64
glucose_conc      int64
diastolic_bp      int64
thickness         int64
insulin           int64
bmi             float64
diab_pred       float64
age               int64
skin            float64
diabetes           bool
dtype: object

## Verificando as 10 primeiras linhas do dataframe

In [5]:
# Função que exibe a quantidade de linhas estipuladas do início do dataset
df.head(10)

Unnamed: 0,num_preg,glucose_conc,diastolic_bp,thickness,insulin,bmi,diab_pred,age,skin,diabetes
0,6,148,72,35,0,33.6,0.627,50,1.379,True
1,1,85,66,29,0,26.6,0.351,31,1.1426,False
2,8,183,64,0,0,23.3,0.672,32,0.0,True
3,1,89,66,23,94,28.1,0.167,21,0.9062,False
4,0,137,40,35,168,43.1,2.288,33,1.379,True
5,5,116,74,0,0,25.6,0.201,30,0.0,False
6,3,78,50,32,88,31.0,0.248,26,1.2608,True
7,10,115,0,0,0,35.3,0.134,29,0.0,False
8,2,197,70,45,543,30.5,0.158,53,1.773,True
9,8,125,96,0,0,0.0,0.232,54,0.0,True


## Verficando as 10 últimas linhas do dataframe

In [6]:
# Função que exibe a quantidade de linhas estipuladas do final do dataset
df.tail(10)

Unnamed: 0,num_preg,glucose_conc,diastolic_bp,thickness,insulin,bmi,diab_pred,age,skin,diabetes
758,1,106,76,0,0,37.5,0.197,26,0.0,False
759,6,190,92,0,0,35.5,0.278,66,0.0,True
760,2,88,58,26,16,28.4,0.766,22,1.0244,False
761,9,170,74,31,0,44.0,0.403,43,1.2214,True
762,9,89,62,0,0,22.5,0.142,33,0.0,False
763,10,101,76,48,180,32.9,0.171,63,1.8912,False
764,2,122,70,27,0,36.8,0.34,27,1.0638,False
765,5,121,72,23,112,26.2,0.245,30,0.9062,False
766,1,126,60,0,0,30.1,0.349,47,0.0,True
767,1,93,70,31,0,30.4,0.315,23,1.2214,False


## Aprofundando na análise...

In [7]:
# Se não estipularmos nenhum parâmetro, por default na função head() teremos as 5 primeiras linhas de um dataframe
df.head()

Unnamed: 0,num_preg,glucose_conc,diastolic_bp,thickness,insulin,bmi,diab_pred,age,skin,diabetes
0,6,148,72,35,0,33.6,0.627,50,1.379,True
1,1,85,66,29,0,26.6,0.351,31,1.1426,False
2,8,183,64,0,0,23.3,0.672,32,0.0,True
3,1,89,66,23,94,28.1,0.167,21,0.9062,False
4,0,137,40,35,168,43.1,2.288,33,1.379,True


A função **describe()** é extremamente importane para uma análise rápida e para se ter uma ídeia dos dados que estão sendo manipulados. Esta função realiza calculos estatísticos para cada coluna numérica do DataFrame, como contagem de valores, soma, média, mediana, etc.

In [8]:
df.describe()

Unnamed: 0,num_preg,glucose_conc,diastolic_bp,thickness,insulin,bmi,diab_pred,age,skin
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.809136
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.628517
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.9062
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.2608
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,3.9006


## Procurando valores Null ou Missing

In [9]:
# Verificando se existe algum valor nulo no dataset
df.isnull().values.any()

False

In [10]:
# Ainda podemos verificar essa informação olhanda a soma de valores nulos por linha e atributos
df.isnull().sum()

num_preg        0
glucose_conc    0
diastolic_bp    0
thickness       0
insulin         0
bmi             0
diab_pred       0
age             0
skin            0
diabetes        0
dtype: int64

Neste caso em específico, temos um problema. Não encontramos nenhum valor null, porém seria um erro descartar que possa existir valores errados no dataset.

> Este é um ponto importante. A maneira como encontramos, determinados e tratamos os valores nulos é fundamental para o resultado.

Vale lembrar que grande parte do trabalho é gasto no **tratamento de dados**. Neste caso é bom salientar que é muito comum em diversos datasets os valores null, serem substituídos por 0, logo, é sempre bom olhar para estas ocorrências com cuidado.



In [11]:
print("glucose_conc: " + str(len(df.loc[df.glucose_conc == 0])))
print("diastolic_bp: " + str(len(df.loc[df['diastolic_bp'] == 0])))
print("thickness: " + str(len(df.loc[df['thickness'] == 0])))
print("insulin: " + str(len(df.loc[df['insulin'] == 0])))
print("bmi: " + str(len(df.loc[df['bmi'] == 0])))
print("age: " + str(len(df.loc[df['age'] == 0])))

glucose_conc: 5
diastolic_bp: 35
thickness: 227
insulin: 374
bmi: 11
age: 0


## Primeiro tratamento nos dados

### Facilitando a classificação da coluna diabetes

Vamos iniciar nosso tratamento de dados fazendo uma simples substituição. A fim de facilitar nosso trabalho na aprendizagem, vamos substituir os valores boleanos da coluna diabetes por 0 e 1.

In [12]:
# Verificando as primeiras linhas do dataset
df.head(3)

Unnamed: 0,num_preg,glucose_conc,diastolic_bp,thickness,insulin,bmi,diab_pred,age,skin,diabetes
0,6,148,72,35,0,33.6,0.627,50,1.379,True
1,1,85,66,29,0,26.6,0.351,31,1.1426,False
2,8,183,64,0,0,23.3,0.672,32,0.0,True


In [13]:
# Definindo as classes
diabetes_map = {True : 1, False : 0}

# Aplicando o mapeamento ao dataset
df['diabetes'] = df['diabetes'].map(diabetes_map)

In [14]:
# Verificando as primeiras linhas do dataset
df.head(3)

Unnamed: 0,num_preg,glucose_conc,diastolic_bp,thickness,insulin,bmi,diab_pred,age,skin,diabetes
0,6,148,72,35,0,33.6,0.627,50,1.379,1
1,1,85,66,29,0,26.6,0.351,31,1.1426,0
2,8,183,64,0,0,23.3,0.672,32,0.0,1


## Verificando como os dados estão distribuídos

In [15]:
num_true = len(df.loc[df.diabetes] == True)
num_false = len(df.loc[df.diabetes] == False)

print("Casos Verdadeiros: {0} ({1:2.2f}%)".format(num_true, (num_true/ (num_true + num_false)) * 100))
print("Casos Falsos     : {0} ({1:2.2f}%)".format(num_false, (num_false/ (num_true + num_false)) * 100))

Casos Verdadeiros: 768 (50.00%)
Casos Falsos     : 768 (50.00%)


## Dividindo os dados

Agora chegamos ao ponto em que precisamos dividir os nossos dados entre os subsets de treino e avaliação.

In [16]:
from sklearn.cross_validation import train_test_split

In [17]:
# Seleção de variáveis (Feature Selection)
atributos = ['num_preg', 'glucose_conc', 'diastolic_bp', 'thickness', 'insulin', 'bmi', 'diab_pred', 'age']

# Variável a ser prevista
atrib_prev = ['diabetes']

In [18]:
# Criando objetos
X = df[atributos].values
Y = df[atrib_prev].values

In [19]:
# Definindo a taxa de split
split_test_size = 0.30

In [20]:
# Criando dados de treino e de teste
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size = split_test_size, random_state = 42)

In [21]:
# Imprimindo os resultados
print("{0:0.2f}% nos dados de treino".format((len(X_treino)/len(df.index)) * 100))
print("{0:0.2f}% nos dados de teste".format((len(X_teste)/len(df.index)) * 100))

69.92% nos dados de treino
30.08% nos dados de teste


## Verificando os subsets de dados

In [22]:
print("Original True : {0} ({1:0.2f}%)".format(
        len(df.loc[df.diabetes == 1]), (
        len(df.loc[df.diabetes ==1])/len(df.index) * 100)))

print("Original False : {0} ({1:0.2f}%)".format(
        len(df.loc[df.diabetes == 0]), (
        len(df.loc[df.diabetes == 0])/len(df.index) * 100)))

print("\nTraining True : {0} ({1:0.2f}%)".format(
        len(Y_treino[Y_treino[:] == 1]), (
        len(Y_treino[Y_treino[:] == 1]) / len(Y_treino) * 100)))

print("Training False : {0} ({1:0.2f}%)".format(
        len(Y_treino[Y_treino[:] == 0]), (
        len(Y_treino[Y_treino[:] == 0])/len(Y_treino) * 100)))

print("\nTest True : {0} ({1:0.2f}%)".format(
        len(Y_teste[Y_teste[:] == 1]), (
        len(Y_teste[Y_teste[:] == 1])/len(Y_teste) * 100)))

print("Test False : {0} ({1:0.2f}%)".format(
        len(Y_teste[Y_teste[:] == 0]), (
        len(Y_teste[Y_teste[:] == 0])/len(Y_teste) * 100)))

Original True : 268 (34.90%)
Original False : 500 (65.10%)

Training True : 188 (35.01%)
Training False : 349 (64.99%)

Test True : 80 (34.63%)
Test False : 151 (65.37%)


## Segundo tratamento nos dados

### Tralhando os valores com zero

In [23]:
from sklearn.preprocessing import Imputer

In [24]:
# Criando objeto
preenche_0 = Imputer(missing_values = 0, strategy = "mean", axis = 0)

# Substituindo os valores iguais a zero, pela média dos dados
X_treino = preenche_0.fit_transform(X_treino)
X_teste = preenche_0.fit_transform(X_teste)


# Agora é a hora da mágica ;)

## Vamos criar nosso modelo

In [25]:
# Utilizando um classificador Naive Bayes
from sklearn.naive_bayes import GaussianNB

In [26]:
# Criando o modelo preditivo
modelo_v1 = GaussianNB()

## ... agora vamos treinar ...

In [27]:
# Treinando o modelo
modelo_v1.fit(X_treino, Y_treino.ravel())

GaussianNB()

## e verificar a Acurácia / Precisão dos dados de  TREINO

In [28]:
from sklearn import metrics

In [29]:
nb_predict_train = modelo_v1.predict(X_treino)
print("Precisão: {0:.4f}\n".format(metrics.accuracy_score(Y_treino, nb_predict_train)))

Precisão: 0.7542



# nosso próximo passo é verificar os dados de TESTE

In [30]:
nb_predict_test = modelo_v1.predict(X_teste)
print("Precisão: {0:.4f}\n".format(metrics.accuracy_score(Y_teste, nb_predict_test)))

Precisão: 0.7359





### Obrigado a todos...

**:)** 

[Vitor Meriat](http://www.vitormeriat.com.br/)