##### Exemplo simples de Modelo em python para classificação usando dados de um dataset da biblioteca sklearn

###### O intuito é classificar qual espécie de flor cada amostra pertence de acordo com suas características

In [1]:
#importando as bibliotecas necessárias para realizar o treinamento do modelo

from sklearn import datasets #essa importação serve para que seja possível utilizar um dataSet da biblioteca sklearn
from sklearn.model_selection import train_test_split #importação necessária para realizar a divisão dos dados para o treinamento
from sklearn.ensemble import RandomForestClassifier #biblioteca responsavel pelo treinamento do modelo para classificação
from sklearn.datasets import make_classification #biblioteca responsavel pelo modelo de classificação que será adotado no treinamento


In [2]:
#carregando os dados de um dataset sobre Iris um tipo de flor 
iris = datasets.load_iris()

In [3]:
iris #comando para mostrar o conteúdo(informações) do dataset importado

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [4]:
#verificando o nome das colunas(features) ou também chamados de recursos do dataset
print(iris.feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [5]:
#verificando os dados da última coluna que corresponde ao alvo(resultado) de cada entrada

#deste modo é exibido em String e o código da linha abaixo exibe no formato numérico pronto para o treinamento
print(iris.target_names) 

['setosa' 'versicolor' 'virginica']


In [6]:
#onde: 0 - setosa; 1- versicolor; 2- virginica
print(iris.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [7]:
#criando variaveis abaixo para receber dados de entrada e saida(alvos), a fim de faicilitar no treinamento
entrada_dados = iris.data 
saida_alvos = iris.target

In [8]:
#Nas etapas abaixo será realizado o modelo de classificação utilizando a função Random Forest(Floresta aleatória)

#chamando a função random forest para dentro de uma variavel, e passando para a função os dados do dataset usando a Fit()
classificacao = RandomForestClassifier()
classificacao.fit(entrada_dados,saida_alvos)

In [10]:
#verificando quais recursos/dados(features/colunas) será o mais importante para treinar o modelo

#neste caso é mostrado o maior valor no 3 elemento correspondendo a coluna de "petal length (cm)"" que terá uma grande importância para o treinamento do modelo
print(classificacao.feature_importances_) 

#o método classificou isso realizando uma média e analise dos dados de todos os recursos

[0.12383318 0.0200316  0.42719595 0.42893926]


In [11]:
#printando abaixo uma das linhas dos dados para ter como base na hora de verificar o resultado do treinamento

#usarei esses dados como a primeira entrada para testa-lo na função de predict, ou seja, irei pedir para função Random Forest fazer a previsão desses dados iniciais
entrada_dados[3]

array([4.6, 3.1, 1.5, 0.2])

In [42]:
#Abaixo é realizado um teste de previsão para uma única entrada


#passando os valores acima para a função predict e ela retornará uma possível previsão para esses dados passados dessa flor
print(classificacao.predict([[4.6, 3.1, 1.5, 0.2]]))

#neste caso a função previu que esses dados são dados de uma flor especie: setosa

#o mesmo código anterior pode ser testado passando direto a posição que deseja treinar ex: 
#print(classificacao.predict( entrada_dados[[3]] ))

[0]


In [43]:
#Agora após verificar para uma entrada, todos os dados serão divididos em 2 partes, 80% será utilizado para treinar o modelo 
# e outros 20% será para validar o modelo após o treinamento

#criando variaveis que irão receber os dados do "split", onde test_size representa os 20% dos dados para validação no final
dados_trein_a, dados_test_a, dados_trein_b, dados_test_comparacao_b = train_test_split(entrada_dados,saida_alvos, test_size=0.2) 

#neste split os dados são embaralhados pelo algoritmo

In [44]:
#verificando agora o tamanho dos dataset's criados e armazenados nas variaveis após o split
dados_trein_a.shape, dados_trein_b.shape

((120, 4), (120,))

In [45]:
dados_test_a.shape, dados_test_comparacao_b.shape #estes são os dados para a validação após o treinamento

((30, 4), (30,))

In [46]:
#agora será realizado o treinamento do modelo usando as variaveis de treinamento criadas, elas serão passadas para a função Random Forest
classificacao.fit(dados_trein_a, dados_trein_b)

In [47]:
#agora para realizar o teste do treinamento utilizando as variaveis de test, basta utilizar a função predict para realizar a
# previsão do pequeno conjunto de teste que foi criado e armazenado em dados_test_a de acordo com os dados treinados na função random
print(classificacao.predict(dados_test_a))
print("O algoritmo previu então para os dados de treinamento separados o resultado acima")

#após isso essa previsão será comparada com a resultado que o modelo Random previu no treinamento

[0 0 2 0 0 0 1 1 0 0 2 0 1 1 0 0 1 2 1 2 0 0 1 1 2 2 1 2 2 2]
O algoritmo previu então para os dados de treinamento separados o resultado acima


In [48]:
# o resultado original dos dados recebidos no split foi armazenado em dados_test_comparacao_b e podem ser vistos abaixo 
# a fim de comparar com o resultado previsto anteriormente
print(dados_test_comparacao_b)

#com isso podemos perceber como foi a eficiência do algoritmo no treinamento utilizando o modelo Random Forest

[0 0 2 0 0 0 1 1 0 0 2 0 1 1 0 0 1 2 1 2 0 0 1 1 2 1 1 2 2 2]


In [49]:
#Com o treinamento realizado é possivel medir o "score" pontuação do modelo em relação aos dados originais que ele deveria prever

#o comando abaixo mostra a porcentagem de "score" do modelo que foi de 0.96, pois, ocorreram poucos erros na detecção da flor
print(classificacao.score(dados_test_a, dados_test_comparacao_b))

#Observação: Cada vez que você rodar o split de dados o algoritmo embaralha novamente os dados, gerando um novo treinamento diferente  do anterior

0.9666666666666667
