In [1]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Colaboração: Adriano Santos

# Caso de Uso - ML e RNA

# Diagnóstico de doenças em soja
# 1. Crie um modelo de ML (pode usar RNA/DL etc)
# 2. Busque a melhor performance

# Conjunto de Dados:
# 19 classes
# 35 atributos
# 683 instâncias

## Importando as Bibliotecas Necessárias

Esse código abaixo, utiliza bibliotecas como pandas e scikit-learn para criar um modelo de classificação. Ele carrega dados, transforma rótulos em números com o LabelEncoder, divide os dados em conjuntos de treinamento e teste, e cria um modelo de classificação de floresta aleatória (RandomForestClassifier). Em seguida, avalia o desempenho do modelo, calculando a matriz de confusão e a precisão. Em resumo, esse código automatiza a criação e avaliação de um modelo de machine learning para classificar dados com base em características específicas.

In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

## Lendo Arquivo CSV

Esse código abaixo, utiliza a biblioteca pandas para ler um arquivo CSV chamado 'soybean.csv' localizado no diretório '../dados/'. Em seguida, ele exibe as cinco primeiras linhas desse arquivo com o método 'head()'. Isso é útil para visualizar rapidamente os dados iniciais do arquivo e entender sua estrutura.

In [4]:
base_soybean = pd.read_csv('../dados/soybean.csv')
base_soybean.head()

Unnamed: 0,date,plant-stand,precip,temp,hail,crop-hist,area-damaged,severity,seed-tmt,germination,...,sclerotia,fruit-pods,fruit-spots,seed,mold-growth,seed-discolor,seed-size,shriveling,roots,class
0,october,normal,gt-norm,norm,yes,same-lst-yr,low-areas,pot-severe,none,90-100,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
1,august,normal,gt-norm,norm,yes,same-lst-two-yrs,scattered,severe,fungicide,80-89,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
2,july,normal,gt-norm,norm,yes,same-lst-yr,scattered,severe,fungicide,lt-80,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
3,july,normal,gt-norm,norm,yes,same-lst-yr,scattered,severe,none,80-89,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
4,october,normal,gt-norm,norm,yes,same-lst-two-yrs,scattered,pot-severe,none,lt-80,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker


## Obtendo Dimensões da Base de Dados

O código "base_soybean.shape" é utilizado para obter as dimensões da base de dados "soybean" em termos de linhas e colunas. Ele retorna um par de valores, onde o primeiro representa o número de linhas (registros) na base de dados e o segundo representa o número de colunas (variáveis). Isso é útil para entender a estrutura dos dados e realizar análises estatísticas ou preparar os dados para análises posteriores.

In [4]:
base_soybean.shape

(683, 36)

## Criando Variável que Contém as Informações da Linha 35

Nesse código, estamos trabalhando com dados de soja. A linha de código em questão está criando uma variável chamada "atributos_previsores" que vai armazenar parte dos dados relacionados à soja. A expressão "base_soybean.iloc[:, 0:35].values" significa que estamos pegando as informações das 35 primeiras colunas da base de dados da soja. Esses dados serão usados para fazer previsões ou análises futuras relacionadas à soja. É como se estivéssemos selecionando as características iniciais dos dados da soja para usar em algum tipo de análise ou modelo.

In [6]:
atributos_previsores = base_soybean.iloc[:, 0:35].values

## Criando Variável que Contém as Respostas

Nesse código, estamos criando uma variável chamada "respostas" que vai guardar algumas informações. Ela está pegando dados de um conjunto de dados chamado "base_soybean" e selecionando apenas uma coluna específica, a coluna número 35. Esses dados selecionados estão sendo armazenados na variável "respostas" para serem usados posteriormente em algum tipo de análise ou processamento. É como se estivéssemos colocando em uma caixa as respostas de uma pesquisa que estão na 35ª coluna desse conjunto de dados.

In [10]:
respostas = base_soybean.iloc[:, 35].values

## Transformando os Dados em Formato legível por Máquinas

Esse código abaixo, utiliza o LabelEncoder para transformar dados em formato legível por máquinas. Ele percorre todas as colunas (características) de um conjunto de dados chamado "atributos_previsores" e converte seus valores em números, facilitando o uso em algoritmos de aprendizado de máquina, como classificação ou regressão. Isso é útil para que um computador possa entender e processar esses dados de maneira eficaz, mesmo que originalmente estejam em formato de texto ou categorias.

In [13]:
label_encoder = LabelEncoder()

for coluna in range(35):
    atributos_previsores[:, coluna] = label_encoder.fit_transform(atributos_previsores[:, coluna])

# Dividindo o Conjunto de Dados em 2 Partes

Esse código abaixo está dividindo um conjunto de dados em duas partes: uma para treinamento (usada para ensinar um modelo de machine learning) e outra para teste (usada para avaliar o desempenho do modelo). Ele faz isso separando os atributos que serão usados para previsões (atributos_previsores) das respostas esperadas (respostas) em duas partes, sendo 70% dos dados para treinamento (X_treinamento e y_treinamento) e 30% para teste (X_teste e y_teste). Isso é importante para verificar como o modelo se sai na previsão de dados que não foram usados durante o treinamento.

In [14]:
from sklearn.model_selection import train_test_split

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(
    atributos_previsores, respostas, 
    test_size=0.3,
    random_state=0
)

## Criando um Modelo de Machine Learning

Este código abaixo, faz parte da criação de um modelo de Machine Learning chamado "Random Forest". Em termos simples, o Random Forest é um algoritmo que ajuda a fazer previsões com base em dados. Neste código, estamos importando o "classificador Random Forest", criando uma instância dele com 100 estimadores (que são como pequenos modelos dentro do modelo principal) e treinando o modelo com dados de treinamento. Esse treinamento permite que o modelo aprenda a fazer previsões com base nos dados que fornecemos. É útil em muitos campos, como previsões de saúde, finanças e muito mais.

In [21]:
from sklearn.ensemble import RandomForestClassifier
floresta = RandomForestClassifier(n_estimators=100)
floresta.fit(X_treinamento, y_treinamento)

## Realizando Previsões Utilizando um Determinado Modelo

Nesse código, estamos realizando previsões utilizando um modelo de floresta aleatória. As previsões são geradas para um conjunto de dados de teste (X_teste) e, em seguida, são impressas na saída padrão. Esse trecho de código é fundamental para avaliar o desempenho do modelo ao fazer previsões com dados de teste e verificar como ele se comporta em relação às respostas esperadas.

In [20]:
resultado_previsoes = floresta.predict(X_teste)
print("Previsões:", resultado_previsoes)

Previsões: ['brown-spot' 'phytophthora-rot' 'herbicide-injury' 'purple-seed-stain'
 'cyst-nematode' 'bacterial-blight' 'brown-stem-rot' 'bacterial-pustule'
 'brown-spot' 'alternarialeaf-spot' 'charcoal-rot' 'bacterial-blight'
 'anthracnose' 'anthracnose' 'alternarialeaf-spot' 'brown-spot'
 'alternarialeaf-spot' 'alternarialeaf-spot' 'rhizoctonia-root-rot'
 'phytophthora-rot' 'anthracnose' 'brown-stem-rot' 'brown-spot'
 'phyllosticta-leaf-spot' 'diaporthe-stem-canker' 'brown-spot'
 'anthracnose' 'diaporthe-stem-canker' 'bacterial-pustule'
 'phytophthora-rot' 'frog-eye-leaf-spot' 'alternarialeaf-spot'
 'phyllosticta-leaf-spot' 'frog-eye-leaf-spot' 'frog-eye-leaf-spot'
 'bacterial-pustule' 'brown-stem-rot' 'charcoal-rot' 'brown-spot'
 'brown-spot' 'brown-stem-rot' 'alternarialeaf-spot' 'phytophthora-rot'
 'anthracnose' 'bacterial-blight' '2-4-d-injury' 'alternarialeaf-spot'
 'phyllosticta-leaf-spot' 'phyllosticta-leaf-spot' 'alternarialeaf-spot'
 'phyllosticta-leaf-spot' 'brown-stem-rot' 

## Avaliando Modelo de Machine Learning

Neste código a seguir, estamos usando a biblioteca scikit-learn para avaliar um modelo de machine learning. Primeiro, importamos as funções necessárias para calcular a matriz de confusão e a precisão. Em seguida, calculamos a matriz de confusão usando os valores reais (y_teste) e as previsões do modelo (resultado_previsoes) e a exibimos na saída padrão. Essa matriz é útil para avaliar o desempenho de um modelo de classificação, mostrando o número de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos. É uma ferramenta valiosa para avaliar a qualidade das previsões de um modelo.

In [25]:
from sklearn.metrics import confusion_matrix, accuracy_score
matriz_confusao = confusion_matrix(y_teste, resultado_previsoes)
print("Matriz de Confusão:")
print(matriz_confusao)

Matriz de Confusão:
[[ 3  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0 27  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0 14  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  8  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  7  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0 22  0  0  0  0  0  0  0  0  1  0  0  0  0]
 [ 0  0  0  0  0  0 13  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  9  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  5  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  6  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  8  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  5  0  0  0  0  0  0  0]
 [ 0  3  0  0  0  0  0  0  0  0  0  0 23  0  1  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  3  0  0  0  0  0]
 [ 0  0  0  0  0  1  0  0  0  0  0  0  0  0  6  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0 26  0  0  0]
 [ 0  0  0  0  0  0 

## Calculando Taxa de Acerto do Modelo de Machine Learning

O código a seguir, calcula a taxa de acerto de um modelo de machine learning ao comparar as previsões (resultado_previsoes) com os valores reais (y_teste). A função accuracy_score() é utilizada para realizar essa comparação e retornar a porcentagem de acertos do modelo. Em seguida, a taxa de acerto é exibida na saída.

In [32]:
taxa_acerto = accuracy_score(y_teste, resultado_previsoes)
print("Taxa de acerto: {:.2%}".format(taxa_acerto))

Taxa de acerto: 97.07%


## Calculando Taxa de Erro do Modelo de Machine Learning

Nesse código, estamos calculando a taxa de erro com base na taxa de acerto previamente definida. A variável "taxa_erro" é calculada subtraindo-se 1 da taxa de acerto. Em seguida, é exibida a taxa de erro em formato de porcentagem com duas casas decimais. Essa informação é útil em contextos de análise de desempenho, como em machine learning, para avaliar o quão preciso um modelo ou algoritmo é em suas previsões.

In [35]:
taxa_erro = 1 - taxa_acerto
print("Taxa de erro: {:.2%}".format(taxa_erro))

Taxa de erro: 2.93%
