### **Formação Cientista de Dados** - Fernando Amaral e Jones Granatyr
### Colaboração: Adriano Santos

## <font color=blue><strong>Diagnóstico de doenças em soja</strong></font>
 1. Crie um modelo de ML (pode usar RNA/DL etc)
 2. Busque a melhor performance

## <font color=red><strong>Conjunto de Dados:</strong></font>
 - 19 classes
 - 35 atributos
 - 683 instâncias
<hr>

### <font color=orange><strong>Verificando a Versão da Linguagem Python</strong></font>

* Esse código Python exibe a versão da linguagem Python que está sendo usada no ambiente do Jupyter Notebook. Ele importa a função python_version do módulo platform e, em seguida, imprime a versão do Python. Isso é útil para verificar a versão da linguagem e garantir que seu código seja compatível com essa versão específica.

In [2]:
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.11.3


### <font color=orange><strong>Importando as Bibliotecas Necessárias</strong></font>

Esse código abaixo, utiliza bibliotecas como pandas e scikit-learn para criar um modelo de classificação. Ele carrega dados, transforma rótulos em números com o LabelEncoder, divide os dados em conjuntos de treinamento e teste, e cria um modelo de classificação de floresta aleatória (RandomForestClassifier). Em seguida, avalia o desempenho do modelo, calculando a matriz de confusão e a precisão. Em resumo, esse código automatiza a criação e avaliação de um modelo de machine learning para classificar dados com base em características específicas.

In [77]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix,ConfusionMatrixDisplay, classification_report ,accuracy_score

### <font color=orange><strong>Carregando a Base de Dados</strong></font>

Esse código abaixo, utiliza a biblioteca pandas para ler um arquivo CSV chamado 'soybean.csv' localizado no diretório '../dados/'. Em seguida, ele exibe as cinco primeiras linhas desse arquivo com o método 'head()'. Isso é útil para visualizar rapidamente os dados iniciais do arquivo e entender sua estrutura.

In [78]:
base_soybean = pd.read_csv('../dados/soybean.csv')

### <font color=orange>__Analisando e Explorando a Base de Dados__</font>

O código "base_soybean.shape" é utilizado para obter as dimensões da base de dados "soybean" em termos de linhas e colunas. Ele retorna um par de valores, onde o primeiro representa o número de linhas (registros) na base de dados e o segundo representa o número de colunas (variáveis). Isso é útil para entender a estrutura dos dados e realizar análises estatísticas ou preparar os dados para análises posteriores.

In [79]:
base_soybean.shape

(683, 36)

* O código "`base.head(10)`" e "`base.tail(10)`" são instruções em Python utilizadas para exibirem as primeiras e últimas linhas de um conjunto de dados, como um DataFrame do Pandas. Elas retornam por padrão as cinco primeiras e últimas linhas, oferecendo uma visão rápida das informações contidas no conjunto de dados. São ferramentas úteis para verificar a estrutura e os dados iniciais de um arquivo, facilitando a análise exploratória e a compreensão do conteúdo do dataset.

In [80]:
base_soybean.head(10)

Unnamed: 0,date,plant-stand,precip,temp,hail,crop-hist,area-damaged,severity,seed-tmt,germination,...,sclerotia,fruit-pods,fruit-spots,seed,mold-growth,seed-discolor,seed-size,shriveling,roots,class
0,october,normal,gt-norm,norm,yes,same-lst-yr,low-areas,pot-severe,none,90-100,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
1,august,normal,gt-norm,norm,yes,same-lst-two-yrs,scattered,severe,fungicide,80-89,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
2,july,normal,gt-norm,norm,yes,same-lst-yr,scattered,severe,fungicide,lt-80,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
3,july,normal,gt-norm,norm,yes,same-lst-yr,scattered,severe,none,80-89,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
4,october,normal,gt-norm,norm,yes,same-lst-two-yrs,scattered,pot-severe,none,lt-80,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
5,september,normal,gt-norm,norm,yes,same-lst-sev-yrs,scattered,pot-severe,none,80-89,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
6,september,normal,gt-norm,norm,yes,same-lst-two-yrs,scattered,pot-severe,fungicide,90-100,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
7,august,normal,gt-norm,norm,no,same-lst-yr,scattered,pot-severe,none,lt-80,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
8,october,normal,gt-norm,norm,yes,same-lst-sev-yrs,scattered,pot-severe,fungicide,80-89,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker
9,august,normal,gt-norm,norm,yes,same-lst-two-yrs,scattered,severe,none,lt-80,...,absent,norm,dna,norm,absent,absent,norm,absent,norm,diaporthe-stem-canker


In [81]:
base_soybean.tail(10)

Unnamed: 0,date,plant-stand,precip,temp,hail,crop-hist,area-damaged,severity,seed-tmt,germination,...,sclerotia,fruit-pods,fruit-spots,seed,mold-growth,seed-discolor,seed-size,shriveling,roots,class
673,june,?,?,?,?,?,low-areas,?,?,?,...,?,?,?,?,?,?,?,?,?,2-4-d-injury
674,july,?,?,?,?,?,upper-areas,?,?,?,...,?,?,?,?,?,?,?,?,?,2-4-d-injury
675,august,?,?,?,?,?,whole-field,?,?,?,...,?,?,?,?,?,?,?,?,?,2-4-d-injury
676,september,?,?,?,?,?,scattered,?,?,?,...,?,?,?,?,?,?,?,?,?,2-4-d-injury
677,october,?,?,?,?,?,low-areas,?,?,?,...,?,?,?,?,?,?,?,?,?,2-4-d-injury
678,april,?,?,?,?,?,upper-areas,?,?,?,...,?,?,?,?,?,?,?,?,?,2-4-d-injury
679,april,lt-normal,?,lt-norm,?,diff-lst-year,scattered,?,?,?,...,?,dna,?,?,?,?,?,?,rotted,herbicide-injury
680,june,lt-normal,?,lt-norm,?,diff-lst-year,scattered,?,?,?,...,?,dna,?,?,?,?,?,?,rotted,herbicide-injury
681,april,lt-normal,?,lt-norm,?,same-lst-yr,whole-field,?,?,?,...,?,dna,?,?,?,?,?,?,rotted,herbicide-injury
682,june,lt-normal,?,lt-norm,?,same-lst-yr,whole-field,?,?,?,...,?,dna,?,?,?,?,?,?,rotted,herbicide-injury


* No código a seguir, está sendo utilizado o método `info()` no DataFrame `base_soybean`. Este método, pertencente à biblioteca **Pandas**, fornece informações concisas sobre o DataFrame, incluindo o número de entradas não nulas em cada coluna, o tipo de dado e a quantidade total de memória usada. Essa abordagem é útil para uma rápida análise descritiva do conjunto de dados relacionado à soja. Vale ressaltar que o uso de métodos como `info()` é crucial para entender a estrutura e a integridade dos dados, auxiliando em uma análise mais eficiente e na identificação de eventuais lacunas ou inconsistências no conjunto de dados.

In [82]:
base_soybean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 683 entries, 0 to 682
Data columns (total 36 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   date             683 non-null    object
 1   plant-stand      683 non-null    object
 2   precip           683 non-null    object
 3   temp             683 non-null    object
 4   hail             683 non-null    object
 5   crop-hist        683 non-null    object
 6   area-damaged     683 non-null    object
 7   severity         683 non-null    object
 8   seed-tmt         683 non-null    object
 9   germination      683 non-null    object
 10  plant-growth     683 non-null    object
 11  leaves           683 non-null    object
 12  leafspots-halo   683 non-null    object
 13  leafspots-marg   683 non-null    object
 14  leafspot-size    683 non-null    object
 15  leaf-shread      683 non-null    object
 16  leaf-malf        683 non-null    object
 17  leaf-mild        683 non-null    ob

* No código a seguir, está sendo acessada a propriedade **columns** do DataFrame **base_soybean** em Python. Essa operação é utilizada para listar as colunas presentes no conjunto de dados referente a soja. O uso da propriedade **columns** é comum em análise de dados, pois fornece uma visão rápida e direta das variáveis disponíveis no conjunto de dados. Esta operação é útil para entender a estrutura do DataFrame e facilita a seleção e manipulação posterior de dados específicos. Vale ressaltar que a clareza e simplicidade dessa abordagem são cruciais, seguindo a premissa de priorizar uma linguagem simples e direta.

In [83]:
base_soybean.columns

Index(['date', 'plant-stand', 'precip', 'temp', 'hail', 'crop-hist',
       'area-damaged', 'severity', 'seed-tmt', 'germination', 'plant-growth',
       'leaves', 'leafspots-halo', 'leafspots-marg', 'leafspot-size',
       'leaf-shread', 'leaf-malf', 'leaf-mild', 'stem', 'lodging',
       'stem-cankers', 'canker-lesion', 'fruiting-bodies', 'external-decay',
       'mycelium', 'int-discolor', 'sclerotia', 'fruit-pods', 'fruit-spots',
       'seed', 'mold-growth', 'seed-discolor', 'seed-size', 'shriveling',
       'roots', 'class'],
      dtype='object')

* No código a seguir, está sendo utilizado o método `describe()` em um DataFrame chamado `base_soybean`. Este método pertence à biblioteca **pandas** em Python e fornece estatísticas descritivas, como média, desvio padrão, mínimo, máximo, e quartis, sobre os dados contidos no DataFrame. A função `describe()` simplifica a análise exploratória de dados, oferecendo uma visão rápida e abrangente das características numéricas do conjunto de dados. Ao chamar essa função no DataFrame específico, `base_soybean`, obtemos informações estatísticas essenciais que facilitam a compreensão da distribuição e tendências dos dados relacionados à soja. Essa abordagem é valiosa para analistas de BI, como eu, que buscam insights iniciais sobre os conjuntos de dados com os quais estão trabalhando.

In [84]:
base_soybean.describe()

Unnamed: 0,date,plant-stand,precip,temp,hail,crop-hist,area-damaged,severity,seed-tmt,germination,...,sclerotia,fruit-pods,fruit-spots,seed,mold-growth,seed-discolor,seed-size,shriveling,roots,class
count,683,683,683,683,683,683,683,683,683,683,...,683,683,683,683,683,683,683,683,683,683
unique,8,3,4,4,3,5,5,4,4,4,...,3,5,5,3,3,3,3,3,4,19
top,september,normal,gt-norm,norm,yes,same-lst-two-yrs,low-areas,pot-severe,none,80-89,...,absent,norm,absent,norm,absent,absent,norm,absent,norm,brown-spot
freq,149,354,459,374,435,219,227,322,305,213,...,625,407,345,476,524,513,532,539,551,92


*  No código a seguir, está sendo utilizado o comando **base_soybean.dtypes** para verificar os tipos de dados das colunas no conjunto de dados referente à soja. Esse comando pertence à linguagem de programação Python e, especificamente, à biblioteca **pandas**. A função **dtypes** é empregada para fornecer informações sobre os tipos de dados presentes em cada coluna da base de dados, permitindo uma análise rápida e eficiente da estrutura do conjunto de dados. Essa abordagem é útil para identificar se os tipos de dados estão corretos, garantindo a consistência e a qualidade dos dados, aspectos cruciais para análises subsequentes no contexto de projetos de Business Intelligence e desenvolvimento Java Backend, áreas em que tenho experiência e especialização.

In [85]:
base_soybean.dtypes

date               object
plant-stand        object
precip             object
temp               object
hail               object
crop-hist          object
area-damaged       object
severity           object
seed-tmt           object
germination        object
plant-growth       object
leaves             object
leafspots-halo     object
leafspots-marg     object
leafspot-size      object
leaf-shread        object
leaf-malf          object
leaf-mild          object
stem               object
lodging            object
stem-cankers       object
canker-lesion      object
fruiting-bodies    object
external-decay     object
mycelium           object
int-discolor       object
sclerotia          object
fruit-pods         object
fruit-spots        object
seed               object
mold-growth        object
seed-discolor      object
seed-size          object
shriveling         object
roots              object
class              object
dtype: object

* No código a seguir, está sendo utilizado o método **isna()** em um DataFrame chamado **base_soybean**. Este método pertence à biblioteca **pandas** e é empregado para identificar valores ausentes no DataFrame. A função **sum()** é então aplicada para contar o número de valores ausentes em cada coluna. Em termos mais simples, essa linha de código verifica e contabiliza a quantidade de valores nulos em cada coluna do DataFrame **base_soybean**, proporcionando uma visão rápida sobre a presença de dados faltantes e auxiliando na tomada de decisões relacionadas à qualidade dos dados. Essa abordagem eficiente é crucial para garantir a integridade dos dados e contribuir para análises precisas no contexto de projetos de BI e desenvolvimento Java Backend.

In [86]:
base_soybean.isna().sum()

date               0
plant-stand        0
precip             0
temp               0
hail               0
crop-hist          0
area-damaged       0
severity           0
seed-tmt           0
germination        0
plant-growth       0
leaves             0
leafspots-halo     0
leafspots-marg     0
leafspot-size      0
leaf-shread        0
leaf-malf          0
leaf-mild          0
stem               0
lodging            0
stem-cankers       0
canker-lesion      0
fruiting-bodies    0
external-decay     0
mycelium           0
int-discolor       0
sclerotia          0
fruit-pods         0
fruit-spots        0
seed               0
mold-growth        0
seed-discolor      0
seed-size          0
shriveling         0
roots              0
class              0
dtype: int64

### <font color=orange>__Criando Variável que Contém as Informações da Linha 35__</font>

* Nesse código, estamos trabalhando com dados de soja. A linha de código em questão está criando uma variável chamada "atributos_previsores" que vai armazenar parte dos dados relacionados à soja. A expressão "base_soybean.iloc[:, 0:35].values" significa que estamos pegando as informações das 35 primeiras colunas da base de dados da soja. Esses dados serão usados para fazer previsões ou análises futuras relacionadas à soja. É como se estivéssemos selecionando as características iniciais dos dados da soja para usar em algum tipo de análise ou modelo.

In [94]:
atributos_previsores = base_soybean.iloc[:, 0:35].values

### <font color=orange><strong>Criando Variável que Contém as Respostas</strong></font>

Nesse código, estamos criando uma variável chamada "respostas" que vai guardar algumas informações. Ela está pegando dados de um conjunto de dados chamado "base_soybean" e selecionando apenas uma coluna específica, a coluna número 35. Esses dados selecionados estão sendo armazenados na variável "respostas" para serem usados posteriormente em algum tipo de análise ou processamento. É como se estivéssemos colocando em uma caixa as respostas de uma pesquisa que estão na 35ª coluna desse conjunto de dados.

In [102]:
respostas = base_soybean.iloc[:, 35].values

### <font color=orange><strong>Transformando os Dados em Formato legível por Máquinas</strong></font>

No código a seguir, está sendo realizado um processo de codificação de variáveis categóricas utilizando a biblioteca **LabelEncoder** do Python. O loop for percorre cada coluna (atributo) no conjunto de dados de previsores, representado por **atributos_previsores**. Dentro do loop, a função **fit_transform** do **label_encoder** é aplicada a cada coluna, atribuindo uma codificação numérica única para cada categoria presente nos dados. Isso é especialmente útil em algoritmos de aprendizado de máquina, pois muitos deles requerem entradas numéricas. O resultado é uma matriz de previsores onde as variáveis categóricas foram convertidas para valores numéricos, facilitando o processamento e a análise subsequente. Este procedimento é essencial para garantir que o modelo possa interpretar corretamente as características do conjunto de dados e realizar previsões precisas.

In [103]:
label_encoder = LabelEncoder()

for coluna in range(35):
    atributos_previsores[:, coluna] = label_encoder.fit_transform(atributos_previsores[:, coluna])

### <font color=orange><strong>Dividindo o Conjunto de Dados em 2 Partes</strong></font>

No código a seguir, está sendo realizado um particionamento dos dados para treinamento e teste em um modelo de aprendizado de máquina usando a linguagem Python. A função **train_test_split** da biblioteca **scikit-learn** é empregada para dividir os conjuntos de atributos previsores (**atributos_previsores**) e respostas (**respostas**) em dados de treinamento e teste. Os parâmetros utilizados na função incluem o tamanho do conjunto de teste, definido como 30% dos dados totais (**test_size=0.3**), e uma semente para garantir a reprodutibilidade dos resultados (**random_state=0**). Os conjuntos resultantes são denominados **X_treinamento**, **X_teste**, **y_treinamento**, e **y_teste**, representando os atributos e respostas de treinamento e teste, respectivamente. Essa técnica é crucial para avaliar a eficácia do modelo, permitindo testar sua generalização para dados não vistos durante o treinamento, contribuindo assim para um desenvolvimento mais robusto e confiável do modelo de aprendizado de máquina.

In [104]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split( atributos_previsores, respostas, test_size=0.3, random_state=0 )

### <font color=orange><strong>Criando um Modelo de Machine Learning</strong></font>

No código a seguir, está sendo utilizado o algoritmo de **Random Forest** para classificação. A biblioteca central neste trecho é o **scikit-learn**, que disponibiliza o classificador RandomForestClassifier. Aqui, é criada uma instância da classe RandomForestClassifier, especificando o número de árvores na floresta através do parâmetro n_estimators, que foi configurado como 100. Em seguida, o método **fit** é aplicado para treinar o modelo com os conjuntos de dados de treinamento (X_treinamento) e seus rótulos correspondentes (y_treinamento). Esse processo é fundamental para que o modelo aprenda padrões nos dados de treinamento e esteja apto a realizar previsões. Vale ressaltar que o sucesso deste algoritmo reside na combinação e diversificação de múltiplas árvores de decisão, mitigando overfitting e aumentando a robustez do modelo preditivo.

In [105]:
floresta = RandomForestClassifier(n_estimators=100)
floresta.fit(X_treinamento, y_treinamento)

### <font color=orange><strong>Realizando Previsões Utilizando um Determinado Modelo</strong></font>

No código a seguir, está sendo realizado um processo de previsão utilizando um modelo de Machine Learning. A variável **resultado_previsoes** armazena as previsões geradas pelo modelo de floresta aleatória (**floresta**), que foi treinado anteriormente com dados de treino (**X_teste**). Posteriormente, essas previsões são exibidas no console por meio da função **print**, destacando as previsões obtidas. Esse tipo de operação é comum em tarefas de aprendizado de máquina, onde o modelo treinado é aplicado a novos dados para fazer previsões com base no padrão aprendido durante o treinamento. O código demonstra a simplicidade dessa etapa de predição, sendo essencial para avaliar o desempenho do modelo em dados não vistos durante o treinamento.

In [106]:
resultado_previsoes = floresta.predict(X_teste)
print("Previsões:", resultado_previsoes)

Previsões: ['brown-spot' 'phytophthora-rot' 'herbicide-injury' 'purple-seed-stain'
 'cyst-nematode' 'bacterial-blight' 'brown-stem-rot' 'bacterial-pustule'
 'brown-spot' 'alternarialeaf-spot' 'charcoal-rot' 'bacterial-blight'
 'anthracnose' 'anthracnose' 'alternarialeaf-spot' 'brown-spot'
 'alternarialeaf-spot' 'alternarialeaf-spot' 'rhizoctonia-root-rot'
 'phytophthora-rot' 'anthracnose' 'brown-stem-rot' 'brown-spot'
 'phyllosticta-leaf-spot' 'diaporthe-stem-canker' 'brown-spot'
 'anthracnose' 'diaporthe-stem-canker' 'bacterial-pustule'
 'phytophthora-rot' 'frog-eye-leaf-spot' 'alternarialeaf-spot'
 'phyllosticta-leaf-spot' 'frog-eye-leaf-spot' 'brown-spot'
 'bacterial-pustule' 'brown-stem-rot' 'charcoal-rot' 'brown-spot'
 'brown-spot' 'brown-stem-rot' 'alternarialeaf-spot' 'phytophthora-rot'
 'anthracnose' 'bacterial-blight' '2-4-d-injury' 'alternarialeaf-spot'
 'phyllosticta-leaf-spot' 'phyllosticta-leaf-spot' 'alternarialeaf-spot'
 'brown-spot' 'brown-stem-rot' 'phytophthora-rot' '

### <font color=orange><strong>Avaliando Modelo de Machine Learning</strong></font>

No código a seguir, está sendo realizado o cálculo da **matriz de confusão** para avaliar o desempenho de um modelo de machine learning. A função **confusion_matrix** da biblioteca **sklearn.metrics** é utilizada, recebendo como parâmetros os rótulos reais (**y_teste**) e as previsões do modelo (**resultado_previsoes**). A matriz resultante é então impressa na tela para fornecer uma visão detalhada da performance do modelo. Essa matriz é uma tabela que mostra a quantidade de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos, permitindo uma análise clara da precisão e sensibilidade do classificador. Este tipo de avaliação é crucial em tarefas de classificação, onde a compreensão do impacto de erros do modelo é essencial para ajustes e otimizações. A utilização de uma biblioteca consolidada como o **scikit-learn** facilita a implementação eficiente dessas métricas, contribuindo para uma análise mais robusta do desempenho do modelo de machine learning em questão.

In [107]:
matriz_confusao = confusion_matrix(y_teste, resultado_previsoes)
print("Matriz de Confusão:")
print('-' * 60)
print(matriz_confusao)

Matriz de Confusão:
------------------------------------------------------------
[[ 3  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0 26  0  0  0  0  0  0  0  0  0  0  1  0  0  0  0  0  0]
 [ 0  0 14  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  8  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  7  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0 22  0  0  0  0  0  0  0  0  1  0  0  0  0]
 [ 0  0  0  0  0  0 13  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  9  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  5  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  6  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  8  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  5  0  0  0  0  0  0  0]
 [ 0  3  0  0  0  2  0  0  0  0  0  0 21  0  1  0  0  0  0]
 [ 0  0  0  0  0  0  0  0  0  0  0  0  0  3  0  0  0  0  0]
 [ 0  0  0  0  0  2  0  0  0  0  0  0  0  0  5  0  0  0  0]
 [ 0  0  0  0  0  0

### <font color=orange><strong>Calculando Taxa de Acerto do Modelo de Machine Learning</strong></font>


No código a seguir, está sendo calculada a taxa de acerto de um modelo por meio da função `accuracy_score` da biblioteca scikit-learn em Python. A variável `taxa_acerto` armazena o resultado desse cálculo, que compara as previsões (resultado_previsoes) do modelo com os valores reais (`y_teste`). Em seguida, a taxa de acerto é impressa no console usando a função print, formatando o resultado para exibir a porcentagem com duas casas decimais. Esse trecho de código é útil para avaliar o desempenho de modelos de **machine learning**, fornecendo uma medida quantitativa da precisão das previsões em relação aos dados de teste.

In [109]:
taxa_acerto = accuracy_score(y_teste, resultado_previsoes)
print("Taxa de acerto: {:.2%}".format(taxa_acerto))

Taxa de acerto: 95.12%


### <font color=orange><strong>Calculando Taxa de Erro do Modelo de Machine Learning</strong></font>

No código a seguir, está sendo calculada a **taxa de erro** em uma aplicação em Python. A variável **taxa_acerto** representa a porcentagem de acertos, e a **taxa_erro** é calculada como a diferença entre 1 e a taxa de acerto. Em seguida, a taxa de erro é formatada para exibição, utilizando a função **print** para mostrar o resultado com precisão de duas casas decimais em formato percentual. Essa abordagem fornece uma visão clara da performance do sistema, expressando a porcentagem de erro de uma maneira facilmente compreensível. Este código é útil em contextos de avaliação de modelos ou sistemas que requerem uma métrica de desempenho, contribuindo para a análise e tomada de decisões estratégicas.

In [110]:
taxa_erro = 1 - taxa_acerto
print("Taxa de erro: {:.2%}".format(taxa_erro))

Taxa de erro: 4.88%
