[<- Anterior](recall.ipynb) | [Próximo ->](classification_report.ipynb)

# F1-Score

A métrica de F1-Score é uma métrica que calcula a média harmonica entre a [precisão](precision.ipynb) e a [revocação](recall.ipynb). Essa métrica é medida em uma escala que varia entre 0 e 1, que pode ser interpetada como a forma decimal de uma porcentagem.

**O que será abordado**

- Imports
- Dados de teste
- Divisão dos dados
- Modelo
- F1-Score

> AVISO: Temas relacionados à divisão dos dados não serão aprofundados nesse documento, porém, explicações sobre esse processo podem ser encontradas na pasta [Validacao](../Validacao/README.md)

> AVISO: Temas relacionados à criação de modelos de Classificação não serão aprofundados nesse documento, porém, explicações sobre esse processo podem ser encontradas na pasta [Modelos/Classificação](../Modelos/Classificacao/README.md)

# Imports

In [1]:
# Import da função train_test_split
from sklearn.model_selection import train_test_split

# Import do dataset padrão para identificação de espécies de flores
from sklearn.datasets import load_iris

# Import da Classe LinearRegression -> Utilizada para criar o modelo de regressão logística
from sklearn.linear_model import LogisticRegression

# Import da função f1_score -> Utilizada para medir f1-score
from sklearn.metrics import f1_score

# Dados de teste

Nessa seção será apresentado o dataset utilizado para desenvolver o modelo de Regressão Logística que será criado nesse documento. Isso será feito através da criação de um dataframe Pandas que recebe um dataset padrão do scikit-learn.

In [2]:
# Obtém os dados do dataset na forma de um dataset
data = load_iris(as_frame=True).frame
data

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


Explicação dos dados:    

O dataset possui 4 colunas de Features que representam caracteristicas de um conjunto de plantas. Essas caracteristicas são:

- sepal length (cm): Comprimento da Sépala medido em centimentros
- sepal width (cm): Largura da Sépala medida em centimetros
- petal length (cm): Comprimento da Pétala medido em centimentros
- petal width (cm): Largura da Pétala medida em centimetros

A ultima coluna do Dataframe e composta por numeros naturais que vão de 0 a 2, de forma que, cada numero se refere a uma espécie de flor, e corresponde ao valor que deve ser previsto pelo modelo. As espécies representadas nessa coluna são:

- 0: Iris Setosa
- 1: Iris Versicolour
- 2: Iris Virginica

# Divisão dos dados

Conforme abordado no tópico sobre a [validação](../Validacao/README.md) de um modelo, é necessário separar os dados que serão utilizados para treinar o modelo dos dados utilizados para realizar testes de desempenho.

Portanto, nessa sessão será desenvolvido um código que possa separar os dados de treino e de teste do modelo, para que eventualmente os dados de teste possam ser usados para medir a qualidade do modelo.

In [3]:
# Separa as features e os targets
x = data.drop(columns='target')
y = data['target']

# realiza a divisão dos dados de treino e dos dados de teste
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.8, random_state=42)

Com isso foram criados 4 datasets sendo:

- **x_train** -> features de treino
- **y_train** -> targets de treino
- **x_test** -> features de teste
- **y_test** -> targets de teste

# Modelo

A F1-Score é uma métrica utilizada para avaliar modelos de classificação. Portanto, seu uso depende da criação prévia de um modelo.

Essa sessão é dedicada à criação de um modelo de regressão logistica, que será treinado utilizando os dados de treino criados na sessão Divisão dos dados.

In [4]:
# Criação de um modelo de regressão linear com o nome 'model'
model = LogisticRegression()

# Treino do Modelo
model.fit(x_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,100


Com a execução desse processo foi criado e treinado um modelo com o nome 'model', que pode ser avaliado com a métrica de f1-score.

# F1-Score

A avaliação com a métrica de F1-Score pode ser realizada com a função `f1_score()` da biblioteta scikit-learn. Essa função recebe dois parâmetros principais, sendo:

- **y_true** = Valores reais de teste   
- **y_pred** = Valores previstos pelo modelo

Um terceiro paramêtro que vale a pena explorar nessa função é o parametro average, que determina como a função deve se comportar em casos **multiclasse**, esse parametro pode receber os seguintes valores:

- **Macro**: Calcula a precisão de cada classe e depois cacula a média das precisões
- **Micro**: Soma todos os Verdadeios Positivos e Falsos Positivos antes de realizar o calculo
- **Weighted**: Calcula a média ponderada pelo tamanho de cada amostra

Veja um exemplo de seu uso abaixo:

In [None]:
# Realiza previsões para medir o desempenho do modelo
pred = model.predict(x_test)

# obtém dados de avaliação do modelo 
f1 = f1_score(y_test, pred, average='macro')

# Exibe os dados de F1-Score
print(f'A f1-score do modelo é: {f1}')

A f1-score do modelo é: 1.0


No código acima foi utilizado o método `.predict()` do modelo criado, o retorno dessa função foi armazenado na variável 'pred' e contém as previsões realizadas pelo modelo.

Após realizar as previsões do modelo é possível avaliar a acurácia através da função `f1_score()`, o retorno da função é a precisão decimal do modelo.

O resultado obtido mostra um valor de 1.0 indicando que o modelo acertou 100% das previsões realizadas no conjunto de teste.

#
[<- Anterior](recall.ipynb) | [Próximo ->](classification_report.ipynb)