# **Métricas**
### By Tah Na Teia





# PRECISION

## Definição

<b> Precisão mede a proporção de instâncias que foram classificadas como positivas e que realmente são positivas </b>

Em outras palavras, a precisão mede a quantidade de vezes que o seu modelo acerta em relação ao total de vezes que ele tenta acertar.






# Fórmula
<i>A precisão é o número de exemplos que seu modelo previu como positivos e acertou, dividido pelo número total de exemplos que ele previu como positivos:


![Descrição da imagem](https://mariofilho.com/img/f1_score/0.png)

Verdadeiros Positivos (VP): O número de instâncias que o modelo corretamente classificou como positivas.
Falsos Positivos (FP): O número de instâncias que o modelo classificou como positivas, mas que na verdade são negativas.


# CASE COMPANHIAS AÉREAS

1. **Fonte de dados**: [Conjunto de dados de companhias aéreas para prever um atraso](https://www.kaggle.com/datasets/jimschacko/airlines-dataset-to-predict-a-delay*)
2. **Biblioteca**: [Precision](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html#sklearn.metrics.precision_score)


# DICIONÁRIO

| Nome do Campo   | Descrição                                       |
|-----------------|-------------------------------------------------|
| id              | Número de série                                 |
| Airline         | Diferentes tipos de companhias aéreas comerciais|
| Flight          | Tipos de aeronaves                              |
| AirportFrom     | Aeroporto de origem                             |
| AirportTo       | Aeroporto de destino                            |
| DayOfWeek       | Indica o dia da semana                          |
| Time            | Tempo gasto                                     |
| Length          | Comprimento                                      |
| Delay           | Se o voo está atrasado (1) ou (0) não                   |


# OBTENDO O DATASET


In [None]:
from IPython.display import clear_output
!echo "Starting Download and environment configuration "
!rm -rf /content/sample_data
!wget -O download.zip "https://storage.googleapis.com/kaggle-data-sets/2285093/3839176/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240904%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240904T182646Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=bdc9ed028c2cdabd81cff1070085b490505fb03468adc93e4a4c6c1aaeb617427cb5a5e4042b3bc6a2482e75b5998740fc1aabca1e76283b9977b3c82f2e10714d6b5b09dedf9f35a2602cfb447525ba801440275aab796cee6c0338227a2323020d0c1d9b0ac557b04934adec3f7834a8e4515faf6fb312b4268c9a0954e32fddcf3839441f7dadbb62a88a08ac431cbabae424a6941feb4c18e744a49a645416ab34ad0c61426234450ae0c8a14fee142b52fd7107f595c0e3cea203a452d4f112c0c27903c300a76333b611ac434a854549a0173c561b100649311bbb43ffdaefa6933d115672077f49c1640ebeafbea4b93a2ef7a24208278a5276681ff4"
!sleep 2
!unzip /content/download.zip -d /content/
!mkdir dataset/
!mv /content/*.csv dataset/
!rm -rf /content/download.zip
clear_output()
!echo "Settings completed successfully.."

# Bibliotecas

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import precision_score
import os
import pandas as pd
import numpy as np


# OBTENDO O DATASET

In [None]:
dataset_folder = 'dataset'
files = os.listdir(dataset_folder)

csv_files = [f for f in files if f.endswith('.csv')]
if not csv_files:
    print("Nenhum arquivo CSV encontrado na pasta 'dataset'.")
else:
    first_csv = csv_files[0]
    csv_path = os.path.join(dataset_folder, first_csv)

    df = pd.read_csv(csv_path)
    print(f"Arquivo CSV encontrado: {first_csv}")

In [None]:
df.head(5)

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.isnull().sum()


In [None]:
df['Delay'].unique()

In [None]:
# Verificando se a classe level esta ou não balançeada
# Calcular a proporção das classes
class_proportions = df['Delay'].value_counts(normalize=True)
print("Proporção das Classes:")
print(class_proportions)



#### Inferência:
1. Há um desiquilibrio bem superficial entre as classes de atraso ou não, quase irrisório, mas ainda sim, um desiquilibrio.

---



# PROBLEMA
1. Dado os valores do voo (qual companhia aérea e que tipo de aeronave é), aeroporto de saída, aeroporto de destino, tempo, peso e dias da semana, classifique se o voo estará ou não atrasado.
2. Preveja o resultado usando qualquer modelo de classificação.
3. Utilize o método de avaliação PRECISION.


In [None]:
# primeira etapa é separar os dados em target e explicativas

df_explicativa = df[['Airline', 'Flight', 'AirportFrom', 'AirportTo','DayOfWeek', 'Time', 'Length']]
df_alvo = df[['Delay']]

In [None]:
df_alvo

In [None]:
df_explicativa
# a nossa variavel (e novo dataframe) df_expectativa, possui alguns atributos que são, na verdade, categóricos.
#precisamos transformar essas categorias em tipos númericos.
le = LabelEncoder()
df_explicativa['Airline'] = le.fit_transform(df_explicativa['Airline'])
df_explicativa['AirportFrom'] = le.fit_transform(df_explicativa['AirportFrom'])
df_explicativa['AirportTo'] = le.fit_transform(df_explicativa['AirportTo'])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df_explicativa, df_alvo, test_size=0.2, random_state=42)

In [None]:
# Instanciação do modelo
model = GradientBoostingClassifier(n_estimators=250)


In [None]:
# Treinamento do modelo
model.fit(X_train, y_train)


In [None]:
# Predição
y_pred = model.predict(X_test)
y_pred

In [None]:
# Calcular a Precisão
precision = precision_score(y_test, y_pred)
print(f'Precisão de: {precision:.2f}')

#### Inferência:
1. O precision_score de 0,67 indica que, no seu modelo de classificação, aproximadamente 67% das previsões positivas feitas pelo modelo são realmente corretas. Em outras palavras, quando o modelo prevê a classe positiva, há uma chance de 67% de que essa previsão esteja correta.



# Testando o modelo

In [None]:
df.iloc[37].to_frame().T

In [None]:
novo_valor = df_explicativa.iloc[37].to_frame().T
model.predict(novo_valor)

In [None]:

Airline = 'PT'
Flight = '351'
AirportFrom = 'SP'
AirportTo = 'RJ'
DayOfWeek = 2
Time = 1439
Length = 100


novo_valor = pd.DataFrame({
    'Airline': [Airline],
    'Flight': [Flight],
    'AirportFrom': [AirportFrom],
    'AirportTo': [AirportTo],
    'DayOfWeek': [DayOfWeek],
    'Time': [Time],
    'Length': [Length]})

novo_valor['Airline'] = le.fit_transform(novo_valor['Airline'])
novo_valor['AirportFrom'] = le.fit_transform(novo_valor['AirportFrom'])
novo_valor['AirportTo'] = le.fit_transform(novo_valor['AirportTo'])

if model.predict(novo_valor)[0] == 0:
  print('Não vai se atrasar!')
else:
  print('Vai se atrasar!')