# **Métricas**
### By Tah Na Teia





# AUC - (Área sob a curva)

## Definição

<b> A AUC é calculada a partir da Curva ROC </b>

AUC, que significa Area Under the Curve (Área Sob a Curva), é uma métrica usada para avaliar a performance de modelos de classificação, especialmente em problemas de classificação binária (onde há duas classes, como "positivo" e "negativo").

### ROC
A Curva ROC chama-se Curva Caracteristica de Operação do Receptor. Ela representa, graficamente, a taxa de verdadeiros positivos versus a taxa de falsos positivos, em diferentes limiares de decisão.






# Fórmula
<i> Curva ROC: A Curva ROC é um gráfico plotado entre:

Taxa de Verdadeiros Positivos (TPR) no eixo y.
Taxa de Falsos Positivos (FPR) no eixo x. </i>

![Descrição da imagem](https://machinelearningmastery.com/wp-content/uploads/2019/10/ROC-Curve-of-a-Logistic-Regression-Model-and-a-No-Skill-Classifier.png)


# Exemplo Prático
Se você tem três pontos na curva ROC, como:

1. (0,0): Começo da curva
2. (0.2, 0.6): Primeiro ponto calculado
3. (1.0, 1.0): Fim da curva

<i> Você pode dividir a área em dois trapézios e calcular a soma das áreas de cada um usando a fórmula dos trapézios. </i>



# CASE NASA

1. **Fonte de dados**: [Detecção de Asteroides potencialmente perigosos para o planeta Terra](https://www.kaggle.com/datasets/ivansher/nasa-nearest-earth-objects-1910-2024)
2. **Biblioteca**: [AUC](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.auc.html)


# DICIONÁRIO
| Nome do Campo               | Descrição                                      |
|-----------------------------|-----------------------------------------------|
| neo_id                      | Identificador único para cada asteroide.      |
| name                        | Nome dado pela NASA.                          |
| absolute_magnitude          | Descreve a luminosidade intrínseca.           |
| estimated_diameter_min      | Diâmetro mínimo estimado em quilômetros.      |
| estimated_diameter_max      | Diâmetro máximo estimado em quilômetros.      |
| orbiting_body               | Planeta ao redor do qual o asteroide orbita.  |
| relative_velocity           | Velocidade relativa à Terra em km/h.          |
| miss_distance               | Distância em quilômetros perdida.            |
| is_hazardous                | Característica booleana que indica se o asteroide é perigoso ou não. |


# OBTENDO O DATASET


In [None]:
from IPython.display import clear_output
!echo "Starting Download and environment configuration "
!rm -rf /content/sample_data
!wget -O download.zip "https://storage.googleapis.com/kaggle-data-sets/5410371/8984243/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240904%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240904T135217Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=762f6a89d5dfe812a56bd8cd951d54e22c285a2afea33f228aca0de8eee8717006f1dc8916b5a822970fc28d34633a49d8fd0e2aef33acd5819a384971bbf78bc10269ddb0a3a4dccfaea3f6b7f94b2f469cca93fd5fdfb012426df408530eeb5afc012fa339717f2ca03997aeeae9bd678defc75a15046c46db9728f07abb6102fb43f3f997b49568824532eebcf2568c674a4a5b3fb3b32c4f72da6d0f4c0da902b4a364562c5b8ed145a7f9c16ac164e5b8b0b7b0329b82f5df5d9f3529ea4abf25496ef8c24d247ffc51b37de8b223a14348f4af151e2b41b4dfbd8873155a5747c48161c0a581bba9d3ea92c06243f26e875cdb8c41e16adadb1efa17de"
!sleep 2
!unzip /content/download.zip -d /content/
!mkdir dataset/
!mv /content/*.csv dataset/
!rm -rf /content/download.zip
clear_output()
!echo "Settings completed successfully.."

# Bibliotecas

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import roc_curve, roc_auc_score

import matplotlib.pyplot as plt
import seaborn as sns

import os
import pandas as pd
import numpy as np


# OBTENDO O DATASET

In [None]:
dataset_folder = 'dataset'
files = os.listdir(dataset_folder)

csv_files = [f for f in files if f.endswith('.csv')]
if not csv_files:
    print("Nenhum arquivo CSV encontrado na pasta 'dataset'.")
else:
    first_csv = csv_files[0]
    csv_path = os.path.join(dataset_folder, first_csv)

    df = pd.read_csv(csv_path)
    print(f"Arquivo CSV encontrado: {first_csv}")

In [None]:
df.head(5)

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.isnull().sum()


#### Inferência: alguns altributos não possuem observações, são nulos. Podemos ver que são três, absolute_magnitude, estimad_diameter_min, estimated_diameter_max. Como são valores pequenos (28) perto do total de observações (mais de 30 mil), irei apenas imputar esses valores.

In [None]:
#removendo os nulos
df = df.dropna()


In [None]:
df['is_hazardous'].unique()

In [None]:
# Verificando se a classe level esta ou não balançeada
# Calcular a proporção das classes
class_proportions = df['is_hazardous'].value_counts(normalize=True)
print("Proporção das Classes:")
print(class_proportions)



#### Inferência:
1. Há um claro desequilíbrio, onde a maioria dos exemplos pertence à classe False. Esse tipo de desequilíbrio é comum em problemas de classificação, especialmente em casos onde o evento positivo (a classe True) é raro, como identificar asteroides perigosos.

---



# PROBLEMA
1. Dado os valores magnitude absoluta, diâmetro mínimo e máximo, velocidade relativa em relação a Terra, e Distância em quilômetros perdida em relação a Terra, classifique se o objeto espacial é perigoso ou não para o planeta.
2. Preveja o resultado usando qualquer modelo de classificação.
3. Utilize a CURVA ROC para visualizar a taxa de positivos versus falso negativos.
3. Avalie o resultado usando apenas AUC.

In [None]:
# primeira etapa é separar os dados em target e explicativas

df_explicativa = df[['absolute_magnitude', 'estimated_diameter_min', 'estimated_diameter_max', 'relative_velocity','miss_distance']]
df_alvo = df[['is_hazardous']]

In [None]:
df_alvo

In [None]:
#precisamos transformar o booleano em int

df_alvo['is_hazardous'] = df_alvo['is_hazardous'].map({False: 0, True: 1})
df_alvo

In [None]:
# Dividindo os dados
X_train, X_test, y_train, y_test = train_test_split(df_explicativa, df_alvo, test_size=0.2, random_state=42)

In [None]:
#normalizar os dados de treino
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# Instanciação do modelo
tree = RandomForestClassifier(random_state=42)

In [None]:
# Treinamento do modelo
tree.fit(X_train, y_train)


In [None]:
# Predição
y_pred = tree.predict_proba(X_test)[:, 1]
y_pred

In [None]:
# Calcular a AUC
auc = roc_auc_score(y_test, y_pred)
print(f'AUC: {auc:.2f}')

In [None]:
# Calcular a Curva ROC
fpr, tpr, thresholds = roc_curve(y_test, y_pred)

In [None]:
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='blue', label=f'AUC = {auc:.2f}')
plt.plot([0, 1], [0, 1], color='red', linestyle='--')  # Linha diagonal (classificador aleatório)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.xlabel('Taxa de Falsos Positivos (FPR)')
plt.ylabel('Taxa de Verdadeiros Positivos (TPR)')
plt.title('Curva ROC')
plt.legend(loc="lower right")
plt.grid(True)
plt.show()

#### Inferência:
1. Um AUC de 0.95 indica que o modelo tem um excelente desempenho. O valor de AUC varia entre 0 e 1, onde 1 representa um modelo perfeito e 0.5 representa um modelo que não tem nenhuma capacidade discriminativa (equivalente a um chute aleatório). Um AUC de 0.95 está muito próximo de 1, o que significa que o modelo tem uma forte capacidade de discriminar entre as classes "perigoso" e "não perigoso".

2. A curva ROC está bem próxima do canto superior esquerdo do gráfico, o que reforça a ideia de que o modelo tem uma alta taxa de verdadeiros positivos (sensibilidade) e uma baixa taxa de falsos positivos. Em outras palavras, o modelo está fazendo um bom trabalho em identificar corretamente os asteroides perigosos e ao mesmo tempo minimizando os falsos alarmes.

# Testando o modelo

In [None]:
df.iloc[37].to_frame().T

In [None]:
novo_valor = df_explicativa.iloc[37].to_frame().T
tree.predict(novo_valor)

In [None]:

absolute_magnitude = 5
estimated_diameter_min = 18
estimated_diameter_max = 200
relative_velocity = 600
miss_distance = 100000

novo_valor = pd.DataFrame(data=[[absolute_magnitude, estimated_diameter_min, estimated_diameter_max, relative_velocity, miss_distance]], columns=[['absolute_magnitude', 'estimated_diameter_min', 'estimated_diameter_max', 'relative_velocity','miss_distance']])
df[['absolute_magnitude', 'estimated_diameter_min', 'estimated_diameter_max', 'relative_velocity','miss_distance']]

if tree.predict(novo_valor)[0] == 0:
  print('Não é perigoso')
else:
  print('É perigoso')