# **Métricas**
### By Tah Na Teia





# Acurácia

## Definição

<b> O quanto o seu modelo está acertando, em relação aos outros </b>

Em uma métrica de modelos preditivos, a acurácia se dá pelo número de acertos(positivos) dividido pelo número total de exemplos.





# Fórmula
<i> Acurácia = (Número de classificações corretas / Número total de classificações) * 100 </i>

![Descrição da imagem](https://mariofilho.com/img/acuracia/0.png)



# CASE ÁREA DA SAÚDE

1. **Fonte de dados**: [Detecção de Câncer de Pulmão](https://www.kaggle.com/datasets/thedevastator/cancer-patients-and-air-pollution-a-new-link)
2. **Biblioteca**: [Acurácia](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html)


# DICIONÁRIO
| Nome do Campo               | Descrição                               |
|-----------------------------|-----------------------------------------|
| index                       | Índice dos registros. (1000 valores não nulos, int64)  |
| Patient Id                  | Identificação do paciente. (1000 valores não nulos, object) |
| Age                         | Idade do paciente. (1000 valores não nulos, int64)       |
| Gender                      | Gênero do paciente. (1000 valores não nulos, int64)      |
| Air Pollution               | Nível de exposição à poluição do ar. (1000 valores não nulos, int64) |
| Alcohol use                 | Nível de uso de álcool. (1000 valores não nulos, int64)  |
| Dust Allergy                | Nível de alergia à poeira. (1000 valores não nulos, int64) |
| OccuPational Hazards        | Nível de riscos ocupacionais. (1000 valores não nulos, int64) |
| Genetic Risk                | Nível de risco genético. (1000 valores não nulos, int64) |
| chronic Lung Disease        | Nível de doença pulmonar crônica. (1000 valores não nulos, int64) |
| Balanced Diet               | Nível de dieta equilibrada. (1000 valores não nulos, int64) |
| Obesity                     | Nível de obesidade. (1000 valores não nulos, int64)      |
| Smoking                     | Nível de tabagismo. (1000 valores não nulos, int64)      |
| Passive Smoker              | Nível de exposição ao fumo passivo. (1000 valores não nulos, int64) |
| Chest Pain                  | Nível de dor no peito. (1000 valores não nulos, int64)   |
| Coughing of Blood           | Nível de tosse com sangue. (1000 valores não nulos, int64) |
| Fatigue                     | Nível de fadiga. (1000 valores não nulos, int64)         |
| Weight Loss                 | Nível de perda de peso. (1000 valores não nulos, int64)  |
| Shortness of Breath         | Nível de falta de ar. (1000 valores não nulos, int64)    |
| Wheezing                    | Nível de chiado no peito. (1000 valores não nulos, int64) |
| Swallowing Difficulty       | Nível de dificuldade de engolir. (1000 valores não nulos, int64) |
| Clubbing of Finger Nails    | Nível de baqueteamento digital. (1000 valores não nulos, int64) |
| Frequent Cold               | Frequência de resfriados. (1000 valores não nulos, int64) |
| Dry Cough                   | Frequência de tosse seca. (1000 valores não nulos, int64) |
| Snoring                     | Frequência de ronco. (1000 valores não nulos, int64)     |
| Level                       | Nível de alguma característica ou condição do paciente. (1000 valores não nulos, object) |


# OBTENDO O DATASET


In [None]:
from IPython.display import clear_output
!echo "Starting Download and environment configuration "
!rm -rf /content/sample_data
!wget -O download.zip "https://storage.googleapis.com/kaggle-data-sets/2636109/4510352/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240903%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240903T125842Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=a66aa566cb5c3d0d2efc15b51cd54a4e9e42348095018d5329026a1030d4500ead46dde63f8ecd7cb0c3272cc9e216b06ad8afdd8495f52ed94ba3659e5a340a28e7738cf213880f91e395769fec45c55df502b9a709c003af636a1fe76faa1af1af2db83eac0ea320fc3f9529ff9a438e22494f7f12d6cdb0138cebb24bc4246407a036d306c886291b6acb6514283af06190408a2cb695d1cca3d5e3c04a4cf8e60ea15481c5a1a17095f5bbda6a3dbf21099e40292da480da813288254a529a1e764cd0c8005f0bb19797cd557481addb75de47e3615cf658907a214bebec203c2a559737e3754e0519f2ebf2640e5bc5b188947e364ed6e9237213d49787"
!sleep 2
!unzip /content/download.zip -d /content/
!mkdir dataset/
!mv /content/*.csv dataset/
!rm -rf /content/download.zip
clear_output()
!echo "Settings completed successfully.."

# Bibliotecas

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

import os
import pandas as pd
import numpy as np


# OBTENDO O DATASET

In [None]:
dataset_folder = 'dataset'
files = os.listdir(dataset_folder)

csv_files = [f for f in files if f.endswith('.csv')]
if not csv_files:
    print("Nenhum arquivo CSV encontrado na pasta 'dataset'.")
else:
    first_csv = csv_files[0]
    csv_path = os.path.join(dataset_folder, first_csv)

    df = pd.read_csv(csv_path)
    print(f"Arquivo CSV encontrado: {first_csv}")

In [None]:
df.head(5)

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df['Level'].unique()

In [None]:
# Verificando se a classe level esta ou não balançeada
# Calcular a proporção das classes
class_proportions = df['Level'].value_counts(normalize=True)
print("Proporção das Classes:")
print(class_proportions)



#### Inferência:
1. As proporções das classes estão bastante próximas uma da outra, o que sugere um equilíbrio razoável entre as classes. A diferença máxima entre as proporções das classes é de 6.2% (High vs. Low).
2. Isso geralmente indica que o conjunto de dados está bem balanceado para treinamento de modelos de aprendizado de máquina.

---



# PROBLEMA
1. Dado os valores deidade, genero, risco genetico, doença de pulmão cronica, tabagismo, exposição a fumaça, fatiga, perda de peso, e tosse seca, qual é pontencial risco de cancer de pulmão do paciente?
2. Preveja o resultado usando qualquer modelo de classificação.
3. Avalie o resultado usando apenas Acurácia

In [None]:
# primeira etapa é separar os dados em target e explicativas

df_explicativa = df[['Age', 'Gender', 'Genetic Risk', 'chronic Lung Disease', 'Smoking', 'Passive Smoker', 'Fatigue', 'Weight Loss', 'Dry Cough']]
df_alvo = df[['Level']]

In [None]:
df_explicativa
#não encontrei nenhuma explicação dos valores de 1 e 2 para a coluna de genero.
#para nosso trabalho, vamos supor que 1 seja masculino e 2 que seja feminino.


In [None]:
# Dividindo os dados
X_train, X_test, y_train, y_test = train_test_split(df_explicativa, df_alvo, test_size=0.2, random_state=42)

In [None]:
# Instanciação do modelo
tree = RandomForestClassifier(random_state=42)

In [None]:
# Treinamento do modelo
tree.fit(X_train, y_train)


In [None]:
# Predição
y_pred = tree.predict(X_test)
y_pred

In [None]:
# Avaliação do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

#### Inferência: Um valor de acurácia de 1.0 (ou 100%) em um modelo de classificação significa que o modelo classificou corretamente todas as amostras do conjunto de teste. Em outras palavras, não houve nenhum erro de classificação; todas as previsões feitas pelo modelo foram corretas.

# Testando o modelo

In [None]:
df.iloc[37].to_frame().T

In [None]:
df_explicativa

In [None]:
novo_valor = df_explicativa.iloc[37].to_frame().T
tree.predict(novo_valor)

In [None]:
novo_valor

In [None]:

age = 24
gender = 1
genetic_risk = 1
chronic_lung_disease = 1
smoking = 9
passive_smoker = 9
fatigue = 9
weight_loss = 5
Dry_Cough = 5

novo_valor = pd.DataFrame(data=[[age, gender, genetic_risk, chronic_lung_disease, smoking, passive_smoker, fatigue, weight_loss, Dry_Cough]], columns=[['Age', 'Gender', 'Genetic Risk', 'chronic Lung Disease', 'Smoking', 'Passive Smoker', 'Fatigue', 'Weight Loss', 'Dry Cough']])
tree.predict(novo_valor)