# **Métricas**
### By Tah Na Teia





# Recall

## Definição

<b> Ela avalia a capacidade do modelo de identificar corretamente todas as instâncias positivas presentes nos dados. </b>

Uma das principais razões pela qual o Recall é tão importante é a sua relação com a detecção de casos positivos. Em problemas em que a classe positiva possui um impacto relevante, como a detecção de fraudes ou doenças, é essencial maximizar o Recall para garantir que o modelo seja capaz de identificar corretamente a maioria desses casos.





# Fórmula
<i> O recall é a razão entre o número de verdadeiros positivos e o número total de casos positivos.</i>

![Descrição da imagem](https://mariofilho.com/img/f1_score/3.png)



# CASE CHURN
1. **Fonte de dados**: [Prever a possibilidade de abandono de um cliente](https://www.kaggle.com/datasets/shrutimechlearn/churn-modelling)
2. **Biblioteca**: [Recall](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html)


# DICIONÁRIO

| Nome do Campo     | Descrição                                                        |
|-------------------|------------------------------------------------------------------|
| RowNumber         | Números das linhas de 1 a 10000.                                 |
| CustomerId        | IDs únicos para identificação de clientes do banco.              |
| Surname           | Sobrenome do cliente.                                            |
| CreditScore       | Pontuação de crédito do cliente.                                 |
| Geography         | País ao qual o cliente pertence.                                 |
| Gender            | Masculino ou Feminino.                                           |
| Age               | Idade do cliente.                                                |
| Tenure            | Número de anos que o cliente está no banco.                      |
| Balance           | Saldo bancário do cliente.                                       |
| NumOfProducts     | Número de produtos bancários que o cliente utiliza.              |
| HasCrCard         | Indicador binário se o cliente possui cartão de crédito no banco.|
| IsActiveMember    | Indicador binário se o cliente é um membro ativo do banco.       |
| EstimatedSalary   | Salário estimado do cliente em dólares.                          |
| Exited            | Indicador binário (1 se o cliente fechou a conta, 0 se manteve). |


# OBTENDO O DATASET


In [None]:
from IPython.display import clear_output
!echo "Starting Download and environment configuration "
!rm -rf /content/sample_data
!wget -O download.zip "https://storage.googleapis.com/kaggle-data-sets/156197/358170/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240905%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240905T005256Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=a1a597451b14a7e1b8569afc21255e83decd50508a09b78f6f75542b5caa64433cc1c27a8013d6a43e34e8e1c8d7582e2773603bde1cb1109ea6d9f9b1abd58cf92707f8d3306ebe7d6de8618988716d0fc8956342e4bd3ddf3e175de13c1fdc7427431b0fd298e14954c5b445120e4492796a7d6470d67f5fed67b9fc5f0df6f6bae3951fd1563a3a6b2e3d179584dad32fd2488e7c90d3065f215aa6d2ce0afd190f7d1b1986f5fffbf6cc405e72cbab0b7857d58d7dc448ae2bda3153c3bae80d2b0cf3d490b15fb9f6d55382e998df064d4348281697ebeba8ed9a43bb116186377b01f860c8af3dcf31c03e07b57cd2a5cf9f703effd58a26e059cc796a"
!sleep 2
!unzip /content/download.zip -d /content/
!mkdir dataset/
!mv /content/*.csv dataset/
!rm -rf /content/download.zip
clear_output()
!echo "Settings completed successfully.."

# Bibliotecas

In [None]:
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.ensemble import RandomForestClassifier
import os
import pandas as pd
import numpy as np


# OBTENDO O DATASET

In [None]:
dataset_folder = 'dataset'
files = os.listdir(dataset_folder)

csv_files = [f for f in files if f.endswith('.csv')]
if not csv_files:
    print("Nenhum arquivo CSV encontrado na pasta 'dataset'.")
else:
    first_csv = csv_files[0]
    csv_path = os.path.join(dataset_folder, first_csv)

    df = pd.read_csv(csv_path)
    print(f"Arquivo CSV encontrado: {first_csv}")

In [None]:
df.head(5)

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df['Exited'].unique()

In [None]:
# Verificando se a classe level esta ou não balançeada
# Calcular a proporção das classes
class_proportions = df['Exited'].value_counts(normalize=True)
print("Proporção das Classes:")
print(class_proportions)



#### Inferência:
1. As proporções das classes estão bastante debalanceadas. Percebemos que existe no dataset de amostra de mil valores, 70 porcento para [0] 'não abandono' e 20 porcento para [1] 'abandono'

---



# PROBLEMA
1. Dado os valores genero, pontuação de crédito, local de residência, idade,  Número de anos que o cliente está no banco, Saldo bancário do cliente, Número de produtos bancários que o cliente utiliza, se ele tem cartão ativo ou não, crie um modelo de classificação que preveja se ele vai ou não abandonar o banco?
2. Preveja o resultado usando qualquer modelo de classificação.
3. Avalie o resultado usando apenas recall

In [None]:
df

In [None]:
# primeira etapa é separar os dados em target e explicativas
df_explicativa = df[['CreditScore', 'Geography', 'Gender', 'Age', 'Tenure', 'NumOfProducts', 'HasCrCard', 'IsActiveMember', 'EstimatedSalary']]
df_alvo = df[['Exited']]

In [None]:
df_explicativa
#precisamos converter o genero e a geografia em numeros e para isso usaremos a biblioteca LabelEncoder
le = LabelEncoder()
df_explicativa['Gender'] = le.fit_transform(df_explicativa['Gender'])
df_explicativa['Geography'] = le.fit_transform(df_explicativa['Geography'])

# também precisamos equilibrar os dados, uma vez que seus valores variam muito entre 0 a 1000

scaler = MinMaxScaler()

df_explicativa = pd.DataFrame(scaler.fit_transform(df_explicativa), columns=df_explicativa.columns)



In [None]:
# Dividindo os dados
X_train, X_test, y_train, y_test = train_test_split(df_explicativa, df_alvo, test_size=0.2, random_state=42)

In [None]:
# Instanciação do modelo
tree = RandomForestClassifier(n_estimators=200,
                            max_depth=10,
                            class_weight='balanced',  # Para lidar com desbalanceamento
                            min_samples_split=10,
                            min_samples_leaf=4,
                            random_state=42)

In [None]:
# Treinamento do modelo
tree.fit(X_train, y_train)


In [None]:
# Predição
y_pred = tree.predict(X_test)
y_pred

In [None]:
# Avaliação do modelo

recall = recall_score(y_test, y_pred)
print(f'recall: {recall}')


#### Inferência:

Essa métrica indica que o modelo está recuperando e classificando corretamente cerca de 68% dos verdadeiros positivos em relação ao total de exemplos relevantes

# Testando o modelo

In [None]:
df.iloc[37].to_frame().T

In [None]:
df_explicativa

In [None]:
novo_valor = df_explicativa.iloc[37].to_frame().T
tree.predict(novo_valor)

In [None]:
novo_valor

In [None]:

CreditScore = 240
Geography = 'Brazil'
Gender = 'Male'
Age = 40
Tenure = 1000
NumOfProducts = 900
HasCrCard = 1
IsActiveMember = 1
EstimatedSalary = 8000

novo_valor = pd.DataFrame({
    'CreditScore': [CreditScore],
    'Geography': [Geography],
    'Gender': [Gender],
    'Age': [Age],
    'Tenure': [Tenure],
    'NumOfProducts': [NumOfProducts],
    'HasCrCard': [HasCrCard],
    'IsActiveMember': [IsActiveMember],
    'EstimatedSalary': [EstimatedSalary]
})

novo_valor['Gender'] = le.fit_transform(novo_valor['Gender'])
novo_valor['Geography'] = le.fit_transform(novo_valor['Geography'])
novo_valor = pd.DataFrame(scaler.fit_transform(novo_valor), columns=novo_valor.columns)


tree.predict(novo_valor)