# Aplicações práticas

# 2.8 Exercício 8: Desempenho do modelo de classificação de peças

## A. Enunciado 

Com base numa amostra aleatória de 1843 peças de uma máquina, pretende-se analisar o desempenho de um dado modelo na classificação das peças (1. Defeituosas, 2 Não defeituosas), cujos dados constam do ficheiro "cap02_exerc8_classifica peças.sav ", da seguinte tabela de contingência 1 e estão organizados em um dicionário em Python.

# Resolução em Python

## Carregando Bibliotecas

In [1]:
import pandas as pd  # Fornece DataFrames e Series para manipulação de dados em Python, facilitando operações como leitura, escrita, e manipulação de estruturas de dados tabulares.

## Funções Personalizadas

In [2]:
from socialdataanalysis import gerar_tabela_contingencia
from socialdataanalysis import complementar_tabela_contingencia_com_analise_estatistica 

## Dados Fornecidos

In [3]:
# Dicionário com dados categorizados representando grupos e suas frequências
dados = {
    'Classificado': [1, 1, 2, 2],
    'Observado': [1, 2, 1, 2],
    'Freq': [1283, 192, 94, 274]
}

# Criando o DataFrame a partir do dicionário
dados = pd.DataFrame(dados)

# Convertendo as colunas para inteiros, se necessário
dados = dados.astype(int)

# Visualizando o dataframe
display(dados)

Unnamed: 0,Classificado,Observado,Freq
0,1,1,1283
1,1,2,192
2,2,1,94
3,2,2,274


## Tabela 1: Tabela de Contingência

In [4]:
# Obter automaticamente os nomes dos grupos e da coluna de frequência
grupos = dados.columns[:-1].tolist()  # Todos exceto a última coluna
categorias = {
    grupos[0]: ['1. Defeituosa', '2.  Não defeituosa',],
    grupos[1]: ['1. Defeituosa', '2.  Não defeituosa'],
}

tabela_contingencia = gerar_tabela_contingencia(dados, grupos, categorias)

display(tabela_contingencia)

Observado,1. Defeituosa,2. Não defeituosa
Classificado,Unnamed: 1_level_1,Unnamed: 2_level_1
1. Defeituosa,1283,192
2. Não defeituosa,94,274


## Tabela de Contingência com Cálculos

In [5]:
# Função própria complementar_tabela_contingencia_com_analise_estatistica
combined_df = complementar_tabela_contingencia_com_analise_estatistica(tabela_contingencia)

# Visualizando resultado
display(combined_df)

Unnamed: 0_level_0,Observado,1. Defeituosa,2. Não defeituosa,Total
Classificado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1. Defeituosa,Count,1283.0,192.0,1475.0
1. Defeituosa,Expected Count,1102.0,373.0,1475.0
1. Defeituosa,% within Classificado,87.0,13.0,100.0
1. Defeituosa,% within Observado,93.2,41.2,80.0
1. Defeituosa,% of Total,69.6,10.4,80.0
1. Defeituosa,Standardized Residual,5.5,-9.4,
1. Defeituosa,Adjusted Residual,24.3,-24.3,
2. Não defeituosa,Count,94.0,274.0,368.0
2. Não defeituosa,Expected Count,275.0,93.0,368.0
2. Não defeituosa,% within Classificado,25.5,74.5,100.0


<font color="blue">    
    
### 2.8.1. Desempenho do modelo de classificação de peças
</font>

In [6]:
# Definindo os valores da tabela de contingência
tp = tabela_contingencia.iloc[0,0] # verdadeiros positivos
fp = tabela_contingencia.iloc[0,1] # falsos positivos
fn = tabela_contingencia.iloc[1,0] # falsos negativos
tn = tabela_contingencia.iloc[1,1] # verdadeiros negativos

<font color="blue">
    
#### a) Precisão.
</font>

In [7]:
# Precisão (ou Classificações corretas) = (TP + TN) / Total
classificacoes_corretas = (tp + tn) / (tp + tn + fp + fn)

# Visualização
print(f"Precisão = {classificacoes_corretas:.3f}")

Precisão = 0.845


<font color="blue">
    
#### b) Sensibilidade.
</font>

In [8]:
# Sensibilidade = TP / (TP + FN)
sensibilidade = tp / (tp + fn)

# Visualização
print(f"Sensibilidade = {sensibilidade:.3f}")

Sensibilidade = 0.932


<font color="blue">
    
#### c) Especificidade.
</font>

In [9]:
# Especificidade = TN / (TN + FP)
especificidade = tn / (tn + fp)

# Visualização
print(f"Especificidade = {especificidade:.3f}")

Especificidade = 0.588


<font color="blue">
    
#### d) Valores preditivos.
</font>

In [10]:
# Valor preditivo positivo = TP / (TP + FP)
vpp = tp / (tp + fp)

# Valor preditivo negativo = TN / (TN + FN)
vpn = tn / (tn + fn)

# Visualização
print(f"P[{grupos[0]} + | {grupos[1]} +] = {vpp:.3f}")
print(f"P[{grupos[0]} - | {grupos[1]} -] = {vpn:.3f}")

P[Classificado + | Observado +] = 0.870
P[Classificado - | Observado -] = 0.745


<font color="blue">
    
#### e) Rácios da verosimilhança.
</font>

In [11]:
# Rácio da verosimilhança positiva = Sensibilidade / (1 - Especificidade)
rvp = sensibilidade / (1 - especificidade)

# Rácio da verosimilhança negativa = (1 - Sensibilidade) / Especificidade
rvn = (1 - sensibilidade) / especificidade

# Visualização
print(f"+LR = {rvp:.3f}")
print(f"-LR = {rvn:.3f}")

+LR = 2.261
-LR = 0.116


<font color="blue">
    
#### f) Prevalência.
</font>

In [12]:
prevalencia = (tp + fn) / (tp + fp + fn + tn)

# Visualização
print(f"Prevalência = {prevalencia:.3f}")

Prevalência = 0.747
