<a href="https://colab.research.google.com/github/brunobro/diferenca-entre-predict-e-predict-proba/blob/main/notebook.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Predict e Predict Proba do Scikit-Learn**

Qual a diferença entre os métodos predict() e predict_proba() da biblioteca Scikit-Learn?

Dado um conjunto de classes $C = \left\lbrace{C_1, C_2, \cdots, C_n}\right\rbrace$

*   **predict(X)**: prediz uma classe em $C$ para o vetor X.
*   **predict_proba(X)**: prediz a probabilidade das classes em $C$ para o vetor X.



In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

In [None]:
'''
Obtenção dos dados e treinamento do modelo
'''

#Obtém os dados da base Câncer de Mama que possui duas classes
#rotuladas como 0 e 1
(X, y) = load_breast_cancer(return_X_y=True)

#Separa os dados de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=0)

#Obtêm um modelo utilizando o algoritmo Suporte Vector Machine
clf = SVC(probability=True, random_state=0)
clf.fit(X_train, y_train)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=True, random_state=0, shrinking=True, tol=0.001,
    verbose=False)

In [None]:
'''
Comparação entre predict() e predict_proba() 
'''

#Escolhe uma amostra específica do vetor de teste
K = 10

X_ = X_test[K,:]
y_ = y_test[K]

#Predições
pred_1 = clf.predict(X_.reshape(1, -1))
pred_2 = clf.predict_proba(X_.reshape(1, -1))

print('predict():', pred_1[0])
print('predict_proba():', pred_2[0])

predict(): 1
predict_proba(): [0.35292806 0.64707194]


#**Análise**

No exemplo acima, o método predict() predisse a classe 1.

Por outro lado, o método predict_proba() predisse a classe 0 com probabilidade de 0.35 e a classe 1 com probabilidade 0.64.

Uma desvantagem evidente do método predict(), para um problema de classificação binário, é que se você tiver uma probabilidade de 0.51 para a classe 1 e outra de 0.49 para a classe 0, ainda assim ele retornará a classe 0.



#**Explorando predict_proba()**

Imagine que a predição de Câncer de Mama como positivo (classe 1) somente seja aceitável se a probabilidade for maior que 80%.

Neste caso, o método predict() não é adequado, porque ele fará a predição da classe 1 sempre que a probabilidade for maior que da classe 0.

Então devemos utilizar o método predict_proba() especificando nosso corte de probabilidade, conforme exemplo a seguir.

In [34]:
'''
Especifica um corte de probabilidade de 80%
'''

#Especifica o corte de probabilidade
corte = 0.9

preds_1 = []
preds_2 = []

for k, x_test in enumerate(X_test):
  p1 = clf.predict(x_test.reshape(1, -1))
  p2 = clf.predict_proba(x_test.reshape(1, -1))

  #Predição utilizando predict()
  preds_1.append(p1[0])

  #Predição utilizando predict_proba() com o corte de probabilidade
  if p2[0][1] >= corte:
    preds_2.append(1)
  else:
    preds_2.append(0)

#Mostra a diferença nas predições
print('Classe positiva')
print(' predict(): \t\t', preds_1.count(1))
print(' predict_proba(): \t', preds_2.count(1))

Classe positiva
 predict(): 		 133
 predict_proba(): 	 90
