# Creating a Custom Classifier

A custom classifier that always predicts the majority class of the training data is created. Afterwards, we extend the class to have the `predict_proba` method, a method that returns probabilistic values using the distribution of classes in the training data.

In [218]:
from sklearn.datasets import load_wine
from sklearn.base import ClassifierMixin, BaseEstimator
from collections import Counter

In [219]:
data = load_wine()

In [220]:
dir(data)

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']

In [221]:
x = data['data']
y = data['target']     # our classification classes to which the input would belong
x.shape

(178, 13)

In [222]:
class MajorityClassifier(BaseEstimator, ClassifierMixin):
    
    def __init__(self):
        pass
    
    def fit(self, x, y):
        count=Counter(y)
        self.mode_ = count.most_common(1)[0][0]
        
        self.fraction = np.array(list(c.values()))/ x.shape[0]
        
        return self 
    
    def predict(self, x):
        
        return self.mode_ * np.ones(x.shape[0])
    
    def predict_probability(self, x):
        
        return np.dot(np.ones((x.shape[0], 1)), self.fraction.reshape(1,3))
        
        
        
        

In [223]:
mc=MajorityClassifier()

In [224]:
mc.fit(x, y)
mc.predict(x)

# The prediction is true as "1" has the highest occurence ie 71 occurences

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1.])

In [217]:
print(f"The highest occurence is the element '{mc.mode_}'")

y_probability = mc.predict_probability(x)[0]


y_sum=y_probability[:]
print(f"\nThe probabilty of occurence for elements 0, 1, 2 are {y_sum} respectively")

# Verification 
print("\nSum of probability of occurence of elements 0,1,2: ",y_sum.sum())

The highest occurence is the element '1'

The probabilty of occurence for elements 0, 1, 2 are [0.33146067 0.3988764  0.26966292] respectively

Sum of probability of occurence of elements 0,1,2:  1.0
