In [1]:
# definitions and import statments
DATAPATH = "/mnt/d/python/data/"
FILENAME = "mushrooms.data"

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from imblearn.under_sampling import RandomUnderSampler
from naivebayes import BayesTherory

# make displays a bit easier
pd.set_option('display.width', 75)
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 20)

bt = BayesTherory()

In [2]:
# read in mushroom dataset
d = pd.read_csv(DATAPATH+FILENAME)

In [3]:
d.head()

Unnamed: 0,p,x,s,n,t,p.1,f,c,n.1,k,...,s.2,w,w.1,p.2,w.2,o,p.3,k.1,s.3,u
0,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
1,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
2,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
3,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
4,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g


In [4]:
# rename all of the columns, I'm not worried about what the feature is so I'm just naming them f##
d.columns = ("target", "f1", "f2", "f3", "f4", "f5", "f6", "f7", "f8", "f9",
             "f10", "f11", "f12", "f13", "f14", "f15", "f16", "f17", "f18",
             "f19", "f20", "f21", "f22")


In [5]:
# make sure that it actually renamed the columns
d.head()

Unnamed: 0,target,f1,f2,f3,f4,f5,f6,f7,f8,f9,...,f13,f14,f15,f16,f17,f18,f19,f20,f21,f22
0,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
1,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
2,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
3,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
4,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g


In [6]:
# look at class balance
print("target ratio:\n" + str(d["target"].value_counts()))

target ratio:
e    4208
p    3915
Name: target, dtype: int64


In [7]:
# isolate target and features
X = d.drop("target", axis=1)
y = d["target"]

In [8]:
# undersample the data to balance classses
undersampler = RandomUnderSampler(random_state=42, sampling_strategy= 'all')
under_X, under_y = undersampler.fit_resample(X, y)
under_y.value_counts()

e    3915
p    3915
Name: target, dtype: int64

In [20]:
# look at description to see cardinality
under_X.describe()



Unnamed: 0,f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,...,f13,f14,f15,f16,f17,f18,f19,f20,f21,f22
count,7830,7830,7830,7830,7830,7830,7830,7830,7830,7830,...,7830,7830,7830,7830,7830,7830,7830,7830,7830,7830
unique,6,4,10,2,9,2,2,2,12,2,...,4,9,9,1,4,3,5,9,6,7
top,x,y,n,f,n,f,c,b,b,t,...,s,w,w,p,w,o,p,w,v,d
freq,3517,3141,2185,4643,3287,7640,6598,5341,1728,4424,...,4693,4280,4209,7830,7650,7223,3746,2355,3957,3014


### Lets try running some NB on a small chunk of real data

In [25]:
x = under_X.sample(15, random_state=42)
y = under_y[x.index]


In [26]:
y.head()

1142    e
4567    p
2592    e
1677    e
4958    p
Name: target, dtype: object

In [27]:
# reduce the complexity of the data
x = x.drop(["f2", "f3", "f7", "f8", "f9", "f10", "f11", "f12","f13","f14","f15"], axis=1)
x.head()


Unnamed: 0,f1,f4,f5,f6,f16,f17,f18,f19,f20,f21,f22
1142,f,t,n,f,p,w,o,p,n,v,d
4567,x,f,c,f,p,w,o,p,n,s,d
2592,x,f,n,f,p,w,o,e,k,s,g
1677,f,t,l,f,p,w,o,p,u,v,d
4958,f,f,f,f,p,w,o,l,h,y,d


In [30]:
bt.prob_feature_given_label(X=x, y=y, cond_y='p')

{'f1': {'x': 0.8333333333333334, 'f': 0.16666666666666666},
 'f4': {'f': 0.8333333333333334, 't': 0.16666666666666666},
 'f5': {'c': 0.16666666666666666,
  'f': 0.5,
  's': 0.16666666666666666,
  'p': 0.16666666666666666},
 'f6': {'f': 1.0},
 'f16': {'p': 1.0},
 'f17': {'w': 1.0},
 'f18': {'o': 1.0},
 'f19': {'p': 0.3333333333333333,
  'l': 0.3333333333333333,
  'e': 0.3333333333333333},
 'f20': {'n': 0.16666666666666666,
  'h': 0.3333333333333333,
  'w': 0.3333333333333333,
  'k': 0.16666666666666666},
 'f21': {'s': 0.3333333333333333, 'y': 0.16666666666666666, 'v': 0.5},
 'f22': {'d': 0.6666666666666666,
  'g': 0.16666666666666666,
  'p': 0.16666666666666666}}