Add example codes for ML

sunglok · sunglok · commit d73083b849f6 · 2023-10-31T08:39:10.000+09:00
diff --git a/examples/iris_classification.py b/examples/iris_classification.py
@@ -0,0 +1,28 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn import (datasets, svm)
+from matplotlib.lines import Line2D # For the custom legend
+
+# Load a dataset
+iris = datasets.load_iris()
+
+# Train a model
+model = svm.SVC()                   # Accuracy: 0.973 (146/150)
+model.fit(iris.data, iris.target)   # Try 'iris.data[:,0:2]' (Accuracy: 0.820)
+
+# Test the model
+predict = model.predict(iris.data)  # Try 'iris.data[:,0:2]' (Accuracy: 0.820)
+n_correct = sum(predict == iris.target)
+accuracy = n_correct / len(iris.data)
+
+# Visualize testing results
+cmap = np.array([(1, 0, 0), (0, 1, 0), (0, 0, 1)])
+clabel = [Line2D([0], [0], marker='o', lw=0, label=iris.target_names[i], color=cmap[i]) for i in range(len(cmap))]
+for (x, y) in [(0, 1), (2, 3)]:
+    plt.figure ()
+    plt.title(f'svm.SVC ({n_correct}/{len(iris.data)}={accuracy:.3f})')
+    plt.scatter(iris.data[:,x], iris.data[:,y], c=cmap[iris.target], edgecolors=cmap[predict])
+    plt.xlabel(iris.feature_names[x])
+    plt.ylabel(iris.feature_names[y])
+    plt.legend(handles=clabel, framealpha=0.5)
+plt.show()
diff --git a/examples/iris_classification_bayes.py b/examples/iris_classification_bayes.py
@@ -0,0 +1,52 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn import (datasets, naive_bayes, metrics)
+from matplotlib.colors import ListedColormap
+from scipy.stats import multivariate_normal
+
+# Load a dataset partially
+iris = datasets.load_iris()
+iris.data = iris.data[:,0:2]
+iris.feature_names = iris.feature_names[0:2]
+iris.color = np.array([(1, 0, 0), (0, 1, 0), (0, 0, 1)])
+
+# Train a model
+model = naive_bayes.GaussianNB()
+model.fit(iris.data, iris.target)
+#model.class_prior_ = [0.1, 0.6, 0.3] # Try this to give manual prior
+
+# Validate training
+for c in range(len(model.classes_)):
+    data = iris.data[iris.target == c,:]
+    print(f'## Class {c}')
+    print('  * Trained prior = ' + np.array2string(model.class_prior_[c], precision=3))
+    print('  * Manual  prior = ' + '{:.3f}'.format(len(data) / len(iris.data)))
+    print('  * Trained mean  = ' + np.array2string(model.theta_[c], precision=3))
+    print('  * Manual  mean  = ' + np.array2string(np.mean(data, axis=0), precision=3))
+    print('  * Trained Sigma = ' + np.array2string(model.sigma_[c], precision=3))
+    print('  * Manual  Sigma = ' + np.array2string(np.var(data, axis=0), precision=3))
+
+# Visualize training results (decision boundaries)
+x_min, x_max = iris.data[:, 0].min() - 1, iris.data[:, 0].max() + 1
+y_min, y_max = iris.data[:, 1].min() - 1, iris.data[:, 1].max() + 1
+xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))
+xy = np.vstack((xx.flatten(), yy.flatten())).T
+zz = model.predict(xy)
+plt.contourf(xx, yy, zz.reshape(xx.shape), cmap=ListedColormap(iris.color), alpha=0.2)
+
+# Visualize training results (trained Gaussians)
+for c in range(len(model.classes_)):
+    likelihood = multivariate_normal(model.theta_[c], np.diag(model.sigma_[c]))
+    zz = model.class_prior_[c] * likelihood.pdf(xy)
+    plt.contour(xx, yy, zz.reshape(xx.shape), cmap=ListedColormap(iris.color[c]), alpha=0.4)
+
+# Test the model
+predict = model.predict(iris.data)
+accuracy = metrics.balanced_accuracy_score(iris.target, predict)
+
+# Visualize testing results
+plt.title(f'naive_bayes.Gaussian ({accuracy:.3f})')
+plt.scatter(iris.data[:,0], iris.data[:,1], c=iris.color[iris.target], edgecolors=iris.color[predict])
+plt.xlabel(iris.feature_names[0])
+plt.ylabel(iris.feature_names[1])
+plt.show()
diff --git a/examples/iris_classification_more.py b/examples/iris_classification_more.py
@@ -0,0 +1,67 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn import (datasets, linear_model, naive_bayes, neural_network, neighbors, svm, tree, ensemble, metrics)
+from matplotlib.colors import ListedColormap
+
+# Load a dataset partially
+iris = datasets.load_iris()
+iris.data = iris.data[:,0:2]
+iris.feature_names = iris.feature_names[0:2]
+iris.color = np.array([(1, 0, 0), (0, 1, 0), (0, 0, 1)])
+
+# Instantiate training models
+models = [
+    {'name': 'linear_model.SGD',            'obj': linear_model.SGDClassifier()},
+    {'name': 'naive_bayes.Gaussian',        'obj': naive_bayes.GaussianNB()},
+    {'name': 'neural_network.MLP',          'obj': neural_network.MLPClassifier()},
+    {'name': 'neighbors.KNN',               'obj': neighbors.KNeighborsClassifier()},
+
+    {'name': 'svm.LinearSVC',               'obj': svm.LinearSVC()},
+    {'name': 'svm.SVC(linear)',             'obj': svm.SVC(kernel='linear')},
+    {'name': 'svm.SVC(poly,2)',             'obj': svm.SVC(kernel='poly', degree=2)},
+    {'name': 'svm.SVC(poly,3)',             'obj': svm.SVC(kernel='poly')},
+    {'name': 'svm.SVC(poly,4)',             'obj': svm.SVC(kernel='poly', degree=4)},
+    {'name': 'svm.SVC(rbf)',                'obj': svm.SVC(kernel='rbf')},
+    {'name': 'svm.SVC(rbf,$\gamma$=1)',     'obj': svm.SVC(kernel='rbf', gamma=1)},
+    {'name': 'svm.SVC(rbf,$\gamma$=4)',     'obj': svm.SVC(kernel='rbf', gamma=4)},
+    {'name': 'svm.SVC(rbf,$\gamma$=16)',    'obj': svm.SVC(kernel='rbf', gamma=16)},
+    {'name': 'svm.SVC(rbf,$\gamma$=64)',    'obj': svm.SVC(kernel='rbf', gamma=64)},
+    {'name': 'svm.SVC(sigmoid)',            'obj': svm.SVC(kernel='sigmoid')},
+
+    {'name': 'tree.DecisionTree(2)',        'obj': tree.DecisionTreeClassifier(max_depth=2)},
+    {'name': 'tree.DecisionTree(4)',        'obj': tree.DecisionTreeClassifier(max_depth=4)},
+    {'name': 'tree.DecisionTree(N)',        'obj': tree.DecisionTreeClassifier()},
+    {'name': 'tree.ExtraTree',              'obj': tree.ExtraTreeClassifier()},
+
+    {'name': 'ensemble.RandomForest(10)',   'obj': ensemble.RandomForestClassifier(n_estimators=10)},
+    {'name': 'ensemble.RandomForest(100)',  'obj': ensemble.RandomForestClassifier()},
+    {'name': 'ensemble.ExtraTrees(10)',     'obj': ensemble.ExtraTreesClassifier(n_estimators=10)},
+    {'name': 'ensemble.ExtraTrees(100)',    'obj': ensemble.ExtraTreesClassifier()},
+    {'name': 'ensemble.AdaBoost(DTree)',    'obj': ensemble.AdaBoostClassifier(tree.DecisionTreeClassifier())},
+]
+
+x_min, x_max = iris.data[:, 0].min() - 1, iris.data[:, 0].max() + 1
+y_min, y_max = iris.data[:, 1].min() - 1, iris.data[:, 1].max() + 1
+xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))
+xy = np.vstack((xx.flatten(), yy.flatten())).T
+
+for model in models:
+    # Train a model
+    model['obj'].fit(iris.data, iris.target)
+
+    # Test the model
+    predict = model['obj'].predict(iris.data)
+    model['acc'] = metrics.balanced_accuracy_score(iris.target, predict)
+
+    # Visualize training results (decision boundaries)
+    zz = model['obj'].predict(xy)
+    plt.figure()
+    plt.contourf(xx, yy, zz.reshape(xx.shape), cmap=ListedColormap(iris.color), alpha=0.2)
+
+    # Visualize testing results
+    plt.title(model['name'] + f' ({model["acc"]:.3f})')
+    plt.scatter(iris.data[:,0], iris.data[:,1], c=iris.color[iris.target], edgecolors=iris.color[predict])
+    plt.xlabel(iris.feature_names[0])
+    plt.ylabel(iris.feature_names[1])
+
+plt.show()
diff --git a/examples/iris_classification_svm.py b/examples/iris_classification_svm.py
@@ -0,0 +1,51 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn import (datasets, svm, metrics)
+from matplotlib.colors import ListedColormap
+
+# Load a dataset partially
+iris = datasets.load_iris()
+iris.data = iris.data[:,0:2]
+iris.feature_names = iris.feature_names[0:2]
+iris.color = np.array([(1, 0, 0), (0, 1, 0), (0, 0, 1)])
+
+# Instantiate training models
+models = [
+    {'name': 'svm.LinearSVC',               'obj': svm.LinearSVC()},
+    {'name': 'svm.SVC(linear)',             'obj': svm.SVC(kernel='linear')},
+    {'name': 'svm.SVC(poly,2)',             'obj': svm.SVC(kernel='poly', degree=2)},
+    {'name': 'svm.SVC(poly,3)',             'obj': svm.SVC(kernel='poly')},
+    {'name': 'svm.SVC(poly,4)',             'obj': svm.SVC(kernel='poly', degree=4)},
+    {'name': 'svm.SVC(rbf)',                'obj': svm.SVC(kernel='rbf')},
+    {'name': 'svm.SVC(rbf,$\gamma$=1)',     'obj': svm.SVC(kernel='rbf', gamma=1)},
+    {'name': 'svm.SVC(rbf,$\gamma$=4)',     'obj': svm.SVC(kernel='rbf', gamma=4)},
+    {'name': 'svm.SVC(rbf,$\gamma$=16)',    'obj': svm.SVC(kernel='rbf', gamma=16)},
+    {'name': 'svm.SVC(rbf,$\gamma$=64)',    'obj': svm.SVC(kernel='rbf', gamma=64)},
+    {'name': 'svm.SVC(sigmoid)',            'obj': svm.SVC(kernel='sigmoid')},
+]
+
+x_min, x_max = iris.data[:, 0].min() - 1, iris.data[:, 0].max() + 1
+y_min, y_max = iris.data[:, 1].min() - 1, iris.data[:, 1].max() + 1
+xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))
+xy = np.vstack((xx.flatten(), yy.flatten())).T
+
+for model in models:
+    # Train a model
+    model['obj'].fit(iris.data, iris.target)
+
+    # Test the model
+    predict = model['obj'].predict(iris.data)
+    model['acc'] = metrics.balanced_accuracy_score(iris.target, predict)
+
+    # Visualize training results (decision boundaries)
+    zz = model['obj'].predict(xy)
+    plt.figure()
+    plt.contourf(xx, yy, zz.reshape(xx.shape), cmap=ListedColormap(iris.color), alpha=0.2)
+
+    # Visualize testing results
+    plt.title(model['name'] + f' ({model["acc"]:.3f})')
+    plt.scatter(iris.data[:,0], iris.data[:,1], c=iris.color[iris.target], edgecolors=iris.color[predict])
+    plt.xlabel(iris.feature_names[0])
+    plt.ylabel(iris.feature_names[1])
+
+plt.show()
diff --git a/examples/iris_classification_tree.py b/examples/iris_classification_tree.py
@@ -0,0 +1,38 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn import (datasets, tree, metrics)
+from matplotlib.colors import ListedColormap
+
+# Load a dataset partially
+iris = datasets.load_iris()
+iris.data = iris.data[:,0:2]
+iris.feature_names = iris.feature_names[0:2]
+iris.color = np.array([(1, 0, 0), (0, 1, 0), (0, 0, 1)])
+
+# Train a model
+model = tree.DecisionTreeClassifier(max_depth=2) # Try deeper
+model.fit(iris.data, iris.target)
+
+# Visualize training results (decision boundaries)
+x_min, x_max = iris.data[:, 0].min() - 1, iris.data[:, 0].max() + 1
+y_min, y_max = iris.data[:, 1].min() - 1, iris.data[:, 1].max() + 1
+xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))
+xy = np.vstack((xx.flatten(), yy.flatten())).T
+zz = model.predict(xy)
+plt.contourf(xx, yy, zz.reshape(xx.shape), cmap=ListedColormap(iris.color), alpha=0.2)
+
+# Test the model
+predict = model.predict(iris.data)
+accuracy = metrics.balanced_accuracy_score(iris.target, predict)
+
+# Visualize testing results
+plt.figure()
+plt.title(f'Decision tree ({accuracy:.3f})')
+plt.scatter(iris.data[:,0], iris.data[:,1], c=iris.color[iris.target], edgecolors=iris.color[predict])
+plt.xlabel(iris.feature_names[0])
+plt.ylabel(iris.feature_names[1])
+
+# Visualize training results (the trained tree)
+plt.figure()
+tree.plot_tree(model, feature_names=iris.feature_names, class_names=iris.target_names, impurity=False)
+plt.show()
diff --git a/examples/iris_clustering_kmeans.py b/examples/iris_clustering_kmeans.py
@@ -0,0 +1,33 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn import (datasets, cluster)
+from matplotlib.colors import ListedColormap
+
+# Load a dataset partially
+iris = datasets.load_iris()
+iris.data = iris.data[:,0:2]                 # Try [:,2:4]
+iris.feature_names = iris.feature_names[0:2] # Try [:,2:4]
+iris.color = np.array([(1, 0, 0), (0, 1, 0), (0, 0, 1)])
+
+# Train a model
+model = cluster.KMeans(n_clusters=3)
+model.fit(iris.data)
+
+# Visualize training results (decision boundaries)
+x_min, x_max = iris.data[:, 0].min() - 1, iris.data[:, 0].max() + 1
+y_min, y_max = iris.data[:, 1].min() - 1, iris.data[:, 1].max() + 1
+xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))
+xy = np.vstack((xx.flatten(), yy.flatten())).T
+zz = model.predict(xy)
+plt.contourf(xx, yy, zz.reshape(xx.shape), cmap=ListedColormap(iris.color), alpha=0.2)
+
+# Visualize testing results
+plt.title('cluster.KMeans')
+plt.scatter(iris.data[:,0], iris.data[:,1], c=iris.color[iris.target])
+plt.xlabel(iris.feature_names[0])
+plt.ylabel(iris.feature_names[1])
+
+# Visualize training results (mean values)
+for c in range(model.n_clusters):
+    plt.scatter(*model.cluster_centers_[c], marker='+', s=200, color='k')
+plt.show()
diff --git a/examples/line_fitting_sklearn.py b/examples/line_fitting_sklearn.py
@@ -0,0 +1,30 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn import linear_model
+
+true_line = lambda x: -2/3*x + 14/3
+data_range = np.array([-4, 12])
+data_num = 100
+noise_std = 0.5
+
+# Generate the true data
+x = np.random.uniform(data_range[0], data_range[1], size=data_num)
+y = true_line(x) # y = -2/3*x + 10/3
+
+# Add Gaussian noise
+xn = x + np.random.normal(scale=noise_std, size=x.shape)
+yn = y + np.random.normal(scale=noise_std, size=y.shape)
+
+# Train a model
+model = linear_model.LinearRegression()
+model.fit(xn.reshape(-1, 1), yn.reshape(-1, 1))
+score = model.score(xn.reshape(-1, 1), yn.reshape(-1, 1))
+
+# Plot the data and result
+plt.title(f'Line: y={model.coef_[0][0]:.3f}*x + {model.intercept_[0]:.3f} (score={score:.3f})')
+plt.plot(data_range, true_line(data_range), 'r-', label='The true line')
+plt.plot(xn, yn, 'b.', label='Noisy data')
+plt.plot(data_range, model.coef_[0]*data_range + model.intercept_, 'g-', label='Estimate')
+plt.xlim(data_range)
+plt.legend()
+plt.show()
diff --git a/slides/ml_tutorial.pdf b/slides/ml_tutorial.pdf