biostat93
diff --git a/‎MLiP-week03and4/03 Introduction to Machine Learning in ScikitLearn.ipynb
Lines changed: 3383 additions & 0 deletions b/‎MLiP-week03and4/03 Introduction to Machine Learning in ScikitLearn.ipynb
Lines changed: 3383 additions & 0 deletions
diff --git a/‎MLiP-week03and4/fig_codes/plot_2d_separator.py
Lines changed: 46 additions & 0 deletions b/‎MLiP-week03and4/fig_codes/plot_2d_separator.py
Lines changed: 46 additions & 0 deletions
diff --git a/‎MLiP-week03and4/imgs/digits.png
24.9 KB b/‎MLiP-week03and4/imgs/digits.png
24.9 KB
diff --git a/‎MLiP-week03and4/imgs/face_recognition.jpeg
8.41 KB b/‎MLiP-week03and4/imgs/face_recognition.jpeg
8.41 KB
diff --git a/‎MLiP-week03and4/imgs/faces.png
576 KB b/‎MLiP-week03and4/imgs/faces.png
576 KB
diff --git a/‎MLiP-week03and4/imgs/house_price.jpeg
8.47 KB b/‎MLiP-week03and4/imgs/house_price.jpeg
8.47 KB
diff --git a/‎MLiP-week03and4/imgs/iris.png
1.43 MB b/‎MLiP-week03and4/imgs/iris.png
1.43 MB
diff --git a/‎MLiP-week03and4/imgs/iris_setosa.jpg
17.8 KB b/‎MLiP-week03and4/imgs/iris_setosa.jpg
17.8 KB
diff --git a/‎MLiP-week03and4/imgs/iris_versicolor.jpg
21.3 KB b/‎MLiP-week03and4/imgs/iris_versicolor.jpg
21.3 KB
diff --git a/‎MLiP-week03and4/imgs/iris_virginica.jpg
60.6 KB b/‎MLiP-week03and4/imgs/iris_virginica.jpg
60.6 KB
diff --git a/‎MLiP-week03and4/imgs/knn.png
5.58 KB b/‎MLiP-week03and4/imgs/knn.png
5.58 KB
diff --git a/‎MLiP-week03and4/imgs/ml_taxonomy.png
198 KB b/‎MLiP-week03and4/imgs/ml_taxonomy.png
198 KB
diff --git a/‎MLiP-week03and4/imgs/spam1.jpeg
7.33 KB b/‎MLiP-week03and4/imgs/spam1.jpeg
7.33 KB
diff --git a/‎MLiP-week03and4/imgs/spam2.jpeg
6.74 KB b/‎MLiP-week03and4/imgs/spam2.jpeg
6.74 KB
diff --git a/‎MLiP-week03and4/imgs/supervised_workflow.svg
Lines changed: 558 additions & 0 deletions b/‎MLiP-week03and4/imgs/supervised_workflow.svg
Lines changed: 558 additions & 0 deletions
diff --git a/‎MLiP-week03and4/imgs/train_test_split_matrix.svg
Lines changed: 1650 additions & 0 deletions b/‎MLiP-week03and4/imgs/train_test_split_matrix.svg
Lines changed: 1650 additions & 0 deletions
diff --git a/‎MLiP-week03and4/solutions/03A_faces_plot.py
Lines changed: 10 additions & 0 deletions b/‎MLiP-week03and4/solutions/03A_faces_plot.py
Lines changed: 10 additions & 0 deletions
diff --git a/‎MLiP-week03and4/solutions/04_wrong-predictions.py
Lines changed: 26 additions & 0 deletions b/‎MLiP-week03and4/solutions/04_wrong-predictions.py
Lines changed: 26 additions & 0 deletions
diff --git a/‎MLiP-week03and4/solutions/05A_knn_with_diff_k.py
Lines changed: 30 additions & 0 deletions b/‎MLiP-week03and4/solutions/05A_knn_with_diff_k.py
Lines changed: 30 additions & 0 deletions
diff --git a/‎MLiP-week03and4/solutions/06A_knn_vs_linreg.py
Lines changed: 26 additions & 0 deletions b/‎MLiP-week03and4/solutions/06A_knn_vs_linreg.py
Lines changed: 26 additions & 0 deletions
diff --git a/‎MLiP-week03and4/solutions/06B_lin_with_sine.py
Lines changed: 9 additions & 0 deletions b/‎MLiP-week03and4/solutions/06B_lin_with_sine.py
Lines changed: 9 additions & 0 deletions
@@ -0,0 +1,46 @@
+import numpy as np
+import matplotlib.pyplot as plt
+
+
+def plot_2d_separator(classifier, X, fill=False, ax=None, eps=None):
+    if eps is None:
+        eps = X.std() / 2.
+    x_min, x_max = X[:, 0].min() - eps, X[:, 0].max() + eps
+    y_min, y_max = X[:, 1].min() - eps, X[:, 1].max() + eps
+    xx = np.linspace(x_min, x_max, 100)
+    yy = np.linspace(y_min, y_max, 100)
+
+    X1, X2 = np.meshgrid(xx, yy)
+    X_grid = np.c_[X1.ravel(), X2.ravel()]
+    try:
+        decision_values = classifier.decision_function(X_grid)
+        levels = [0]
+        fill_levels = [decision_values.min(), 0, decision_values.max()]
+    except AttributeError:
+        # no decision_function
+        decision_values = classifier.predict_proba(X_grid)[:, 1]
+        levels = [.5]
+        fill_levels = [0, .5, 1]
+
+    if ax is None:
+        ax = plt.gca()
+    if fill:
+        ax.contourf(X1, X2, decision_values.reshape(X1.shape),
+                    levels=fill_levels, colors=['blue', 'red'])
+    else:
+        ax.contour(X1, X2, decision_values.reshape(X1.shape), levels=levels,
+                   colors="black")
+    ax.set_xlim(x_min, x_max)
+    ax.set_ylim(y_min, y_max)
+    ax.set_xticks(())
+    ax.set_yticks(())
+
+
+if __name__ == '__main__':
+    from sklearn.datasets import make_blobs
+    from sklearn.linear_model import LogisticRegression
+    X, y = make_blobs(centers=2, random_state=42)
+    clf = LogisticRegression().fit(X, y)
+    plot_2d_separator(clf, X, fill=True)
+    plt.scatter(X[:, 0], X[:, 1], c=y)
+    plt.show()
@@ -0,0 +1,10 @@
+faces = fetch_olivetti_faces()
+
+# set up the figure
+fig = plt.figure(figsize=(6, 6))  # figure size in inches
+fig.subplots_adjust(left=0, right=1, bottom=0, top=1, hspace=0.05, wspace=0.05)
+
+# plot the faces:
+for i in range(64):
+    ax = fig.add_subplot(8, 8, i + 1, xticks=[], yticks=[])
+    ax.imshow(faces.images[i], cmap=plt.cm.bone, interpolation='nearest')
@@ -0,0 +1,26 @@
+plt.figure(figsize=(10, 6))
+
+
+for i in incorrect_idx:
+    print('%d: Predicted %d | True label %d' % (i, y_pred[i], y_test[i]))
+
+# Plot two dimensions
+
+colors = ["darkblue", "darkgreen", "gray"]
+
+for n, color in enumerate(colors):
+    idx = np.where(y_test == n)[0]
+    plt.scatter(X_test[idx, 1], X_test[idx, 2], color=color, label="Class %s" % str(n))
+
+for i, marker in zip(incorrect_idx, ['x', 's', 'v']):
+    plt.scatter(X_test[i, 1], X_test[i, 2],
+                color="darkred",
+                marker=marker,
+                s=60,
+                label=i)
+
+plt.xlabel('sepal width [cm]')
+plt.ylabel('petal length [cm]')
+plt.legend(loc=1, scatterpoints=1)
+plt.title("Iris Classification results")
+plt.show()
@@ -0,0 +1,30 @@
+from sklearn.datasets import load_iris
+from sklearn.model_selection import train_test_split
+
+
+iris = load_iris()
+X = iris.data
+y = iris.target
+
+X_train, X_test, y_train, y_test = train_test_split(X, y,
+                                                    test_size=0.25,
+                                                    random_state=1234,
+                                                    stratify=y)
+
+X_trainsub, X_valid, y_trainsub, y_valid = train_test_split(X_train, y_train,
+                                                            test_size=0.5,
+                                                            random_state=1234,
+                                                            stratify=y_train)
+
+for k in range(1, 20):
+    knn = KNeighborsClassifier(n_neighbors=k)
+    train_score = knn.fit(X_trainsub, y_trainsub).\
+        score(X_trainsub, y_trainsub)
+    valid_score = knn.score(X_valid, y_valid)
+    print('k: %d, Train/Valid Acc: %.3f/%.3f' %
+          (k, train_score, valid_score))
+
+
+knn = KNeighborsClassifier(n_neighbors=9)
+knn.fit(X_train, y_train)
+print('k=9 Test Acc: %.3f' % knn.score(X_test, y_test))
@@ -0,0 +1,26 @@
+from sklearn.datasets import load_boston
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LinearRegression
+
+
+boston = load_boston()
+X = boston.data
+y = boston.target
+
+print('X.shape:', X.shape)
+X_train, X_test, y_train, y_test = train_test_split(X, y,
+                                                    test_size=0.25,
+                                                    random_state=42)
+
+linreg = LinearRegression()
+knnreg = KNeighborsRegressor(n_neighbors=1)
+
+linreg.fit(X_train, y_train)
+print('Linear Regression Train/Test: %.3f/%.3f' %
+      (linreg.score(X_train, y_train),
+       linreg.score(X_test, y_test)))
+
+knnreg.fit(X_train, y_train)
+print('KNeighborsRegressor Train/Test: %.3f/%.3f' %
+      (knnreg.score(X_train, y_train),
+       knnreg.score(X_test, y_test)))
@@ -0,0 +1,9 @@
+XX_train = np.concatenate((X_train, np.sin(4 * X_train)), axis=1)
+XX_test = np.concatenate((X_test, np.sin(4 * X_test)), axis=1)
+regressor.fit(XX_train, y_train)
+y_pred_test_sine = regressor.predict(XX_test)
+
+plt.plot(X_test, y_test, 'o', label="data")
+plt.plot(X_test, y_pred_test_sine, 'o', label="prediction with sine")
+plt.plot(X_test, y_pred_test, label='prediction without sine')
+plt.legend(loc='best');