diff --git a/ru/cs-229-unsupervised-learning.md b/ru/cs-229-unsupervised-learning.md new file mode 100644 index 000000000..e01bcb562 --- /dev/null +++ b/ru/cs-229-unsupervised-learning.md @@ -0,0 +1,343 @@ +**Unsupervised Learning translation** [[webpage]](https://stanford.edu/~shervine/teaching/cs-229/cheatsheet-unsupervised-learning) + +
+ +**1. Unsupervised Learning cheatsheet** + +⟶ Шпаргалка по обучению без учителя + +
+ +**2. Introduction to Unsupervised Learning** + +⟶ Введение в обучение без учителя + +
+ +**3. Motivation ― The goal of unsupervised learning is to find hidden patterns in unlabeled data {x(1),...,x(m)}.** + +⟶ Мотивация ― цель обучения без учителя - найти скрытые закономерности в неразмеченных данных {x(1),...,x(m)}. + +
+ +**4. Jensen's inequality ― Let f be a convex function and X a random variable. We have the following inequality:** + +⟶ Неравенство Йенсена ― Пусть f - выпуклая функция, а X - случайная величина. E - математическое ожидание. Имеем следующее неравенство: + +
+ +**5. Clustering** + +⟶ Кластеризация + +
+ +**6. Expectation-Maximization** + +⟶ Максимизация Ожидания + +
+ +**7. Latent variables ― Latent variables are hidden/unobserved variables that make estimation problems difficult, and are often denoted z. Here are the most common settings where there are latent variables:** + +⟶ Скрытые величины ― это скрытые/ненаблюдаемые величины, которые затрудняют задачи оценки, и часто обозначаются буквой z. Вот наиболее распространенные ситуации, когда возникают скрытые величины: + +
+ +**8. [Setting, Latent variable z, Comments]** + +⟶ [Настройка, Скрытая величина z, Комментарии] + +
+ +**9. [Mixture of k Gaussians, Factor analysis]** + +⟶ [Смесь k гауссиан, Факторный анализ] + +
+ +**10. Algorithm ― The Expectation-Maximization (EM) algorithm gives an efficient method at estimating the parameter θ through maximum likelihood estimation by repeatedly constructing a lower-bound on the likelihood (E-step) and optimizing that lower bound (M-step) as follows:** + +⟶ Алгоритм ― Алгоритм ожидания-максимизации (Expectation-Maximization, EM) дает эффективный метод оценки параметра θ посредством оценки максимального правдоподобия путем многократного построения нижней границы правдоподобия (E-шаг) и оптимизации этой нижней границы (M-шаг) следующим образом: + +
+ +**11. E-step: Evaluate the posterior probability Qi(z(i)) that each data point x(i) came from a particular cluster z(i) as follows:** + +⟶ E-шаг: Оценить апостериорную вероятность Qi(z(i)) того, что каждая точка данных x(i) пришла из определенного кластера z(i) следующим образом: + +
+ +**12. M-step: Use the posterior probabilities Qi(z(i)) as cluster specific weights on data points x(i) to separately re-estimate each cluster model as follows:** + +⟶ M-шаг: Использовать апостериорные вероятности Qi(z(i)) в качестве весовых коэффициентов для конкретных кластеров точек данных x(i), чтобы отдельно переоценить каждую модель кластера следующим образом: + +
+ +**13. [Gaussians initialization, Expectation step, Maximization step, Convergence]** + +⟶ [Гауссовская инициализация, Шаг ожидания, Шаг максимизации, Сходимость] + +
+ +**14. k-means clustering** + +⟶ Метод k-средних + +
+ +**15. We note c(i) the cluster of data point i and μj the center of cluster j.** + +⟶ Мы обозначаем c(i) кластер точки данных i и μj центр кластера j. + +
+ +**16. Algorithm ― After randomly initializing the cluster centroids μ1,μ2,...,μk∈Rn, the k-means algorithm repeats the following step until convergence:** + +⟶ Алгоритм ― после случайной инициализации центроидов кластера μ1,μ2,...,μk∈Rn алгоритм k-средних повторяет следующий шаг до сходимости: + +
+ +**17. [Means initialization, Cluster assignment, Means update, Convergence]** + +⟶ [Инициализация средних, Назначение кластера, Обновление средних, Сходимость] + +
+ +**18. Distortion function ― In order to see if the algorithm converges, we look at the distortion function defined as follows:** + +⟶ Функция искажения ― Чтобы увидеть, сходится ли алгоритм, мы смотрим на функцию искажения, определенную следующим образом: + +
+ +**19. Hierarchical clustering** + +⟶ Иерархическая кластеризация + +
+ +**20. Algorithm ― It is a clustering algorithm with an agglomerative hierarchical approach that build nested clusters in a successive manner.** + +⟶ Алгоритм ― Это алгоритм кластеризации с агломеративным иерархическим подходом, который последовательно создает вложенные кластеры. + +
+ +**21. Types ― There are different sorts of hierarchical clustering algorithms that aims at optimizing different objective functions, which is summed up in the table below:** + +⟶ Типы ― Существуют различные виды алгоритмов иерархической кластеризации, которые направлены на оптимизацию различных целевых функций, которые приведены в таблице ниже: + +
+ +**22. [Ward linkage, Average linkage, Complete linkage]** + +⟶ [Связь Уорда, Средняя связь, Полная связь] + +
+ +**23. [Minimize within cluster distance, Minimize average distance between cluster pairs, Minimize maximum distance of between cluster pairs]** + +⟶ [Минимизирует расстояние в пределах кластера, Минимизирует среднее расстояние между парами кластеров, Минимизирует максимальное расстояние между парами кластеров] + +
+ +**24. Clustering assessment metrics** + +⟶ Кластеризация показателей оценки + +
+ +**25. In an unsupervised learning setting, it is often hard to assess the performance of a model since we don't have the ground truth labels as was the case in the supervised learning setting.** + +⟶ В условиях обучения без учителя часто бывает трудно оценить производительность модели, поскольку у нас нет основных меток истинности, как это было в условиях обучения с учителем. + +
+ +**26. Silhouette coefficient ― By noting a and b the mean distance between a sample and all other points in the same class, and between a sample and all other points in the next nearest cluster, the silhouette coefficient s for a single sample is defined as follows:** + +⟶ Коэффициент силуэта ― Обозначим a и b среднее расстояние между образцом и всеми другими точками в том же классе, а также между образцом и всеми другими точками в следующем ближайшем кластере, коэффициент силуэта s для одного образца определяется следующим образом: + +
+ +**27. Calinski-Harabaz index ― By noting k the number of clusters, Bk and Wk the between and within-clustering dispersion matrices respectively defined as** + +⟶ Индекс Калински-Харабаза ― Обозначим k количество кластеров, Bk и Wk матрицы дисперсии между кластерами и внутри кластеров, соответственно определяемые как + +
+ +**28. the Calinski-Harabaz index s(k) indicates how well a clustering model defines its clusters, such that the higher the score, the more dense and well separated the clusters are. It is defined as follows:** + +⟶ индекс Калински-Харабаза s(k) показывает, насколько хорошо модель кластеризации определяет свои кластеры, так что чем выше оценка, тем более плотными и хорошо разделенными являются кластеры. Это определяется следующим образом: + +
+ +**29. Dimension reduction** + +⟶ Уменьшение размерности + +
+ +**30. Principal component analysis** + +⟶ Метод главных компонент + +
+ +**31. It is a dimension reduction technique that finds the variance maximizing directions onto which to project the data.** + +⟶ Это метод уменьшения размерности, который находит направления максимизации дисперсии для проецирования данных. + +
+ +**32. Eigenvalue, eigenvector ― Given a matrix A∈Rn×n, λ is said to be an eigenvalue of A if there exists a vector z∈Rn∖{0}, called eigenvector, such that we have:** + +⟶ Собственное значение, собственный вектор ― Для матрицы A∈Rn×n λ называется собственным значением A, если существует вектор z∈Rn∖{0}, называемый собственным вектором, так что у нас есть: + +
+ +**33. Spectral theorem ― Let A∈Rn×n. If A is symmetric, then A is diagonalizable by a real orthogonal matrix U∈Rn×n. By noting Λ=diag(λ1,...,λn), we have:** + +⟶ Спектральная теорема ― Пусть A∈Rn×n. Если A симметрична, то A диагонализуема вещественной ортогональной матрицей U∈Rn×n. Обозначим Λ=diag(λ1,...,λn), у нас есть: + +
+ +**34. diagonal** + +⟶ диагональ + +
+ +**35. Remark: the eigenvector associated with the largest eigenvalue is called principal eigenvector of matrix A.** + +⟶ Примечание: собственный вектор, связанный с наибольшим собственным значением, называется главным собственным вектором матрицы A. + +
+ +**36. Algorithm ― The Principal Component Analysis (PCA) procedure is a dimension reduction technique that projects the data on k dimensions by maximizing the variance of the data as follows:** + +⟶ Алгоритм ― Principal Component Analysis (PCA) - это метод уменьшения размерности, который проецирует данные на k измерений, максимизируя дисперсию данных следующим образом: + +
+ +**37. Step 1: Normalize the data to have a mean of 0 and standard deviation of 1.** + +⟶ Шаг 1: Нормализовать данные, чтобы получить среднее значение 0 и стандартное отклонение 1. + +
+ +**38. Step 2: Compute Σ=1mm∑i=1x(i)x(i)T∈Rn×n, which is symmetric with real eigenvalues.** + +⟶ Шаг 2: Вычислить Σ=1mm∑i=1x(i)x(i)T∈Rn×n, которое является симметричным с действительными собственными значениями. + +
+ +**39. Step 3: Compute u1,...,uk∈Rn the k orthogonal principal eigenvectors of Σ, i.e. the orthogonal eigenvectors of the k largest eigenvalues.** + +⟶ Шаг 3: Вычислить u1,...,uk∈Rn k ортогональных главных собственных векторов матрицы Σ, то есть ортогональных собственных векторов k наибольших собственных значений. + +
+ +**40. Step 4: Project the data on spanR(u1,...,uk).** + +⟶ Шаг 4: Спроецировать данные на spanR(u1,...,uk). + +
+ +**41. This procedure maximizes the variance among all k-dimensional spaces.** + +⟶ Эта процедура максимизирует дисперсию всех k-мерных пространств. + +
+ +**42. [Data in feature space, Find principal components, Data in principal components space]** + +⟶ [Данные в пространстве функций, Поиск главных компонент, Данные в пространстве главных компонент] + +
+ +**43. Independent component analysis** + +⟶ Метод независимых компонент + +
+ +**44. It is a technique meant to find the underlying generating sources.** + +⟶ Это метод, предназначенный для поиска основных источников генерации. + +
+ +**45. Assumptions ― We assume that our data x has been generated by the n-dimensional source vector s=(s1,...,sn), where si are independent random variables, via a mixing and non-singular matrix A as follows:** + +⟶ Предположения ― Мы предполагаем, что наши данные x были сгенерированы n-мерным исходным вектором s=(s1,...,sn), где si - независимые случайные величины, посредством смешивающей и невырожденной матрицы A следующим образом: + +
+ +**46. The goal is to find the unmixing matrix W=A−1.** + +⟶ Цель состоит в том, чтобы найти матрицу разложения W=A−1. + +
+ +**47. Bell and Sejnowski ICA algorithm ― This algorithm finds the unmixing matrix W by following the steps below:** + +⟶ Алгоритм анализа независимых компонент Белла и Сейновского ― Bell and Sejnowski Independent Component Analysis, ICA - Этот алгоритм находит матрицу разложения W, выполнив следующие шаги: + +
+ +**48. Write the probability of x=As=W−1s as:** + +⟶ Записать вероятность x=As=W−1s как: + +
+ +**49. Write the log likelihood given our training data {x(i),i∈[[1,m]]} and by noting g the sigmoid function as:** + +⟶ Записать логарифмическое правдоподобие с учетом наших обучающих данных {x(i),i∈[[1,m]]} и обозначенной g сигмоидальной функции как: + +
+ +**50. Therefore, the stochastic gradient ascent learning rule is such that for each training example x(i), we update W as follows:** + +⟶ Следовательно, правило обучения стохастическому градиентному восхождению таково, что для каждого обучающего примера x(i) мы обновляем W следующим образом: + +
+ +**51. The Machine Learning cheatsheets are now available in [target language].** + +⟶ Шпаргалки по машинному обучению теперь доступны на русском языке. + +
+ +**52. Original authors** + +⟶ Авторы оригинала: Afshine Amidi и Shervine Amidi ― https://github.com/afshinea и https://github.com/shervinea + +
+ +**53. Translated by X, Y and Z** + +⟶ Переведено на русский язык: Пархоменко Александр ― https://github.com/AlexandrParkhomenko + +
+ +**54. Reviewed by X, Y and Z** + +⟶ Проверено на русском языке: Труш Георгий (Georgy Trush) ― https://github.com/geotrush + +
+ +**55. [Introduction, Motivation, Jensen's inequality]** + +⟶ [Введение, Мотивация, Неравенство Йенсена] + +
+ +**56. [Clustering, Expectation-Maximization, k-means, Hierarchical clustering, Metrics]** + +⟶ [Кластеризация, Максимизация Ожидания, k-средние, Иерархическая кластеризация, Метрики] + +
+ +**57. [Dimension reduction, PCA, ICA]** + +⟶ [Уменьшение размерности, PCA, ICA]