From 949133bfab0208e17a0fbeb4d7f42550a179fff9 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 3 Feb 2019 20:29:03 +0100 Subject: [PATCH 01/28] Create hu --- hu | 1 + 1 file changed, 1 insertion(+) create mode 100644 hu diff --git a/hu b/hu new file mode 100644 index 000000000..8b1378917 --- /dev/null +++ b/hu @@ -0,0 +1 @@ + From 02023e2f99a3be707be4a1475582558a6482df6a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 3 Feb 2019 20:29:28 +0100 Subject: [PATCH 02/28] Delete hu --- hu | 1 - 1 file changed, 1 deletion(-) delete mode 100644 hu diff --git a/hu b/hu deleted file mode 100644 index 8b1378917..000000000 --- a/hu +++ /dev/null @@ -1 +0,0 @@ - From 1717f805b0d76b75a341db72bbfd6544e582e2f8 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 3 Feb 2019 20:30:32 +0100 Subject: [PATCH 03/28] Rename template/refresher-linear-algebra.md to hu/refresher-linear-algebra.md --- {template => hu}/refresher-linear-algebra.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename {template => hu}/refresher-linear-algebra.md (100%) diff --git a/template/refresher-linear-algebra.md b/hu/refresher-linear-algebra.md similarity index 100% rename from template/refresher-linear-algebra.md rename to hu/refresher-linear-algebra.md From e4ff6961a7de7b0083c2298abfa064ff00ff39c3 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 3 Feb 2019 21:11:44 +0100 Subject: [PATCH 04/28] Update refresher-linear-algebra.md --- hu/refresher-linear-algebra.md | 60 +++++++++++++++++----------------- 1 file changed, 30 insertions(+), 30 deletions(-) diff --git a/hu/refresher-linear-algebra.md b/hu/refresher-linear-algebra.md index a6b440d1e..110d5c01b 100644 --- a/hu/refresher-linear-algebra.md +++ b/hu/refresher-linear-algebra.md @@ -1,180 +1,180 @@ **1. Linear Algebra and Calculus refresher** -⟶ +⟶ Lineáris algebra és analízis felfrissítés
**2. General notations** -⟶ +⟶ Általános jelölések
**3. Definitions** -⟶ +⟶ Definíciók
**4. Vector ― We note x∈Rn a vector with n entries, where xi∈R is the ith entry:** -⟶ +⟶ Vektor -- Az n komponensű x∈Rn vektort, melynek xi∈R az i-edik komponense, így jelöljük:
**5. Matrix ― We note A∈Rm×n a matrix with m rows and n columns, where Ai,j∈R is the entry located in the ith row and jth column:** -⟶ +⟶ Mátrix -- Az m sorú és n oszlopú A∈Rm×n mátrixot, melynek Ai,j∈R az i-edik sorban és j-edik oszlopban található eleme, így jelöljük:
**6. Remark: the vector x defined above can be viewed as a n×1 matrix and is more particularly called a column-vector.** -⟶ +⟶ Megjegyzés: a fent definiált x vektor tekinthető egy n×1-es mátrixnak, és ekkor oszlopvektornak hívjuk.
**7. Main matrices** -⟶ +⟶ Főbb mátrixtípusok
**8. Identity matrix ― The identity matrix I∈Rn×n is a square matrix with ones in its diagonal and zero everywhere else:** -⟶ +⟶ Egységmátrix -- Az I∈Rn×n egységmátrix olyan négyzetes mátrix, melynek a diagonálisában (főátlójában) 1-esek állnak és 0-k mindenhol máshol.
**9. Remark: for all matrices A∈Rn×n, we have A×I=I×A=A.** -⟶ +⟶ Megjegyzés: bármely A∈Rn×n mátrix esetén igaz a következő: A×I=I×A=A.
**10. Diagonal matrix ― A diagonal matrix D∈Rn×n is a square matrix with nonzero values in its diagonal and zero everywhere else:** -⟶ +⟶ Diagonális mátrix -- A D∈Rn×n diagonális mátrix olyan négyzetes mátrix, melynek a diagonálisában (főátlójában) nemnulla elemek állnak és 0-k mindenhol máshol.
**11. Remark: we also note D as diag(d1,...,dn).** -⟶ +⟶ Megjegyzés: D-t jelölhetjük így is: diag(d1,...,dn).
**12. Matrix operations** -⟶ +⟶ Mátrixműveletek
**13. Multiplication** -⟶ +⟶ Szorzás
**14. Vector-vector ― There are two types of vector-vector products:** -⟶ +⟶ Vektor-vektor -- Kétféle vektor-vektor szorzat létezik.
**15. inner product: for x,y∈Rn, we have:** -⟶ +⟶ skaláris (vagy belső) szorzat: bármely x,y∈Rn esetén:
**16. outer product: for x∈Rm,y∈Rn, we have:** -⟶ +⟶ külső szorzat: bármely x∈Rm,y∈Rn esetén:
**17. Matrix-vector ― The product of matrix A∈Rm×n and vector x∈Rn is a vector of size Rn, such that:** -⟶ +⟶ mátrix-vektor -- az A∈Rm×n mátrix és x∈Rn vektor szorzata az az Rn-beli vektor, melyre:
**18. where aTr,i are the vector rows and ac,j are the vector columns of A, and xi are the entries of x.** -⟶ +⟶ ahol az aTr,i jelöli az A sorait és ac,j jelöli az A oszlopait, és xi az x vektor komponensei.
**19. Matrix-matrix ― The product of matrices A∈Rm×n and B∈Rn×p is a matrix of size Rn×p, such that:** -⟶ +⟶ Mátrix-mátrix -- Az A∈Rm×n és B∈Rn×p mátrixok szorzatai az az Rn×p-beli mátrix, melyre:
**20. where aTr,i,bTr,i are the vector rows and ac,j,bc,j are the vector columns of A and B respectively** -⟶ +⟶ ahol aTr,i,bTr,i rendre az A és B mátrixok sorai és ac,j,bc,j az A és B mátrixok oszlopai.
**21. Other operations** -⟶ +⟶ Egyéb műveletek
**22. Transpose ― The transpose of a matrix A∈Rm×n, noted AT, is such that its entries are flipped:** -⟶ +⟶ Transzponálás -- Az A∈Rm×n mátrix transzponáltját AT-vel jelöljük, és azt a mátrixot értjük alatta, mely az A elemeinek főátlóra való tükrözésével keletkezik:
**23. Remark: for matrices A,B, we have (AB)T=BTAT** -⟶ +⟶ Megjegyzés: bármely A,B mátrix esetén (AB)T=BTAT
**24. Inverse ― The inverse of an invertible square matrix A is noted A−1 and is the only matrix such that:** -⟶ +⟶ Inverzképzés (invertálás) -- Az A invertálható négyzetes mátrix inverzét A−1-vel jelöljük, és azt a mátrixot értjük alatta, melyre:
**25. Remark: not all square matrices are invertible. Also, for matrices A,B, we have (AB)−1=B−1A−1** -⟶ +⟶ Megjegyzés: nem minden négyzetes mátrix invertálható. Ha viszont A,B mátrixok invertálhatóak, akkor AB is invertálható és (AB)−1=B−1A−1.
**26. Trace ― The trace of a square matrix A, noted tr(A), is the sum of its diagonal entries:** -⟶ +⟶ Nyom -- Az A négyzetes mátrix nyomát tr(A)-val jelöljük, és a főátlóbeli elemek összegét értjük alatta.
**27. Remark: for matrices A,B, we have tr(AT)=tr(A) and tr(AB)=tr(BA)** -⟶ +⟶ Megjegyzés: bármely A,B négyzetes mátrix esetén tr(AT)=tr(A) és tr(AB)=tr(BA).
**28. Determinant ― The determinant of a square matrix A∈Rn×n, noted |A| or det(A) is expressed recursively in terms of A∖i,∖j, which is the matrix A without its ith row and jth column, as follows:** -⟶ +⟶ Determináns -- Az A∈Rn×n négyzetes mátrix determinánsát |A|-val vagy det(A)-val jelöljük, és rekurzívan, A∖i,∖j segítségével számolhatjuk ki, ahol A∖i,∖j az A mátrix azon részmátrixa, mely nem tartalmazza az A i-edik sorát és j-edik oszlopát.
**29. Remark: A is invertible if and only if |A|≠0. Also, |AB|=|A||B| and |AT|=|A|.** -⟶ +⟶ Megjegyzés: A invertálható akkor és csak akkor, ha |A|≠0. Továbbá |AB|=|A||B| és |AT|=|A|.
**30. Matrix properties** -⟶ +⟶ Mátrixtulajdonságok
From 13d0b4f8eb7d753ee7bab13a9542498b98077c7b Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 3 Feb 2019 21:39:00 +0100 Subject: [PATCH 05/28] Update refresher-linear-algebra.md --- hu/refresher-linear-algebra.md | 56 +++++++++++++++++----------------- 1 file changed, 28 insertions(+), 28 deletions(-) diff --git a/hu/refresher-linear-algebra.md b/hu/refresher-linear-algebra.md index 110d5c01b..ebd285e7a 100644 --- a/hu/refresher-linear-algebra.md +++ b/hu/refresher-linear-algebra.md @@ -18,13 +18,13 @@ **4. Vector ― We note x∈Rn a vector with n entries, where xi∈R is the ith entry:** -⟶ Vektor -- Az n komponensű x∈Rn vektort, melynek xi∈R az i-edik komponense, így jelöljük: +⟶ Vektor ― Az n komponensű x∈Rn vektort, melynek xi∈R az i-edik komponense, így jelöljük:
**5. Matrix ― We note A∈Rm×n a matrix with m rows and n columns, where Ai,j∈R is the entry located in the ith row and jth column:** -⟶ Mátrix -- Az m sorú és n oszlopú A∈Rm×n mátrixot, melynek Ai,j∈R az i-edik sorban és j-edik oszlopban található eleme, így jelöljük: +⟶ Mátrix ― Az m sorú és n oszlopú A∈Rm×n mátrixot, melynek Ai,j∈R az i-edik sorban és j-edik oszlopban található eleme, így jelöljük:
@@ -42,7 +42,7 @@ **8. Identity matrix ― The identity matrix I∈Rn×n is a square matrix with ones in its diagonal and zero everywhere else:** -⟶ Egységmátrix -- Az I∈Rn×n egységmátrix olyan négyzetes mátrix, melynek a diagonálisában (főátlójában) 1-esek állnak és 0-k mindenhol máshol. +⟶ Egységmátrix ― Az I∈Rn×n egységmátrix olyan négyzetes mátrix, melynek a diagonálisában (főátlójában) 1-esek állnak és 0-k mindenhol máshol.
@@ -54,7 +54,7 @@ **10. Diagonal matrix ― A diagonal matrix D∈Rn×n is a square matrix with nonzero values in its diagonal and zero everywhere else:** -⟶ Diagonális mátrix -- A D∈Rn×n diagonális mátrix olyan négyzetes mátrix, melynek a diagonálisában (főátlójában) nemnulla elemek állnak és 0-k mindenhol máshol. +⟶ Diagonális mátrix ― A D∈Rn×n diagonális mátrix olyan négyzetes mátrix, melynek a diagonálisában (főátlójában) nemnulla elemek állnak és 0-k mindenhol máshol.
@@ -78,7 +78,7 @@ **14. Vector-vector ― There are two types of vector-vector products:** -⟶ Vektor-vektor -- Kétféle vektor-vektor szorzat létezik. +⟶ Vektor-vektor ― Kétféle vektor-vektor szorzat létezik.
@@ -96,7 +96,7 @@ **17. Matrix-vector ― The product of matrix A∈Rm×n and vector x∈Rn is a vector of size Rn, such that:** -⟶ mátrix-vektor -- az A∈Rm×n mátrix és x∈Rn vektor szorzata az az Rn-beli vektor, melyre: +⟶ mátrix-vektor ― az A∈Rm×n mátrix és x∈Rn vektor szorzata az az Rn-beli vektor, melyre:
@@ -108,7 +108,7 @@ **19. Matrix-matrix ― The product of matrices A∈Rm×n and B∈Rn×p is a matrix of size Rn×p, such that:** -⟶ Mátrix-mátrix -- Az A∈Rm×n és B∈Rn×p mátrixok szorzatai az az Rn×p-beli mátrix, melyre: +⟶ Mátrix-mátrix ― Az A∈Rm×n és B∈Rn×p mátrixok szorzatai az az Rn×p-beli mátrix, melyre:
@@ -126,7 +126,7 @@ **22. Transpose ― The transpose of a matrix A∈Rm×n, noted AT, is such that its entries are flipped:** -⟶ Transzponálás -- Az A∈Rm×n mátrix transzponáltját AT-vel jelöljük, és azt a mátrixot értjük alatta, mely az A elemeinek főátlóra való tükrözésével keletkezik: +⟶ Transzponálás ― Az A∈Rm×n mátrix transzponáltja (jel.: AT) alatt azt a mátrixot értjük, mely az A elemeinek főátlóra való tükrözésével keletkezik:
@@ -138,7 +138,7 @@ **24. Inverse ― The inverse of an invertible square matrix A is noted A−1 and is the only matrix such that:** -⟶ Inverzképzés (invertálás) -- Az A invertálható négyzetes mátrix inverzét A−1-vel jelöljük, és azt a mátrixot értjük alatta, melyre: +⟶ Inverzképzés (invertálás) ― Az A invertálható négyzetes mátrix inverzét A−1-vel jelöljük, és azt a mátrixot értjük alatta, melyre:
@@ -150,7 +150,7 @@ **26. Trace ― The trace of a square matrix A, noted tr(A), is the sum of its diagonal entries:** -⟶ Nyom -- Az A négyzetes mátrix nyomát tr(A)-val jelöljük, és a főátlóbeli elemek összegét értjük alatta. +⟶ Nyom ― Az A négyzetes mátrix nyoma (jel.: tr(A)) alatt a főátlóbeli elemek összegét értjük.
@@ -162,13 +162,13 @@ **28. Determinant ― The determinant of a square matrix A∈Rn×n, noted |A| or det(A) is expressed recursively in terms of A∖i,∖j, which is the matrix A without its ith row and jth column, as follows:** -⟶ Determináns -- Az A∈Rn×n négyzetes mátrix determinánsát |A|-val vagy det(A)-val jelöljük, és rekurzívan, A∖i,∖j segítségével számolhatjuk ki, ahol A∖i,∖j az A mátrix azon részmátrixa, mely nem tartalmazza az A i-edik sorát és j-edik oszlopát. +⟶ Determináns ― Az A∈Rn×n négyzetes mátrix determinánsát (jel.: |A| vagy det(A)) rekurzívan, A∖i,∖j segítségével számolhatjuk ki, ahol A∖i,∖j az A mátrix azon részmátrixa, mely nem tartalmazza az A i-edik sorát és j-edik oszlopát.
**29. Remark: A is invertible if and only if |A|≠0. Also, |AB|=|A||B| and |AT|=|A|.** -⟶ Megjegyzés: A invertálható akkor és csak akkor, ha |A|≠0. Továbbá |AB|=|A||B| és |AT|=|A|. +⟶ Megjegyzés: A mátrix akkor és csak akkor invertálható, ha |A|≠0. Továbbá |AB|=|A||B| és |AT|=|A|.
@@ -180,97 +180,97 @@ **31. Definitions** -⟶ +⟶ Definíciók
**32. Symmetric decomposition ― A given matrix A can be expressed in terms of its symmetric and antisymmetric parts as follows:** -⟶ +⟶ Szimmetrikus felbontás ― Egy adott A mátrix felírható szimmetrikus és antiszimmetrikus mátrixok összegeként az alábbi módon:
**33. [Symmetric, Antisymmetric]** -⟶ +⟶ [Szimmetrikus, Antiszimmetrikus]
**34. Norm ― A norm is a function N:V⟶[0,+∞[ where V is a vector space, and such that for all x,y∈V, we have:** -⟶ +⟶ Norma ― Az N:V⟶[0,+∞[ függvényt normának nevezünk, ha V vektortér és minden x,y∈V esetén:
**35. N(ax)=|a|N(x) for a scalar** -⟶ +⟶ N(ax)=|a|N(x) ahol a egy skalár
**36. if N(x)=0, then x=0** -⟶ +⟶ ha N(x)=0, akkor x=0
**37. For x∈V, the most commonly used norms are summed up in the table below:** -⟶ +⟶ Az alábbi táblázatban foglaljuk össze a leggyakrabban használt normákat (x∈V):
**38. [Norm, Notation, Definition, Use case]** -⟶ +⟶ [Norma, Jelölés, Definíció, Itt (is) használjuk]
**39. Linearly dependence ― A set of vectors is said to be linearly dependent if one of the vectors in the set can be defined as a linear combination of the others.** -⟶ +⟶ Lineáris összefüggőség ― Egy vektorrendszert lineárisan összefüggőnek nevezünk, ha van olyan vektora, mely kifejezhető a többi vektor lineáris kombinációjaként.
**40. Remark: if no vector can be written this way, then the vectors are said to be linearly independent** -⟶ +⟶ Megjegyzés: ha egyetlen vektor sem fejezhető ki így, akkor azt mondjuk, hogy a vektorrendszer lineárisan független.
**41. Matrix rank ― The rank of a given matrix A is noted rank(A) and is the dimension of the vector space generated by its columns. This is equivalent to the maximum number of linearly independent columns of A.** -⟶ +⟶ Mátrixrang ― Az A mátrix rangja (jel.: r(A)) alatt az oszlopai által generált altér dimenziója. Ekvivalensen: ha A oszlopai közt található r(A) lineárisan független, de több nem.
**42. Positive semi-definite matrix ― A matrix A∈Rn×n is positive semi-definite (PSD) and is noted A⪰0 if we have:** -⟶ +⟶ Pozitív szemidefinit mátrix ― Az A∈Rn×n pozitív szemidefinit (jel.: A⪰0), ha igazak az alábbiak:
**43. Remark: similarly, a matrix A is said to be positive definite, and is noted A≻0, if it is a PSD matrix which satisfies for all non-zero vector x, xTAx>0.** -⟶ +⟶ Megjegyzés:
**44. Eigenvalue, eigenvector ― Given a matrix A∈Rn×n, λ is said to be an eigenvalue of A if there exists a vector z∈Rn∖{0}, called eigenvector, such that we have:** -⟶ +⟶ Sajátérték, sajátvektor ―
**45. Spectral theorem ― Let A∈Rn×n. If A is symmetric, then A is diagonalizable by a real orthogonal matrix U∈Rn×n. By noting Λ=diag(λ1,...,λn), we have:** -⟶ +⟶ Spektráltétel ―
**46. diagonal** -⟶ +⟶ diagonális
From 8fb0c02a2751cd6f3e20223bfea3be8d1a747cca Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Mon, 4 Feb 2019 19:36:35 +0100 Subject: [PATCH 06/28] Update refresher-linear-algebra.md --- hu/refresher-linear-algebra.md | 28 ++++++++++++++-------------- 1 file changed, 14 insertions(+), 14 deletions(-) diff --git a/hu/refresher-linear-algebra.md b/hu/refresher-linear-algebra.md index ebd285e7a..c2d5a3fd8 100644 --- a/hu/refresher-linear-algebra.md +++ b/hu/refresher-linear-algebra.md @@ -252,19 +252,19 @@ **43. Remark: similarly, a matrix A is said to be positive definite, and is noted A≻0, if it is a PSD matrix which satisfies for all non-zero vector x, xTAx>0.** -⟶ Megjegyzés: +⟶ Megjegyzés: hasonlóan, az A∈Rn×n pozitív definit (jel.: A≻0), ha igazak pozitív szemidefinit és minden nemnulla x vektorra xTAx>0.
**44. Eigenvalue, eigenvector ― Given a matrix A∈Rn×n, λ is said to be an eigenvalue of A if there exists a vector z∈Rn∖{0}, called eigenvector, such that we have:** -⟶ Sajátérték, sajátvektor ― +⟶ Sajátérték, sajátvektor ― Legyen A∈Rn×n. Azt mondjuk, hogy λ sajátértéke az A-nak, ha létezik olyan z∈Rn∖{0} vektor (az ún. sajátvektorI, melyre:
**45. Spectral theorem ― Let A∈Rn×n. If A is symmetric, then A is diagonalizable by a real orthogonal matrix U∈Rn×n. By noting Λ=diag(λ1,...,λn), we have:** -⟶ Spektráltétel ― +⟶ Spektráltétel ― Legyen A∈Rn×n. Ha A szimmetrikus, akkor A diagonalizálható egy U∈Rn×n valós ortogonális mátrixszal. Azaz ha Λ=diag(λ1,...,λn), akkor
@@ -276,64 +276,64 @@ **47. Singular-value decomposition ― For a given matrix A of dimensions m×n, the singular-value decomposition (SVD) is a factorization technique that guarantees the existence of U m×m unitary, Σ m×n diagonal and V n×n unitary matrices, such that:** -⟶ +⟶ Szinguláris felbontás ― Legyen m×n-es valós (komplex) A mátrix adott. Ekkor A szinguláris érték szerinti felbontása olyan faktorizációs technika, mely garantálja az U m×m-es ortogonális (unitér), Σ m×n-es diagonális és V n×n-es ortogonális (unitér) mátrixok létezését, melyekre:
**48. Matrix calculus** -⟶ +⟶ Mátrixanalízis
**49. Gradient ― Let f:Rm×n→R be a function and A∈Rm×n be a matrix. The gradient of f with respect to A is a m×n matrix, noted ∇Af(A), such that:** -⟶ +⟶ Gradiens ― Legyen f:Rm×n→R függvény és A∈Rm×n mátrix. Az f gradiense az A-ra nézve az az m×n-es mátrix (jel.: ∇Af(A)), melyre:
**50. Remark: the gradient of f is only defined when f is a function that returns a scalar.** -⟶ +⟶ Megjegyzés: az f gradiensét csak skalárértékű függvény esetén definiáljuk.
**51. Hessian ― Let f:Rn→R be a function and x∈Rn be a vector. The hessian of f with respect to x is a n×n symmetric matrix, noted ∇2xf(x), such that:** -⟶ +⟶ Hesse-mátrix ― Legyen f:Rn→R függvény és x∈Rn vektor. Ekkor az f Hesse-mátrixa x-ben az az n×n-es mátrix (jel.: ∇2xf(x)), melyre:
**52. Remark: the hessian of f is only defined when f is a function that returns a scalar** -⟶ +⟶ Megjegyzés: Az f Hesse-mátrixát csak skalárértékű függvény esetén definiáljuk.
**53. Gradient operations ― For matrices A,B,C, the following gradient properties are worth having in mind:** -⟶ +⟶ Műveletek a gradienssel ― Adott A,B,C mátrixok esetén érdemes a gradiens alábbi tulajdonságait megjegyeznünk:
**54. [General notations, Definitions, Main matrices]** -⟶ +⟶ [Általános jelölések, Definíciók, Főbb mátrixtípusok]
**55. [Matrix operations, Multiplication, Other operations]** -⟶ +⟶ [Mátrixműveletek, Szorzás, Egyéb műveletek]
**56. [Matrix properties, Norm, Eigenvalue/Eigenvector, Singular-value decomposition]** -⟶ +⟶ [Mátrixtulajdonságok, Norma, Sajátérték/Sajátvektor, Szinguláris felbontás]
**57. [Matrix calculus, Gradient, Hessian, Operations]** -⟶ +⟶ [Mátrixanalízis, Gradiens, Hesse-mátrix, Műveletek] From d055c81221973c9fd7e06bcfbb5718d15491035a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Mon, 4 Feb 2019 20:02:51 +0100 Subject: [PATCH 07/28] Rename template/refresher-probability.md to hu/refresher-probability.md --- {template => hu}/refresher-probability.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename {template => hu}/refresher-probability.md (100%) diff --git a/template/refresher-probability.md b/hu/refresher-probability.md similarity index 100% rename from template/refresher-probability.md rename to hu/refresher-probability.md From 90067211c04ea77c96749a7ebd007e1fadea52fb Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Mon, 4 Feb 2019 20:40:26 +0100 Subject: [PATCH 08/28] Update refresher-probability.md --- hu/refresher-probability.md | 46 ++++++++++++++++++------------------- 1 file changed, 23 insertions(+), 23 deletions(-) diff --git a/hu/refresher-probability.md b/hu/refresher-probability.md index 5c9b34656..574b27af6 100644 --- a/hu/refresher-probability.md +++ b/hu/refresher-probability.md @@ -1,138 +1,138 @@ **1. Probabilities and Statistics refresher** -⟶ +⟶ Valószínűségszámítás és statisztika felfrissítés
**2. Introduction to Probability and Combinatorics** -⟶ +⟶ Bevezetés a valószínűségszámításba és kombinatorikába
**3. Sample space ― The set of all possible outcomes of an experiment is known as the sample space of the experiment and is denoted by S.** -⟶ +⟶ Eseménytér ― Egy kísérlet összes lehetséges kimenetelének halmazára azt mondjuk, hogy a kísérlet eseménytere és S-sel jelöljök.
**4. Event ― Any subset E of the sample space is known as an event. That is, an event is a set consisting of possible outcomes of the experiment. If the outcome of the experiment is contained in E, then we say that E has occurred.** -⟶ +⟶ Az eseménytér bármely E részhalmazáról azt mondjuk, hogy esemény. Azaz egy esemény olyan halmaz, mely a kísérlet lehetséges kimeneteleit tartalmazza. Ha kísérlet egy kimenetele E-nek eleme, akkor azt mondjuk, hogy E esemény bekövetkezett.
**5. Axioms of probability For each event E, we denote P(E) as the probability of event E occuring.** -⟶ +⟶ Valószínűségi axiómák ― Egy E esemény esetén jelölje P(E) az E esemény bekövetkezésének valószínűségét.
**6. Axiom 1 ― Every probability is between 0 and 1 included, i.e:** -⟶ +⟶ 1. axióma ― a valószínűség 0 és 1 közötti valós szám (a határokat is beleértve), azaz:
**7. Axiom 2 ― The probability that at least one of the elementary events in the entire sample space will occur is 1, i.e:** -⟶ +⟶ 2. axióma ― Annak a valószínűsége, hogy legalább egy elemi esemény TODO
**8. Axiom 3 ― For any sequence of mutually exclusive events E1,...,En, we have:** -⟶ +⟶ Bármely egymást kizáró E1,...,En, eseményekre:
**9. Permutation ― A permutation is an arrangement of r objects from a pool of n objects, in a given order. The number of such arrangements is given by P(n,r), defined as:** -⟶ +⟶ Ismétlés nélküli variáció ― n elem közül r-nek a lehetséges kiválasztása az r darab elem ismétlés nélküli variációjának hívjuk (jel.: P(n,r)) és így definiáljuk:
**10. Combination ― A combination is an arrangement of r objects from a pool of n objects, where the order does not matter. The number of such arrangements is given by C(n,r), defined as:** -⟶ +⟶ Ismétlés nélküli kombináció ― ha a kiválasztás sorrendje nem számít, akkor n elem közül r-nek a lehetétséges kiválasztását ismétlés nélküli kombinációnak hívjuk (jel.: C(n,r)), és így definiáljuk:
**11. Remark: we note that for 0⩽r⩽n, we have P(n,r)⩾C(n,r)** -⟶ +⟶ Megjegyzés: ha 0⩽r⩽n, akkor P(n,r)⩾C(n,r)
**12. Conditional Probability** -⟶ +⟶ Feltételes valószínűség
**13. Bayes' rule ― For events A and B such that P(B)>0, we have:** -⟶ +⟶ Bayes-tétel ― Legyenek A és B események és P(B)>0. Ekkor
**14. Remark: we have P(A∩B)=P(A)P(B|A)=P(A|B)P(B)** -⟶ +⟶ Megjegyzés: P(A∩B)=P(A)P(B|A)=P(A|B)P(B)
**15. Partition ― Let {Ai,i∈[[1,n]]} be such that for all i, Ai≠∅. We say that {Ai} is a partition if we have:** -⟶ +⟶ Teljes eseményrendszer ― Legyen {Ai,i∈[[1,n]]} olyan, hogy minden i-re Ai≠∅. Ekkor azt mondjuk, hogy {Ai} teljes eseményrendszer, ha
**16. Remark: for any event B in the sample space, we have P(B)=n∑i=1P(B|Ai)P(Ai).** -⟶ +⟶ Megjegyzés: bármely B eseményre fennáll, hogy P(B)=n∑i=1P(B|Ai)P(Ai).
**17. Extended form of Bayes' rule ― Let {Ai,i∈[[1,n]]} be a partition of the sample space. We have:** -⟶ +⟶ Általánosított Bayes-tétel ― Legyen {Ai,i∈[[1,n]]} teljes eseményrendszer. Ekkor
**18. Independence ― Two events A and B are independent if and only if we have:** -⟶ +⟶ Függetlenség ― A és B események függetlenek pontosan akkor, ha
**19. Random Variables** -⟶ +⟶ Valószínűségi változók
**20. Definitions** -⟶ +⟶ Definíciók
**21. Random variable ― A random variable, often noted X, is a function that maps every element in a sample space to a real line.** -⟶ +⟶ Valószínűségi változó ― Az X valószínűségi változó olyan függvény, mely az eseménytér minden elemét a valós számegyenesre képezi.
**22. Cumulative distribution function (CDF) ― The cumulative distribution function F, which is monotonically non-decreasing and is such that limx→−∞F(x)=0 and limx→+∞F(x)=1, is defined as:** -⟶ +⟶ Eloszlásfüggvény ― Az X val. változó F eloszlásfüggvényét, mely (a) monoton növő, (b) balról folytonos és (c) igaz rá, hogy limx→−∞F(x)=0 és limx→+∞F(x)=1, a következőképpen definiáljuk:
**23. Remark: we have P(a From d85d386041015eb3ea1273992ecc4717c9fec122 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Tue, 5 Feb 2019 23:25:42 +0100 Subject: [PATCH 09/28] Update refresher-probability.md --- hu/refresher-probability.md | 84 ++++++++++++++++++------------------- 1 file changed, 42 insertions(+), 42 deletions(-) diff --git a/hu/refresher-probability.md b/hu/refresher-probability.md index 574b27af6..ddebd3288 100644 --- a/hu/refresher-probability.md +++ b/hu/refresher-probability.md @@ -36,7 +36,7 @@ **7. Axiom 2 ― The probability that at least one of the elementary events in the entire sample space will occur is 1, i.e:** -⟶ 2. axióma ― Annak a valószínűsége, hogy legalább egy elemi esemény TODO +⟶ 2. axióma ― Biztos esemény valószínűsége 1, azaz:
@@ -138,244 +138,244 @@ **24. Probability density function (PDF) ― The probability density function f is the probability that X takes on values between two adjacent realizations of the random variable.** -⟶ +⟶ Sűrűségfüggvény ― Az X val. változó abszolút folytonos, ha létezik olyan f nemnegatív függvény, melyre F'(x) = f(x). Ekkor f-et az X sűrűségfüggvényének mondjuk.
**25. Relationships involving the PDF and CDF ― Here are the important properties to know in the discrete (D) and the continuous (C) cases.** -⟶ +⟶ Összefüggések az eloszlásfüggvény és sűrűségfüggvény között ― Alább található néhány fontos tulajdonság a diszkrét (D) és folytonos (C) esetre vonatkozóan.
**26. [Case, CDF F, PDF f, Properties of PDF]** -⟶ +⟶ [Eset, Eloszlásfüggvény F, Sűrűségfüggvény f, Sűrűrségfüggvény tulajdonságai]
**27. Expectation and Moments of the Distribution ― Here are the expressions of the expected value E[X], generalized expected value E[g(X)], kth moment E[Xk] and characteristic function ψ(ω) for the discrete and continuous cases:** -⟶ +⟶ Várható érték és momentum ― Alább találhatók a várható érték (E[X]), általánosított várható érték (E[g(X)]), k-adik momentum (E[Xk]) és karakterisztikus függvény (ψ(ω)) formulái a diszkrét és folytonos esetben:
**28. Variance ― The variance of a random variable, often noted Var(X) or σ2, is a measure of the spread of its distribution function. It is determined as follows:** -⟶ +⟶ Variancia (szórásnégyzet) ― Az X val. változó szórásnégyzete (jel.: Var(X) vagy σ2) a várható értéktől vett átlagos négyzetes eltérés. A következőképpen határozható meg:
**29. Standard deviation ― The standard deviation of a random variable, often noted σ, is a measure of the spread of its distribution function which is compatible with the units of the actual random variable. It is determined as follows:** -⟶ +⟶ Szórás ― Az X val. változó szórása (jel.: σ) a szórásnégyzet gyöke. A következőképpen határozható meg:
**30. Transformation of random variables ― Let the variables X and Y be linked by some function. By noting fX and fY the distribution function of X and Y respectively, we have:** -⟶ +⟶ Val. változók transzformációja ― Legyenek X és Y val. változók úgy, hogy az egyikből a másikat valamilyen szigorúan monoton növő, folytonosan differenciálható függvénnyel kapjuk. Jelöljük X, ill. Y sűrűségfüggvényét fX-szel, ill. fY-nal, ekkor:
**31. Leibniz integral rule ― Let g be a function of x and potentially c, and a,b boundaries that may depend on c. We have:** -⟶ +⟶ Leibniz-féle integrálszabály ― Legyen g az x és esetleg c függvénye, és a,b intervallumhatárok, melyek függhetnek c-től. Ekkor:
**32. Probability Distributions** -⟶ +⟶ Eloszlások
**33. Chebyshev's inequality ― Let X be a random variable with expected value μ. For k,σ>0, we have the following inequality:** -⟶ +⟶ Csebisev-egyenlőtlenség ― Legyen X val. változó μ várható értékkel. Ha k,σ>0, akkor igaz az alábbi egyenlőtlenség:
**34. Main distributions ― Here are the main distributions to have in mind:** -⟶ +⟶ Nevezetes eloszlások
**35. [Type, Distribution]** -⟶ +⟶ [Típus, Eloszlás]
**36. Jointly Distributed Random Variables** -⟶ +⟶ Val. változók együttes eloszlása
**37. Marginal density and cumulative distribution ― From the joint density probability function fXY , we have** -⟶ +⟶ Együttes és peremeloszlás és -sűrűségfüggvények ― Ha fXY az X és Y val. változók együttes sűrűségfüggvénye, akkor:
**38. [Case, Marginal density, Cumulative function]** -⟶ +⟶ [Eset, Perem-sűrűségfüggvény, Együttes eloszlásfüggvény]
**39. Conditional density ― The conditional density of X with respect to Y, often noted fX|Y, is defined as follows:** -⟶ +⟶ Feltételes sűrűségfüggvény ― Az X val. változó feltételes sűrűségfüggvényét Y-ra nézve (jel.: fX|Y) így definiáljuk:
**40. Independence ― Two random variables X and Y are said to be independent if we have:** -⟶ +⟶ Függetlenség ― X és Y val. változókat függetlennek hívjuk, ha sűrűségfüggvényeikre teljesül:
**41. Covariance ― We define the covariance of two random variables X and Y, that we note σ2XY or more commonly Cov(X,Y), as follows:** -⟶ +⟶ Kovariancia ― X és Y val. változók kovarianciáját (jel.: σ2XY vagy Cov(X,Y)) így definiáljuk:
**42. Correlation ― By noting σX,σY the standard deviations of X and Y, we define the correlation between the random variables X and Y, noted ρXY, as follows:** -⟶ +⟶ Korreláció ― Az X és Y val. változók korrelációját így definiáljuk (ahol X és Y szórását rendre σX,σY-nal jelöljük):
**43. Remark 1: we note that for any random variables X,Y, we have ρXY∈[−1,1].** -⟶ +⟶ 1. megj.: bármely véges szórású X,Y val. változókra igaz, hogy ρXY∈[−1,1].
**44. Remark 2: If X and Y are independent, then ρXY=0.** -⟶ +⟶ 2. megj.: Ha X és Y függetlenek, akkor korrelálatlanok, azaz ρXY=0.
**45. Parameter estimation** -⟶ +⟶ Paraméterbecslés
**46. Definitions** -⟶ +⟶ Definíciók
**47. Random sample ― A random sample is a collection of n random variables X1,...,Xn that are independent and identically distributed with X.** -⟶ +⟶ Minta ― A minta n darab független, azonos eloszlású (i.i.d.) valószínűségi változóból álló sorozat.
**48. Estimator ― An estimator is a function of the data that is used to infer the value of an unknown parameter in a statistical model.** -⟶ +⟶ Becslés ― A becslés a minta olyan függvénye, mely a minta eloszlásának ismeretlen paraméterét közelíti a statisztikai modellben.
**49. Bias ― The bias of an estimator ^θ is defined as being the difference between the expected value of the distribution of ^θ and the true value, i.e.:** -⟶ +⟶ Torzítás (bias) ― A ^θ becslés torzítását a ^θ eloszlásának várható értéke és a valódi érték különbségeként definiáljuk, azaz:
**50. Remark: an estimator is said to be unbiased when we have E[^θ]=θ.** -⟶ +⟶ Megjegyzés: a becslést torzítatlannak mondjuk, ha E[^θ]=θ.
**51. Estimating the mean** -⟶ +⟶ Középértékbecslés
**52. Sample mean ― The sample mean of a random sample is used to estimate the true mean μ of a distribution, is often noted ¯¯¯¯¯X and is defined as follows:** -⟶ +⟶ Mintaátlag ― Valamely minta mintaátlagát (jel.: ¯¯¯¯¯X) az eloszlás valódi átlagának becslésére használjuk, és így definiáljuk:
**53. Remark: the sample mean is unbiased, i.e E[¯¯¯¯¯X]=μ.** -⟶ +⟶ Megjegyzés: a mintaátlag torzítatlan, azaz E[¯¯¯¯¯X]=μ.
**54. Central Limit Theorem ― Let us have a random sample X1,...,Xn following a given distribution with mean μ and variance σ2, then we have:** -⟶ +⟶ Centrális határeloszléstétel ― Legyen X1,...,Xn minta μ várható értékkel és σ2 szórásnégyzettel. Ekkor
**55. Estimating the variance** -⟶ +⟶
**56. Sample variance ― The sample variance of a random sample is used to estimate the true variance σ2 of a distribution, is often noted s2 or ^σ2 and is defined as follows:** -⟶ +⟶ Korrigált tapasztalati szórásnégyzet ― A minta korrigált tapasztalati szórásnégyzetét (jel.: s2 vagy ^σ2) az eloszlás valódi szórásnégyzetének (σ2-nek) becslésére használjuk, és így jelöljük:
**57. Remark: the sample variance is unbiased, i.e E[s2]=σ2.** -⟶ +⟶ Megjegyzés: a korrigált tapasztalati szórásnégyzet torzítatlan, azaz E[s2]=σ2.
**58. Chi-Squared relation with sample variance ― Let s2 be the sample variance of a random sample. We have:** -⟶ +⟶ Khí-négyzet eloszlás és korrigált tapasztalati szórásnégyzet közti kapcsolat ― Legyen s2 a minta korrigált tapasztalati szórásnégyzete. Ekkor:
**59. [Introduction, Sample space, Event, Permutation]** -⟶ +⟶ [Bevezetés, Eseménytér, Esemény, Variáció]
**60. [Conditional probability, Bayes' rule, Independence]** -⟶ +⟶ [Feltételes valószínűség, Bayes-tétel, Függetlenség]
**61. [Random variables, Definitions, Expectation, Variance]** -⟶ +⟶ [Valószínűségi változók, Definíciók, Várható érték, Szórásnégyzet]
**62. [Probability distributions, Chebyshev's inequality, Main distributions]** -⟶ +⟶ [Eloszlások, Csebisev-egyenlőtlenség, Nevezetes eloszlások]
**63. [Jointly distributed random variables, Density, Covariance, Correlation]** -⟶ +⟶ [Együttes eloszlás, Sűrűségfüggvény, Kovariancia, Korreláció]
**64. [Parameter estimation, Mean, Variance]** -⟶ +⟶ [Paraméterbecslés, Átlag, Szórásnégyzet] From a71187efb7d249dfb1b96740f7859ed9f93fad3f Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Tue, 5 Feb 2019 23:35:20 +0100 Subject: [PATCH 10/28] Update refresher-probability.md --- hu/refresher-probability.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/hu/refresher-probability.md b/hu/refresher-probability.md index ddebd3288..e03a8c827 100644 --- a/hu/refresher-probability.md +++ b/hu/refresher-probability.md @@ -324,7 +324,7 @@ **55. Estimating the variance** -⟶ +⟶ Szórásnégyzetbecslés
From 65faddb4e91833c42ab0f33c54bf78b6c80cc16b Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Wed, 6 Feb 2019 23:47:19 +0100 Subject: [PATCH 11/28] Update and rename template/cheatsheet-supervised-learning.md to hu/cheatsheet-supervised-learning.md --- .../cheatsheet-supervised-learning.md | 22 +++++++++---------- 1 file changed, 11 insertions(+), 11 deletions(-) rename {template => hu}/cheatsheet-supervised-learning.md (90%) diff --git a/template/cheatsheet-supervised-learning.md b/hu/cheatsheet-supervised-learning.md similarity index 90% rename from template/cheatsheet-supervised-learning.md rename to hu/cheatsheet-supervised-learning.md index a6b19ea1c..8dce00667 100644 --- a/template/cheatsheet-supervised-learning.md +++ b/hu/cheatsheet-supervised-learning.md @@ -1,66 +1,66 @@ **1. Supervised Learning cheatsheet** -⟶ +⟶ Felügyelt tanulás segédanyag
**2. Introduction to Supervised Learning** -⟶ +⟶ Bevezetés a felügyelt tanulásba
**3. Given a set of data points {x(1),...,x(m)} associated to a set of outcomes {y(1),...,y(m)}, we want to build a classifier that learns how to predict y from x.** -⟶ +⟶ Adott az {x(1),...,x(m)} mintapontokból mint bemenetből álló halmaz és a hozzájuk tartozó {y(1),...,y(m)} kimenethalmaz. Célunk olyan leképezés megtanulása, mely meg tudja jósolni (TODO előre tudja jelezni) y-t x-ből és megfelelő általánosítási képességekkel rendelkezik.
**4. Type of prediction ― The different types of predictive models are summed up in the table below:** -⟶ +⟶ Az előrejelzés típusai ― Különböző előrejelző modelleket az alábbi táblázat foglalja össze:
**5. [Regression, Classifier, Outcome, Examples]** -⟶ +⟶ [Regresszió, Klasszifikáció (osztályozás), Kimenet, Példák]
**6. [Continuous, Class, Linear regression, Logistic regression, SVM, Naive Bayes]** -⟶ +⟶ [Folytonos, Osztály, Lineáris regresszió, Logisztikus regresszió, SVM, Naív Bayes]
**7. Type of model ― The different models are summed up in the table below:** -⟶ +⟶ Modelltípus ― Két különböző modelltípust mutatunk be a következő táblázatban:
**8. [Discriminative model, Generative model, Goal, What's learned, Illustration, Examples]** -⟶ +⟶ [Diszkriminatív modell, Generatív modell, Cél, Mit tanul meg, Illusztráció, Példák]
**9. [Directly estimate P(y|x), Estimate P(x|y) to then deduce P(y|x), Decision boundary, Probability distributions of the data, Regressions, SVMs, GDA, Naive Bayes]** -⟶ +⟶ [P(y|x) közvetlen becslése, P(x|y) becslése által P(y|x)-re következtetés, Döntési határ, Az adatok valószínűségi eloszlása, Regressziók, SVM-ek, Gauss-féle diszkriminanciaanalízis (GDA), Naív Bayes]
**10. Notations and general concepts** -⟶ +⟶ Jelölések és általános fogalmak
**11. Hypothesis ― The hypothesis is noted hθ and is the model that we choose. For a given input data x(i) the model prediction output is hθ(x(i)).** -⟶ +⟶ Hipotézis ―
From 3b20e6201e74e907bba2317d14577a882070a97a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Fri, 8 Feb 2019 15:13:28 +0100 Subject: [PATCH 12/28] Rename hu/cheatsheet-supervised-learning.md to template/cheatsheet-supervised-learning.md --- {hu => template}/cheatsheet-supervised-learning.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename {hu => template}/cheatsheet-supervised-learning.md (100%) diff --git a/hu/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md similarity index 100% rename from hu/cheatsheet-supervised-learning.md rename to template/cheatsheet-supervised-learning.md From ea4f5ac54a6a1e9e4ecafd34eda2aa0e6a2591e5 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Fri, 8 Feb 2019 21:54:03 +0100 Subject: [PATCH 13/28] Update cheatsheet-supervised-learning.md --- template/cheatsheet-supervised-learning.md | 24 +++++++++++----------- 1 file changed, 12 insertions(+), 12 deletions(-) diff --git a/template/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md index 8dce00667..a25b72be3 100644 --- a/template/cheatsheet-supervised-learning.md +++ b/template/cheatsheet-supervised-learning.md @@ -60,73 +60,73 @@ **11. Hypothesis ― The hypothesis is noted hθ and is the model that we choose. For a given input data x(i) the model prediction output is hθ(x(i)).** -⟶ Hipotézis ― +⟶ Hipotézisfüggvény ― A hipotézisfüggvény (jel.: hθ) a megtanulandó leképezés. Adott x(i) bemeneti adatok esetén a modell által előrejelzett kimeneteket hθ(x(i))-vel jelöljük, ahol θ jelzi a modell paramétereit.
**12. Loss function ― A loss function is a function L:(z,y)∈R×Y⟼L(z,y)∈R that takes as inputs the predicted value z corresponding to the real data value y and outputs how different they are. The common loss functions are summed up in the table below:** -⟶ +⟶ Veszteségfüggvény ― A költségfüggvény az az L:(z,y)∈R×Y⟼L(z,y)∈R leképezés, mely bemenetként az előrejelzett z értékeket és az adott y-értékeket várja, és kimenetként megadja az ezek közti eltérés nagyságát. A leggyakrabban használt költségfüggvényeket az alábbi táblázat tartalmazza:
**13. [Least squared error, Logistic loss, Hinge loss, Cross-entropy]** -⟶ +⟶ [Legkisebb négyzetek, Logisztikus hiba, Hinge loss, Kereszt-entrópia] TODO
**14. [Linear regression, Logistic regression, SVM, Neural Network]** -⟶ +⟶ [Lineáris regresszió, Logisztikus regresszió, Tartóvektorgép (SVM), Neurális hálózat]
**15. Cost function ― The cost function J is commonly used to assess the performance of a model, and is defined with the loss function L as follows:** -⟶ +⟶ Költségfüggvény ― A J költségfüggvényt gyakran használjuk a modell teljesítményének méréséhez, és az L veszteségfüggvény segítségével az alábbi módon definiáljuk:
**16. Gradient descent ― By noting α∈R the learning rate, the update rule for gradient descent is expressed with the learning rate and the cost function J as follows:** -⟶ +⟶ A gradiensmódszer ― Legyen α∈R a tanulási mérték és J a költségfüggvény, ekkor a gradiensmódszer iteratív képletét az alábbi módon fejezhetjük ki:
**17. Remark: Stochastic gradient descent (SGD) is updating the parameter based on each training example, and batch gradient descent is on a batch of training examples.** -⟶ +⟶ Megjegyzés: A sztochasztikus gradiensmódszerben (SGD) a TODO
**18. Likelihood ― The likelihood of a model L(θ) given parameters θ is used to find the optimal parameters θ through maximizing the likelihood. In practice, we use the log-likelihood ℓ(θ)=log(L(θ)) which is easier to optimize. We have:** -⟶ +⟶ Likelihood ― A TODO
**19. Newton's algorithm ― The Newton's algorithm is a numerical method that finds θ such that ℓ′(θ)=0. Its update rule is as follows:** -⟶ +⟶ Newton-módszer ― A Newton-módszer (más néven Newton–Raphson-módszer) olyan numerikus gyökkereső módszer, mely megkeresi θ paramétert, melyre ℓ′(θ)=0. Az iteratív képlete:
**20. Remark: the multidimensional generalization, also known as the Newton-Raphson method, has the following update rule:** -⟶ +⟶ Megjegyzés: a többdimenziós általánosításnak a képlete:
**21. Linear models** -⟶ +⟶ Lineáris modellek
**22. Linear regression** -⟶ +⟶ Lineáris regresszió
From 2619572604898107b9f1f3e036157e012d301de6 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Fri, 8 Feb 2019 21:57:06 +0100 Subject: [PATCH 14/28] [hu] Supervised Learning --- template/cheatsheet-supervised-learning.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/template/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md index a25b72be3..219b8ebc1 100644 --- a/template/cheatsheet-supervised-learning.md +++ b/template/cheatsheet-supervised-learning.md @@ -157,7 +157,7 @@ **27. LWR ― Locally Weighted Regression, also known as LWR, is a variant of linear regression that weights each training example in its cost function by w(i)(x), which is defined with parameter τ∈R as:** ⟶ - +
**28. Classification and logistic regression** From f351274b2129371282d51b8f3126326a958ea760 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sat, 9 Feb 2019 18:28:13 +0100 Subject: [PATCH 15/28] Update cheatsheet-supervised-learning.md --- template/cheatsheet-supervised-learning.md | 76 +++++++++++----------- 1 file changed, 38 insertions(+), 38 deletions(-) diff --git a/template/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md index 219b8ebc1..dd28a45e6 100644 --- a/template/cheatsheet-supervised-learning.md +++ b/template/cheatsheet-supervised-learning.md @@ -72,7 +72,7 @@ **13. [Least squared error, Logistic loss, Hinge loss, Cross-entropy]** -⟶ [Legkisebb négyzetek, Logisztikus hiba, Hinge loss, Kereszt-entrópia] TODO +⟶ [Legkisebb négyzetek, Logisztikus hiba, Zsanérveszteség (Hinge loss), Kereszt-entrópia] TODO
@@ -90,7 +90,7 @@ **16. Gradient descent ― By noting α∈R the learning rate, the update rule for gradient descent is expressed with the learning rate and the cost function J as follows:** -⟶ A gradiensmódszer ― Legyen α∈R a tanulási mérték és J a költségfüggvény, ekkor a gradiensmódszer iteratív képletét az alábbi módon fejezhetjük ki: +⟶ A gradiensmódszer ― Legyen α∈R a tanulási ráta és J a költségfüggvény, ekkor a gradiensmódszer iteratív képletét az alábbi módon fejezhetjük ki:
@@ -114,7 +114,7 @@ **20. Remark: the multidimensional generalization, also known as the Newton-Raphson method, has the following update rule:** -⟶ Megjegyzés: a többdimenziós általánosításnak a képlete: +⟶ Megjegyzés: a többdimenziós általánosítás esetén a képlet:
@@ -132,199 +132,199 @@ **23. We assume here that y|x;θ∼N(μ,σ2)** -⟶ +⟶ Feltesszük, hogy y|x;θ∼N(μ,σ2)
**24. Normal equations ― By noting X the matrix design, the value of θ that minimizes the cost function is a closed-form solution such that:** -⟶ +⟶ Gauß-féle normálegyenletek ― Legyen X a modellmátrix. Ekkor a költségfüggvényt minimalizáló θ-érték kielégíti az alábbi egyenlőséget:
**25. LMS algorithm ― By noting α the learning rate, the update rule of the Least Mean Squares (LMS) algorithm for a training set of m data points, which is also known as the Widrow-Hoff learning rule, is as follows:** -⟶ +⟶ LMS-algortimus TODO ― Legyen α a tanulási ráta. Ekkor az LMS-algoritmus formulája (más néven Widrow-Hoff tanulási szabály) m darab tanító adatpont esetén:
**26. Remark: the update rule is a particular case of the gradient ascent.** -⟶ +⟶ Megjegyzés: a formula egy speciális esete a gradiensmódszernek.
**27. LWR ― Locally Weighted Regression, also known as LWR, is a variant of linear regression that weights each training example in its cost function by w(i)(x), which is defined with parameter τ∈R as:** -⟶ - +⟶ Helyileg súlyozott regresszió (LWR) ― A helyileg súlyozott regresszió a lineáris regresszió fajtája, mely minden tanító adatot w(i)(x)-szel súlyoz, melyet így definiálunk (τ∈R paraméter esetén): +
**28. Classification and logistic regression** -⟶ +⟶ Klasszifikáció és logisztikus regresszió
**29. Sigmoid function ― The sigmoid function g, also known as the logistic function, is defined as follows:** -⟶ +⟶ Szigmoidfüggvény ― Az ún. g szigmoidfüggvényt (más néven logisztikus függvényt) így definiáljuk:
**30. Logistic regression ― We assume here that y|x;θ∼Bernoulli(ϕ). We have the following form:** -⟶ +⟶ Logisztikus regresszió ― Feltesszük, hogy y|x;θ∼Bernoulli(ϕ). Ekkor fennáll az alábbi formula:
**31. Remark: there is no closed form solution for the case of logistic regressions.** -⟶ +⟶ Megjegyzés: nem létezik zárt alak a logisztikus regresszió megoldására.
**32. Softmax regression ― A softmax regression, also called a multiclass logistic regression, is used to generalize logistic regression when there are more than 2 outcome classes. By convention, we set θK=0, which makes the Bernoulli parameter ϕi of each class i equal to:** -⟶ +⟶ Szoftmax regresszió ― A szoftmax regresszió (más néven többosztályú logisztikus regresszió) a logisztikus regresszió általánosítása, amikor több mint két kimeneti osztály adott. (TODO by convention), legyen θK=0, ami alapján az i-edik osztály ϕi indikátor paraméterére fennáll:
**33. Generalized Linear Models** -⟶ +⟶ Általánosított lineáris modellek (GLM-ek)
**34. Exponential family ― A class of distributions is said to be in the exponential family if it can be written in terms of a natural parameter, also called the canonical parameter or link function, η, a sufficient statistic T(y) and a log-partition function a(η) as follows:** -⟶ +⟶ Exponenciális család ― Eloszlások egy osztálya az exponenciális családba tartozik, ha felírható egy η természetes paraméter (más néven kanonikus paraméter vagy kapcsolati függvény), T(y) elégséges statisztika és a(η) log-partíció függvény segítségével az alábbi módon:
**35. Remark: we will often have T(y)=y. Also, exp(−a(η)) can be seen as a normalization parameter that will make sure that the probabilities sum to one.** -⟶ +⟶ Megjegyzés: gyakran T(y)=y. Továbbá tekinthetünk úgy az exp(−a(η)) paraméterre mint a normalizációs konstansra, amely garantálja, hogy a p(y;η) eloszlás y feletti integrálja 1.
**36. Here are the most common exponential distributions summed up in the following table:** -⟶ +⟶ Az alábbi táblázat tartalmazza a leggyakoribb exponenciális családbeli eloszlásokat:
**37. [Distribution, Bernoulli, Gaussian, Poisson, Geometric]** -⟶ +⟶ [Eloszlás, Indikátor, Normális, Poisson, Geometriai]
-**38. Assumptions of GLMs ― Generalized Linear Models (GLM) aim at predicting a random variable y as a function fo x∈Rn+1 and rely on the following 3 assumptions:** +**38. Assumptions of GLMs ― Generalized Linear Models (GLM) aim at predicting a random variable y as a function of x∈Rn+1 and rely on the following 3 assumptions:** -⟶ +⟶ A GLM-ek feltételei ― A GLM-ek célja, hogy előrejelezze az y val. változót x∈Rn+1 függvényében. Ehhez az alábbi három feltétel kell, hogy teljesüljön:
**39. Remark: ordinary least squares and logistic regression are special cases of generalized linear models.** -⟶ +⟶ Megjegyzés: a legkisebb négyzetek módszere (OLS) és a logisztikus regresszió is speciális esete a GLM-eknek.
**40. Support Vector Machines** -⟶ +⟶ Tartóvektorgépek (SVM-ek)
**41: The goal of support vector machines is to find the line that maximizes the minimum distance to the line.** -⟶ +⟶ Az SVM-ek célja olyan hipersík megtalálása, mely maximalizálja az adatpontoknak a hipersíktól vett minimális távolságát.
**42: Optimal margin classifier ― The optimal margin classifier h is such that:** -⟶ +⟶ Optimális margójú klasszifikátor ― A h-val jelölt optimális margójú klasszifikátorra igaz, hogy:
**43: where (w,b)∈Rn×R is the solution of the following optimization problem:** -⟶ +⟶ ahol (w,b)∈Rn×R az alábbi optimalizációs probléma megoldása:
**44. such that** -⟶ +⟶ úgy, hogy
**45. support vectors** -⟶ +⟶ tartóvektorok
**46. Remark: the line is defined as wTx−b=0.** -⟶ +⟶ Megjegyzés: a hipersíkot az következő alakban írhatjuk fel:
**47. Hinge loss ― The hinge loss is used in the setting of SVMs and is defined as follows:** -⟶ +⟶ Zsanérveszteség ― A zsanérveszteség-függvényt (hinge loss) az SVM-ek kontextusában használjuk, és így definiáljuk:
**48. Kernel ― Given a feature mapping ϕ, we define the kernel K to be defined as:** -⟶ +⟶ Magfüggvény (kernel) ― Adott ϕ tulajdonságleképezés esetén a K magfüggvényt így definiáljuk:
**49. In practice, the kernel K defined by K(x,z)=exp(−||x−z||22σ2) is called the Gaussian kernel and is commonly used.** -⟶ +⟶ A gyakorlatban a K(x,z)=exp(−||x−z||22σ2) egyenlőséggel definiált magfüggvényt Gauß-féle magfüggvénynek hívjuk.
**50. [Non-linear separability, Use of a kernel mapping, Decision boundary in the original space]** -⟶ +⟶ [Nemlineáris szeparábilitás, Magfüggvény alkalmazása, Döntési határ az eredeti térben]
**51. Remark: we say that we use the "kernel trick" to compute the cost function using the kernel because we actually don't need to know the explicit mapping ϕ, which is often very complicated. Instead, only the values K(x,z) are needed.** -⟶ +⟶ Megjegyzés: azt mondjuk, hogy a kerneltrükköt alkalmazzuk a költségfüggvény kiszámolására TODO
**52. Lagrangian ― We define the Lagrangian L(w,b) as follows:** -⟶ +⟶ Lagrange-függvény ― Az L(w,b) ún. Lagrange-függvényt így definiáljuk:
**53. Remark: the coefficients βi are called the Lagrange multipliers.** -⟶ +⟶ Megjegyzés: a βi együtthatókat Lagrange-multiplikátoroknak nevezzük.
**54. Generative Learning** -⟶ +⟶ Generatív tanulás
**55. A generative model first tries to learn how the data is generated by estimating P(x|y), which we can then use to estimate P(y|x) by using Bayes' rule.** -⟶ +⟶
From 58d4b4c22e35bf79abdf66a229b0bead1c44a793 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Tue, 12 Feb 2019 08:12:47 +0100 Subject: [PATCH 16/28] Update cheatsheet-supervised-learning.md --- template/cheatsheet-supervised-learning.md | 10 +++++----- 1 file changed, 5 insertions(+), 5 deletions(-) diff --git a/template/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md index dd28a45e6..3bc875cc0 100644 --- a/template/cheatsheet-supervised-learning.md +++ b/template/cheatsheet-supervised-learning.md @@ -348,13 +348,13 @@ **59. Naive Bayes** -⟶ +⟶ Naív Bayes
**60. Assumption ― The Naive Bayes model supposes that the features of each data point are all independent:** -⟶ +⟶ Feltétel ― A Naív Bayes-modellben feltesszük, hogy az adatpontok tulajdonságai függetlenek:
@@ -366,19 +366,19 @@ **62. Remark: Naive Bayes is widely used for text classification and spam detection.** -⟶ +⟶ Megjegyzés: A Naív Bayest széles körben alkalmazzák a szövegklasszifikáció és spamfelismerés területén.
**63. Tree-based and ensemble methods** -⟶ +⟶ Faalapú és [összetett] módszerek
**64. These methods can be used for both regression and classification problems.** -⟶ +⟶ Ezek a módszerek regressziós és klasszifikációs problémák esetén egyaránt alkalmazhatók.
From a4bcbee678230de31cb78e3f80fb79326d00ac4c Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sat, 16 Feb 2019 08:49:56 +0100 Subject: [PATCH 17/28] Update cheatsheet-supervised-learning.md --- template/cheatsheet-supervised-learning.md | 46 +++++++++++----------- 1 file changed, 23 insertions(+), 23 deletions(-) diff --git a/template/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md index 3bc875cc0..f5d93ed93 100644 --- a/template/cheatsheet-supervised-learning.md +++ b/template/cheatsheet-supervised-learning.md @@ -354,13 +354,13 @@ **60. Assumption ― The Naive Bayes model supposes that the features of each data point are all independent:** -⟶ Feltétel ― A Naív Bayes-modellben feltesszük, hogy az adatpontok tulajdonságai függetlenek: +⟶ Feltevés ― A Naív Bayes-modellben feltesszük, hogy az adatpontok tulajdonságai függetlenek:
**61. Solutions ― Maximizing the log-likelihood gives the following solutions, with k∈{0,1},l∈[[1,L]]** -⟶ +⟶ Megoldások ― A log-likelihoodot maximalizálva a következő megoldásokat kapjuk (ahol k∈{0,1},l∈[[1,L]]):
@@ -372,7 +372,7 @@ **63. Tree-based and ensemble methods** -⟶ Faalapú és [összetett] módszerek +⟶ Faalapú és együttes (ensemble) módszerek
@@ -384,115 +384,115 @@ **65. CART ― Classification and Regression Trees (CART), commonly known as decision trees, can be represented as binary trees. They have the advantage to be very interpretable.** -⟶ +⟶ Klasszifikációs és Regressziós Fák (CART, ismertebb nevükön döntési fák): bináris fáként reprezentálhatóak. Előnyük, hogy könnyen értelmezhetőek.
**66. Random forest ― It is a tree-based technique that uses a high number of decision trees built out of randomly selected sets of features. Contrary to the simple decision tree, it is highly uninterpretable but its generally good performance makes it a popular algorithm.** -⟶ +⟶ Véletlen erdők ― Olyan faalapú modell, mely nagy számú döntési fát épít véletlenszerűen választott tulajdonsághalmazból. Az egyszerű döntési fával ellentétben kevésbe értelmezhetőek, de nagyrészt jó teljesítményük miatt eléggé elterjedtek.
**67. Remark: random forests are a type of ensemble methods.** -⟶ +⟶ Megjegyzés: a véletlen erdők az együttes módszerek egy típuát alkotják.
**68. Boosting ― The idea of boosting methods is to combine several weak learners to form a stronger one. The main ones are summed up in the table below:** -⟶ +⟶ Gyorsítás (boosting) ― A gyorsító modellek ötlete, hogy néhány, gyengébb alapklasszifikátort kombinálva egy erősebbet kapunk. A leggyakoribbakat az alábbi táblázatban foglaltuk össze:
**69. [Adaptive boosting, Gradient boosting]** -⟶ +⟶ [Adaptív gyorsítás, Gradiensalapú gyorsítás]
**70. High weights are put on errors to improve at the next boosting step** -⟶ +⟶ A hibák nagy súlyokat kapnak, hogy a következő gyorsító lépésben javuljon a tanulás.
**71. Weak learners trained on remaining errors** -⟶ +⟶ Az alapklasszifikátorok a maradék hibán tanulnak.
**72. Other non-parametric approaches** -⟶ +⟶ Egyéb, nemparaméteres megközelítések
**73. k-nearest neighbors ― The k-nearest neighbors algorithm, commonly known as k-NN, is a non-parametric approach where the response of a data point is determined by the nature of its k neighbors from the training set. It can be used in both classification and regression settings.** -⟶ +⟶ k Legközelebbi Szomszéd ― A k Legközelebbi Szomszéd algortimus (jel.: k-NN) olyan nemparaméteres megközelítés, ahol egy adatpont címkéjét a k darab legközelebbi tanulóadat címkéje határozza meg. Alkalmazható klasszifikációs és regressziós feladatokra is.
**74. Remark: The higher the parameter k, the higher the bias, and the lower the parameter k, the higher the variance.** -⟶ +⟶ Megjegyzés: Minél nagyobb a k paraméter értéke, annál nagyobb a torzítás (bias), illetve minél kisebb a k paraméter, annál nagyobb a variancia (variance).
**75. Learning Theory** -⟶ +⟶ Tanuláselmélet
**76. Union bound ― Let A1,...,Ak be k events. We have:** -⟶ +⟶ σ-szubadditivitás (Boole-egyenlőtlenség) ― Legyenek A1,...,Ak események. Ekkor:
**77. Hoeffding inequality ― Let Z1,..,Zm be m iid variables drawn from a Bernoulli distribution of parameter ϕ. Let ˆϕ be their sample mean and γ>0 fixed. We have:** -⟶ +⟶ Hoeffding-egyenlőtlenség ― Legyen Z1,..,Zm iid val. változó ϕ paraméterű indikátor eloszlásból. Legyen ˆϕ a mintaátlaguk és γ>0 rögzített. Ekkor:
**78. Remark: this inequality is also known as the Chernoff bound.** -⟶ +⟶ Megjegyzés: ezt az egyenlőtlenséget Chernoff-határként is nevezik.
**79. Training error ― For a given classifier h, we define the training error ˆϵ(h), also known as the empirical risk or empirical error, to be as follows:** -⟶ +⟶ Tanulási hiba ― Adott h klasszifikátor esetén a tanulási hibát (jel.: ˆϵ(h), más néven empirikus hiba) így definiáljuk:
**80. Probably Approximately Correct (PAC) ― PAC is a framework under which numerous results on learning theory were proved, and has the following set of assumptions: ** -⟶ +⟶ Valószínűleg közelítőleg helyes (PAC) ― A PAC olyan elv, melynek segítéségével sok tanulási elméletbeli eredmény bizonyítható. Az alábbi feltevések tartoznek ide:
**81: the training and testing sets follow the same distribution ** -⟶ +⟶ a tanító és teszthalmazok ugyanolyan eloszlást követnek
**82. the training examples are drawn independently** -⟶ +⟶ a tanító adatok egymástól függetlenek
**83. Shattering ― Given a set S={x(1),...,x(d)}, and a set of classifiers H, we say that H shatters S if for any set of labels {y(1),...,y(d)}, we have:** -⟶ +⟶ TODO
@@ -504,7 +504,7 @@ **85. VC dimension ― The Vapnik-Chervonenkis (VC) dimension of a given infinite hypothesis class H, noted VC(H) is the size of the largest set that is shattered by H.** -⟶ +⟶ VC-dimenzió ― Egy adott H végtelen hipotézisosztálynak a Vapnik―Chervonenkis (VC)-dimenziója (jel.: VC(H)) annak a legnagyobb halmaznak a mérete, melyet H ..
From d2d2340643d540189f1ab1380257e4ac3346ae3d Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sat, 16 Feb 2019 08:53:17 +0100 Subject: [PATCH 18/28] Update cheatsheet-supervised-learning.md --- template/cheatsheet-supervised-learning.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/template/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md index f5d93ed93..653364dc0 100644 --- a/template/cheatsheet-supervised-learning.md +++ b/template/cheatsheet-supervised-learning.md @@ -492,7 +492,7 @@ **83. Shattering ― Given a set S={x(1),...,x(d)}, and a set of classifiers H, we say that H shatters S if for any set of labels {y(1),...,y(d)}, we have:** -⟶ TODO +⟶ Szétzúzás ― Adott S={x(1),...,x(d)} halmaz és H klasszifikátorok halmaza. Ekkor azt mondjuk, hogy H szétzúzza S-et, ha bármely {y(1),...,y(d)} címkehalmazra fennáll:
@@ -504,7 +504,7 @@ **85. VC dimension ― The Vapnik-Chervonenkis (VC) dimension of a given infinite hypothesis class H, noted VC(H) is the size of the largest set that is shattered by H.** -⟶ VC-dimenzió ― Egy adott H végtelen hipotézisosztálynak a Vapnik―Chervonenkis (VC)-dimenziója (jel.: VC(H)) annak a legnagyobb halmaznak a mérete, melyet H .. +⟶ VC-dimenzió ― Egy adott H végtelen hipotézisosztálynak a Vapnik―Cservonenkis (VC)-dimenziója (jel.: VC(H)) annak a legnagyobb halmaznak a mérete, melyet H ..
From aaa8beed973ce34569d1a6af14e4a5c49b85d3ed Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 17 Feb 2019 19:49:47 +0100 Subject: [PATCH 19/28] Update cheatsheet-supervised-learning.md --- template/cheatsheet-supervised-learning.md | 56 +++++++++++----------- 1 file changed, 28 insertions(+), 28 deletions(-) diff --git a/template/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md index 653364dc0..f8155d972 100644 --- a/template/cheatsheet-supervised-learning.md +++ b/template/cheatsheet-supervised-learning.md @@ -12,7 +12,7 @@ **3. Given a set of data points {x(1),...,x(m)} associated to a set of outcomes {y(1),...,y(m)}, we want to build a classifier that learns how to predict y from x.** -⟶ Adott az {x(1),...,x(m)} mintapontokból mint bemenetből álló halmaz és a hozzájuk tartozó {y(1),...,y(m)} kimenethalmaz. Célunk olyan leképezés megtanulása, mely meg tudja jósolni (TODO előre tudja jelezni) y-t x-ből és megfelelő általánosítási képességekkel rendelkezik. +⟶ Adott az {x(1),...,x(m)} mintapontokból mint bemenetből álló halmaz és a hozzájuk tartozó {y(1),...,y(m)} kimenethalmaz. Célunk olyan leképezés megtanulása, mely meg tudja jósolni (másképp: előre tudja jelezni) y-t x-ből és megfelelő általánosítási képességekkel rendelkezik.
@@ -36,7 +36,7 @@ **7. Type of model ― The different models are summed up in the table below:** -⟶ Modelltípus ― Két különböző modelltípust mutatunk be a következő táblázatban: +⟶ Modelltípusok ― Két különböző modelltípust mutatunk be a következő táblázatban:
@@ -72,7 +72,7 @@ **13. [Least squared error, Logistic loss, Hinge loss, Cross-entropy]** -⟶ [Legkisebb négyzetek, Logisztikus hiba, Zsanérveszteség (Hinge loss), Kereszt-entrópia] TODO +⟶ [Legkisebb négyzetek, Logisztikus hiba, Zsanérveszteség (Hinge loss), Kereszt-entrópia]
@@ -96,13 +96,13 @@ **17. Remark: Stochastic gradient descent (SGD) is updating the parameter based on each training example, and batch gradient descent is on a batch of training examples.** -⟶ Megjegyzés: A sztochasztikus gradiensmódszerben (SGD) a TODO +⟶ Megjegyzés: A sztochasztikus gradiensmódszerben (SGD) a paraméter értékét minden egyes tanítóadat alapján frissítjük, míg a kötegelt gradiensmódszerben a tanítóadatok egy részhalmaza (kötege) alapján.
**18. Likelihood ― The likelihood of a model L(θ) given parameters θ is used to find the optimal parameters θ through maximizing the likelihood. In practice, we use the log-likelihood ℓ(θ)=log(L(θ)) which is easier to optimize. We have:** -⟶ Likelihood ― A TODO +⟶ Likelihood ― Adott θ paraméterek esetén a modell likelihoodját (jel.: L(θ)) úgy számítjuk, hogy megkeressük az optimális θ paramétereket a maximum likelihood becslés segítségével. A gyakorlatban az ℓ(θ)=log(L(θ)) log-likelihoodot használjuk, ugyanis könnyebb optimalizálni. Ekkor:
@@ -144,7 +144,7 @@ **25. LMS algorithm ― By noting α the learning rate, the update rule of the Least Mean Squares (LMS) algorithm for a training set of m data points, which is also known as the Widrow-Hoff learning rule, is as follows:** -⟶ LMS-algortimus TODO ― Legyen α a tanulási ráta. Ekkor az LMS-algoritmus formulája (más néven Widrow-Hoff tanulási szabály) m darab tanító adatpont esetén: +⟶ LMS-algortimus ― Legyen α a tanulási ráta. Ekkor az LMS-algoritmus formulája (más néven Widrow―Hoff-féle tanulási szabály) m darab tanító adatpont esetén:
@@ -186,7 +186,7 @@ **32. Softmax regression ― A softmax regression, also called a multiclass logistic regression, is used to generalize logistic regression when there are more than 2 outcome classes. By convention, we set θK=0, which makes the Bernoulli parameter ϕi of each class i equal to:** -⟶ Szoftmax regresszió ― A szoftmax regresszió (más néven többosztályú logisztikus regresszió) a logisztikus regresszió általánosítása, amikor több mint két kimeneti osztály adott. (TODO by convention), legyen θK=0, ami alapján az i-edik osztály ϕi indikátor paraméterére fennáll: +⟶ Szoftmax regresszió ― A szoftmax regresszió (más néven többosztályú logisztikus regresszió) a logisztikus regresszió általánosítása, amikor több mint két kimeneti osztály adott. Megállapodás szerint legyen θK=0, ami alapján az i-edik osztály ϕi indikátor paraméterére fennáll:
@@ -300,7 +300,7 @@ **51. Remark: we say that we use the "kernel trick" to compute the cost function using the kernel because we actually don't need to know the explicit mapping ϕ, which is often very complicated. Instead, only the values K(x,z) are needed.** -⟶ Megjegyzés: azt mondjuk, hogy a kerneltrükköt alkalmazzuk a költségfüggvény kiszámolására TODO +⟶ Megjegyzés: azt mondjuk, hogy az ún. kerneltrükköt alkalmazzuk a költségfüggvény kiszámolására, ugyanis igazából nem szükséges ismernünk az ϕ leképezést (ami sokszor bonyolult). Ehelyett elég ismernünk a K(x,z) értékeket.
@@ -324,25 +324,25 @@ **55. A generative model first tries to learn how the data is generated by estimating P(x|y), which we can then use to estimate P(y|x) by using Bayes' rule.** -⟶ +⟶ A generatív modellek előbb megpróbálják megbecsülni P(x|y) valószínűséget, amit aztán felhasználhatunk P(y|x) kiszámítására a Bayes-tétel alapján.
**56. Gaussian Discriminant Analysis** -⟶ +⟶ Diszkriminanciaanalízis
**57. Setting ― The Gaussian Discriminant Analysis assumes that y and x|y=0 and x|y=1 are such that:** -⟶ +⟶ Felállás ― A diszkriminanciaanalízisban feltesszük, hogy az alábbiak fennállnak:
**58. Estimation ― The following table sums up the estimates that we find when maximizing the likelihood:** -⟶ +⟶ Becslés ― Az alábbi táblázat foglalja össze azokat a becsléseket, melyeket a likelihood maximalizálásával kapunk:
@@ -384,7 +384,7 @@ **65. CART ― Classification and Regression Trees (CART), commonly known as decision trees, can be represented as binary trees. They have the advantage to be very interpretable.** -⟶ Klasszifikációs és Regressziós Fák (CART, ismertebb nevükön döntési fák): bináris fáként reprezentálhatóak. Előnyük, hogy könnyen értelmezhetőek. +⟶ Klasszifikációs és Regressziós Fák (CART), ismertebb nevükön döntési fák): bináris fáként reprezentálhatóak. Előnyük, hogy könnyen értelmezhetőek.
@@ -450,7 +450,7 @@ **76. Union bound ― Let A1,...,Ak be k events. We have:** -⟶ σ-szubadditivitás (Boole-egyenlőtlenség) ― Legyenek A1,...,Ak események. Ekkor: +⟶ σ-szubadditivitás (más néven Boole-egyenlőtlenség) ― Legyenek A1,...,Ak események. Ekkor:
@@ -468,13 +468,13 @@ **79. Training error ― For a given classifier h, we define the training error ˆϵ(h), also known as the empirical risk or empirical error, to be as follows:** -⟶ Tanulási hiba ― Adott h klasszifikátor esetén a tanulási hibát (jel.: ˆϵ(h), más néven empirikus hiba) így definiáljuk: +⟶ Tanulási hiba ― Adott h klasszifikátor esetén a tanulási hibát (jel.: ˆϵ(h)), más néven empirikus hiba) így definiáljuk:
**80. Probably Approximately Correct (PAC) ― PAC is a framework under which numerous results on learning theory were proved, and has the following set of assumptions: ** -⟶ Valószínűleg közelítőleg helyes (PAC) ― A PAC olyan elv, melynek segítéségével sok tanulási elméletbeli eredmény bizonyítható. Az alábbi feltevések tartoznek ide: +⟶ Valószínűleg közelítőleg helyes (PAC) ― A PAC olyan elv, melynek segítéségével sok tanuláselméletbeli eredmény bizonyítható. Az alábbi feltevések tartoznek ide:
@@ -498,70 +498,70 @@ **84. Upper bound theorem ― Let H be a finite hypothesis class such that |H|=k and let δ and the sample size m be fixed. Then, with probability of at least 1−δ, we have:** -⟶ +⟶ Felső korlát tétel ― Legyen H egy véges hipotéziscsalád, melyre |H|=k, valamint legyen δ és m (a mintaméret) rögzítettek. Ekkor legalább 1−δ valószínűséggel fennáll, hogy:
**85. VC dimension ― The Vapnik-Chervonenkis (VC) dimension of a given infinite hypothesis class H, noted VC(H) is the size of the largest set that is shattered by H.** -⟶ VC-dimenzió ― Egy adott H végtelen hipotézisosztálynak a Vapnik―Cservonenkis (VC)-dimenziója (jel.: VC(H)) annak a legnagyobb halmaznak a mérete, melyet H .. +⟶ VC-dimenzió ― Egy adott H végtelen hipotézisosztálynak a Vapnik―Cservonenkis (VC)-dimenziója (jel.: VC(H)) annak a legnagyobb halmaznak a mérete, melyet H szétzúz.
**86. Remark: the VC dimension of H={set of linear classifiers in 2 dimensions} is 3.** -⟶ +⟶ Megjegyzés: ha H={2-dimenziós lineáris klasszifikátorok halmaza}, akkor VC(H)=3.
**87. Theorem (Vapnik) ― Let H be given, with VC(H)=d and m the number of training examples. With probability at least 1−δ, we have:** -⟶ +⟶ Tétel (Vapnik) ― Legyen H adott, melyre VC(H)=d, és legyen m a tanító adatok száma. Ekkor legalább 1−δ valószínűséggel fennáll, hogy:
**88. [Introduction, Type of prediction, Type of model]** -⟶ +⟶ [Bevezetés, Előrejelzls típusai, Modelltípusok]
**89. [Notations and general concepts, loss function, gradient descent, likelihood]** -⟶ +⟶ [Jelölések és általános fogalmak, veszteségfüggvény, gradiensmódszer, likelihood]
**90. [Linear models, linear regression, logistic regression, generalized linear models]** -⟶ +⟶ [Lineáris modellek, lineáris regresszió, logisztikus regresszió, általánosított lineáris modellek]
**91. [Support vector machines, Optimal margin classifier, Hinge loss, Kernel]** -⟶ +⟶ [Tartóvektorgépek (SVM), Optimális margójú klasszifikátor, Zsanérveszteség (hinge loss), Magfüggvény (kernel)]
**92. [Generative learning, Gaussian Discriminant Analysis, Naive Bayes]** -⟶ +⟶ [Generatív tanulás, Diszkriminanciaanalízis, Naív Bayes]
**93. [Trees and ensemble methods, CART, Random forest, Boosting]** -⟶ +⟶ [Faalapú és együttes (ensemble) módszerek, CART, Véletlen erdők, Gyorsítás (boosting)]
**94. [Other methods, k-NN]** -⟶ +⟶ [Egyéb módszerek, k-NN]
**95. [Learning theory, Hoeffding inequality, PAC, VC dimension]** -⟶ +⟶ [Tanuláselmélet, Hoeffding-egyenlőtlenség, PAC, VC-dimenzió] From fbe0421ebd210041ebc4fe13228585f859efeb3c Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 17 Feb 2019 20:03:55 +0100 Subject: [PATCH 20/28] Rename template/cheatsheet-supervised-learning.md to hu/cheatsheet-supervised-learning.md --- {template => hu}/cheatsheet-supervised-learning.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename {template => hu}/cheatsheet-supervised-learning.md (100%) diff --git a/template/cheatsheet-supervised-learning.md b/hu/cheatsheet-supervised-learning.md similarity index 100% rename from template/cheatsheet-supervised-learning.md rename to hu/cheatsheet-supervised-learning.md From 3900b06afe6e4970978e92e79a39d27e20b6198f Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 17 Feb 2019 20:09:54 +0100 Subject: [PATCH 21/28] Rename hu/cheatsheet-supervised-learning.md to hu1/cheatsheet-supervised-learning.md --- {hu => hu1}/cheatsheet-supervised-learning.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename {hu => hu1}/cheatsheet-supervised-learning.md (100%) diff --git a/hu/cheatsheet-supervised-learning.md b/hu1/cheatsheet-supervised-learning.md similarity index 100% rename from hu/cheatsheet-supervised-learning.md rename to hu1/cheatsheet-supervised-learning.md From 87281d36ad0ba9fc5911e62ab54b7963735adcd4 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 24 Feb 2019 19:46:38 +0100 Subject: [PATCH 22/28] Rename hu1/cheatsheet-supervised-learning.md to hu/cheatsheet-supervised-learning.md --- {hu1 => hu}/cheatsheet-supervised-learning.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename {hu1 => hu}/cheatsheet-supervised-learning.md (100%) diff --git a/hu1/cheatsheet-supervised-learning.md b/hu/cheatsheet-supervised-learning.md similarity index 100% rename from hu1/cheatsheet-supervised-learning.md rename to hu/cheatsheet-supervised-learning.md From c04797ee0bd06d6ef84628b234b4a2e51b9275c2 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 24 Feb 2019 20:07:00 +0100 Subject: [PATCH 23/28] Update cheatsheet-supervised-learning.md --- hu/cheatsheet-supervised-learning.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/hu/cheatsheet-supervised-learning.md b/hu/cheatsheet-supervised-learning.md index f8155d972..60ab97e3d 100644 --- a/hu/cheatsheet-supervised-learning.md +++ b/hu/cheatsheet-supervised-learning.md @@ -32,7 +32,7 @@ ⟶ [Folytonos, Osztály, Lineáris regresszió, Logisztikus regresszió, SVM, Naív Bayes] -
+
**7. Type of model ― The different models are summed up in the table below:** From e4f18d950b29deeefeba7d119e28d462600724a7 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 24 Feb 2019 20:14:23 +0100 Subject: [PATCH 24/28] Delete refresher-linear-algebra.md --- hu/refresher-linear-algebra.md | 339 --------------------------------- 1 file changed, 339 deletions(-) delete mode 100644 hu/refresher-linear-algebra.md diff --git a/hu/refresher-linear-algebra.md b/hu/refresher-linear-algebra.md deleted file mode 100644 index c2d5a3fd8..000000000 --- a/hu/refresher-linear-algebra.md +++ /dev/null @@ -1,339 +0,0 @@ -**1. Linear Algebra and Calculus refresher** - -⟶ Lineáris algebra és analízis felfrissítés - -
- -**2. General notations** - -⟶ Általános jelölések - -
- -**3. Definitions** - -⟶ Definíciók - -
- -**4. Vector ― We note x∈Rn a vector with n entries, where xi∈R is the ith entry:** - -⟶ Vektor ― Az n komponensű x∈Rn vektort, melynek xi∈R az i-edik komponense, így jelöljük: - -
- -**5. Matrix ― We note A∈Rm×n a matrix with m rows and n columns, where Ai,j∈R is the entry located in the ith row and jth column:** - -⟶ Mátrix ― Az m sorú és n oszlopú A∈Rm×n mátrixot, melynek Ai,j∈R az i-edik sorban és j-edik oszlopban található eleme, így jelöljük: - -
- -**6. Remark: the vector x defined above can be viewed as a n×1 matrix and is more particularly called a column-vector.** - -⟶ Megjegyzés: a fent definiált x vektor tekinthető egy n×1-es mátrixnak, és ekkor oszlopvektornak hívjuk. - -
- -**7. Main matrices** - -⟶ Főbb mátrixtípusok - -
- -**8. Identity matrix ― The identity matrix I∈Rn×n is a square matrix with ones in its diagonal and zero everywhere else:** - -⟶ Egységmátrix ― Az I∈Rn×n egységmátrix olyan négyzetes mátrix, melynek a diagonálisában (főátlójában) 1-esek állnak és 0-k mindenhol máshol. - -
- -**9. Remark: for all matrices A∈Rn×n, we have A×I=I×A=A.** - -⟶ Megjegyzés: bármely A∈Rn×n mátrix esetén igaz a következő: A×I=I×A=A. - -
- -**10. Diagonal matrix ― A diagonal matrix D∈Rn×n is a square matrix with nonzero values in its diagonal and zero everywhere else:** - -⟶ Diagonális mátrix ― A D∈Rn×n diagonális mátrix olyan négyzetes mátrix, melynek a diagonálisában (főátlójában) nemnulla elemek állnak és 0-k mindenhol máshol. - -
- -**11. Remark: we also note D as diag(d1,...,dn).** - -⟶ Megjegyzés: D-t jelölhetjük így is: diag(d1,...,dn). - -
- -**12. Matrix operations** - -⟶ Mátrixműveletek - -
- -**13. Multiplication** - -⟶ Szorzás - -
- -**14. Vector-vector ― There are two types of vector-vector products:** - -⟶ Vektor-vektor ― Kétféle vektor-vektor szorzat létezik. - -
- -**15. inner product: for x,y∈Rn, we have:** - -⟶ skaláris (vagy belső) szorzat: bármely x,y∈Rn esetén: - -
- -**16. outer product: for x∈Rm,y∈Rn, we have:** - -⟶ külső szorzat: bármely x∈Rm,y∈Rn esetén: - -
- -**17. Matrix-vector ― The product of matrix A∈Rm×n and vector x∈Rn is a vector of size Rn, such that:** - -⟶ mátrix-vektor ― az A∈Rm×n mátrix és x∈Rn vektor szorzata az az Rn-beli vektor, melyre: - -
- -**18. where aTr,i are the vector rows and ac,j are the vector columns of A, and xi are the entries of x.** - -⟶ ahol az aTr,i jelöli az A sorait és ac,j jelöli az A oszlopait, és xi az x vektor komponensei. - -
- -**19. Matrix-matrix ― The product of matrices A∈Rm×n and B∈Rn×p is a matrix of size Rn×p, such that:** - -⟶ Mátrix-mátrix ― Az A∈Rm×n és B∈Rn×p mátrixok szorzatai az az Rn×p-beli mátrix, melyre: - -
- -**20. where aTr,i,bTr,i are the vector rows and ac,j,bc,j are the vector columns of A and B respectively** - -⟶ ahol aTr,i,bTr,i rendre az A és B mátrixok sorai és ac,j,bc,j az A és B mátrixok oszlopai. - -
- -**21. Other operations** - -⟶ Egyéb műveletek - -
- -**22. Transpose ― The transpose of a matrix A∈Rm×n, noted AT, is such that its entries are flipped:** - -⟶ Transzponálás ― Az A∈Rm×n mátrix transzponáltja (jel.: AT) alatt azt a mátrixot értjük, mely az A elemeinek főátlóra való tükrözésével keletkezik: - -
- -**23. Remark: for matrices A,B, we have (AB)T=BTAT** - -⟶ Megjegyzés: bármely A,B mátrix esetén (AB)T=BTAT - -
- -**24. Inverse ― The inverse of an invertible square matrix A is noted A−1 and is the only matrix such that:** - -⟶ Inverzképzés (invertálás) ― Az A invertálható négyzetes mátrix inverzét A−1-vel jelöljük, és azt a mátrixot értjük alatta, melyre: - -
- -**25. Remark: not all square matrices are invertible. Also, for matrices A,B, we have (AB)−1=B−1A−1** - -⟶ Megjegyzés: nem minden négyzetes mátrix invertálható. Ha viszont A,B mátrixok invertálhatóak, akkor AB is invertálható és (AB)−1=B−1A−1. - -
- -**26. Trace ― The trace of a square matrix A, noted tr(A), is the sum of its diagonal entries:** - -⟶ Nyom ― Az A négyzetes mátrix nyoma (jel.: tr(A)) alatt a főátlóbeli elemek összegét értjük. - -
- -**27. Remark: for matrices A,B, we have tr(AT)=tr(A) and tr(AB)=tr(BA)** - -⟶ Megjegyzés: bármely A,B négyzetes mátrix esetén tr(AT)=tr(A) és tr(AB)=tr(BA). - -
- -**28. Determinant ― The determinant of a square matrix A∈Rn×n, noted |A| or det(A) is expressed recursively in terms of A∖i,∖j, which is the matrix A without its ith row and jth column, as follows:** - -⟶ Determináns ― Az A∈Rn×n négyzetes mátrix determinánsát (jel.: |A| vagy det(A)) rekurzívan, A∖i,∖j segítségével számolhatjuk ki, ahol A∖i,∖j az A mátrix azon részmátrixa, mely nem tartalmazza az A i-edik sorát és j-edik oszlopát. - -
- -**29. Remark: A is invertible if and only if |A|≠0. Also, |AB|=|A||B| and |AT|=|A|.** - -⟶ Megjegyzés: A mátrix akkor és csak akkor invertálható, ha |A|≠0. Továbbá |AB|=|A||B| és |AT|=|A|. - -
- -**30. Matrix properties** - -⟶ Mátrixtulajdonságok - -
- -**31. Definitions** - -⟶ Definíciók - -
- -**32. Symmetric decomposition ― A given matrix A can be expressed in terms of its symmetric and antisymmetric parts as follows:** - -⟶ Szimmetrikus felbontás ― Egy adott A mátrix felírható szimmetrikus és antiszimmetrikus mátrixok összegeként az alábbi módon: - -
- -**33. [Symmetric, Antisymmetric]** - -⟶ [Szimmetrikus, Antiszimmetrikus] - -
- -**34. Norm ― A norm is a function N:V⟶[0,+∞[ where V is a vector space, and such that for all x,y∈V, we have:** - -⟶ Norma ― Az N:V⟶[0,+∞[ függvényt normának nevezünk, ha V vektortér és minden x,y∈V esetén: - -
- -**35. N(ax)=|a|N(x) for a scalar** - -⟶ N(ax)=|a|N(x) ahol a egy skalár - -
- -**36. if N(x)=0, then x=0** - -⟶ ha N(x)=0, akkor x=0 - -
- -**37. For x∈V, the most commonly used norms are summed up in the table below:** - -⟶ Az alábbi táblázatban foglaljuk össze a leggyakrabban használt normákat (x∈V): - -
- -**38. [Norm, Notation, Definition, Use case]** - -⟶ [Norma, Jelölés, Definíció, Itt (is) használjuk] - -
- -**39. Linearly dependence ― A set of vectors is said to be linearly dependent if one of the vectors in the set can be defined as a linear combination of the others.** - -⟶ Lineáris összefüggőség ― Egy vektorrendszert lineárisan összefüggőnek nevezünk, ha van olyan vektora, mely kifejezhető a többi vektor lineáris kombinációjaként. - -
- -**40. Remark: if no vector can be written this way, then the vectors are said to be linearly independent** - -⟶ Megjegyzés: ha egyetlen vektor sem fejezhető ki így, akkor azt mondjuk, hogy a vektorrendszer lineárisan független. - -
- -**41. Matrix rank ― The rank of a given matrix A is noted rank(A) and is the dimension of the vector space generated by its columns. This is equivalent to the maximum number of linearly independent columns of A.** - -⟶ Mátrixrang ― Az A mátrix rangja (jel.: r(A)) alatt az oszlopai által generált altér dimenziója. Ekvivalensen: ha A oszlopai közt található r(A) lineárisan független, de több nem. - -
- -**42. Positive semi-definite matrix ― A matrix A∈Rn×n is positive semi-definite (PSD) and is noted A⪰0 if we have:** - -⟶ Pozitív szemidefinit mátrix ― Az A∈Rn×n pozitív szemidefinit (jel.: A⪰0), ha igazak az alábbiak: - -
- -**43. Remark: similarly, a matrix A is said to be positive definite, and is noted A≻0, if it is a PSD matrix which satisfies for all non-zero vector x, xTAx>0.** - -⟶ Megjegyzés: hasonlóan, az A∈Rn×n pozitív definit (jel.: A≻0), ha igazak pozitív szemidefinit és minden nemnulla x vektorra xTAx>0. - -
- -**44. Eigenvalue, eigenvector ― Given a matrix A∈Rn×n, λ is said to be an eigenvalue of A if there exists a vector z∈Rn∖{0}, called eigenvector, such that we have:** - -⟶ Sajátérték, sajátvektor ― Legyen A∈Rn×n. Azt mondjuk, hogy λ sajátértéke az A-nak, ha létezik olyan z∈Rn∖{0} vektor (az ún. sajátvektorI, melyre: - -
- -**45. Spectral theorem ― Let A∈Rn×n. If A is symmetric, then A is diagonalizable by a real orthogonal matrix U∈Rn×n. By noting Λ=diag(λ1,...,λn), we have:** - -⟶ Spektráltétel ― Legyen A∈Rn×n. Ha A szimmetrikus, akkor A diagonalizálható egy U∈Rn×n valós ortogonális mátrixszal. Azaz ha Λ=diag(λ1,...,λn), akkor - -
- -**46. diagonal** - -⟶ diagonális - -
- -**47. Singular-value decomposition ― For a given matrix A of dimensions m×n, the singular-value decomposition (SVD) is a factorization technique that guarantees the existence of U m×m unitary, Σ m×n diagonal and V n×n unitary matrices, such that:** - -⟶ Szinguláris felbontás ― Legyen m×n-es valós (komplex) A mátrix adott. Ekkor A szinguláris érték szerinti felbontása olyan faktorizációs technika, mely garantálja az U m×m-es ortogonális (unitér), Σ m×n-es diagonális és V n×n-es ortogonális (unitér) mátrixok létezését, melyekre: - -
- -**48. Matrix calculus** - -⟶ Mátrixanalízis - -
- -**49. Gradient ― Let f:Rm×n→R be a function and A∈Rm×n be a matrix. The gradient of f with respect to A is a m×n matrix, noted ∇Af(A), such that:** - -⟶ Gradiens ― Legyen f:Rm×n→R függvény és A∈Rm×n mátrix. Az f gradiense az A-ra nézve az az m×n-es mátrix (jel.: ∇Af(A)), melyre: - -
- -**50. Remark: the gradient of f is only defined when f is a function that returns a scalar.** - -⟶ Megjegyzés: az f gradiensét csak skalárértékű függvény esetén definiáljuk. - -
- -**51. Hessian ― Let f:Rn→R be a function and x∈Rn be a vector. The hessian of f with respect to x is a n×n symmetric matrix, noted ∇2xf(x), such that:** - -⟶ Hesse-mátrix ― Legyen f:Rn→R függvény és x∈Rn vektor. Ekkor az f Hesse-mátrixa x-ben az az n×n-es mátrix (jel.: ∇2xf(x)), melyre: - -
- -**52. Remark: the hessian of f is only defined when f is a function that returns a scalar** - -⟶ Megjegyzés: Az f Hesse-mátrixát csak skalárértékű függvény esetén definiáljuk. - -
- -**53. Gradient operations ― For matrices A,B,C, the following gradient properties are worth having in mind:** - -⟶ Műveletek a gradienssel ― Adott A,B,C mátrixok esetén érdemes a gradiens alábbi tulajdonságait megjegyeznünk: - -
- -**54. [General notations, Definitions, Main matrices]** - -⟶ [Általános jelölések, Definíciók, Főbb mátrixtípusok] - -
- -**55. [Matrix operations, Multiplication, Other operations]** - -⟶ [Mátrixműveletek, Szorzás, Egyéb műveletek] - -
- -**56. [Matrix properties, Norm, Eigenvalue/Eigenvector, Singular-value decomposition]** - -⟶ [Mátrixtulajdonságok, Norma, Sajátérték/Sajátvektor, Szinguláris felbontás] - -
- -**57. [Matrix calculus, Gradient, Hessian, Operations]** - -⟶ [Mátrixanalízis, Gradiens, Hesse-mátrix, Műveletek] From 2eb33a7803ded673aee288e6e69fea4629b0ffa0 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Bal=C3=A1zs=20Vida?= <44985950+balazs-vida@users.noreply.github.com> Date: Sun, 24 Feb 2019 20:15:02 +0100 Subject: [PATCH 25/28] Delete refresher-probability.md --- hu/refresher-probability.md | 381 ------------------------------------ 1 file changed, 381 deletions(-) delete mode 100644 hu/refresher-probability.md diff --git a/hu/refresher-probability.md b/hu/refresher-probability.md deleted file mode 100644 index e03a8c827..000000000 --- a/hu/refresher-probability.md +++ /dev/null @@ -1,381 +0,0 @@ -**1. Probabilities and Statistics refresher** - -⟶ Valószínűségszámítás és statisztika felfrissítés - -
- -**2. Introduction to Probability and Combinatorics** - -⟶ Bevezetés a valószínűségszámításba és kombinatorikába - -
- -**3. Sample space ― The set of all possible outcomes of an experiment is known as the sample space of the experiment and is denoted by S.** - -⟶ Eseménytér ― Egy kísérlet összes lehetséges kimenetelének halmazára azt mondjuk, hogy a kísérlet eseménytere és S-sel jelöljök. - -
- -**4. Event ― Any subset E of the sample space is known as an event. That is, an event is a set consisting of possible outcomes of the experiment. If the outcome of the experiment is contained in E, then we say that E has occurred.** - -⟶ Az eseménytér bármely E részhalmazáról azt mondjuk, hogy esemény. Azaz egy esemény olyan halmaz, mely a kísérlet lehetséges kimeneteleit tartalmazza. Ha kísérlet egy kimenetele E-nek eleme, akkor azt mondjuk, hogy E esemény bekövetkezett. - -
- -**5. Axioms of probability For each event E, we denote P(E) as the probability of event E occuring.** - -⟶ Valószínűségi axiómák ― Egy E esemény esetén jelölje P(E) az E esemény bekövetkezésének valószínűségét. - -
- -**6. Axiom 1 ― Every probability is between 0 and 1 included, i.e:** - -⟶ 1. axióma ― a valószínűség 0 és 1 közötti valós szám (a határokat is beleértve), azaz: - -
- -**7. Axiom 2 ― The probability that at least one of the elementary events in the entire sample space will occur is 1, i.e:** - -⟶ 2. axióma ― Biztos esemény valószínűsége 1, azaz: - -
- -**8. Axiom 3 ― For any sequence of mutually exclusive events E1,...,En, we have:** - -⟶ Bármely egymást kizáró E1,...,En, eseményekre: - -
- -**9. Permutation ― A permutation is an arrangement of r objects from a pool of n objects, in a given order. The number of such arrangements is given by P(n,r), defined as:** - -⟶ Ismétlés nélküli variáció ― n elem közül r-nek a lehetséges kiválasztása az r darab elem ismétlés nélküli variációjának hívjuk (jel.: P(n,r)) és így definiáljuk: - -
- -**10. Combination ― A combination is an arrangement of r objects from a pool of n objects, where the order does not matter. The number of such arrangements is given by C(n,r), defined as:** - -⟶ Ismétlés nélküli kombináció ― ha a kiválasztás sorrendje nem számít, akkor n elem közül r-nek a lehetétséges kiválasztását ismétlés nélküli kombinációnak hívjuk (jel.: C(n,r)), és így definiáljuk: - -
- -**11. Remark: we note that for 0⩽r⩽n, we have P(n,r)⩾C(n,r)** - -⟶ Megjegyzés: ha 0⩽r⩽n, akkor P(n,r)⩾C(n,r) - -
- -**12. Conditional Probability** - -⟶ Feltételes valószínűség - -
- -**13. Bayes' rule ― For events A and B such that P(B)>0, we have:** - -⟶ Bayes-tétel ― Legyenek A és B események és P(B)>0. Ekkor - -
- -**14. Remark: we have P(A∩B)=P(A)P(B|A)=P(A|B)P(B)** - -⟶ Megjegyzés: P(A∩B)=P(A)P(B|A)=P(A|B)P(B) - -
- -**15. Partition ― Let {Ai,i∈[[1,n]]} be such that for all i, Ai≠∅. We say that {Ai} is a partition if we have:** - -⟶ Teljes eseményrendszer ― Legyen {Ai,i∈[[1,n]]} olyan, hogy minden i-re Ai≠∅. Ekkor azt mondjuk, hogy {Ai} teljes eseményrendszer, ha - -
- -**16. Remark: for any event B in the sample space, we have P(B)=n∑i=1P(B|Ai)P(Ai).** - -⟶ Megjegyzés: bármely B eseményre fennáll, hogy P(B)=n∑i=1P(B|Ai)P(Ai). - -
- -**17. Extended form of Bayes' rule ― Let {Ai,i∈[[1,n]]} be a partition of the sample space. We have:** - -⟶ Általánosított Bayes-tétel ― Legyen {Ai,i∈[[1,n]]} teljes eseményrendszer. Ekkor - -
- -**18. Independence ― Two events A and B are independent if and only if we have:** - -⟶ Függetlenség ― A és B események függetlenek pontosan akkor, ha - -
- -**19. Random Variables** - -⟶ Valószínűségi változók - -
- -**20. Definitions** - -⟶ Definíciók - -
- -**21. Random variable ― A random variable, often noted X, is a function that maps every element in a sample space to a real line.** - -⟶ Valószínűségi változó ― Az X valószínűségi változó olyan függvény, mely az eseménytér minden elemét a valós számegyenesre képezi. - -
- -**22. Cumulative distribution function (CDF) ― The cumulative distribution function F, which is monotonically non-decreasing and is such that limx→−∞F(x)=0 and limx→+∞F(x)=1, is defined as:** - -⟶ Eloszlásfüggvény ― Az X val. változó F eloszlásfüggvényét, mely (a) monoton növő, (b) balról folytonos és (c) igaz rá, hogy limx→−∞F(x)=0 és limx→+∞F(x)=1, a következőképpen definiáljuk: - -
- -**23. Remark: we have P(a - -**24. Probability density function (PDF) ― The probability density function f is the probability that X takes on values between two adjacent realizations of the random variable.** - -⟶ Sűrűségfüggvény ― Az X val. változó abszolút folytonos, ha létezik olyan f nemnegatív függvény, melyre F'(x) = f(x). Ekkor f-et az X sűrűségfüggvényének mondjuk. - -
- -**25. Relationships involving the PDF and CDF ― Here are the important properties to know in the discrete (D) and the continuous (C) cases.** - -⟶ Összefüggések az eloszlásfüggvény és sűrűségfüggvény között ― Alább található néhány fontos tulajdonság a diszkrét (D) és folytonos (C) esetre vonatkozóan. - -
- -**26. [Case, CDF F, PDF f, Properties of PDF]** - -⟶ [Eset, Eloszlásfüggvény F, Sűrűségfüggvény f, Sűrűrségfüggvény tulajdonságai] - -
- -**27. Expectation and Moments of the Distribution ― Here are the expressions of the expected value E[X], generalized expected value E[g(X)], kth moment E[Xk] and characteristic function ψ(ω) for the discrete and continuous cases:** - -⟶ Várható érték és momentum ― Alább találhatók a várható érték (E[X]), általánosított várható érték (E[g(X)]), k-adik momentum (E[Xk]) és karakterisztikus függvény (ψ(ω)) formulái a diszkrét és folytonos esetben: - -
- -**28. Variance ― The variance of a random variable, often noted Var(X) or σ2, is a measure of the spread of its distribution function. It is determined as follows:** - -⟶ Variancia (szórásnégyzet) ― Az X val. változó szórásnégyzete (jel.: Var(X) vagy σ2) a várható értéktől vett átlagos négyzetes eltérés. A következőképpen határozható meg: - -
- -**29. Standard deviation ― The standard deviation of a random variable, often noted σ, is a measure of the spread of its distribution function which is compatible with the units of the actual random variable. It is determined as follows:** - -⟶ Szórás ― Az X val. változó szórása (jel.: σ) a szórásnégyzet gyöke. A következőképpen határozható meg: - -
- -**30. Transformation of random variables ― Let the variables X and Y be linked by some function. By noting fX and fY the distribution function of X and Y respectively, we have:** - -⟶ Val. változók transzformációja ― Legyenek X és Y val. változók úgy, hogy az egyikből a másikat valamilyen szigorúan monoton növő, folytonosan differenciálható függvénnyel kapjuk. Jelöljük X, ill. Y sűrűségfüggvényét fX-szel, ill. fY-nal, ekkor: - -
- -**31. Leibniz integral rule ― Let g be a function of x and potentially c, and a,b boundaries that may depend on c. We have:** - -⟶ Leibniz-féle integrálszabály ― Legyen g az x és esetleg c függvénye, és a,b intervallumhatárok, melyek függhetnek c-től. Ekkor: - -
- -**32. Probability Distributions** - -⟶ Eloszlások - -
- -**33. Chebyshev's inequality ― Let X be a random variable with expected value μ. For k,σ>0, we have the following inequality:** - -⟶ Csebisev-egyenlőtlenség ― Legyen X val. változó μ várható értékkel. Ha k,σ>0, akkor igaz az alábbi egyenlőtlenség: - -
- -**34. Main distributions ― Here are the main distributions to have in mind:** - -⟶ Nevezetes eloszlások - -
- -**35. [Type, Distribution]** - -⟶ [Típus, Eloszlás] - -
- -**36. Jointly Distributed Random Variables** - -⟶ Val. változók együttes eloszlása - -
- -**37. Marginal density and cumulative distribution ― From the joint density probability function fXY , we have** - -⟶ Együttes és peremeloszlás és -sűrűségfüggvények ― Ha fXY az X és Y val. változók együttes sűrűségfüggvénye, akkor: - -
- -**38. [Case, Marginal density, Cumulative function]** - -⟶ [Eset, Perem-sűrűségfüggvény, Együttes eloszlásfüggvény] - -
- -**39. Conditional density ― The conditional density of X with respect to Y, often noted fX|Y, is defined as follows:** - -⟶ Feltételes sűrűségfüggvény ― Az X val. változó feltételes sűrűségfüggvényét Y-ra nézve (jel.: fX|Y) így definiáljuk: - -
- -**40. Independence ― Two random variables X and Y are said to be independent if we have:** - -⟶ Függetlenség ― X és Y val. változókat függetlennek hívjuk, ha sűrűségfüggvényeikre teljesül: - -
- -**41. Covariance ― We define the covariance of two random variables X and Y, that we note σ2XY or more commonly Cov(X,Y), as follows:** - -⟶ Kovariancia ― X és Y val. változók kovarianciáját (jel.: σ2XY vagy Cov(X,Y)) így definiáljuk: - -
- -**42. Correlation ― By noting σX,σY the standard deviations of X and Y, we define the correlation between the random variables X and Y, noted ρXY, as follows:** - -⟶ Korreláció ― Az X és Y val. változók korrelációját így definiáljuk (ahol X és Y szórását rendre σX,σY-nal jelöljük): - -
- -**43. Remark 1: we note that for any random variables X,Y, we have ρXY∈[−1,1].** - -⟶ 1. megj.: bármely véges szórású X,Y val. változókra igaz, hogy ρXY∈[−1,1]. - -
- -**44. Remark 2: If X and Y are independent, then ρXY=0.** - -⟶ 2. megj.: Ha X és Y függetlenek, akkor korrelálatlanok, azaz ρXY=0. - -
- -**45. Parameter estimation** - -⟶ Paraméterbecslés - -
- -**46. Definitions** - -⟶ Definíciók - -
- -**47. Random sample ― A random sample is a collection of n random variables X1,...,Xn that are independent and identically distributed with X.** - -⟶ Minta ― A minta n darab független, azonos eloszlású (i.i.d.) valószínűségi változóból álló sorozat. - -
- -**48. Estimator ― An estimator is a function of the data that is used to infer the value of an unknown parameter in a statistical model.** - -⟶ Becslés ― A becslés a minta olyan függvénye, mely a minta eloszlásának ismeretlen paraméterét közelíti a statisztikai modellben. - -
- -**49. Bias ― The bias of an estimator ^θ is defined as being the difference between the expected value of the distribution of ^θ and the true value, i.e.:** - -⟶ Torzítás (bias) ― A ^θ becslés torzítását a ^θ eloszlásának várható értéke és a valódi érték különbségeként definiáljuk, azaz: - -
- -**50. Remark: an estimator is said to be unbiased when we have E[^θ]=θ.** - -⟶ Megjegyzés: a becslést torzítatlannak mondjuk, ha E[^θ]=θ. - -
- -**51. Estimating the mean** - -⟶ Középértékbecslés - -
- -**52. Sample mean ― The sample mean of a random sample is used to estimate the true mean μ of a distribution, is often noted ¯¯¯¯¯X and is defined as follows:** - -⟶ Mintaátlag ― Valamely minta mintaátlagát (jel.: ¯¯¯¯¯X) az eloszlás valódi átlagának becslésére használjuk, és így definiáljuk: - -
- -**53. Remark: the sample mean is unbiased, i.e E[¯¯¯¯¯X]=μ.** - -⟶ Megjegyzés: a mintaátlag torzítatlan, azaz E[¯¯¯¯¯X]=μ. - -
- -**54. Central Limit Theorem ― Let us have a random sample X1,...,Xn following a given distribution with mean μ and variance σ2, then we have:** - -⟶ Centrális határeloszléstétel ― Legyen X1,...,Xn minta μ várható értékkel és σ2 szórásnégyzettel. Ekkor - -
- -**55. Estimating the variance** - -⟶ Szórásnégyzetbecslés - -
- -**56. Sample variance ― The sample variance of a random sample is used to estimate the true variance σ2 of a distribution, is often noted s2 or ^σ2 and is defined as follows:** - -⟶ Korrigált tapasztalati szórásnégyzet ― A minta korrigált tapasztalati szórásnégyzetét (jel.: s2 vagy ^σ2) az eloszlás valódi szórásnégyzetének (σ2-nek) becslésére használjuk, és így jelöljük: - -
- -**57. Remark: the sample variance is unbiased, i.e E[s2]=σ2.** - -⟶ Megjegyzés: a korrigált tapasztalati szórásnégyzet torzítatlan, azaz E[s2]=σ2. - -
- -**58. Chi-Squared relation with sample variance ― Let s2 be the sample variance of a random sample. We have:** - -⟶ Khí-négyzet eloszlás és korrigált tapasztalati szórásnégyzet közti kapcsolat ― Legyen s2 a minta korrigált tapasztalati szórásnégyzete. Ekkor: - -
- -**59. [Introduction, Sample space, Event, Permutation]** - -⟶ [Bevezetés, Eseménytér, Esemény, Variáció] - -
- -**60. [Conditional probability, Bayes' rule, Independence]** - -⟶ [Feltételes valószínűség, Bayes-tétel, Függetlenség] - -
- -**61. [Random variables, Definitions, Expectation, Variance]** - -⟶ [Valószínűségi változók, Definíciók, Várható érték, Szórásnégyzet] - -
- -**62. [Probability distributions, Chebyshev's inequality, Main distributions]** - -⟶ [Eloszlások, Csebisev-egyenlőtlenség, Nevezetes eloszlások] - -
- -**63. [Jointly distributed random variables, Density, Covariance, Correlation]** - -⟶ [Együttes eloszlás, Sűrűségfüggvény, Kovariancia, Korreláció] - -
- -**64. [Parameter estimation, Mean, Variance]** - -⟶ [Paraméterbecslés, Átlag, Szórásnégyzet] From 0613323cec3a1680b12d7acd225edb6ffa29e088 Mon Sep 17 00:00:00 2001 From: Shervine Amidi Date: Sun, 24 Feb 2019 14:05:56 -0800 Subject: [PATCH 26/28] Restore supervised template --- template/cheatsheet-supervised-learning.md | 567 +++++++++++++++++++++ 1 file changed, 567 insertions(+) create mode 100644 template/cheatsheet-supervised-learning.md diff --git a/template/cheatsheet-supervised-learning.md b/template/cheatsheet-supervised-learning.md new file mode 100644 index 000000000..a6b19ea1c --- /dev/null +++ b/template/cheatsheet-supervised-learning.md @@ -0,0 +1,567 @@ +**1. Supervised Learning cheatsheet** + +⟶ + +
+ +**2. Introduction to Supervised Learning** + +⟶ + +
+ +**3. Given a set of data points {x(1),...,x(m)} associated to a set of outcomes {y(1),...,y(m)}, we want to build a classifier that learns how to predict y from x.** + +⟶ + +
+ +**4. Type of prediction ― The different types of predictive models are summed up in the table below:** + +⟶ + +
+ +**5. [Regression, Classifier, Outcome, Examples]** + +⟶ + +
+ +**6. [Continuous, Class, Linear regression, Logistic regression, SVM, Naive Bayes]** + +⟶ + +
+ +**7. Type of model ― The different models are summed up in the table below:** + +⟶ + +
+ +**8. [Discriminative model, Generative model, Goal, What's learned, Illustration, Examples]** + +⟶ + +
+ +**9. [Directly estimate P(y|x), Estimate P(x|y) to then deduce P(y|x), Decision boundary, Probability distributions of the data, Regressions, SVMs, GDA, Naive Bayes]** + +⟶ + +
+ +**10. Notations and general concepts** + +⟶ + +
+ +**11. Hypothesis ― The hypothesis is noted hθ and is the model that we choose. For a given input data x(i) the model prediction output is hθ(x(i)).** + +⟶ + +
+ +**12. Loss function ― A loss function is a function L:(z,y)∈R×Y⟼L(z,y)∈R that takes as inputs the predicted value z corresponding to the real data value y and outputs how different they are. The common loss functions are summed up in the table below:** + +⟶ + +
+ +**13. [Least squared error, Logistic loss, Hinge loss, Cross-entropy]** + +⟶ + +
+ +**14. [Linear regression, Logistic regression, SVM, Neural Network]** + +⟶ + +
+ +**15. Cost function ― The cost function J is commonly used to assess the performance of a model, and is defined with the loss function L as follows:** + +⟶ + +
+ +**16. Gradient descent ― By noting α∈R the learning rate, the update rule for gradient descent is expressed with the learning rate and the cost function J as follows:** + +⟶ + +
+ +**17. Remark: Stochastic gradient descent (SGD) is updating the parameter based on each training example, and batch gradient descent is on a batch of training examples.** + +⟶ + +
+ +**18. Likelihood ― The likelihood of a model L(θ) given parameters θ is used to find the optimal parameters θ through maximizing the likelihood. In practice, we use the log-likelihood ℓ(θ)=log(L(θ)) which is easier to optimize. We have:** + +⟶ + +
+ +**19. Newton's algorithm ― The Newton's algorithm is a numerical method that finds θ such that ℓ′(θ)=0. Its update rule is as follows:** + +⟶ + +
+ +**20. Remark: the multidimensional generalization, also known as the Newton-Raphson method, has the following update rule:** + +⟶ + +
+ +**21. Linear models** + +⟶ + +
+ +**22. Linear regression** + +⟶ + +
+ +**23. We assume here that y|x;θ∼N(μ,σ2)** + +⟶ + +
+ +**24. Normal equations ― By noting X the matrix design, the value of θ that minimizes the cost function is a closed-form solution such that:** + +⟶ + +
+ +**25. LMS algorithm ― By noting α the learning rate, the update rule of the Least Mean Squares (LMS) algorithm for a training set of m data points, which is also known as the Widrow-Hoff learning rule, is as follows:** + +⟶ + +
+ +**26. Remark: the update rule is a particular case of the gradient ascent.** + +⟶ + +
+ +**27. LWR ― Locally Weighted Regression, also known as LWR, is a variant of linear regression that weights each training example in its cost function by w(i)(x), which is defined with parameter τ∈R as:** + +⟶ + +
+ +**28. Classification and logistic regression** + +⟶ + +
+ +**29. Sigmoid function ― The sigmoid function g, also known as the logistic function, is defined as follows:** + +⟶ + +
+ +**30. Logistic regression ― We assume here that y|x;θ∼Bernoulli(ϕ). We have the following form:** + +⟶ + +
+ +**31. Remark: there is no closed form solution for the case of logistic regressions.** + +⟶ + +
+ +**32. Softmax regression ― A softmax regression, also called a multiclass logistic regression, is used to generalize logistic regression when there are more than 2 outcome classes. By convention, we set θK=0, which makes the Bernoulli parameter ϕi of each class i equal to:** + +⟶ + +
+ +**33. Generalized Linear Models** + +⟶ + +
+ +**34. Exponential family ― A class of distributions is said to be in the exponential family if it can be written in terms of a natural parameter, also called the canonical parameter or link function, η, a sufficient statistic T(y) and a log-partition function a(η) as follows:** + +⟶ + +
+ +**35. Remark: we will often have T(y)=y. Also, exp(−a(η)) can be seen as a normalization parameter that will make sure that the probabilities sum to one.** + +⟶ + +
+ +**36. Here are the most common exponential distributions summed up in the following table:** + +⟶ + +
+ +**37. [Distribution, Bernoulli, Gaussian, Poisson, Geometric]** + +⟶ + +
+ +**38. Assumptions of GLMs ― Generalized Linear Models (GLM) aim at predicting a random variable y as a function fo x∈Rn+1 and rely on the following 3 assumptions:** + +⟶ + +
+ +**39. Remark: ordinary least squares and logistic regression are special cases of generalized linear models.** + +⟶ + +
+ +**40. Support Vector Machines** + +⟶ + +
+ +**41: The goal of support vector machines is to find the line that maximizes the minimum distance to the line.** + +⟶ + +
+ +**42: Optimal margin classifier ― The optimal margin classifier h is such that:** + +⟶ + +
+ +**43: where (w,b)∈Rn×R is the solution of the following optimization problem:** + +⟶ + +
+ +**44. such that** + +⟶ + +
+ +**45. support vectors** + +⟶ + +
+ +**46. Remark: the line is defined as wTx−b=0.** + +⟶ + +
+ +**47. Hinge loss ― The hinge loss is used in the setting of SVMs and is defined as follows:** + +⟶ + +
+ +**48. Kernel ― Given a feature mapping ϕ, we define the kernel K to be defined as:** + +⟶ + +
+ +**49. In practice, the kernel K defined by K(x,z)=exp(−||x−z||22σ2) is called the Gaussian kernel and is commonly used.** + +⟶ + +
+ +**50. [Non-linear separability, Use of a kernel mapping, Decision boundary in the original space]** + +⟶ + +
+ +**51. Remark: we say that we use the "kernel trick" to compute the cost function using the kernel because we actually don't need to know the explicit mapping ϕ, which is often very complicated. Instead, only the values K(x,z) are needed.** + +⟶ + +
+ +**52. Lagrangian ― We define the Lagrangian L(w,b) as follows:** + +⟶ + +
+ +**53. Remark: the coefficients βi are called the Lagrange multipliers.** + +⟶ + +
+ +**54. Generative Learning** + +⟶ + +
+ +**55. A generative model first tries to learn how the data is generated by estimating P(x|y), which we can then use to estimate P(y|x) by using Bayes' rule.** + +⟶ + +
+ +**56. Gaussian Discriminant Analysis** + +⟶ + +
+ +**57. Setting ― The Gaussian Discriminant Analysis assumes that y and x|y=0 and x|y=1 are such that:** + +⟶ + +
+ +**58. Estimation ― The following table sums up the estimates that we find when maximizing the likelihood:** + +⟶ + +
+ +**59. Naive Bayes** + +⟶ + +
+ +**60. Assumption ― The Naive Bayes model supposes that the features of each data point are all independent:** + +⟶ + +
+ +**61. Solutions ― Maximizing the log-likelihood gives the following solutions, with k∈{0,1},l∈[[1,L]]** + +⟶ + +
+ +**62. Remark: Naive Bayes is widely used for text classification and spam detection.** + +⟶ + +
+ +**63. Tree-based and ensemble methods** + +⟶ + +
+ +**64. These methods can be used for both regression and classification problems.** + +⟶ + +
+ +**65. CART ― Classification and Regression Trees (CART), commonly known as decision trees, can be represented as binary trees. They have the advantage to be very interpretable.** + +⟶ + +
+ +**66. Random forest ― It is a tree-based technique that uses a high number of decision trees built out of randomly selected sets of features. Contrary to the simple decision tree, it is highly uninterpretable but its generally good performance makes it a popular algorithm.** + +⟶ + +
+ +**67. Remark: random forests are a type of ensemble methods.** + +⟶ + +
+ +**68. Boosting ― The idea of boosting methods is to combine several weak learners to form a stronger one. The main ones are summed up in the table below:** + +⟶ + +
+ +**69. [Adaptive boosting, Gradient boosting]** + +⟶ + +
+ +**70. High weights are put on errors to improve at the next boosting step** + +⟶ + +
+ +**71. Weak learners trained on remaining errors** + +⟶ + +
+ +**72. Other non-parametric approaches** + +⟶ + +
+ +**73. k-nearest neighbors ― The k-nearest neighbors algorithm, commonly known as k-NN, is a non-parametric approach where the response of a data point is determined by the nature of its k neighbors from the training set. It can be used in both classification and regression settings.** + +⟶ + +
+ +**74. Remark: The higher the parameter k, the higher the bias, and the lower the parameter k, the higher the variance.** + +⟶ + +
+ +**75. Learning Theory** + +⟶ + +
+ +**76. Union bound ― Let A1,...,Ak be k events. We have:** + +⟶ + +
+ +**77. Hoeffding inequality ― Let Z1,..,Zm be m iid variables drawn from a Bernoulli distribution of parameter ϕ. Let ˆϕ be their sample mean and γ>0 fixed. We have:** + +⟶ + +
+ +**78. Remark: this inequality is also known as the Chernoff bound.** + +⟶ + +
+ +**79. Training error ― For a given classifier h, we define the training error ˆϵ(h), also known as the empirical risk or empirical error, to be as follows:** + +⟶ + +
+ +**80. Probably Approximately Correct (PAC) ― PAC is a framework under which numerous results on learning theory were proved, and has the following set of assumptions: ** + +⟶ + +
+ +**81: the training and testing sets follow the same distribution ** + +⟶ + +
+ +**82. the training examples are drawn independently** + +⟶ + +
+ +**83. Shattering ― Given a set S={x(1),...,x(d)}, and a set of classifiers H, we say that H shatters S if for any set of labels {y(1),...,y(d)}, we have:** + +⟶ + +
+ +**84. Upper bound theorem ― Let H be a finite hypothesis class such that |H|=k and let δ and the sample size m be fixed. Then, with probability of at least 1−δ, we have:** + +⟶ + +
+ +**85. VC dimension ― The Vapnik-Chervonenkis (VC) dimension of a given infinite hypothesis class H, noted VC(H) is the size of the largest set that is shattered by H.** + +⟶ + +
+ +**86. Remark: the VC dimension of H={set of linear classifiers in 2 dimensions} is 3.** + +⟶ + +
+ +**87. Theorem (Vapnik) ― Let H be given, with VC(H)=d and m the number of training examples. With probability at least 1−δ, we have:** + +⟶ + +
+ +**88. [Introduction, Type of prediction, Type of model]** + +⟶ + +
+ +**89. [Notations and general concepts, loss function, gradient descent, likelihood]** + +⟶ + +
+ +**90. [Linear models, linear regression, logistic regression, generalized linear models]** + +⟶ + +
+ +**91. [Support vector machines, Optimal margin classifier, Hinge loss, Kernel]** + +⟶ + +
+ +**92. [Generative learning, Gaussian Discriminant Analysis, Naive Bayes]** + +⟶ + +
+ +**93. [Trees and ensemble methods, CART, Random forest, Boosting]** + +⟶ + +
+ +**94. [Other methods, k-NN]** + +⟶ + +
+ +**95. [Learning theory, Hoeffding inequality, PAC, VC dimension]** + +⟶ From 40c6e20a3fdc277585c624fe023b1e8e2daa7b69 Mon Sep 17 00:00:00 2001 From: Shervine Amidi Date: Sun, 24 Feb 2019 14:06:39 -0800 Subject: [PATCH 27/28] Restore linear algebra template --- template/refresher-linear-algebra.md | 339 +++++++++++++++++++++++++++ 1 file changed, 339 insertions(+) create mode 100644 template/refresher-linear-algebra.md diff --git a/template/refresher-linear-algebra.md b/template/refresher-linear-algebra.md new file mode 100644 index 000000000..a6b440d1e --- /dev/null +++ b/template/refresher-linear-algebra.md @@ -0,0 +1,339 @@ +**1. Linear Algebra and Calculus refresher** + +⟶ + +
+ +**2. General notations** + +⟶ + +
+ +**3. Definitions** + +⟶ + +
+ +**4. Vector ― We note x∈Rn a vector with n entries, where xi∈R is the ith entry:** + +⟶ + +
+ +**5. Matrix ― We note A∈Rm×n a matrix with m rows and n columns, where Ai,j∈R is the entry located in the ith row and jth column:** + +⟶ + +
+ +**6. Remark: the vector x defined above can be viewed as a n×1 matrix and is more particularly called a column-vector.** + +⟶ + +
+ +**7. Main matrices** + +⟶ + +
+ +**8. Identity matrix ― The identity matrix I∈Rn×n is a square matrix with ones in its diagonal and zero everywhere else:** + +⟶ + +
+ +**9. Remark: for all matrices A∈Rn×n, we have A×I=I×A=A.** + +⟶ + +
+ +**10. Diagonal matrix ― A diagonal matrix D∈Rn×n is a square matrix with nonzero values in its diagonal and zero everywhere else:** + +⟶ + +
+ +**11. Remark: we also note D as diag(d1,...,dn).** + +⟶ + +
+ +**12. Matrix operations** + +⟶ + +
+ +**13. Multiplication** + +⟶ + +
+ +**14. Vector-vector ― There are two types of vector-vector products:** + +⟶ + +
+ +**15. inner product: for x,y∈Rn, we have:** + +⟶ + +
+ +**16. outer product: for x∈Rm,y∈Rn, we have:** + +⟶ + +
+ +**17. Matrix-vector ― The product of matrix A∈Rm×n and vector x∈Rn is a vector of size Rn, such that:** + +⟶ + +
+ +**18. where aTr,i are the vector rows and ac,j are the vector columns of A, and xi are the entries of x.** + +⟶ + +
+ +**19. Matrix-matrix ― The product of matrices A∈Rm×n and B∈Rn×p is a matrix of size Rn×p, such that:** + +⟶ + +
+ +**20. where aTr,i,bTr,i are the vector rows and ac,j,bc,j are the vector columns of A and B respectively** + +⟶ + +
+ +**21. Other operations** + +⟶ + +
+ +**22. Transpose ― The transpose of a matrix A∈Rm×n, noted AT, is such that its entries are flipped:** + +⟶ + +
+ +**23. Remark: for matrices A,B, we have (AB)T=BTAT** + +⟶ + +
+ +**24. Inverse ― The inverse of an invertible square matrix A is noted A−1 and is the only matrix such that:** + +⟶ + +
+ +**25. Remark: not all square matrices are invertible. Also, for matrices A,B, we have (AB)−1=B−1A−1** + +⟶ + +
+ +**26. Trace ― The trace of a square matrix A, noted tr(A), is the sum of its diagonal entries:** + +⟶ + +
+ +**27. Remark: for matrices A,B, we have tr(AT)=tr(A) and tr(AB)=tr(BA)** + +⟶ + +
+ +**28. Determinant ― The determinant of a square matrix A∈Rn×n, noted |A| or det(A) is expressed recursively in terms of A∖i,∖j, which is the matrix A without its ith row and jth column, as follows:** + +⟶ + +
+ +**29. Remark: A is invertible if and only if |A|≠0. Also, |AB|=|A||B| and |AT|=|A|.** + +⟶ + +
+ +**30. Matrix properties** + +⟶ + +
+ +**31. Definitions** + +⟶ + +
+ +**32. Symmetric decomposition ― A given matrix A can be expressed in terms of its symmetric and antisymmetric parts as follows:** + +⟶ + +
+ +**33. [Symmetric, Antisymmetric]** + +⟶ + +
+ +**34. Norm ― A norm is a function N:V⟶[0,+∞[ where V is a vector space, and such that for all x,y∈V, we have:** + +⟶ + +
+ +**35. N(ax)=|a|N(x) for a scalar** + +⟶ + +
+ +**36. if N(x)=0, then x=0** + +⟶ + +
+ +**37. For x∈V, the most commonly used norms are summed up in the table below:** + +⟶ + +
+ +**38. [Norm, Notation, Definition, Use case]** + +⟶ + +
+ +**39. Linearly dependence ― A set of vectors is said to be linearly dependent if one of the vectors in the set can be defined as a linear combination of the others.** + +⟶ + +
+ +**40. Remark: if no vector can be written this way, then the vectors are said to be linearly independent** + +⟶ + +
+ +**41. Matrix rank ― The rank of a given matrix A is noted rank(A) and is the dimension of the vector space generated by its columns. This is equivalent to the maximum number of linearly independent columns of A.** + +⟶ + +
+ +**42. Positive semi-definite matrix ― A matrix A∈Rn×n is positive semi-definite (PSD) and is noted A⪰0 if we have:** + +⟶ + +
+ +**43. Remark: similarly, a matrix A is said to be positive definite, and is noted A≻0, if it is a PSD matrix which satisfies for all non-zero vector x, xTAx>0.** + +⟶ + +
+ +**44. Eigenvalue, eigenvector ― Given a matrix A∈Rn×n, λ is said to be an eigenvalue of A if there exists a vector z∈Rn∖{0}, called eigenvector, such that we have:** + +⟶ + +
+ +**45. Spectral theorem ― Let A∈Rn×n. If A is symmetric, then A is diagonalizable by a real orthogonal matrix U∈Rn×n. By noting Λ=diag(λ1,...,λn), we have:** + +⟶ + +
+ +**46. diagonal** + +⟶ + +
+ +**47. Singular-value decomposition ― For a given matrix A of dimensions m×n, the singular-value decomposition (SVD) is a factorization technique that guarantees the existence of U m×m unitary, Σ m×n diagonal and V n×n unitary matrices, such that:** + +⟶ + +
+ +**48. Matrix calculus** + +⟶ + +
+ +**49. Gradient ― Let f:Rm×n→R be a function and A∈Rm×n be a matrix. The gradient of f with respect to A is a m×n matrix, noted ∇Af(A), such that:** + +⟶ + +
+ +**50. Remark: the gradient of f is only defined when f is a function that returns a scalar.** + +⟶ + +
+ +**51. Hessian ― Let f:Rn→R be a function and x∈Rn be a vector. The hessian of f with respect to x is a n×n symmetric matrix, noted ∇2xf(x), such that:** + +⟶ + +
+ +**52. Remark: the hessian of f is only defined when f is a function that returns a scalar** + +⟶ + +
+ +**53. Gradient operations ― For matrices A,B,C, the following gradient properties are worth having in mind:** + +⟶ + +
+ +**54. [General notations, Definitions, Main matrices]** + +⟶ + +
+ +**55. [Matrix operations, Multiplication, Other operations]** + +⟶ + +
+ +**56. [Matrix properties, Norm, Eigenvalue/Eigenvector, Singular-value decomposition]** + +⟶ + +
+ +**57. [Matrix calculus, Gradient, Hessian, Operations]** + +⟶ From 9fe68c043f90cec3bf4e6e7622b0e16c2fd09505 Mon Sep 17 00:00:00 2001 From: Shervine Amidi Date: Sun, 24 Feb 2019 14:07:20 -0800 Subject: [PATCH 28/28] Restore probability template --- template/refresher-probability.md | 381 ++++++++++++++++++++++++++++++ 1 file changed, 381 insertions(+) create mode 100644 template/refresher-probability.md diff --git a/template/refresher-probability.md b/template/refresher-probability.md new file mode 100644 index 000000000..5c9b34656 --- /dev/null +++ b/template/refresher-probability.md @@ -0,0 +1,381 @@ +**1. Probabilities and Statistics refresher** + +⟶ + +
+ +**2. Introduction to Probability and Combinatorics** + +⟶ + +
+ +**3. Sample space ― The set of all possible outcomes of an experiment is known as the sample space of the experiment and is denoted by S.** + +⟶ + +
+ +**4. Event ― Any subset E of the sample space is known as an event. That is, an event is a set consisting of possible outcomes of the experiment. If the outcome of the experiment is contained in E, then we say that E has occurred.** + +⟶ + +
+ +**5. Axioms of probability For each event E, we denote P(E) as the probability of event E occuring.** + +⟶ + +
+ +**6. Axiom 1 ― Every probability is between 0 and 1 included, i.e:** + +⟶ + +
+ +**7. Axiom 2 ― The probability that at least one of the elementary events in the entire sample space will occur is 1, i.e:** + +⟶ + +
+ +**8. Axiom 3 ― For any sequence of mutually exclusive events E1,...,En, we have:** + +⟶ + +
+ +**9. Permutation ― A permutation is an arrangement of r objects from a pool of n objects, in a given order. The number of such arrangements is given by P(n,r), defined as:** + +⟶ + +
+ +**10. Combination ― A combination is an arrangement of r objects from a pool of n objects, where the order does not matter. The number of such arrangements is given by C(n,r), defined as:** + +⟶ + +
+ +**11. Remark: we note that for 0⩽r⩽n, we have P(n,r)⩾C(n,r)** + +⟶ + +
+ +**12. Conditional Probability** + +⟶ + +
+ +**13. Bayes' rule ― For events A and B such that P(B)>0, we have:** + +⟶ + +
+ +**14. Remark: we have P(A∩B)=P(A)P(B|A)=P(A|B)P(B)** + +⟶ + +
+ +**15. Partition ― Let {Ai,i∈[[1,n]]} be such that for all i, Ai≠∅. We say that {Ai} is a partition if we have:** + +⟶ + +
+ +**16. Remark: for any event B in the sample space, we have P(B)=n∑i=1P(B|Ai)P(Ai).** + +⟶ + +
+ +**17. Extended form of Bayes' rule ― Let {Ai,i∈[[1,n]]} be a partition of the sample space. We have:** + +⟶ + +
+ +**18. Independence ― Two events A and B are independent if and only if we have:** + +⟶ + +
+ +**19. Random Variables** + +⟶ + +
+ +**20. Definitions** + +⟶ + +
+ +**21. Random variable ― A random variable, often noted X, is a function that maps every element in a sample space to a real line.** + +⟶ + +
+ +**22. Cumulative distribution function (CDF) ― The cumulative distribution function F, which is monotonically non-decreasing and is such that limx→−∞F(x)=0 and limx→+∞F(x)=1, is defined as:** + +⟶ + +
+ +**23. Remark: we have P(a + +**24. Probability density function (PDF) ― The probability density function f is the probability that X takes on values between two adjacent realizations of the random variable.** + +⟶ + +
+ +**25. Relationships involving the PDF and CDF ― Here are the important properties to know in the discrete (D) and the continuous (C) cases.** + +⟶ + +
+ +**26. [Case, CDF F, PDF f, Properties of PDF]** + +⟶ + +
+ +**27. Expectation and Moments of the Distribution ― Here are the expressions of the expected value E[X], generalized expected value E[g(X)], kth moment E[Xk] and characteristic function ψ(ω) for the discrete and continuous cases:** + +⟶ + +
+ +**28. Variance ― The variance of a random variable, often noted Var(X) or σ2, is a measure of the spread of its distribution function. It is determined as follows:** + +⟶ + +
+ +**29. Standard deviation ― The standard deviation of a random variable, often noted σ, is a measure of the spread of its distribution function which is compatible with the units of the actual random variable. It is determined as follows:** + +⟶ + +
+ +**30. Transformation of random variables ― Let the variables X and Y be linked by some function. By noting fX and fY the distribution function of X and Y respectively, we have:** + +⟶ + +
+ +**31. Leibniz integral rule ― Let g be a function of x and potentially c, and a,b boundaries that may depend on c. We have:** + +⟶ + +
+ +**32. Probability Distributions** + +⟶ + +
+ +**33. Chebyshev's inequality ― Let X be a random variable with expected value μ. For k,σ>0, we have the following inequality:** + +⟶ + +
+ +**34. Main distributions ― Here are the main distributions to have in mind:** + +⟶ + +
+ +**35. [Type, Distribution]** + +⟶ + +
+ +**36. Jointly Distributed Random Variables** + +⟶ + +
+ +**37. Marginal density and cumulative distribution ― From the joint density probability function fXY , we have** + +⟶ + +
+ +**38. [Case, Marginal density, Cumulative function]** + +⟶ + +
+ +**39. Conditional density ― The conditional density of X with respect to Y, often noted fX|Y, is defined as follows:** + +⟶ + +
+ +**40. Independence ― Two random variables X and Y are said to be independent if we have:** + +⟶ + +
+ +**41. Covariance ― We define the covariance of two random variables X and Y, that we note σ2XY or more commonly Cov(X,Y), as follows:** + +⟶ + +
+ +**42. Correlation ― By noting σX,σY the standard deviations of X and Y, we define the correlation between the random variables X and Y, noted ρXY, as follows:** + +⟶ + +
+ +**43. Remark 1: we note that for any random variables X,Y, we have ρXY∈[−1,1].** + +⟶ + +
+ +**44. Remark 2: If X and Y are independent, then ρXY=0.** + +⟶ + +
+ +**45. Parameter estimation** + +⟶ + +
+ +**46. Definitions** + +⟶ + +
+ +**47. Random sample ― A random sample is a collection of n random variables X1,...,Xn that are independent and identically distributed with X.** + +⟶ + +
+ +**48. Estimator ― An estimator is a function of the data that is used to infer the value of an unknown parameter in a statistical model.** + +⟶ + +
+ +**49. Bias ― The bias of an estimator ^θ is defined as being the difference between the expected value of the distribution of ^θ and the true value, i.e.:** + +⟶ + +
+ +**50. Remark: an estimator is said to be unbiased when we have E[^θ]=θ.** + +⟶ + +
+ +**51. Estimating the mean** + +⟶ + +
+ +**52. Sample mean ― The sample mean of a random sample is used to estimate the true mean μ of a distribution, is often noted ¯¯¯¯¯X and is defined as follows:** + +⟶ + +
+ +**53. Remark: the sample mean is unbiased, i.e E[¯¯¯¯¯X]=μ.** + +⟶ + +
+ +**54. Central Limit Theorem ― Let us have a random sample X1,...,Xn following a given distribution with mean μ and variance σ2, then we have:** + +⟶ + +
+ +**55. Estimating the variance** + +⟶ + +
+ +**56. Sample variance ― The sample variance of a random sample is used to estimate the true variance σ2 of a distribution, is often noted s2 or ^σ2 and is defined as follows:** + +⟶ + +
+ +**57. Remark: the sample variance is unbiased, i.e E[s2]=σ2.** + +⟶ + +
+ +**58. Chi-Squared relation with sample variance ― Let s2 be the sample variance of a random sample. We have:** + +⟶ + +
+ +**59. [Introduction, Sample space, Event, Permutation]** + +⟶ + +
+ +**60. [Conditional probability, Bayes' rule, Independence]** + +⟶ + +
+ +**61. [Random variables, Definitions, Expectation, Variance]** + +⟶ + +
+ +**62. [Probability distributions, Chebyshev's inequality, Main distributions]** + +⟶ + +
+ +**63. [Jointly distributed random variables, Density, Covariance, Correlation]** + +⟶ + +
+ +**64. [Parameter estimation, Mean, Variance]** + +⟶