diff --git a/libfreerdp/primitives/prim_YUV.c b/libfreerdp/primitives/prim_YUV.c
index 43599bbb8eb48..88c0c6c64786a 100644
--- a/libfreerdp/primitives/prim_YUV.c
+++ b/libfreerdp/primitives/prim_YUV.c
@@ -588,24 +588,37 @@ static pstatus_t general_YUV420ToRGB_8u_P3AC4R(const BYTE* const pSrc[3], const
 	return PRIMITIVES_SUCCESS;
 }
 
+#ifdef WITH_H264_COLOR_CORRECTION
 /**
- * | Y |    ( |  66   129     25 | | R | )        |  16 |
- * | U | =  ( | -38   -74    112 | | G | ) >> 8 + | 128 |
- * | V |    ( | 112   -94    -18 | | B | )        | 128 |
+ * | Y |    ( ( |  66   129     25 | | R | )   | 128 | )        |  16 |
+ * | U | =  ( ( | -38   -74    112 | | G | ) + | 128 | ) >> 8 + | 128 |
+ * | V |    ( ( | 112   -94    -18 | | B | )   | 128 | )        | 128 |
  */
+#else
+/**
+ * | Y |    ( ( |  66   127     25 | | R | )   | 128 | )        |  16 |
+ * | U | =  ( ( | -38   -74    112 | | G | ) + | 128 | ) >> 8 + | 128 |
+ * | V |    ( ( | 112   -94    -18 | | B | )   | 128 | )        | 128 |
+ */
+#endif
+
 static INLINE BYTE RGB2Y(BYTE R, BYTE G, BYTE B)
 {
-	return ((66 * R + 129 * G + 25 * B) >> 8) + 16u;
+#ifdef WITH_H264_COLOR_CORRECTION
+	return ((66lu * R + 129lu * G + 25lu * B + 128lu) >> 8lu) + 16lu;
+#else
+	return ((66lu * R + 127lu * G + 25lu * B + 128lu) >> 8lu) + 16lu;
+#endif
 }
 
 static INLINE BYTE RGB2U(BYTE R, BYTE G, BYTE B)
 {
-	return ((-38u * R - 74u * G + 112u * B) >> 8u) + 128u;
+	return ((-38lu * R - 74lu * G + 112lu * B + 128lu) >> 8lu) + 128lu;
 }
 
 static INLINE BYTE RGB2V(INT32 R, INT32 G, INT32 B)
 {
-	return ((112lu * R - 94lu * G - 18lu * B) >> 8lu) + 128lu;
+	return ((112lu * R - 94lu * G - 18lu * B + 128lu) >> 8lu) + 128lu;
 }
 
 static pstatus_t general_RGBToYUV444_8u_P3AC4R(const BYTE* pSrc, UINT32 SrcFormat,
diff --git a/libfreerdp/primitives/prim_YUV_ssse3.c b/libfreerdp/primitives/prim_YUV_ssse3.c
index dae741416446e..73f851b5e55dc 100644
--- a/libfreerdp/primitives/prim_YUV_ssse3.c
+++ b/libfreerdp/primitives/prim_YUV_ssse3.c
@@ -49,7 +49,7 @@ static __m128i* ssse3_YUV444Pixel(__m128i* dst, __m128i Yraw, __m128i Uraw, __m1
 	/* Note: This also applies to Visual Studio 2013 before Update 4 */
 #if !defined(_MSC_VER) || (_MSC_VER > 1600)
 	const __m128i reorderMap[] = { _mm_set_epi32(0x80038002, 0x80018000, 0x80808080, 0x80808080),
-                                   _mm_set_epi32(0x80078006, 0x80058004, 0x80808080, 0x80808080),
+		                           _mm_set_epi32(0x80078006, 0x80058004, 0x80808080, 0x80808080),
 		                           _mm_set_epi32(0x800B800A, 0x80098008, 0x80808080, 0x80808080),
 		                           _mm_set_epi32(0x800F800E, 0x800D800C, 0x80808080, 0x80808080) };
 	const __m128i mask[] = { _mm_set_epi32(0x80038080, 0x80028080, 0x80018080, 0x80008080),
@@ -57,14 +57,14 @@ static __m128i* ssse3_YUV444Pixel(__m128i* dst, __m128i Yraw, __m128i Uraw, __m1
 		                     _mm_set_epi32(0x80808003, 0x80808002, 0x80808001, 0x80808000) };
 #else
 	/* Note: must be in little-endian format ! */
-	const __m128i reorderMap[] = { { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x00, 0x80, 0x01,
-		                             0x80, 0x02, 0x80, 0x03, 0x80 },
-		                           { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x04, 0x80, 0x05,
-		                             0x80, 0x06, 0x80, 0x07, 0x80 },
-		                           { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x08, 0x80, 0x09,
-		                             0x80, 0x0a, 0x80, 0x0b, 0x80 },
-		                           { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x0c, 0x80, 0x0d,
-		                             0x80, 0x0e, 0x80, 0x0f, 0x80 } };
+	const __m128i reorderMap[] = { { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x00, 0x80,
+		                             0x01, 0x80, 0x02, 0x80, 0x03, 0x80 },
+		                           { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x04, 0x80,
+		                             0x05, 0x80, 0x06, 0x80, 0x07, 0x80 },
+		                           { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x08, 0x80,
+		                             0x09, 0x80, 0x0a, 0x80, 0x0b, 0x80 },
+		                           { 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x0c, 0x80,
+		                             0x0d, 0x80, 0x0e, 0x80, 0x0f, 0x80 } };
 	const __m128i mask[] = { { 0x80, 0x80, 0x00, 0x80, 0x80, 0x80, 0x01, 0x80, 0x80, 0x80, 0x02,
 		                       0x80, 0x80, 0x80, 0x03, 0x80 },
 		                     { 0x80, 0x00, 0x80, 0x80, 0x80, 0x01, 0x80, 0x80, 0x80, 0x02, 0x80,
@@ -86,12 +86,12 @@ static __m128i* ssse3_YUV444Pixel(__m128i* dst, __m128i Yraw, __m128i Uraw, __m1
 		/* Load U values and expand to 32 bit */
 		{
 			const __m128i U = _mm_shuffle_epi8(Uraw, reorderMap[pos]); /* Reorder dcba */
-			D = _mm_sub_epi16(U, c128);                           /* D = U - 128 */
+			D = _mm_sub_epi16(U, c128);                                /* D = U - 128 */
 		}
 		/* Load V values and expand to 32 bit */
 		{
 			const __m128i V = _mm_shuffle_epi8(Vraw, reorderMap[pos]); /* Reorder dcba */
-			E = _mm_sub_epi16(V, c128);                           /* E = V - 128 */
+			E = _mm_sub_epi16(V, c128);                                /* E = V - 128 */
 		}
 
 		/* Multiply C by 298 */
@@ -301,13 +301,36 @@ static pstatus_t ssse3_YUV444ToRGB_8u_P3AC4R(const BYTE* const* pSrc, const UINT
  * rounded to 127
  */
 
-#define BGRX_Y_FACTORS _mm_set_epi8(0, 66, 129, 25, 0, 66, 129, 25, 0, 66, 129, 25, 0, 66, 129, 25)
+/**
+ * Note (alexandru-bagu)
+ * The most accurate RDP color profile seems to be the transformation for "BT.601" as described in
+ * https://en.wikipedia.org/wiki/YUV#Studio_swing_for_BT.601
+ * The actual values for both conversions (RGB->YUV and YUV->RGB) can be found here:
+ * https://en.wikipedia.org/wiki/YUV#Y.E2.80.B2UV444_to_RGB888_conversion
+ *
+ * RGB to YUV formula:
+ * | Y |    ( ( |  66   129     25 | | R | )   | 128 | )        |  16 |
+ * | U | =  ( ( | -38   -74    112 | | G | ) + | 128 | ) >> 8 + | 128 |
+ * | V |    ( ( | 112   -94    -18 | | B | )   | 128 | )        | 128 |
+ *
+ * As with the previous values because of SSSE3 implementation requirements (more specifically
+ * the function `_mm_maddubs_epi16` which requires the second parameter to be signed) the values
+ * for computing Y had to be rounded from 129 to 127. The result is a skewed color for RGB to YUV.
+ * At the cost of some additional computing WITH_H264_COLOR_CORRECTION is available to color
+ * correct despite the limitation by fixing the rounding.
+ */
+#define BGRX_Y_FACTORS _mm_set_epi8(0, 66, 127, 25, 0, 66, 127, 25, 0, 66, 127, 25, 0, 66, 127, 25)
+
+#ifdef WITH_H264_COLOR_CORRECTION
+#define BGRX_Y_FACTORS_SKEW _mm_set_epi8(0, 0, 2, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 0, 2, 0)
+#endif
 #define BGRX_U_FACTORS \
 	_mm_set_epi8(0, -38, -74, 112, 0, -38, -74, 112, 0, -38, -74, 112, 0, -38, -74, 112)
 #define BGRX_V_FACTORS \
 	_mm_set_epi8(0, 112, -94, -18, 0, 112, -94, -18, 0, 112, -94, -18, 0, 112, -94, -18)
 #define CONST16_FACTORS _mm_set1_epi8(-16)
 #define CONST128_FACTORS _mm_set1_epi8(-128)
+#define CONST128_FACTORS_INT16 _mm_set_epi16(-128, -128, -128, -128, -128, -128, -128, -128)
 
 #define Y_SHIFT 8
 #define U_SHIFT 8
@@ -320,7 +343,7 @@ globals directly the functions below could be passed pointers to the correct vec
 depending on the source picture format.
 
 PRIM_ALIGN_128 static const BYTE rgbx_y_factors[] = {
-    66, 129, 25, 0, 66, 129, 25, 0, 66, 129, 25, 0, 66, 129, 25
+    66, 127, 25, 0, 66, 127, 25, 0, 66, 127, 25, 0, 66, 127, 25
 };
 PRIM_ALIGN_128 static const BYTE rgbx_u_factors[] = {
     -38, -74, 112, 0, -38, -74, 112, 0, -38, -74, 112, 0, -38, -74, 112
@@ -330,14 +353,71 @@ PRIM_ALIGN_128 static const BYTE rgbx_v_factors[] = {
 };
 */
 
-/* compute the luma (Y) component from a single rgb source line */
+static INLINE __m128i ssse3_RGBToYUV420_BGRX_Y_Component(__m128i px14, __m128i px58,
+                                                         __m128i* y_factors,
+                                                         __m128i* vector128_int16
 
+#ifdef WITH_H264_COLOR_CORRECTION
+                                                         ,
+                                                         __m128i* y_factors_skew
+#endif
+)
+{
+	return _mm_srli_epi16(_mm_sub_epi16(_mm_hadd_epi16(
+#ifdef WITH_H264_COLOR_CORRECTION
+	                                        _mm_add_epi16(
+#endif
+	                                            _mm_maddubs_epi16(px14, *y_factors)
+#ifdef WITH_H264_COLOR_CORRECTION
+	                                                ,
+	                                            _mm_maddubs_epi16(px14, *y_factors_skew))
+#endif
+	                                            ,
+#ifdef WITH_H264_COLOR_CORRECTION
+	                                        _mm_add_epi16(
+#endif
+	                                            _mm_maddubs_epi16(px58, *y_factors)
+#ifdef WITH_H264_COLOR_CORRECTION
+	                                                ,
+	                                            _mm_maddubs_epi16(px58, *y_factors_skew))
+#endif
+	                                            ),
+	                                    *vector128_int16),
+	                      Y_SHIFT);
+}
+
+static INLINE __m128i ssse3_RGBToYUV420_BGRX_U_Component(__m128i px14, __m128i px58,
+                                                         __m128i* u_factors,
+                                                         __m128i* vector128_int16)
+{
+	return _mm_srli_epi16(_mm_sub_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(px14, *u_factors),
+	                                                   _mm_maddubs_epi16(px58, *u_factors)),
+	                                    *vector128_int16),
+	                      U_SHIFT);
+}
+
+static INLINE __m128i ssse3_RGBToYUV420_BGRX_V_Component(__m128i px14, __m128i px58,
+                                                         __m128i* v_factors,
+                                                         __m128i* vector128_int16)
+{
+	return _mm_srli_epi16(_mm_sub_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(px14, *v_factors),
+	                                                   _mm_maddubs_epi16(px58, *v_factors)),
+	                                    *vector128_int16),
+	                      V_SHIFT);
+}
+
+/* compute the luma (Y) component from a single rgb source line */
 static INLINE void ssse3_RGBToYUV420_BGRX_Y(const BYTE* src, BYTE* dst, UINT32 width)
 {
 	UINT32 x;
 	__m128i x0, x1, x2, x3;
+#ifdef WITH_H264_COLOR_CORRECTION
+	const __m128i y_factors_skew = BGRX_Y_FACTORS_SKEW;
+#endif
 	const __m128i y_factors = BGRX_Y_FACTORS;
 	const __m128i vector16 = CONST16_FACTORS;
+	const __m128i vector128 = CONST128_FACTORS;
+	const __m128i vector128_int16 = CONST128_FACTORS_INT16;
 	const __m128i* argb = (const __m128i*)src;
 	__m128i* ydst = (__m128i*)dst;
 
@@ -348,21 +428,26 @@ static INLINE void ssse3_RGBToYUV420_BGRX_Y(const BYTE* src, BYTE* dst, UINT32 w
 		x1 = _mm_load_si128(argb++); // 2nd 4 pixels
 		x2 = _mm_load_si128(argb++); // 3rd 4 pixels
 		x3 = _mm_load_si128(argb++); // 4th 4 pixels
-		/* multiplications and subtotals */
-		x0 = _mm_maddubs_epi16(x0, y_factors);
-		x1 = _mm_maddubs_epi16(x1, y_factors);
-		x2 = _mm_maddubs_epi16(x2, y_factors);
-		x3 = _mm_maddubs_epi16(x3, y_factors);
-		/* the total sums */
-		x0 = _mm_hadd_epi16(x0, x1);
-		x2 = _mm_hadd_epi16(x2, x3);
-		/* shift the results */
-		x0 = _mm_srli_epi16(x0, Y_SHIFT);
-		x2 = _mm_srli_epi16(x2, Y_SHIFT);
-		/* pack the 16 words into bytes */
+		                             /* multiplications and subtotals */
+
+		x0 = ssse3_RGBToYUV420_BGRX_Y_Component(x0, x1, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+		                                        ,
+		                                        &y_factors_skew
+#endif
+		);
+
+		x2 = ssse3_RGBToYUV420_BGRX_Y_Component(x2, x3, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+		                                        ,
+		                                        &y_factors_skew
+#endif
+		);
 		x0 = _mm_packus_epi16(x0, x2);
+
 		/* add 16 */
 		x0 = _mm_sub_epi8(x0, vector16);
+
 		/* save to y plane */
 		_mm_storeu_si128(ydst++, x0);
 	}
@@ -377,6 +462,8 @@ static INLINE void ssse3_RGBToYUV420_BGRX_UV(const BYTE* src1, const BYTE* src2,
 	const __m128i u_factors = BGRX_U_FACTORS;
 	const __m128i v_factors = BGRX_V_FACTORS;
 	const __m128i vector128 = CONST128_FACTORS;
+	const __m128i vector128_int16 = CONST128_FACTORS_INT16;
+
 	__m128i x0, x1, x2, x3, x4, x5;
 	const __m128i* rgb1 = (const __m128i*)src1;
 	const __m128i* rgb2 = (const __m128i*)src2;
@@ -410,19 +497,11 @@ static INLINE void ssse3_RGBToYUV420_BGRX_UV(const BYTE* src1, const BYTE* src2,
 		x4 = _mm_castps_si128(_mm_shuffle_ps(_mm_castsi128_ps(x2), _mm_castsi128_ps(x3), 0x88));
 		x1 = _mm_castps_si128(_mm_shuffle_ps(_mm_castsi128_ps(x2), _mm_castsi128_ps(x3), 0xdd));
 		x1 = _mm_avg_epu8(x1, x4);
-		/* multiplications and subtotals */
-		x2 = _mm_maddubs_epi16(x0, u_factors);
-		x3 = _mm_maddubs_epi16(x1, u_factors);
-		x4 = _mm_maddubs_epi16(x0, v_factors);
-		x5 = _mm_maddubs_epi16(x1, v_factors);
-		/* the total sums */
-		x0 = _mm_hadd_epi16(x2, x3);
-		x1 = _mm_hadd_epi16(x4, x5);
-		/* shift the results */
-		x0 = _mm_srai_epi16(x0, U_SHIFT);
-		x1 = _mm_srai_epi16(x1, V_SHIFT);
-		/* pack the 16 words into bytes */
-		x0 = _mm_packs_epi16(x0, x1);
+
+		x2 = ssse3_RGBToYUV420_BGRX_U_Component(x0, x1, &u_factors, &vector128_int16);
+		x3 = ssse3_RGBToYUV420_BGRX_V_Component(x0, x1, &v_factors, &vector128_int16);
+
+		x0 = _mm_packs_epi16(x2, x3);
 		/* add 128 */
 		x0 = _mm_sub_epi8(x0, vector128);
 		/* the lower 8 bytes go to the u plane */
@@ -505,6 +584,11 @@ static INLINE void ssse3_RGBToAVC444YUV_BGRX_DOUBLE_ROW(const BYTE* srcEven, con
 	const __m128i u_factors = BGRX_U_FACTORS;
 	const __m128i v_factors = BGRX_V_FACTORS;
 	const __m128i vector128 = CONST128_FACTORS;
+	const __m128i vector16 = CONST16_FACTORS;
+	const __m128i vector128_int16 = CONST128_FACTORS_INT16;
+#ifdef WITH_H264_COLOR_CORRECTION
+	const __m128i y_factors_skew = BGRX_Y_FACTORS_SKEW;
+#endif
 
 	for (x = 0; x < width; x += 16)
 	{
@@ -519,20 +603,37 @@ static INLINE void ssse3_RGBToAVC444YUV_BGRX_DOUBLE_ROW(const BYTE* srcEven, con
 		const __m128i xo4 = _mm_load_si128(argbOdd++);  // 4th 4 pixels
 		{
 			/* Y: multiplications with subtotals and horizontal sums */
-			const __m128i ye1 = _mm_srli_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe1, y_factors),
-			                                                  _mm_maddubs_epi16(xe2, y_factors)),
-			                                   Y_SHIFT);
-			const __m128i ye2 = _mm_srli_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe3, y_factors),
-			                                                  _mm_maddubs_epi16(xe4, y_factors)),
-			                                   Y_SHIFT);
-			const __m128i ye = _mm_packus_epi16(ye1, ye2);
-			const __m128i yo1 = _mm_srli_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo1, y_factors),
-			                                                  _mm_maddubs_epi16(xo2, y_factors)),
-			                                   Y_SHIFT);
-			const __m128i yo2 = _mm_srli_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo3, y_factors),
-			                                                  _mm_maddubs_epi16(xo4, y_factors)),
-			                                   Y_SHIFT);
-			const __m128i yo = _mm_packus_epi16(yo1, yo2);
+			const __m128i ye1 =
+			    ssse3_RGBToYUV420_BGRX_Y_Component(xe1, xe2, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+			                                       ,
+			                                       &y_factors_skew
+#endif
+			    );
+
+			const __m128i ye2 =
+			    ssse3_RGBToYUV420_BGRX_Y_Component(xe3, xe4, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+			                                       ,
+			                                       &y_factors_skew
+#endif
+			    );
+			const __m128i ye = _mm_sub_epi8(_mm_packus_epi16(ye1, ye2), vector16);
+			const __m128i yo1 =
+			    ssse3_RGBToYUV420_BGRX_Y_Component(xo1, xo2, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+			                                       ,
+			                                       &y_factors_skew
+#endif
+			    );
+			const __m128i yo2 =
+			    ssse3_RGBToYUV420_BGRX_Y_Component(xo3, xo4, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+			                                       ,
+			                                       &y_factors_skew
+#endif
+			    );
+			const __m128i yo = _mm_sub_epi8(_mm_packus_epi16(yo1, yo2), vector16);
 			/* store y [b1] */
 			_mm_storeu_si128((__m128i*)b1Even, ye);
 			b1Even += 16;
@@ -553,27 +654,19 @@ static INLINE void ssse3_RGBToAVC444YUV_BGRX_DOUBLE_ROW(const BYTE* srcEven, con
 			__m128i ue, uo = { 0 };
 			{
 				const __m128i ue1 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe1, u_factors),
-				                                  _mm_maddubs_epi16(xe2, u_factors)),
-				                   U_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_U_Component(xe1, xe2, &u_factors, &vector128_int16);
 				const __m128i ue2 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe3, u_factors),
-				                                  _mm_maddubs_epi16(xe4, u_factors)),
-				                   U_SHIFT);
-				ue = _mm_sub_epi8(_mm_packs_epi16(ue1, ue2), vector128);
+				    ssse3_RGBToYUV420_BGRX_U_Component(xe3, xe4, &u_factors, &vector128_int16);
+				ue = _mm_sub_epi8(_mm_packus_epi16(ue1, ue2), vector128);
 			}
 
 			if (b1Odd)
 			{
 				const __m128i uo1 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo1, u_factors),
-				                                  _mm_maddubs_epi16(xo2, u_factors)),
-				                   U_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_U_Component(xo1, xo2, &u_factors, &vector128_int16);
 				const __m128i uo2 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo3, u_factors),
-				                                  _mm_maddubs_epi16(xo4, u_factors)),
-				                   U_SHIFT);
-				uo = _mm_sub_epi8(_mm_packs_epi16(uo1, uo2), vector128);
+				    ssse3_RGBToYUV420_BGRX_U_Component(xo3, xo4, &u_factors, &vector128_int16);
+				uo = _mm_sub_epi8(_mm_packus_epi16(uo1, uo2), vector128);
 			}
 
 			/* Now we need the following storage distribution:
@@ -628,27 +721,19 @@ static INLINE void ssse3_RGBToAVC444YUV_BGRX_DOUBLE_ROW(const BYTE* srcEven, con
 			__m128i ve, vo = { 0 };
 			{
 				const __m128i ve1 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe1, v_factors),
-				                                  _mm_maddubs_epi16(xe2, v_factors)),
-				                   V_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_V_Component(xe1, xe2, &v_factors, &vector128_int16);
 				const __m128i ve2 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe3, v_factors),
-				                                  _mm_maddubs_epi16(xe4, v_factors)),
-				                   V_SHIFT);
-				ve = _mm_sub_epi8(_mm_packs_epi16(ve1, ve2), vector128);
+				    ssse3_RGBToYUV420_BGRX_V_Component(xe3, xe4, &v_factors, &vector128_int16);
+				ve = _mm_sub_epi8(_mm_packus_epi16(ve1, ve2), vector128);
 			}
 
 			if (b1Odd)
 			{
 				const __m128i vo1 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo1, v_factors),
-				                                  _mm_maddubs_epi16(xo2, v_factors)),
-				                   V_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_V_Component(xo1, xo2, &v_factors, &vector128_int16);
 				const __m128i vo2 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo3, v_factors),
-				                                  _mm_maddubs_epi16(xo4, v_factors)),
-				                   V_SHIFT);
-				vo = _mm_sub_epi8(_mm_packs_epi16(vo1, vo2), vector128);
+				    ssse3_RGBToYUV420_BGRX_V_Component(xo3, xo4, &v_factors, &vector128_int16);
+				vo = _mm_sub_epi8(_mm_packus_epi16(vo1, vo2), vector128);
 			}
 
 			/* Now we need the following storage distribution:
@@ -772,6 +857,14 @@ static INLINE void ssse3_RGBToAVC444YUVv2_BGRX_DOUBLE_ROW(
 	const __m128i vector128 = CONST128_FACTORS;
 	const __m128i* argbEven = (const __m128i*)srcEven;
 	const __m128i* argbOdd = (const __m128i*)srcOdd;
+	const __m128i y_factors = BGRX_Y_FACTORS;
+	const __m128i u_factors = BGRX_U_FACTORS;
+	const __m128i v_factors = BGRX_V_FACTORS;
+	const __m128i vector16 = CONST16_FACTORS;
+	const __m128i vector128_int16 = CONST128_FACTORS_INT16;
+#ifdef WITH_H264_COLOR_CORRECTION
+	const __m128i y_factors_skew = BGRX_Y_FACTORS_SKEW;
+#endif
 
 	for (x = 0; x < width; x += 16)
 	{
@@ -788,14 +881,21 @@ static INLINE void ssse3_RGBToAVC444YUVv2_BGRX_DOUBLE_ROW(
 		const __m128i xo4 = _mm_load_si128(argbOdd++);  /* 4th 4 pixels */
 		{
 			/* Y: multiplications with subtotals and horizontal sums */
-			const __m128i y_factors = BGRX_Y_FACTORS;
-			const __m128i ye1 = _mm_srli_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe1, y_factors),
-			                                                  _mm_maddubs_epi16(xe2, y_factors)),
-			                                   Y_SHIFT);
-			const __m128i ye2 = _mm_srli_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe3, y_factors),
-			                                                  _mm_maddubs_epi16(xe4, y_factors)),
-			                                   Y_SHIFT);
-			const __m128i ye = _mm_packus_epi16(ye1, ye2);
+			const __m128i ye1 =
+			    ssse3_RGBToYUV420_BGRX_Y_Component(xe1, xe2, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+			                                       ,
+			                                       &y_factors_skew
+#endif
+			    );
+			const __m128i ye2 =
+			    ssse3_RGBToYUV420_BGRX_Y_Component(xe3, xe4, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+			                                       ,
+			                                       &y_factors_skew
+#endif
+			    );
+			const __m128i ye = _mm_sub_epi8(_mm_packus_epi16(ye1, ye2), vector16);
 			/* store y [b1] */
 			_mm_storeu_si128((__m128i*)yLumaDstEven, ye);
 			yLumaDstEven += 16;
@@ -803,14 +903,21 @@ static INLINE void ssse3_RGBToAVC444YUVv2_BGRX_DOUBLE_ROW(
 
 		if (yLumaDstOdd)
 		{
-			const __m128i y_factors = BGRX_Y_FACTORS;
-			const __m128i yo1 = _mm_srli_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo1, y_factors),
-			                                                  _mm_maddubs_epi16(xo2, y_factors)),
-			                                   Y_SHIFT);
-			const __m128i yo2 = _mm_srli_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo3, y_factors),
-			                                                  _mm_maddubs_epi16(xo4, y_factors)),
-			                                   Y_SHIFT);
-			const __m128i yo = _mm_packus_epi16(yo1, yo2);
+			const __m128i yo1 =
+			    ssse3_RGBToYUV420_BGRX_Y_Component(xo1, xo2, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+			                                       ,
+			                                       &y_factors_skew
+#endif
+			    );
+			const __m128i yo2 =
+			    ssse3_RGBToYUV420_BGRX_Y_Component(xo3, xo4, &y_factors, &vector128_int16
+#ifdef WITH_H264_COLOR_CORRECTION
+			                                       ,
+			                                       &y_factors_skew
+#endif
+			    );
+			const __m128i yo = _mm_sub_epi8(_mm_packus_epi16(yo1, yo2), vector16);
 			_mm_storeu_si128((__m128i*)yLumaDstOdd, yo);
 			yLumaDstOdd += 16;
 		}
@@ -825,34 +932,24 @@ static INLINE void ssse3_RGBToAVC444YUVv2_BGRX_DOUBLE_ROW(
 			/* U: multiplications with subtotals and horizontal sums */
 			__m128i ue, uo, uavg;
 			{
-				const __m128i u_factors = BGRX_U_FACTORS;
 				const __m128i ue1 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe1, u_factors),
-				                                  _mm_maddubs_epi16(xe2, u_factors)),
-				                   U_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_U_Component(xe1, xe2, &u_factors, &vector128_int16);
 				const __m128i ue2 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe3, u_factors),
-				                                  _mm_maddubs_epi16(xe4, u_factors)),
-				                   U_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_U_Component(xe3, xe4, &u_factors, &vector128_int16);
 				const __m128i ueavg = _mm_hadd_epi16(ue1, ue2);
-				ue = _mm_sub_epi8(_mm_packs_epi16(ue1, ue2), vector128);
+				ue = _mm_sub_epi8(_mm_packus_epi16(ue1, ue2), vector128);
 				uavg = ueavg;
 			}
 			{
-				const __m128i u_factors = BGRX_U_FACTORS;
 				const __m128i uo1 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo1, u_factors),
-				                                  _mm_maddubs_epi16(xo2, u_factors)),
-				                   U_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_U_Component(xo1, xo2, &u_factors, &vector128_int16);
 				const __m128i uo2 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo3, u_factors),
-				                                  _mm_maddubs_epi16(xo4, u_factors)),
-				                   U_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_U_Component(xo3, xo4, &u_factors, &vector128_int16);
 				const __m128i uoavg = _mm_hadd_epi16(uo1, uo2);
-				uo = _mm_sub_epi8(_mm_packs_epi16(uo1, uo2), vector128);
+				uo = _mm_sub_epi8(_mm_packus_epi16(uo1, uo2), vector128);
 				uavg = _mm_add_epi16(uavg, uoavg);
 				uavg = _mm_srai_epi16(uavg, 2);
-				uavg = _mm_packs_epi16(uavg, uoavg);
+				uavg = _mm_packus_epi16(uavg, uoavg);
 				uavg = _mm_sub_epi8(uavg, vector128);
 			}
 			/* Now we need the following storage distribution:
@@ -910,34 +1007,24 @@ static INLINE void ssse3_RGBToAVC444YUVv2_BGRX_DOUBLE_ROW(
 			/* V: multiplications with subtotals and horizontal sums */
 			__m128i ve, vo, vavg;
 			{
-				const __m128i v_factors = BGRX_V_FACTORS;
 				const __m128i ve1 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe1, v_factors),
-				                                  _mm_maddubs_epi16(xe2, v_factors)),
-				                   V_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_V_Component(xe1, xe2, &v_factors, &vector128_int16);
 				const __m128i ve2 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xe3, v_factors),
-				                                  _mm_maddubs_epi16(xe4, v_factors)),
-				                   V_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_V_Component(xe3, xe4, &v_factors, &vector128_int16);
 				const __m128i veavg = _mm_hadd_epi16(ve1, ve2);
-				ve = _mm_sub_epi8(_mm_packs_epi16(ve1, ve2), vector128);
+				ve = _mm_sub_epi8(_mm_packus_epi16(ve1, ve2), vector128);
 				vavg = veavg;
 			}
 			{
-				const __m128i v_factors = BGRX_V_FACTORS;
 				const __m128i vo1 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo1, v_factors),
-				                                  _mm_maddubs_epi16(xo2, v_factors)),
-				                   V_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_V_Component(xo1, xo2, &v_factors, &vector128_int16);
 				const __m128i vo2 =
-				    _mm_srai_epi16(_mm_hadd_epi16(_mm_maddubs_epi16(xo3, v_factors),
-				                                  _mm_maddubs_epi16(xo4, v_factors)),
-				                   V_SHIFT);
+				    ssse3_RGBToYUV420_BGRX_V_Component(xo3, xo4, &v_factors, &vector128_int16);
 				const __m128i voavg = _mm_hadd_epi16(vo1, vo2);
-				vo = _mm_sub_epi8(_mm_packs_epi16(vo1, vo2), vector128);
+				vo = _mm_sub_epi8(_mm_packus_epi16(vo1, vo2), vector128);
 				vavg = _mm_add_epi16(vavg, voavg);
 				vavg = _mm_srai_epi16(vavg, 2);
-				vavg = _mm_packs_epi16(vavg, voavg);
+				vavg = _mm_packus_epi16(vavg, voavg);
 				vavg = _mm_sub_epi8(vavg, vector128);
 			}
 			/* Now we need the following storage distribution:
diff --git a/libfreerdp/primitives/test/TestPrimitivesYUV.c b/libfreerdp/primitives/test/TestPrimitivesYUV.c
index 302cfbc50e034..95a8d8a689ca2 100644
--- a/libfreerdp/primitives/test/TestPrimitivesYUV.c
+++ b/libfreerdp/primitives/test/TestPrimitivesYUV.c
@@ -63,7 +63,7 @@ static BOOL similarRGB(const BYTE* src, const BYTE* dst, size_t size, UINT32 for
 			fprintf(
 			    stderr,
 			    "Color value  mismatch R[%02X %02X], G[%02X %02X], B[%02X %02X] at position %lu\n",
-			    sR, dR, sG, dG, sA, dA, x);
+			    sR, dR, sG, dG, sB, dB, x);
 			return FALSE;
 		}
 
@@ -750,11 +750,16 @@ static BOOL TestPrimitiveRgbToLumaChroma(primitives_t* prims, prim_size_t roi, U
 
 		for (x = 0; x < roi.width; x++)
 		{
-#if 1
+#if 0
 			line[x * 4 + 0] = rand();
 			line[x * 4 + 1] = rand();
 			line[x * 4 + 2] = rand();
 			line[x * 4 + 3] = rand();
+#elif 1
+			line[x * 4 + 0] = 0x81;
+			line[x * 4 + 1] = 0x33;
+			line[x * 4 + 2] = 0xAB;
+			line[x * 4 + 3] = 0xFF;
 #else
 			line[x * 4 + 0] = (y * roi.width + x) * 16 + 5;
 			line[x * 4 + 1] = (y * roi.width + x) * 16 + 7;