Hive数据倾斜的一般解决思路 #25

Joldnine · 2018-09-13T07:54:34Z

用Hive做ETL的时候，经常会遇到数据倾斜(Data Stew)的问题，记录总结一下。

分类

平时大概率遇到的可能有以下几类：

join时的数据倾斜一般是因为某些key对应的数据量比较大。思路一般是：

我们有2个表，一个pv表，一个seller表。
dwd_pv 流量表字段:
visit_time, product_id, seller_id
假设有10亿行
dim_seller 卖家表字段:
seller_id, seller_name
假设有一千万行

Query:

SELECT visit_time, product_id, pv.seller_id, seller_name
FROM dwd_pv AS pv
LEFT OUTER JOIN dim_seller AS slr
ON pv.seller_id = slr.seller_id;

这就是一个普通的补字段SQL，但是在某些个seller流量特别大的情况下会发生数据倾斜。
为了解决这个问题，我们先了解一下HIVE里的join(Shuffle Join)发生了什么：

group by 造成的数据倾斜和join类似，group by里的某个字段数据量太大。思路一般是：

数据去重或者裁剪。
MRR做法，group by两次：第一次先在小一点的粒度上group进行初步汇总，目的是把大量数据的字段打散防止热点，然后在目标粒度上对汇总过的数据再group。

思路：
key splitting。

The text was updated successfully, but these errors were encountered:

Joldnine added the Hide label Sep 13, 2018

Joldnine changed the title ~~数据倾斜的一般解决思路~~ 大数据ETL数据倾斜的一般解决思路 Sep 17, 2018

Joldnine added ETL and removed Hide labels Sep 26, 2018

Joldnine changed the title ~~大数据ETL数据倾斜的一般解决思路~~ 数据倾斜的一般解决思路 Dec 7, 2018

Joldnine changed the title ~~数据倾斜的一般解决思路~~ Hive数据倾斜的一般解决思路 Dec 7, 2018