博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hive之分桶表
阅读量:4699 次
发布时间:2019-06-09

本文共 710 字,大约阅读时间需要 2 分钟。

1. Hive分桶表

简介

桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。

  • 获得更高的查询处理效果
  • 抽样调查

创建分桶表

create table bucketed_user(id int ,name string) clustered by (id)  into 4 bucketsstored as orc;

添加数据前需要先开启分桶

set hive.enforce.bucketing=true;

 导入数据

insert into table bucketed_user select user_id,order_id from orders;

查询数据

select * from bucketed_user tablesample(bucket 1 out of 16 on id) limit 50;
tablesample(bucket x out of y) x:表示从第几桶开始抽数据(1,2,3,4) y:表示抽数据的比例,是抽数据的分母 比如: 有4个分桶 tablesample(bucket 1 out of 16)  表示从第一桶开始抽数据,抽取第一桶数据的比例为(4(桶数)/16(分母))=1/4,抽取第一桶四分之一的数据
tablesample(bucket 2 out of 32)  表示从第二桶开始抽数据,抽取第二桶数据的比例为(4(桶数)/32(分母))=1/8,抽取第一桶八分之一的数据

转载于:https://www.cnblogs.com/blogyuhan/p/9197976.html

你可能感兴趣的文章
C#和JAVA 访问修饰符
查看>>
小甲鱼OD学习第1讲
查看>>
HDU-1085 Holding Bin-Laden Captive-母函数
查看>>
php提示undefined index的几种解决方法
查看>>
LRJ
查看>>
Struts2环境搭建
查看>>
Linux: Check version info
查看>>
stl学习之测试stlen,cout等的运行速度
查看>>
魔戒三曲,黑暗散去;人皇加冕,光明归来
查看>>
Error和Exception
查看>>
Python和Singleton (单件)模式[转载]
查看>>
httpclient设置proxy与proxyselector
查看>>
IT常用单词
查看>>
拓扑排序
查看>>
NYOJ--32--SEARCH--组合数
查看>>
JMS
查看>>
gulpfile 压缩模板
查看>>
【34.14%】【BZOJ 3110】 [Zjoi2013]K大数查询
查看>>
【 henuacm2016级暑期训练-动态规划专题 A 】Cards
查看>>
第五篇:白话tornado源码之褪去模板的外衣
查看>>