您当前的位置:首页 >> 智慧农业
智慧农业

大数据开发之离线研究工具Hive

发布时间:2025-09-27

hive> create table if not exists userinfo

> (

> userid int,

> username string,

> cityid int,

> createtime date

> )

> row format delimited fields terminated by ' '

> stored as textfile;

OK

Time taken: 2.133 seconds

创建人分组请注意

Hive详细信息一般是扫描整个参考资料,但是有时候我们关心的数据集只是集之中在某一以外数据集上,比如我们一个Hive详细信息,往往是只是详细信息遇见的数据集,这样的情形,可以运用以分组请注意来最佳化,一天是一个分组,详细信息时候,Hive只扫描选定天分组的数据集。

一般而言请注意和分组请注意的区别在于:一个Hive请注意在HDFS上是有一个互换的参考资料来打印数据集,一般而言请注意的数据集实际上打印在这个参考资料下,而分组请注意数据集打印时,是再界定子参考资料来打印的。一个分组一个子参考资料。主要功用是来最佳化详细信息性能。

create table user_action_log

companyId INT comment '公司ID',

userid INT comment '经销ID',

originalstring STRING comment 'url',

host STRING comment 'host',

absolutepath STRING comment '绝对路径',

query STRING comment '参数串',

refurl STRING comment '可能url',

clientip STRING comment '用户端Ip',

cookiemd5 STRING comment 'cookiemd5',

timestamp STRING comment '访问时间戳'

partitioned by (dt string)

row format delimited fields terminated by ','

stored as textfile;

这个案例之中,这个会话请注意以dtURL分组,dt是个虚拟的URL,dt下十分打印数据集,而是用来分组的,理论上数据集打印时,dtURL最大值完全一致的数据集取走同一个子参考资料之中,放入数据集或者为基础数据集时,同一天的数据集dtURL字符串一样,这样就实现了数据集按dt迟于分组打印。

当Hive详细信息数据集时,如果选定了dt比对有条件,那么只能够到互换的分组再继续检索系统数据集即可,有所增加了工作效率。所以对于分组请注意详细信息时,但会掺入上分组URL的比对有条件。

创建人桶请注意

桶请注意也是一种用以最佳化详细信息而建筑设计的请注意类别。创建人通请注意时,选定桶的个数、分桶的依据URL,hive就可以启动时将数据集分桶打印。详细信息时只能够查找一个桶里的数据集,或者查找以外桶,这样就提高了详细信息工作效率。举例来说:

create table user_leads

leads_id string,

user_id string,

user_id string,

user_phone string,

user_name string,

create_time string

clustered by (user_id) sorted by(leads_id) into 10 buckets

row format delimited fields terminated by ' '

stored as textfile;

对这个案例的说明:

clustered by是指根据userid的最大值来进讫哈希后模除分桶个数,根据给与的结果,断定这讫数据集分入哪个桶之中,这样的各别,可以保障完全一致userid的数据集放入同一个桶之中。而经营者的供货数据集,几乎是根据user_id来进讫详细信息的。这样几乎情形是只能够详细信息一个桶之中的数据集就可以了。

sorted by 是选定桶之中的数据集以哪个URL来进讫依序,依序的用处是,在join操作时能获得极低的工作效率。

into 10 buckets是选定一共分10个桶。

在HDFS上打印时,一个桶取走一个份文件之中,这样根据user_id来进讫详细信息时,可以较快断定数据集普遍存在于哪个桶之中,而只查找一个桶可以透过详细信息工作效率。

短文可能:极客运维之家

中选阅读:

大数据集开发设计之Hive-DML数据集操作

大数据集开发设计之Hive

大数据集开发设计之Hive运用以量化

大数据集开发设计之Hive调优技巧

如何做好防暑降温工作
河南不孕不育
北京妇科医院哪家治疗最好
武汉白癜风治疗费用是多少
株洲看妇科哪里最好

上一篇: 东契奇直击33+13+15仍无缘今日最佳!对不起,你碰到比肩乔丹之人了

下一篇: 第三家不动产破千亿元的民营银行诞生!苏宁银行披露2021年业绩预告

友情链接