Hive性能调优(一)——不同数据格式对Hive性能的影响

一.数据生成

# coding: utf-8
import random
import datetime
import importlib
import sys
importlib.reload(sys)

# lastname和first都是为了来随机构造名称
lastname = u"赵李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻柏水窦章云苏潘葛奚范彭郎鲁韦昌马苗"
firstname = u"红尘冷暖岁月清浅仓促间遗落一地如诗的句点不甘愿不决绝掬一份刻骨的思念系一根心的挂牵在你回眸抹兰轩的底色悄然"

# 创建一个函数,参数start表示循环的批次
def create_student_dict(start):
    firstlen = len(firstname)
    lastlen = len(lastname)
    # 创建一个符合正太分布的分数队列
    scoreList = [int(random.normalvariate(100, 50)) for _ in range(1, 5000)]
    # 创建1万条记录,如果执行程序内存够大这个可以适当调大
    filename = str(start) + '.txt'
    print(filename)
    # 每次循环都创建一个文件,文件名为:循环次数+'.txt',例如 1.txt
    with open('E:\hiveData\student\\' + filename, mode='w+', encoding="utf-8") as fp:
        for i in range(start * 50000, (start + 1) * 50000):
            firstind = random.randint(1, firstlen - 4)
            model = {"s_no": u"xuehao_no_" + str(i),
                "s_name": u"{0}{1}".format(lastname[random.randint(1, lastlen - 1)],
                                           firstname[firstind: firstind + 1]),
                "s_birth": u"{0}-{1}-{2}".format(random.randint(1991, 2000),
                                                 '0' + str(random.randint(1, 9)),
                                                 random.randint(10, 28)),
                "s_age": random.sample([20, 20, 20, 20, 21, 22, 23, 24, 25, 26], 1)[0],
                "s_sex": str(random.sample(['男', '女'], 1)[0]),
                "s_score": abs(scoreList[random.randint(1000, 4990)]),
                's_desc': u"为程序猿攻城狮队伍补充新鲜血液,"
                          u"为祖国未来科技产业贡献一份自己的力量" * random.randint(1, 20)}
            #写入数据到本地文件
            fp.write("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\n".
                     format(model['s_no'], model['s_name'],
                            model['s_birth'], model['s_age'],
                            model['s_sex'], model['s_score'],
                            model['s_desc']))


if __name__ == '__main__':
    # 循环创建记录,一共是40000*500=2千万的数据
    for i in range(1, 101):
        starttime = datetime.datetime.now()
        create_student_dict(i)

产生100个txt文件,每个txt文件有50000行数据(大约每个52MB左右),总共5.2GB左右。

二.数据准备

TEXT格式的表:

create table if not exists student_tb_txt(
 s_no string comment '学号',
 s_name string comment '姓名',
 s_birth string comment '生日',
 s_age bigint comment '年龄',
 s_sex string comment '性别',
 s_score bigint comment '综合能力得分',
 s_desc string comment '自我介绍'
)
row format delimited
fields terminated by '\t'
location '/hive/student_tb_txt';

ORC格式的表:

create table if not exists student_tb_orc like student_tb_txt 
STORED as orc 
location '/hive/student_tb_orc';
insert into table student_tb_orc select * from student_tb_txt;

SEQUENCEFILE格式的表:

create table if not exists student_tb_seq like student_tb_orc 
STORED as SEQUENCEFILE
location '/hive/student_tb_seq';
insert into table student_tb_seq select * from student_tb_orc;

PARQUET格式的表:

create table if not exists student_tb_par like student_tb_orc 
STORED as PARQUET
location '/hive/student_tb_par';
insert overwrite table student_tb_par select * from student_tb_orc;
对比TEXTSEQUENCEFILEORCPARQUET
数据大小5.2GB5.21 GB40.15 MB137.64 MB

可以看出,同一份数据,不同格式,占用空间相差巨大。

三.性能测试

TEXTFILE性能测试:

DROP  TABLE if EXISTS student_stat;
create table student_stat(a bigint, b bigint) partitioned by (tp  string) STORED AS TEXTFILE;

from student_tb_txt
INSERT into table student_stat partition(tp)
select s_age,min(s_birth) stat,'min' tp
group by s_age
insert into table  student_stat partition(tp)
select s_age,max(s_birth) stat,'max' tp
group by s_age;
INFO  : MapReduce Jobs Launched: 
INFO  : Stage-Stage-2: Map: 20  Reduce: 82   Cumulative CPU: 389.84 sec   HDFS Read: 5489388367 HDFS Write: 1546 SUCCESS
INFO  : Total MapReduce CPU Time Spent: 6 minutes 29 seconds 840 msec
INFO  : Completed executing command(queryId=hive_20210416180202_46c1a542-56b4-4fc3-88cb-d119ed1d3717); Time taken: 168.257 seconds
INFO  : OK

Sequencefile性能测试:

DROP  TABLE if EXISTS student_stat;
create table student_stat(a bigint, b bigint) partitioned by (tp  string) STORED AS Sequencefile;

from student_tb_seq
INSERT into table student_stat partition(tp)
select s_age,min(s_birth) stat,'max' stat
GROUP  by s_age
insert into table  student_stat partition(tp)
select s_age,max(s_birth) stat,'min' stat
GROUP  by s_age;
INFO  : MapReduce Jobs Launched: 
INFO  : Stage-Stage-2: Map: 21  Reduce: 84   Cumulative CPU: 432.81 sec   HDFS Read: 5594836414 HDFS Write: 2940 SUCCESS
INFO  : Total MapReduce CPU Time Spent: 7 minutes 12 seconds 810 msec
INFO  : Completed executing command(queryId=hive_20210416183636_9b5461ae-049d-4738-bc8d-39ce6d51c5f3); Time taken: 175.414 seconds
INFO  : OK

PARQUET性能测试:

DROP  TABLE if EXISTS student_stat;
create table student_stat(a bigint, b bigint) partitioned by (tp  string) STORED AS PARQUET;

from student_tb_par
INSERT into table student_stat partition(tp)
select s_age,min(s_birth) stat,'max' stat
GROUP  by s_age
insert into table  student_stat partition(tp)
select s_age,max(s_birth) stat,'min' stat
GROUP  by s_age;
INFO  : MapReduce Jobs Launched: 
INFO  : Stage-Stage-2: Map: 1  Reduce: 3   Cumulative CPU: 28.97 sec   HDFS Read: 8873710 HDFS Write: 2270 SUCCESS
INFO  : Total MapReduce CPU Time Spent: 28 seconds 970 msec
INFO  : Completed executing command(queryId=hive_20210416183939_21469c7b-1383-479f-ab9c-7158799048ff); Time taken: 27.903 seconds
INFO  : OK

ORC性能测试:

DROP  TABLE if EXISTS student_stat;
create table student_stat(a bigint, b bigint) partitioned by (tp  string) STORED AS ORC;

from student_tb_orc
INSERT into table student_stat partition(tp)
select s_age,min(s_birth) stat,'max' stat
GROUP  by s_age
insert into table  student_stat partition(tp)
select s_age,max(s_birth) stat,'min' stat
GROUP  by s_age;
INFO  : MapReduce Jobs Launched: 
INFO  : Stage-Stage-2: Map: 1  Reduce: 1   Cumulative CPU: 16.74 sec   HDFS Read: 10586112 HDFS Write: 678 SUCCESS
INFO  : Total MapReduce CPU Time Spent: 16 seconds 740 msec
INFO  : Completed executing command(queryId=hive_20210416184040_257af606-fa92-4655-a409-6bbfc1f91005); Time taken: 24.859 seconds
INFO  : OK

可以看出,PARQUET和ORC性能显著提升。

四.原因分析

orc格式结构分析:

按列压缩,空间占用小,包含大量索引和统计信息,查询速度快很多。
在这里插入图片描述

五.参考文章

大数据:Hive - ORC 文件存储格式
几张图看懂列式存储(转)

已标记关键词 清除标记
DirectX修复工具(DirectX Repair)是一款系统级工具软件,简便易用。本程序为绿色版,无需安装,可直接运行。 本程序的主要功能是检测当前系统的DirectX状态,如果发现异常则进行修复。程序主要针对0xc000007b问题设计,可以完美修复该问题。本程序中包含了最新版的DirectX redist(Jun2010),并且全部DX文件都有Microsoft的数字签名,安全放心。 本程序为了应对一般电脑用户的使用,采用了易用的一键式设计,只要点击主界面上的“检测并修复”按钮,程序就会自动完成校验、检测、下载、修复以及注册的全部功能,无需用户的介入,大大降低了使用难度。在常规修复过程中,程序还会自动检测DirectX加速状态,在异常时给予用户相应提示。 本程序适用于多个操作系统,如Windows XP(需先安装.NET 2.0,详情请参阅“致Windows XP用户.txt”文件)、Windows Vista、Windows 7、Windows 8、Windows 8.1、Windows 8.1 Update、Windows 10,同时兼容32位操作系统和64位操作系统。本程序会根据系统的不同,自动整任务模式,无需用户进行设置。 本程序的V4.0版分为标准版、增强版以及在线修复版。所有版本都支持修复DirectX的功能,而增强版则额外支持修复c++的功能。在线修复版功能与标准版相同,但其所需的数据包需要在修复时自动下载。各个版本之间,主程序完全相同,只是其配套使用的数据包不同。因此,标准版和在线修复版可以通过补全扩展包的形式成为增强版。本程序自V3.5版起,自带扩展功能。只要在主界面的“工具”菜单下打开“选项”对话框,找到“扩展”标签,点击其中的“开始扩展”按钮即可。扩展过程需要Internet连接,扩展成功后新的数据包可自动生效。扩展用时根据网络速度不同不同,最快仅需数秒,最慢需要数分钟,烦请耐心等待。如扩展失败,可点击“扩展”界面左上角小锁图标切换为加密连接,即可很大程度上避免因防火墙或其他原因导致的连接失败。 本程序自V2.0版起采用全新的底层程序架构,使用了异步多线程编程技术,使得检测、下载、修复单独进行,互不干扰,快速如飞。新程序更改了自我校验方式,因此使用新版本的程序时不会再出现自我校验失败的错误;但并非取消自我校验,因此程序安全性与之前版本相同,并未降低。 程序有更新系统c++功能。由于绝大多数软件运行时需要c++的支持,并且c++的异常也会导致0xc000007b错误,因此程序在检测修复的同时,也会根据需要更新系统中的c++组件。自V3.2版本开始使用了全新的c++扩展包,可以大幅提高工业软件修复成功的概率。修复c++的功能仅限于增强版,标准版及在线修复版在系统c++异常时(非丢失时)会提示用户使用增强版进行修复。除常规修复外,新版程序还支持C++强力修复功能。当常规修复无效时,可以到本程序的选项界面内开启强力修复功能,可大幅提高修复成功率。请注意,请仅在常规修复无效时再使用此功能。 程序有两种窗口样式。正常模式即默认样式,适合绝大多数用户使用。另有一种简约模式,此时窗口将只显示最基本的内容,修复会自动进行,修复完成10秒钟后会自动退出。该窗口样式可以使修复工作变得更加简单快速,同时方便其他软件、游戏将本程序内嵌,即可进行无需人工参与的快速修复。开启简约模式的方法是:打开程序所在目录下的“Settings.ini”文件(如果没有可以自己创建),将其中的“FormStyle”一项的值改为“Simple”并保存即可。 新版程序支持命令行运行模式。在命令行中用本程序,可以在路径后直接添加命令进行相应的设置。常见的命令有7类,分别是设置语言的命令、设置窗口模式的命令,设置安全级别的命令、开启强力修复的命令、设置c++修复模式的命令、控制Direct加速的命令、显示版权信息的命令。具体命令名称可以通过“/help”或“/?”进行查询。 程序有高级筛选功能,开启该功能后用户可以自主选择要修复的文件,避免了其他不必要的修复工作。同时,也支持通过文件进行辅助筛选,只要在程序目录下建立“Filter.dat”文件,其中的每一行写一个需要修复文件的序号即可。该功能仅针对高级用户使用,并且必须在正常窗口模式下才有效(简约模式时无效)。 本程序有自动记录日志功能,可以记录每一次检测修复结果,方便在出现问题时,及时分析和查找原因,以便找到解决办法。 程序的“选项”对话框中包含了7项高级功能。点击"常规”选项卡可以整程序的基本运行情况,包括日志记录、安全级别控制、试模式开启等。只有开启试模式后才能在C
相关推荐
<p> <b><span style="background-color:#FFE500;">【超实用课程内容】</span></b> </p> <p> <br /> </p> <p> <br /> </p> <p> 本课程内容包含讲解<span>解读Nginx的基础知识,</span><span>解读Nginx的核心知识、带领学员进行</span>高并发环境下的Nginx性能化实战,让学生能够快速将所学融合到企业应用中。 </p> <p> <br /> </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <b><br /> </b> </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <b><span style="background-color:#FFE500;">【课程如何观看?】</span></b> </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> PC端:<a href="https://edu.csdn.net/course/detail/26277"><span id="__kindeditor_bookmark_start_21__"></span></a><a href="https://edu.csdn.net/course/detail/27216">https://edu.csdn.net/course/detail/27216</a> </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> 移动端:CSDN 学院APP(注意不是CSDN APP哦) </p> <p style="font-family:Helvetica;color:#3A4151;font-size:14px;background-color:#FFFFFF;"> 本课程为录播课,课程永久有效观看时长,大家可以抓紧时间学习后一起讨论哦~ </p> <p style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <br /> </p> <p class="ql-long-24357476" style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <strong><span style="background-color:#FFE500;">【学员专享增值服务】</span></strong> </p> <p class="ql-long-24357476" style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> <b>源码开放</b> </p> <p class="ql-long-24357476" style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> 课件、课程案例代码完全开放给你,你可以根据所学知识,自行修改、化 </p> <p class="ql-long-24357476" style="font-family:"color:#3A4151;font-size:14px;background-color:#FFFFFF;"> 下载方式:电脑登录<a href="https://edu.csdn.net/course/detail/26277"></a><a href="https://edu.csdn.net/course/detail/27216">https://edu.csdn.net/course/detail/27216</a>,播放页面右侧点击课件进行资料打包下载 </p> <p> <br /> </p> <p> <br /> </p> <p> <br /> </p>
©️2020 CSDN 皮肤主题: 书香水墨 设计师:CSDN官方博客 返回首页