回到顶部

Apache CarbonData+Spark Meetup

2017年9月2日 14:00 ~ 2017年9月2日 17:00

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起

    日程信息:

    image.png


    讲师介绍:

    个人简介:

    Apache Spark PMC member,Spark SQL 开发团队成员。2013年从浙江大学毕业后,一直在进行分布式系统相关的工作。2014年开始接触 Spark,并成为最活跃的代码贡献者之一。2015年正式加入 databricks,成为 databricks 中国分部(筹建中)的第一名员工,主要负责开源社区方面的工作,例如:审查其他社区成员提交的PR,主导 Spark SQL 一些主要功能的设计和研发,定期审计项目代码质量等。

    主题摘要:

    Spark SQL 作为 Spark 的基础框架,已经有了广泛的用户基础,并且经历了一段漫长的开发历史。本次议题将会带领大家回顾一下 Spark SQL的演进历史,以及目前的现状,和未来的一些展望,帮助大家更好的理解 Spark SQL 的一些设计决策以及使用场景。


    个人简介:

    李昆,华为技术有限公司大数据软件架构师。2004年加入华为,长期从事电信协议、业务智能化、数据可视化、用户行为分析等系统研究和开发工作。近年致力于大数据技术研究,参与Hadoop、Spark、Alluxio等开源社区,2016年作为CarbonData PMC成员参与Apache CarbonData项目孵化,寻求大数据与一站式分析平台的创新机会点。

    主题摘要:

    Apache CarbonData是一种新的高性能数据存储,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持大数据分析的多种应用场景(如:“任意维度组合的数据查询分析、快速扫描、详单查询、数据更新删除等”),并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应。`
    CarbonData开源后,受到全球大数据技术爱好者高度关注;截止到目前为止,全球已有100+开发者参与了代码贡献,有10+家企业上线生产系统。  


    个人简介:

    王振华,现任华为公司研究工程师,致力于构建高性能大数据查询分析平台。在此之前,博士毕业于浙江大学计算机科学与技术学院,研究方向涉及空间数据库、信息检索、数据挖掘。

    主题摘要:

    在Spark SQL的Catalyst优化器中,许多基于规则的优化技术已经实现,但优化器本身仍然有很大的改进空间。例如,没有关于数据分布的详细列统计信息,因此难以精确地估计过滤(filter)、连接(join)等数据库操作符的输出大小和基数 (cardinality)。由于不准确的估计,它经常导致优化器产生次优的查询执行计划。
    在Spark 2.2中,在Spark SQL引擎内添加了一个基于成本的优化器框架,此框架计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算,能够在这些领域做出好的决定:选择散列连接(hash join)操作的正确构建端(build side),选择正确的连接算法(如broadcast hash join与 shuffled hash join),调整连接的顺序等等。在这次演讲中,我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。


    个人简介:

    现任上汽集团数据业务部大数据平台开发经理,目前主要专注于大数据平台架构,数据存储、压缩、索引以及实时流数据处理等领域的研究及应用。曾负责某金融行业公司ETL、BI系统开发,某互联网电商公司的数据仓库容量管理,性能调优等。热衷开源技术研究,Apache CarbonData社区贡献者。

    主题摘要:

    CarbonData的partition特性将在Apache CarbonData 1.2.0版本里正式发布,此特性将显著提升大数据查询性能。上汽集团大数据将CarbonData作为平台基础组件,以应对迅猛增长的数据量,本议题将分享上汽集团在CarbonData项目的实践和测试数据。



    举报活动

    活动标签

    最近参与

    • disanyuzhou
      报名

      (7年前)

    • Wendy
      报名

      (7年前)

    • deamon
      报名

      (7年前)

    • 何正鹏
      收藏

      (7年前)

    • 汪永胜
      报名

      (7年前)

    • 吕海洋
      报名

      (7年前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    活动主办方更多

    InfoQ中文站

    InfoQ中文站

    InfoQ是一家全球性在线新闻/社区网站,面向全球软件设计领域中高端人群,致力于为其提供中立的、由技术实践者主导的会议、内容与在线社区,旨在通过促进软件开发领域知识与创新的传播,为软件开发者提供一站式解决方案

    微信扫一扫

    分享此活动到朋友圈

    活动日历   03月
    26 27 28 29 1 2 3
    4 5 6 7 8 9 10
    11 12 13 14 15 16 17
    18 19 20 21 22 23 24
    25 26 27 28 29 30 31

    免费发布