搜索 | 会员  
  • 作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同
  • HIVE总是按照从左到右的顺序执行的。嵌套SELECT语句会按照要求执行“下推”过程,在数据进行连接操作之前会先进行分区过滤。
  • 使用Hive过程中,面对各种各样的查询需求,需要具有针对性的优化下面内容就给大家分别介绍下。
  • 为解决缓慢变化维问题的几种办法:保留原始值改写属性值增加维度新行增加维度新列添加历史表
  • 针对大数据Hadoop体系中,Hive作为数据仓库工具;但是对于大数据中数据仓库上构建数据模型的方法和传统的关系数据库的方法
  • 从数仓建设的角度思考,数据仓库需要依赖于稳定和规范的数据源,数据需要经过采集加工后才能真正被数仓所使用。推动数据同步服务的平台化,才有可能从源头规范数据的产出。数据同步服务不像数据
  • 在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了。而在这些公司中,也有很多家公司的日数据增长达到100TB+了。所以我们每天都要观察
  • 大数据平台架构设计沿袭了分层设计的思想,将平台所需提供的服务按照功能划分成不同的模块层次,每一模块层次只与上层或下层的模块层次进行交互(通过层次边界的接口),避免跨层的交互,这种设计
  • Hive窗口函数可以计算一定范围内、一定值域内、或者一段时间内的累积和以及移动平均值等;可以结合聚集函数SUM()、AVG()等使用;可以结合FIRST_VALUE()和LAST_VALUE(),返回窗口的第一个和最后
  • 微博,一个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重。因此,我们引
  • 从物理结构上讲,HBase由三种类型的服务器构成主从式架构。RegionServers为数据的读取和写入提供服务。当访问数据时,客户端直接和RegionServers通信。Region的分配,DDL(create,deleteta
  • 本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。
  • 一句话描述Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive支持HSQL,是一种
  • ResourceManager(RM)和每个从属节点(NM)构成数据计算框架。ResourceManager拥有在系统中的所有应用程序之间仲裁资源的最终权力。NodeManager是每个机器的架构代理,负责监视容器的资源使用
  • 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3
  • 地图
  • 本站
  • 我们
  • 服务
  • 版权
  • 联系
  • 回馈
  • 博客