友纪V-λOP的blog
  • 首页
  • 归档
  • 标签
  • 关于
  •   
  •   

Hive 学习笔记 2——SORT,JOIN,分区等

现在跟随《Hive 编程指南》进行学习,此书的翻译…我在序章已经看到两处明显错误了,中英对照着看吧。 这里去学习一下 SELECT,Hive 最重要的部分。Hive 的 SELECT 相较于普通的关系型数据库,增加了内置的集合类型,因此各种操作,如函数,聚合,窗口函数等,都会有一些新东西,新模式可用,更别说还有新增的 UDTF 了;同时由于底层使用 MapReduce,因此分区等概念也需要体现

2022-03-20
Hive

MapReduce,Hive,Spark 的两个示例——Word Count 和 JOIN

在系统学习 Hive 的 SELECT 之前,我们先来进行一些超有趣的事情——分别使用 MapReduce,Hive,Spark 来实现同一个程序,感受一下三者代码的差异,这里选择去实现一下 WordCount,以及一个表连接的示例。

2022-03-18
分布式计算

Hive 学习笔记 1——架构,DDL 和数据的导出导入

Hive 就是一种用于构造 MapReduce 的 DSL 及相关基础设施,这样的概括大概足矣。

2022-03-17
Hive

MapReduce 的魔法——Shuffle

数据从每个 Mapper 到每个 Reducer 这个过程,就是 MapReduce 的魔法——Shuffle 所在之处。

2022-03-15
MapReduce

MapReduce 开发模式 2——排序,二次排序,JOIN

没想到一整天都研究排序去了,拜它所赐,对 Partitioner,SortComparator,GroupComparator 等机制更为熟悉了。

2022-03-14
MapReduce

力扣 SQL 刷题笔记

最近意识到 SQL 的重要性(Hive 要写 SQL,Spark 还要写 SQL,MapReduce 又可以用 SQL 来描述),并且大数据的各种平台作为分析型系统,复杂的查询是屡见不鲜的,因此打算对 SQL 进行专门学习,这里把 LeetCode 上所有免费 SQL 题目都刷一下,之后也要做做别的题目。尽量给出多于一个解决方案。

2022-03-13
SQL

关于 MR 为何需要排序,以及一个分布式排序的示例

之前去了解了一下关于MapReduce的几个比较疑惑的问题,认为有必要专门记录一下,同时也给定一个分布式排序的示例,这应用到了这里谈到的特性。但学习过程中我实际上没有参考多少权威资料,全凭一孔之见,所以非常大的可能有错误。

2022-03-12
MapReduce

SQL 学习笔记——GROUP BY,JOIN,窗口函数

上次去认真学习 SQL 还是 20 年的 12 月,时间才过去 15 个月,但我却觉得恍若隔世。 最近看书《深入理解 Hadoop》,它对 MapReduce 使用 SQL 语言进行描述,在学习过程中我发现我对之前还不了解的 GROUP BY,聚集函数等概念有了一些更深刻的理解,正巧 Hive,Spark SQL 等都需要一定的 SQL 技术,趁此机会进行进一步的学习,把 GROUP BY,JOI

2022-03-10
SQL

MapReduce 开发模式 1——Mapper,Reducer,Combiner,Partitioner

听说模式这个词被滥用了,那么我也来为此添砖加瓦。

2022-03-06
MapReduce

Scala 学习笔记——模式匹配

Scala 确实很有趣,虽然它并非像 Haskell 那样优雅简洁,某些抽象,如代数数据类型,仍旧需要通过一些“模式”来实现,而它在 Haskell 中是能够非常优雅清晰地表述的,或许这是使用 OOP 对 FP 进行建模的必然结果吧?但了解它的抽象方式也是非常有趣的,相较于 Haskell 更为啰嗦这一点,也让我对一些之前学习 Haskell 时未曾理解的概念,如模式匹配的视图等有了更加深刻的理解

2022-03-02
FP Scala
1…1516171819…24

搜索

Hexo Fluid