-
spark
kyuubi spark
本文讲下ebay对于Kyuubi Spark 引擎big result sets场景做的一些优化,如果错误,欢迎指正。
Read more »
-
spark
spark
Read more »
-
spark
spark sql bucket
记一次与bucket table相关的小文件问题,百万级小文件。
Read more »
-
spark
spark
记录Spark中的timeout参数
Read more »
-
essay
data spark
最近遇到了一些数字类型有关的问题,重新了解一下数字类型
Read more »
-
hadoop
hadoop hdfs
关于Hdfs的租约机制
Read more »
-
spark
spark
写点Spark相关的随笔
Read more »
-
spark
spark sql
Spark中有三种Join, BroadcastJoin, ShuffleHashJoin, SortMergeJoin。而BroadcastJoin通常认为是一种较为轻量的Join,因为其不走shuffle,本文描述一个与BroadcastJoin相关比较诡异的Issue。
Read more »
-
spark
spark
关于Spark中读取,计算和写入造成结果异常的场景分析
Read more »
-
spark
spark sql
An analysis of Spark data quality issue and relative solution.
Read more »
-
spark
spark scheduler
本文讲Spark的Blacklist机制
Read more »
-
bigData
linux Ops
作为一个大数据平台从业人员,会操作线上服务器是必备的技能,因此必须要会一些常见的Linux运维命令。
Read more »
-
spark
spark sql
本文讲如何在Spark sql Catalyst里面添加自己的Rule,来进行一些优化或者check操作。
Read more »
-
coding
jvm java
简单介绍jvm的相关工具,例如 jps, jstack, jstat, jmap, jinfo.
Read more »
-
spark
spark sql tunning
关于spark sql的一些参数的用法和调优.
Read more »
-
coding
java jvm concurrent
本文讲ThreadLocal的使用场景,注意事项以及源码实现。
Read more »
-
essay
jvm java
简单总结下最近关于jvm的知识,只保证自己能看懂。
Read more »
-
spark
spark shuffle
本文讲在网易工作将近一年来关于Spark Shuffle方面所做的三点优化。
Read more »
-
coding
java concurrent
Read more »
-
spark
spark streaming
简单讲解下spark streaming, structed streaming
Read more »
-
coding
scala coding
Read more »
-
spark
spark sql
关于spark sql 的execution部分源码解析
Read more »
-
coding
coding essay scala concurrent
简单写下scala中的Future以及对Thread的认识
Read more »
-
bigData
bigData theory
Raft的译文
Read more »
-
coding
coding maven
关于maven的使用
Read more »
-
coding
concurrent scala future
关于并发编程的一些总结与思考,包括promise, forkJoinPool, and etc.
Read more »
-
spark
spark greenplum
spark-greenplum是一个spark DataSource为greenplum的实现。通过使用postgresql copy命令的方式从dataframe分区向greenplum拷贝数据,相较于spark sql本身jbdc DataSource的速度提升了上百倍。本文讲解关于实现从spark sql向gp拷贝数据事务的实现。
Read more »
-
spark
spark shuffle
External shuffle service(ESS)是独立运行一个外部shuffle服务,用于管理spark的shuffle数据,本文讲解为什么要使用ESS,以及需要注意的地方.此处特指yarnShuffleService.
Read more »
-
spark
spark cbo
对Spark的CBO(cost based optimization) 进行源码分析
Read more »
-
spark
spark sql catalyst
关于spark的catalyst
Read more »
-
spark
sql 源码
从源码层面解释一个sparkSql语句是如何执行的,从sql到与底层RDD如何对接
Read more »
-
spark
spark rdd
从RDD入手, 对Spark进行深入理解
Read more »
-
jerryshao
spark cloud security
Read more »
-
essay
项目
Deca项目是研究生期间参加的重要科研项目,项目主要是采用去对象化的思想,减少大数据平台在运行过程中,数据的占有空间与对象的数量,从而减小内存的压力,也减小GC的压力。
Read more »
-
spark
spark shuffle
spark shuff部分是spark源码的重要组成部分,shuffle发生在stage的交界处,对于spark的性能有重要影响,源码更新后,spark的shuffle机制也不一样,本文分析spark2.0的shuffle实现。
Read more »
-
spark
spark 内存
spark是一个内存计算框架,因此内存是重要的资源,合理的使用的内存在spark应用在执行过程中非常重要。在使用内存的过程,spark会采用抽样的方法预测出所需要的内存,并预先分配内存。本文会就内存预测机制进行源码的解读。
Read more »
-
spark
spark
从最简单的spark应用WordCount入手,分析rdd链,分析job如何提交,task如何提交,从全局了解spark应用的执行流程。
Read more »
-
spark
spark
spark统一内存管理是spark1.6.0的新特性,是对shuffle memory 和 storage memory 进行统一的管理,打破了以往的参数限制。
Read more »
-
coding
java
最近在写堆外操作的代码,需要用到unsafe 类,记录下。
Read more »
-
bigData
env
最近帮大菠萝安装ganglia,记录下,方便以后安装。
Read more »
-
jerryshao
spark mapreduce shuffle cloud reprint
Read more »
-
jerryshao
cloud spark reprint
Read more »
-
jerryshao
scheme spark lisp reprint
Read more »
-
jerryshao
cloud spark spark streaming reprint
Read more »
-
jerryshao
cloud spark reprint
Read more »
-
jerryshao
cloud spark reprint
Read more »
-
jerryshao
cloud spark spark streaming reprint
Read more »
-
jerryshao
cloud reprint spark
Read more »