turboFei's blog
  • Archive
  • Spark
  • Hadoop
  • Big Data
  • Coding
  • Essay
  • Papers
  • RSS
  • Automating Celeborn with RESTful API

    2024-11-28 celeborn celeborn

    Read more »

  • 基于Celeborn RESTful API进行自动化工具集成

    2024-11-01 celeborn celeborn

    Read more »

  • Ebay Kyuubi Spark Engine Big Result Sets Solution

    2022-11-18 spark kyuubi spark

    本文讲下ebay对于Kyuubi Spark 引擎big result sets场景做的一些优化,如果错误,欢迎指正。

    Read more »

  • Ebay Spark Test Framework Woody

    2020-10-29 spark spark

    Read more »

  • 记一次与spark bucket table相关的小文件问题

    2020-03-28 spark spark sql bucket

    记一次与bucket table相关的小文件问题,百万级小文件。

    Read more »

  • Spark Timeout Parameters

    2020-03-10 spark spark

    记录Spark中的timeout参数

    Read more »

  • 重新了解数字类型

    2020-01-10 essay data spark

    最近遇到了一些数字类型有关的问题,重新了解一下数字类型

    Read more »

  • About Hdfs Lease

    2019-12-28 hadoop hadoop hdfs

    关于Hdfs的租约机制

    Read more »

  • Spark随笔

    2019-12-04 spark spark

    写点Spark相关的随笔

    Read more »

  • A Broadcastjoin Issue In Spark

    2019-10-29 spark spark sql

    Spark中有三种Join, BroadcastJoin, ShuffleHashJoin, SortMergeJoin。而BroadcastJoin通常认为是一种较为轻量的Join,因为其不走shuffle,本文描述一个与BroadcastJoin相关比较诡异的Issue。

    Read more »

  • 关于spark数据计算结果异常的场景分析

    2019-09-30 spark spark

    关于Spark中读取,计算和写入造成结果异常的场景分析

    Read more »

  • Spark Sql Decimal Precision Overflow Analysis

    2019-09-09 spark spark sql

    An analysis of Spark data quality issue and relative solution.

    Read more »

  • Spark Blacklist Mechanism Introduction

    2019-08-30 spark spark scheduler

    本文讲Spark的Blacklist机制

    Read more »

  • Linux Ops Commands

    2019-08-16 bigData linux Ops

    作为一个大数据平台从业人员,会操作线上服务器是必备的技能,因此必须要会一些常见的Linux运维命令。

    Read more »

  • Spark Catalyst 添加自己的规则

    2019-07-06 spark spark sql

    本文讲如何在Spark sql Catalyst里面添加自己的Rule,来进行一些优化或者check操作。

    Read more »

  • Jvm Tools Usage

    2019-06-29 coding jvm java

    简单介绍jvm的相关工具,例如 jps, jstack, jstat, jmap, jinfo.

    Read more »

  • Spark Sql 参数调优

    2019-06-26 spark spark sql tunning

    关于spark sql的一些参数的用法和调优.

    Read more »

  • About Threadlocal

    2019-06-20 coding java jvm concurrent

    本文讲ThreadLocal的使用场景,注意事项以及源码实现。

    Read more »

  • About Jvm

    2019-06-07 essay jvm java

    简单总结下最近关于jvm的知识,只保证自己能看懂。

    Read more »

  • Optimization For Spark Shuffle In Netease

    2019-05-30 spark spark shuffle

    本文讲在网易工作将近一年来关于Spark Shuffle方面所做的三点优化。

    Read more »

  • Java Concurrent Collection

    2019-05-26 coding java concurrent

    Read more »

  • About Spark Streaming

    2019-05-26 spark spark streaming

    简单讲解下spark streaming, structed streaming

    Read more »

  • Scala Match And Regex

    2019-05-25 coding scala coding

    Read more »

  • Spark Sql Execution

    2019-05-20 spark spark sql

    关于spark sql 的execution部分源码解析

    Read more »

  • Scala Concurrent Programming: Future And Thread

    2019-05-19 coding coding essay scala concurrent

    简单写下scala中的Future以及对Thread的认识

    Read more »

  • [转载] Raft译文

    2019-05-19 bigData bigData theory

    Raft的译文

    Read more »

  • About Maven

    2019-05-19 coding coding maven

    关于maven的使用

    Read more »

  • Scala Concurrent Programing: Promise And Forkjoinpool

    2019-05-18 coding concurrent scala future

    关于并发编程的一些总结与思考,包括promise, forkJoinPool, and etc.

    Read more »

  • Transactions Suuport For Spark Greenlum

    2019-05-12 spark spark greenplum

    spark-greenplum是一个spark DataSource为greenplum的实现。通过使用postgresql copy命令的方式从dataframe分区向greenplum拷贝数据,相较于spark sql本身jbdc DataSource的速度提升了上百倍。本文讲解关于实现从spark sql向gp拷贝数据事务的实现。

    Read more »

  • Spark External Shuffle Service

    2018-12-10 spark spark shuffle

    External shuffle service(ESS)是独立运行一个外部shuffle服务,用于管理spark的shuffle数据,本文讲解为什么要使用ESS,以及需要注意的地方.此处特指yarnShuffleService.

    Read more »

  • Spark Cbo Code Analysis

    2018-12-04 spark spark cbo

    对Spark的CBO(cost based optimization) 进行源码分析

    Read more »

  • Spark Sql Catalyst

    2018-08-01 spark spark sql catalyst

    关于spark的catalyst

    Read more »

  • Spark Sql Analysis

    2018-07-27 spark sql 源码

    从源码层面解释一个sparkSql语句是如何执行的,从sql到与底层RDD如何对接

    Read more »

  • Rdd Basics

    2018-07-12 spark spark rdd

    从RDD入手, 对Spark进行深入理解

    Read more »

  • [转载]Spark Security面面观

    2018-01-15 jerryshao spark cloud security

    Read more »

  • Deca项目总结

    2017-07-01 essay 项目

    Deca项目是研究生期间参加的重要科研项目,项目主要是采用去对象化的思想,减少大数据平台在运行过程中,数据的占有空间与对象的数量,从而减小内存的压力,也减小GC的压力。

    Read more »

  • Spark源码分析shuffle实现

    2016-12-26 spark spark shuffle

    spark shuff部分是spark源码的重要组成部分,shuffle发生在stage的交界处,对于spark的性能有重要影响,源码更新后,spark的shuffle机制也不一样,本文分析spark2.0的shuffle实现。

    Read more »

  • Spark内存预测

    2016-12-26 spark spark 内存

    spark是一个内存计算框架,因此内存是重要的资源,合理的使用的内存在spark应用在执行过程中非常重要。在使用内存的过程,spark会采用抽样的方法预测出所需要的内存,并预先分配内存。本文会就内存预测机制进行源码的解读。

    Read more »

  • Spark应用执行流程

    2016-12-22 spark spark

    从最简单的spark应用WordCount入手,分析rdd链,分析job如何提交,task如何提交,从全局了解spark应用的执行流程。

    Read more »

  • spark统一内存管理

    2016-12-19 spark spark

    spark统一内存管理是spark1.6.0的新特性,是对shuffle memory 和 storage memory 进行统一的管理,打破了以往的参数限制。

    Read more »

  • java unsafe类的使用

    2016-11-13 coding java

    最近在写堆外操作的代码,需要用到unsafe 类,记录下。

    Read more »

  • ganglia 安装

    2016-08-16 bigData env

    最近帮大菠萝安装ganglia,记录下,方便以后安装。

    Read more »

  • [转载] 详细探究Spark的shuffle实现

    2014-01-04 jerryshao spark mapreduce shuffle cloud reprint

    Read more »

  • [转载] Spark源码分析之-Storage模块

    2013-10-08 jerryshao cloud spark reprint

    Read more »

  • [转载] 序列的函数式抽象-Spark API设计

    2013-08-30 jerryshao scheme spark lisp reprint

    Read more »

  • [REPRINT] Spark Streaming Job Troubleshooting of Dependency Chain

    2013-05-22 jerryshao cloud spark spark streaming reprint

    Read more »

  • [转载] Spark源码分析之-deploy模块

    2013-04-30 jerryshao cloud spark reprint

    Read more »

  • [转载] Spark源码分析之-scheduler模块

    2013-04-21 jerryshao cloud spark reprint

    Read more »

  • [REPRINT] Spark Streaming Introduction

    2013-04-02 jerryshao cloud spark spark streaming reprint

    Read more »

  • [REPRINT] Spark Overview

    2013-03-29 jerryshao cloud reprint spark

    Read more »

  • Categories
  • jerryshao (9)
  • bigData (3)
  • coding (8)
  • spark (24)
  • essay (3)
  • hadoop (1)
  • celeborn (2)

  • Tags
  • cloud(8) reprint(8) spark(33) spark streaming(2) scheme(1) lisp(1) mapreduce(1) shuffle(4) env(1) java(5) 内存(1) 项目(1) security(1) rdd(1) sql(8) 源码(1) catalyst(1) cbo(1) greenplum(1) concurrent(4) scala(3) future(1) coding(3) maven(1) bigData(1) theory(1) essay(1) streaming(1) jvm(3) tunning(1) linux(1) Ops(1) scheduler(1) hadoop(1) hdfs(1) data(1) bucket(1) kyuubi(1) celeborn(2)
  • Links
  • 阿里云E-MapReduce
  • DataBricks 博客
  • Coludera 博客

  • About Me

©2024 turboFei