BigData

RSS

Posts in 2022

Flink 调优
2022-04-29 in BigData
Group Aggregate 开启 MicroBatch/MiniBatch （牺牲延迟以提升吞吐）缓存一定的数据后再触发处理，以减少对 state 的访问从而显著提升吞吐，以及减少输出数据量 MiniBatch主要依靠在每个 task 上注册的 timer 线程来触发微批，会有一定的线程调度开销。MicroBatch 是 MiniBatch 的升级版，主要基于事件消息来触发微批，事件消息会按用户指定的时间间隔在源头插入。MicroBatch 在攒批效率、反压表现、吞吐和延迟性能上都要胜 …
更多
Flink 原理
2022-04-29 in BigData
流量控制基于Credit的反压机制下游的InputChannel从上游的ResultPartition接收数据的时候，会基于当前已经缓存的数据量，以及可申请到的LocalBufferPool与NetworkBufferPool，计算出一个Credit值返回给上游。上游基于Credit的值，来决定发送多少数据。Credit就像信用卡额度一样，不能超支当下游发生数据拥塞时，Credit减少值为0，于是上游停止数据发送。拥塞压力不断向上游传导，形成反压系统容错流计算容错一致性保证有三种，分别 …
更多
Flink 简介
2022-02-18 in BigData
概述 Apache Flink是一个开源的分布式，高性能，高可用，准确的流处理框架。同时支持实时流(stream)处理和批(batch)处理，其中批数据看做是流数据的一个特例。在批(batch)处理中，批数据是在时间上有界的数据，需要处理的数据量是确定的。而在流(stream)处理中，流数据是在时间上无界的数据。相对于批数据，流数据增加了一个新的时间维度。流处理和批处理，需要处理的对象都是大数据，需要解决大数据处理的共性问题。流处理和批处理 CAP定理是大数据处理的基础约束，对一个分布式计算 …
更多

Posts in 2022

Flink 调优

Flink 原理

Flink 简介