kafka和flume都是日志系统,
kafka是分布式消息中间件,自带存储,提供push和pull存取数据功能。
flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的。
比如agent采用RPC(Thrift-RPC)、text(文件)等,storage指定用hdfs做。
kafka做日志缓存应该是更为合适的,但是 flume的数据采集部分做的很好,可以定制很多数据源,减少开发量。
所以比较流行flume+kafka模式,如果为了利用flume写hdfs的能力,也可以采用kafka+flume的方式。