Kafka生产实践痛点

日常运维操作业务不透明,分钟级的生产、消费抖动 Topic生产、消费安全无管控,集群迁移对业务不透明
Kafka运维友好性性与可观察性不足 社区Kafka-Manager产品化不足,用户答疑,日常运维消耗大量精力
磁盘IO热点导致的集群生产消费雪崩 Topic资源隔离差,流量突增、回溯消费,影响集群稳定性

Kafka--一个开源流处理平台

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统, 它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常 是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。 Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。

Apache Kafka官方网站资源

More than 80% of all Fortune 100 companies trust, and use Kafka. Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications.

51个核心点助你搞懂Kafka(转载自“互联网后端架构”微信公众号)

生产者:Producer 往Kafka集群生成数据 消费者:Consumer 往Kafka里面去获取数据,处理数据、 消费数据 Kafka的数据是由消费者自己去拉去Kafka里面的数据 主题:topic 分区:partition 默认一个topic有一个分区(partition),自己可设置多个分区(分区分散存储在服务器不同节点上) 解决了一个海量数据如何存储的问题 例如:有2T的数据,一台服务器有1T,一个topic可以分多个区, 分别存储在多台服务器上,解决海量数据存储问题

Color Presets

Navigation Style