分布式中间件kafka深度应用研究

Kafka生产实践痛点

业务诉求

日常运维操作业务不透明，分钟级的生产、消费抖动 Topic生产、消费安全无管控，集群迁移对业务不透明

服务痛点

Kafka运维友好性性与可观察性不足社区Kafka-Manager产品化不足，用户答疑，日常运维消耗大量精力

引擎挑战

磁盘IO热点导致的集群生产消费雪崩 Topic资源隔离差，流量突增、回溯消费，影响集群稳定性

Kafka--一个开源流处理平台

May 3, 2022
by Baidu Baike

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。 Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

January, 17, 2022
by Apache Kafka

More than 80% of all Fortune 100 companies trust, and use Kafka. Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications.

April 17, 2022
by fullstack888

生产者：Producer 往Kafka集群生成数据消费者：Consumer 往Kafka里面去获取数据，处理数据、消费数据 Kafka的数据是由消费者自己去拉去Kafka里面的数据主题：topic 分区：partition 默认一个topic有一个分区（partition），自己可设置多个分区（分区分散存储在服务器不同节点上）解决了一个海量数据如何存储的问题例如：有2T的数据，一台服务器有1T，一个topic可以分多个区，分别存储在多台服务器上，解决海量数据存储问题

Kafka生产实践痛点

业务诉求

服务痛点

引擎挑战

Kafka--一个开源流处理平台

Apache Kafka官方网站资源

51个核心点助你搞懂Kafka（转载自“互联网后端架构”微信公众号）

Color Presets

Navigation Style