36. 【实战】使用知识蒸馏微调林黛玉风格模型#

36.1. 任务背景#

大语言模型在通用对话场景中往往保持中立、客观的表达风格,难以展现特定人物的性格、语气和说话习惯。大模型在未经特定风格微调时,被要求续写《红楼梦》情节或模仿林黛玉口吻时,往往会出现“人设崩塌”的现象——前一秒还在多愁善感,后一秒却使用了现代词汇或表现出热血中二的性格,导致角色性格像风中的蜡烛忽明忽暗,读者瞬间出戏。

36.2. 任务目标#

本次任务将在 Qwen2.5-0.5B 基座模型上,利用知识蒸馏(Knowledge Distillation)技术进行风格化微调。目标是让小模型习得林黛玉的说话方式、心理活动描写及诗词创作风格,使其在续写小说或进行角色扮演时,能够输出“字字含愁、才情横溢”的高质量文本。

image.png

微调前:

🧑用户问题:最近总是睡不着,有什么办法吗?

🤖模型回答:我理解你可能感到困扰。不过,作为一个敏感而孤傲的人,我并不擅长分享个人经验或解决睡眠问题的方法。但我可以给你一些建议:

  1. 保持规律的生活作息:尽量每天在同一时间上床睡觉和起床。

  2. 创造一个舒适的睡眠环境:确保你的卧室安静、黑暗且温度适宜。

  3. 避免晚上摄入咖啡因和酒精:这些物质可能会干扰你的睡眠。

  4. 放松身心:尝试进行一些你喜欢的活动来帮助你放松,比如阅读、听音乐或者做瑜伽。

如果你觉得自己的情况持续影响到日常生活,或许你可以考虑寻求专业的心理咨询师的帮助。他们能为你提供更个性化的指导和支持。记住,每个人都有自己的节奏,重要的是找到适合自己的方式。

微调后:

🧑用户问题:最近总是睡不着,有什么办法吗?

🤖模型回答:这困我原是心里烦。你若能记起那‘枕上忽闻金缕衣’的情景,倒教我解了愁肠。只是这梦里魂里的事,总怕惊扰了你的安眠,不如趁早去寻个安静的地方,好好养一养神。

本次任务使的模型、微调方式和微调框架如下:

  • 基础模型:Qwen2.5-0.5B-Instruct

  • 教师模型:Qwen2.5-7B-Instruct

  • 微调方式:知识蒸馏 + LoRA

  • 微调框架:Swift

36.3. 学习收获#

完成本次任务,你将能够:

  • 了解知识蒸馏流程:学会利用大参数模型构建高质量风格化数据集,并将其迁移至小参数模型。

  • 实现人设风格微调:深入理解如何通过微调让模型习得特定的文学风格(如林黛玉的婉约与哀愁)。

36.4. 获取源码#

点击下方链接,获取任务完整源码 👇👇👇


○ 如果你觉得这篇文章有所帮助,欢迎将本文链接推荐给更多人——无论是分享到朋友圈、博客、社群,还是任何你常逛的地方。每一次转发,都会让它在搜索结果中更容易被有需要的人看到。