Software Testing with Large Language Models: Survey, Landscape, and Vision 论文阅读笔记

一篇综述性论文。简单记录一下阅读之后的小小心得。

论文作者维护的网站：https://github.com/LLM-Testing/LLM4SoftwareTesting ，用于分享和托管与软工相关的最新出版物。

论文写法的可取之处：

没有只报喜不报忧。这篇论文保持了客观中立的立场，用大量篇幅（第VI章A节）评估了当前面临的挑战：

测试预言机问题（Test Oracle Problem）：指出“现有方法大多依赖差异化测试或仅关注崩溃性错误，这限制了LLM发现更深层次逻辑错误的能力”。

可能存在的评估不规范问题：指出了“数据泄露”问题，即主流LLMs可能在其训练数据中已经“见过”了常用的测试基准（如Defects4J），这可能导致已发表的研究成果存在虚高的风险。

研究可能不那么落地：学术研究（常使用强大的商业闭源模型）与工业界实践（可能因数据隐私、成本等原因选择微调开源模型）之间的差距 —> 技术落地面临的实际障碍。

展望：

作者指出，LLMs在测试生命周期的早期阶段（需求分析、测试计划）以及在集成测试和验收测试中的应用几乎为空白。
作者鼓励将LLMs的应用从目前主流的功能测试，拓展到非功能性测试（性能测试、可用性测试），并对如何实现这种拓展给出了初步的思考（LLM与性能测试工具的集成）。
技术融合，提示工程技术（e.g. 多模态思维链、图提示），LLM与更多传统测试技术（e.g. 形式化验证）深度融合。

图做的好：

目录长这样：

展示数据方法的多样：

btw，有一说一我觉得这些图的配色和美工都不是很符合我原来的审美，感觉在看论文的过程中学到了评委（也许）喜欢的图片审美形式（吗？）

大概了解了综述论文的逻辑了：

背景（LLM和软件测试是什么东西） ->

方法（我怎么找论文的，我怎么judge的） ->

软件测试视角（LLM能做什么测试，分小章节讲具体怎么做） ->

LLM视角（怎么更好的去使用LLM（有哪些模型，输入形式）） ->

挑战与机遇（展望未来，最好正反面都有） ->

相关工作（与其他综述论文比，我多了啥） ->

结论

Software Testing with Large Language Models: Survey, Landscape, and Vision 论文阅读笔记

于2025年12月7日2025年12月7日由Melon_Musk发布

论文写法的可取之处：

展望：

图做的好：

大概了解了综述论文的逻辑了：

Melon_Musk

0 条评论

发表评论取消回复

课外学习

Explaining Explanations: An Empirical Study of Explanations in Code Reviews 论文阅读笔记

课外学习

GitHub’s Copilot Code Review: Can AI Spot Security Flaws Before You Commit? 论文阅读笔记

课外学习

Benchmarking and Studying the LLM-based Code Review 论文阅读笔记

Software Testing with Large Language Models: Survey, Landscape, and Vision 论文阅读笔记

于2025年12月7日2025年12月7日由Melon_Musk发布

论文写法的可取之处：

展望：

图做的好：

大概了解了综述论文的逻辑了：

Melon_Musk

0 条评论

发表评论 取消回复

相关文章

课外学习

Explaining Explanations: An Empirical Study of Explanations in Code Reviews 论文阅读笔记

课外学习

GitHub’s Copilot Code Review: Can AI Spot Security Flaws Before You Commit? 论文阅读笔记

课外学习

Benchmarking and Studying the LLM-based Code Review 论文阅读笔记

发表评论取消回复