一篇综述性论文。简单记录一下阅读之后的小小心得。

论文作者维护的网站:https://github.com/LLM-Testing/LLM4SoftwareTesting ,用于分享和托管与软工相关的最新出版物。

论文写法的可取之处:

没有只报喜不报忧。这篇论文保持了客观中立的立场,用大量篇幅(第VI章A节)评估了当前面临的挑战:

  • 测试预言机问题(Test Oracle Problem):指出“现有方法大多依赖差异化测试或仅关注崩溃性错误,这限制了LLM发现更深层次逻辑错误的能力”。
  • 可能存在的评估不规范问题:指出了“数据泄露”问题,即主流LLMs可能在其训练数据中已经“见过”了常用的测试基准(如Defects4J),这可能导致已发表的研究成果存在虚高的风险。
  • 研究可能不那么落地:学术研究(常使用强大的商业闭源模型)与工业界实践(可能因数据隐私、成本等原因选择微调开源模型)之间的差距 —> 技术落地面临的实际障碍。

展望:

  • 作者指出,LLMs在测试生命周期的早期阶段(需求分析、测试计划)以及在集成测试和验收测试中的应用几乎为空白。
  • 作者鼓励将LLMs的应用从目前主流的功能测试,拓展到非功能性测试(性能测试、可用性测试),并对如何实现这种拓展给出了初步的思考(LLM与性能测试工具的集成)。
  • 技术融合,提示工程技术(e.g. 多模态思维链、图提示),LLM与更多传统测试技术(e.g. 形式化验证)深度融合。


图做的好:

目录长这样:

展示数据方法的多样:

btw,有一说一我觉得这些图的配色和美工都不是很符合我原来的审美,感觉在看论文的过程中学到了评委(也许)喜欢的图片审美形式(吗?)

大概了解了综述论文的逻辑了:

背景(LLM和软件测试是什么东西) ->

方法(我怎么找论文的,我怎么judge的) ->

软件测试视角(LLM能做什么测试,分小章节讲具体怎么做) ->

LLM视角(怎么更好的去使用LLM(有哪些模型,输入形式)) ->

挑战与机遇(展望未来,最好正反面都有) ->

相关工作(与其他综述论文比,我多了啥) ->

结论


Melon_Musk

猛男嘤嘤!

0 条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注