Paper¶ Abstract 这里用来放读论文的笔记,写的不好还请见谅>_<||| 目前读的两篇论文都是在人工智能伦理与安全课程中大作业综述调研中精度的两篇论文,使用的攻击方法都是基于对抗性优化的越狱攻击。 后续这个专栏可能只会随缘更新了,如果在会议论文中看到了有意思的新文章或者得到朋友们的推荐会再去了解这个觉得还挺有意思的方向hhh GCG: 通用且可转移的大模型越狱对抗性攻击 AutoDAN: 基于遗传算法的可读性大模型越狱攻击