637 字
3 分钟
泛谈AI

分享一下自己的浅薄想法

稍微谈谈AI 其实是LLM

记忆系统#

当前的前沿探索主要有两个方向:

  • 通过扩展上下文窗口增强短期记忆能力
  • 通过外部工具如 RAG / VDB / harness 提供持久化记忆

可是这与人类的记忆系统差别很大,我们在学习时不会记住所有完全的信息,再在其中进行检索,这中间是有一步抽象的过程的。

Transformer通过上下文实现的上下文内记忆是不可持续扩展的

  • Compact也是一种抽象过程,基于文本的抽象和心智模型/高层抽象表示有本质不同,它们相对于模型是完全外置的
  • 模型在上下文中学习的能力不强(存在统计惯性、RLHF偏好影响),时常发生运行时的灾难性遗忘和对代码库语义理解的偏差

不断对上下文窗口的扩展是在试图忽略房间里的大象:

在线学习#

目前对于离线学习的LLM,他们有很多缺点:

缺少行动能力,我们当然可以说目前的Agent已经在很大程度上模拟了人类行为,但这里讨论的是不可避免的劣势

难以做到完美的多模态,灾难性遗忘,MCP、各种Tool、Skill的发明都在为这一缺陷擦屁股。 幽默的是,大家为Agent做a11y的动力远大于给残疾人做a11y的动力,而Agent实际上比残疾人强不到哪里去。

主体性缺失,依赖人类指引,上下文有限而人类之需求无限,而LLM无法更新知识且具有惰性(在参数中固化的知识和调用工具时的新知识很不一样,模型大概更倾向使用已经习得的知识),有时写出了很bad smell的代码,模型”知道”这不好,但仍然选择直接输出。

如何在学习新数据时也能产生记忆互动?

我们真的需要这么多数据集吗?#

人类不需要学习非常多(相对LLM数据集来说)的数据集以获取对其中概念的理解

这种极其强大的One-shot learning能力要如何实现呢。

可解释性#

Transformer是如何学到知识的?我们能从它的架构中提取什么经验?

抱歉写的很胡言乱语,谢谢你能读到这里

泛谈AI
https://ckpg.net/posts/thoughts/ai/
作者
ChickenPige0n
发布于
2026-06-04
许可协议
WTFPL