LLM应用的几种形态 - Kaiyoung-自由的产品

说明 - 不考虑非最终应用的软件。比如，LLM 的训练、finetune 和 LLMOps 等方向的应用。 - 产品形态和技术实现是两回事。 ### 1 - LLM 问答机（一般问答机）定义：以最基础的“提问-回答”形式存在的产品。 - 早期的 text-generation。输入一段文字，大模型开始续写。 - 基座大模型刚刚部署，未接上各种 tool 的时候。能够十分拟人地进行问答，能够按自己的知识，为用户解决问题。 - 常规RAG。相当于拓展了基座大模型的能力。 ### 2 - LLM 增强的老品类软件定义：绝大部分，在本质上和“1-问答机”基本没区别，只不过是把一个***对话窗体*** 放到了自己的软件里而已。产品体验略好的，已经降低了输入和输出的环节的麻烦，比如划线问大模型，一键使用大模型的回答。 - 和 copliot 类型的差异：相对缺乏对“环境”的感知能力。案例： - 接入了大模型的 dba 软件 - 好多款 office。特别是其中的文档编辑软件，允许用户在文档输入区域打字，然后以某种快捷方式调用大模型来扩写、缩写、转写、翻译等等。 ### 3 - 重构成 LLM-centered 的老品类软件定义：大概率还是在一个常见的已有的问题领域里的软件，比如 Office 办公、数据分析、问答机器人，但是因高度利用了大模型的能力，以至于 LLM 成为整个产品的核心能力。核心能力，指去除了这个能力后，系统不存在或者直接退化成其他类型的软件。这一类产品的一个难受点也在于此，如果老品类下的基础功能不足，用户很可能抛弃他们。案例 - 全新的产品 - 在线电子表格 equals，把传统电子表格重新做了一遍，但很好地解决了传统电子表格的几个难点。让 AIGC 来解决数据库查询语句、电子表格公式编写的难题；能直接在电子表格上生成 BI 级别的 Dashboard。 - monica.im 的 chrome 插件，给浏览器“右键操作”增加了许多大模型特长的能力，如摘要、重写、扩写。 - 一些思维导图工具，可由 LLM 自动生成下一级的 item，“帮助用户快速思考”。本质上是对 LLM 的结构化输出控制，思维导图是信息的展现形式。（虽然我个人对这种产品捏着鼻子看，但他们毕竟还是吸引了一批用户） - midjourney 在具备局部区域修改等能力后，算是图像编辑领域的这一类。案例 - 重构的产品 - 全新一代的幻灯片 slide 工具 Gamma，在 AIGC 之前已经诞生了，原生online、多模板、多媒体的方式，虽然没有 powerpoint 那么强大，但让用户能几乎无需学习地制作 80 分以上的美观的幻灯片。在 AIGC 的能力嵌入后，幻灯片的制作速度极大提升。这种模板化的方式，是十分适合 AIGC 来制作幻灯片的。不少跟chao进xi或者来凑热闹的厂家，还努力让 AIGC 吐出 .pptx 格式的幻灯片，自然技术难度上就 Gamma 的路子难了。 ### 4 - LLM工作流编排定义：为了让 llm 更方便地被调用，以及更方便地对接和配合其他系统，以 workflow 或者近似的形式做的一些 warp-up。此类工具或者以单独产品形态存在（例如 dify），或以某一个组件形态存在（例如 langchain langflow）。虽然它本质上不是我想要寻找的最终应用，只能算是一种“function”，但是它距离应用实在太近了。 ### 5 - Assistant-like Agent 定义：当前（2024年9月中）的 OpenAI、通义千问等大模型公司核心产品的那个机器人。他们或多或少地具备这些能力：RAG、记忆、联网查询、工具调用等。有的可以某种方式实现“角色设定”，具备拟人化的助手特征。但是它们缺少对用户所处环境的感知，只能被动地响应用户的输入。去年的 GPTs 还属于“1-LLM问答机”这一类，而随着技术和应用的演进，GPTs 们能运用的工具和具备的能力也越来越多，越来越接近“6 - the True Agent”这一类。 > OpenAI: > - GPTs let you customize ChatGPT for a specific purpose > - An Assistant has instructions and can leverage models, tools, and knowledge to respond to user queries. ### 6 - Agent 定义：在“5-助手”类的基础上，agent 还能感知到当前的环境（无论其主动与否）、能尝试理解用户输入背后的真实需求而不单单局限于用户当前的提问（记忆和理解）。 copilot 同时属于这一类和“5”类。我暂时不要求 agent 的主动性，主动性暗示了自主意识。我认为具备主动性的才是真 agent。不过在当前的软件应用范围内，可以不考虑。案例：cursor - domain-specific agent - general-purpose agent