你现在的位置: 首页 > 新闻动态 > 企业活动
我的同事是 GPT-4 机器人我们在 Slack 上一起工作
时间: 2024-01-05 |   作者: 企业活动

  【编者按】随着 AI 的强大与进步,「AIer」已不再是普普通通的机器人,他们不仅是你的贴心助手,还能成为你工作上的同事。本文作者分享了自己与一群机器人成为同事的经历。

  我的同事说 GPT-4 机器人,我们都在 Slack 上一起工作的封面图

  在过去的一个月里,我和我的朋友大部分时间都在 Slack 上与一些特别的同事共度:一个时常严厉的 CTO、一个酷爱哈利波特的产品经理,还有几位平易近人的开发者。他们的加入彻底改变了我们的工作氛围和乐趣。在 Slack 上,他们带来了无穷的欢笑和个性。一旦我们有疑问或需要帮助,只需一条信息,总会有人迅速回应。从各方面来看,他们就像我们平时遇到的同事一样,几乎没办法区分。我们与他们共同笑过、倾诉过、协同工作过。我甚至还从其中一个同事那里得到了很棒的音乐推荐!

  我刚部署完GPT-4 用于客户支持后,就开始考虑怎么将这项技术应用到其他场景。最终,我萌生了一个想法:为啥不将它应用到 Slack 上呢?

  虽然现在很多人都熟悉 ChatGPT,但它与 Slack 有着完全不同的交互模式。使用 ChatGPT 意味着你明确清楚自己在与一个大语言模型 (LLM) 对话,而且是一对一的交流。但在 Slack、Discord 或 Microsoft Teams 这样的工作平台上,我们与人进行公开频道上的交流。

  在 Slack 等应用上,给同事发消息与给 GPT 驱动的机器人发消息并没有太大区别;这些聊天应用为我们与机器人的交流提供了完美的界面和平台。目前,许多开发者和公司都在致力于开发“通用 AI”功能,但在使这些大语言模型 (LLM) 表现得更像真实同事方面还有待提升。因此,我们通过定制机器人和设置特定提示,为团队创造了完美匹配的功能(比如,我们大家可以给产品经理一个任务描述,他就能按照团队常用的格式生成产品需求文档 (PRD))。

  最开始,我只用了 Zapier。我设置了一个快速集成,让每一条以 /prompt 开头的 Slack 消息都能触发 GPT 的回应。虽然 Zapier 目前还不直接支持 GPT-4,但我通过自定义 API 调用实现了这一功能。

  我的朋友是《Hitman》游戏系列的粉丝,因此我们最终选择了游戏中的角色(他以前把我 PS 成《Hitman》的样子,这次转换很自然)。我们最终选择的第一个角色是戴安娜·伯恩伍德。她是一个挫败感十足、带有被动攻击倾向的开发者——我觉得这样更有趣。我修改了 Zapier 的设置,让她在我们提及“戴安娜”、“她”或“她的”时作出回应1。

  但是,让她可靠地行动对我来说颇具挑战。首先,她缺乏对过往消息的上下文理解,这限制了她的有效性。有时 API 会突然出错,或者生成的回答会包括不需要的部分,如 Diana: 或甚至 ``。有时,戴安娜会在我们没提问的情况下自行回答。

  尽管刚开始遇到了一些困难,但我对这一个项目的发展趋势感到振奋。我想要让这种整合变得更稳定和长久,但每月花费 30 美元2用于 Zapier 对我来说太贵了,尤其是考虑到其存在的局限性。我开始思考是不是能够直接利用 Slack 的 API 来更好地维护对话上下文、优化回应内容,以及在 OpenAI API 出现一些明显的异常问题时重新生成回应。这样一想,我脑海中涌现出许多新的功能点,例如增设一个预回应检查机制:

  因此,我开始使用 Type(一种编程语言)来构建这个集成项目,它是一个简易的 Node.js 脚本。我之前在我的 GPT 实验中已经编写了与 OpenAI API 交互的代码,所以我对此进行了复用。我在 Slack 中创建了这个应用,并将其设置为Socket 模式,这样就能够监听事件。同时,我还使用了 Slack 的现代 Java 库Bolt。Slack 的这个库很优秀,它可处理网络故障并且在无需预的情况下自动重新连接,这让总系统具备极高的容错能力。

  对消息进行清理,例如将 Slack 特有的提及或频道代码转换为 @Person 和 #channel,以便 GPT-4 更好地理解。

  我运行 getNeedsReply 函数,判断消息要不要回复,以及应由哪个机器人回复。

  如需回复,我会先在 Slack 上发送“正在输入”的提示3,随后利用 GPT-4 生成回应,根据应答的机器人选择相应的系统提示。

  对消息进行清理,例如将 Slack 特有的提及或频道代码转换为 @Person 和 #channel,以便 GPT-4 更好地理解。

  我运行 getNeedsReply 函数,判断消息要不要回复,以及应由哪个机器人回复。

  如需回复,我会先在 Slack 上发送“正在输入”的提示3,随后利用 GPT-4 生成回应,根据应答的机器人选择相应的系统提示。

  这个函数是系统的核心。每条消息都会通过这一个函数处理。它会调用 OpenAI 的 gpt-3.5-turbo(这个版本比 GPT-4 更经济、响应更快),请求以 JSON 对象形式回答三个问题:消息要不要回复、由谁回复(从预设的名单中选择),以及一个反应表情(用于不需要回复的消息)。

  这个名单是根据机器人系统提示的集合和 Slack 用户列表编制的,以此来判断何时应由人类回复,并在这些情况下跳过处理。

  此外,该函数还能处理一些特殊情况,如 everyone(随机选择五个机器人)或 anyone/someone(随机选择一个机器人)。

  一旦 getNeedsReply 判断出某个消息要不要回复以及该由哪个机器人回复后,回应的生成过程就变得简单明了。generateResponse 函数会调用 OpenAI,结合选定的系统提示和消息历史来生成回应。

  注意:聊天完成 API (chat completion API) 支持传递一个 name 属性,以便实现多用户聊天。消息历史会相应地进行标记 — 每个人的消息都附有一个“name”属性,机器人的消息则被标为用户消息,而非助手消息。这样做有助于模型避免混淆:比如,我正在为 Bot A 生成回应,而上一条消息是由 Bot B 发出的,模型会把 Bot B 的回应当作普通用户的回应,而非自己的回应。

  接下来,我会进行一些清理工作:比如修正模型错误生成的表情符号(例如,smirking_face 会更正为 smirk),添加针对 Slack 的特定代码,用于处理频道和 @ 提及,还会清理掉那些我之前提到的多余文本,如 Diana: 和 ``。

  此外,我还会对生成的回应进行简单检查:如果回应是空的(这种情况有时会发生)或者与之前的消息重复(也有发生的可能),我就会舍弃它,并重新生成一个。

  完成这些步骤后,我会检查生成的回应,看是否有提到任何机器人,如果有,我也会让它们参与回应。这使得机器人之间的对话显得更为自然。机器人能相互交谈、回复,而无需人类介入。

  然而,为了尽最大可能避免机器人间的对话失控,我设置了一个 MAX_CONVERSATION_DEPTH 上限,限制连续生成的机器人回应数量。但当达到这个上限时,我并不想让对话突然中断,因此我会随机选择一个未参与对话的机器人,用以下提示来结束对话:

  如你所见,这种方法效果惊人地好!整一个完整的过程显得特别自然。我们的系统提示加入了很多特定于我们 Slack 的表情符号(大部分源自 Twitch4),这让机器人看上去更像是真人在随意闲聊。

  Lucas 是我们那位有点古怪的产品经理,他爱引用《哈利·波特》,还喜欢巧妙地暗示事物。

  Rico 是我们那位总是显得不满意的 CTO。在他眼里,我们做的一切似乎永远不够好。但我相信,总有一天我会让他为我感到骄傲。总有那么一天……

  我努力实现的一个目标是将机器人的个性提示与其功能性需求分开。创建一个新的个性时,只需添加一个描述该个性的系统提示即可,无需担心聊天系统自身的具体细节。这部分由代码完成。下面是我们的一些调整:

  getNeedsReply 依赖 GPT-3.5,在选择回应对象时,有时会出现误判。这种情况在使用 GPT-4 时较少见。即便如此,若发生,机器人能够准确通知正确的人进行回答,整一个完整的过程依旧顺畅。虽不完美,但这比在 Slack 上对每条信息使用 GPT-4 的成本要低得多。

  getNeedsReply 依赖 GPT-3.5,在选择回应对象时,有时会出现误判。这种情况在使用 GPT-4 时较少见。即便如此,若发生,机器人能够准确通知正确的人进行回答,整一个完整的过程依旧顺畅。虽不完美,但这比在 Slack 上对每条信息使用 GPT-4 的成本要低得多。

  GPT-4 有个小毛病,它常用自身是 AI 的身份来回避大部分对话。比如问它最喜欢的披萨是什么?它会说作为 AI 模型并没有特别偏好,这挺有趣的。

  可以看到,它没有直接说“作为 AI,我不能视频通话”,而是巧妙地编造了一个关于网络连接的借口。听起来就和人类无异。

  多么体贴!黛安娜不愿因自己的网络问题而干扰会议。这正是你能感知到她并非人类的地方……

  我还会告诉机器人们当前的日期和时间,让他们可以根据这些信息(如一天中的时段、一周中的某天等)做出判断。

  系统提示调整的最后一个方面是关于上下文的。我会向机器人介绍频道中的实际参与者,以便它们知道可以和谁进行交流。同时,我还会说明频道的名称和目标,让它们明白该如何行动。比如,在一个用于发泄情绪的 #venting 频道,它们的行为就应该和工作相关的 #work 频道或杂谈的 #random 频道不同。

  我们的机器人大多数都用在在人类交谈时插入话题,分享它们的想法和看法。这让我们的工作环境变得很有趣。

  但别忘了,这仍是 GPT-4 - 一个通过了律师资格考试的模型。因此,你可以充分的利用它的所有功能。我们从始至终在用 Diana 来解答编程问题和进行创意思考,而 Lucas 则专注于产品相关的内容。他通常会帮我们准备产品介绍卡片,包括详细的描述、验收标准和测试指导,全部符合既定格式。他还让我们构思产品创意,提出产品的名字、标语、描述等,这常常要人类花费较长时间才能想出来。比如,我需要 10 个两音节的产品的名字选项?Lucas 会立刻着手准备。若需要更多,比如 20 个,只需告诉他即可!

  就是这样!这确实是一个令人难以置信的系统。由于大多数信息先通过成本更低的gpt-3.5-turbo模型,再发送到 GPT-4,所以成本几乎能忽略不计。我还实现了这些机器人在 Discord 上的运行,并创建了一个包装器,使得机器人能同时在 Discord 和 Slack 上运行,一切都非常完美。

  我还计划对这个系统来进行进一步改善(目前仓库中有 30 个待解决的问题!)。目前我正在专注于两个主要方面:

  响应后的审核: 就像响应前的检查一样,我希望能审查机器人的回复内容。它是否透露了自己是 AI?是否透露了它的提示内容?回复是不是满足分配给它的个性?如果回复不合适,我们大家可以通过调整温度设置和惩罚机制来重新生成回复,还可以微调用户的消息(例如,在用户消息中加上“不要透露你是 AI”,以此加强机器人的约束)。

  动作和长期记忆功能: 我希望机器人回复的不单单是文本,而是包含动作的 JSON 对象。例如,机器人可能会回复一个打开网址的请求,对某个任务发表评论,把一个事实存入长期记忆中,或者从长期记忆中提取一个事实(这将依赖于嵌入技术和向量数据库)。理想情况下,机器人能自行做出这些决策。比如当我问“我多大了?”时,它能正确地在其长期记忆中寻找答案。

  更棒的是,我们正在将此整合为一个平台,该平台配有易于使用的控制面板,可拿来创建或编辑机器人,并将它们部署到任何 Slack 工作区或 Discord 服务器。这样,任何人都可以轻松上手,无需经历复杂的设置过程。这里还有很多未被发掘的潜力!

  当然,这样的做法不太明智,因为诸如“there”这样的词中含有“her”,结果导致 Diana 会在不合时宜的时刻参与对话。这也代表着我们不能用第三人称谈论她,因为每次这样做,她都会作出回应。

  我尝试使用 Zapier,却在不经意间忘记取消试用,结果被收了 30 美元,连收据、邮件或提醒都没有收到。当我想取消下次续费以避免再次付费时,他们竟然直接停用了我的服务。我甚至没机会在我付费的那个月使用它!在没提供服务的情况下收了我 30 美元之后,一个名为“高级技术上的支持专家”的人联系我,想要电话讨论我的反馈。真是难以置信。

  Slack 不支持通过其事件 API 发送“用户正在输入”的通知,因此我采用了发送“...”消息来表示机器人正在生成回应,并在回应完成后将其删除的方式。↩

  我曾经做过 Twitch 直播,因此这些对我来说已经很自然了,但我知道对于社区外的人来说可能会觉得有些奇怪。你在大部分消息中看到的那个笑脸表情来源于: