谷歌外包审核抱怨：很多话题我都不懂，如何短时间判断Bard说的对不对

2023-04-05 13:08:31

来源：网易科技报道

4月5日消息，谷歌近日推出了聊天机器人Bard，并呼吁公司员工进行内部测试，同时也委托了许多外部承包商进行评估。然而，一些承包商爆料称，他们根本没有足够的时间来验证Bard的答案是否正确，最终只能凭借猜测。

在OpenAI聊天机器人ChatGPT爆火后，谷歌也迅速跟进，在3月份推出了聊天机器人Bard的有限测试版。与ChatGPT类似，用户可以向Bard提问或下达任务指令，Bard会给出类似人类的答复。

目前，跨国AI训练数据服务公司Appen的承包商正在帮助改进谷歌的聊天机器人。虽然这些人没有被明确告知他们被分配的任务与Bard有关，但是关于新任务的内部讨论可以追溯到2月7日，也就是在谷歌首次发布Bard的时候。Appen内部文件显示承包商需要审查AI聊天机器人所提供的回应质量。

(相关资料图)

这些承包商通常会帮助评估谷歌搜索算法和搜索结果中广告的相关性，还会标记有害网站，使得这些网站不会出现在搜索结果中。

四名接受采访的承包商表示，自1月份以来，他们的大部分工作已经转向审查AI聊天机器人的提示。在评估过程中，承包商们对聊天机器人的表现感到失望，并称他们没有足够时间准确评估聊天机器人对提示的响应是否正确，有时只能凭借猜测。不过他们仍然可以拿到报酬。

Bard在一次演示活动中因为给出错误答案而受到批评。谷歌对此表示，聊天机器人会随着时间的推移而变得越来越好，它不应该被视为搜索的替代品。

在正式发布前，谷歌曾在2月份要求其员工每天用两到四个小时帮助测试这款聊天机器人，包括向它提问，并标记出不符合公司准确性标准和其他衡量标准的答案。员工可以重写任何问题的回答，以供Bard从中学习。谷歌和Appen没有回应置评请求。

没有足够时间

根据承包商指导文件，他们将收到用户向AI聊天机器人发出的提示（例如提问、指令或陈述），以及两个机器生成的回应。承包商需要帮助确认哪种回应更好。他们还可以在文本框中详细说明选择的原因，以帮助聊天机器人学习在可接受的响应中寻找特定属性。聊天机器人给出的回答应该连贯而准确，并引入最新信息。

承包商表示，他们被设定固定的时间来完成每项任务。审查提示的任务时间从60秒到几分钟不等，差异很大。这些人承认，如果他们不熟悉聊天机器人谈论的话题，比如区块链等技术，就很难给AI的回应评分。

由于每项任务都有固定报酬，一些承包商表示，即使他们意识到自己无法准确评估聊天机器人的反应，他们也会尽力完成任务。

一位评估人员说：“在短短60秒内，我没有足够的时间去了解我不懂的领域，所以我只能给出最好的猜测，这样我就可以继续工作和领取报酬。”

另一位承包商表达了类似的观点，称他们也想获得正确答案，提供尽可能优质的聊天机器人体验，但在进行评估之前，他们没有足够的时间来研究某些话题。他补充说：“老实说，我们中的很多人都快要崩溃了！”

第三位承包商表示：“用三个小时的研究来完成短短60秒的任务，这非常明显地凸显了我们现在面临的问题。”

要求改善工作条件

目前，通过外包公司为谷歌工作的承包商，越来越多地要求改善工作条件。

今年2月，许多承包商访问了谷歌总部Googleplex，向搜索业务负责人普拉巴卡尔·拉加万（Prabhakar Raghavan）递交了一份请愿书，希望提高报酬。他们为Appen工作，每小时的薪资在14美元到14.5美元之间。而他们所支持的业务（搜索和广告）是谷歌的主要收入来源。

Alphabet工人工会已经表示支持这些承包商，并帮助他们采取行动，但该组织不能正式代表承包商与谷歌进行谈判。

在得克萨斯州奥斯汀，YouTube的承包商去年年底宣布了与AWU成立工会的计划。该组织估计，谷歌雇用了20多万名承包商，但这些人未被计入公司的官方员工总数中。（小小）

关键词：