过去两年大家都在用ChatGPT,但很少有人想过一个问题:它训练时学的是谁的数据?这个问题终于在加拿大监管层面有了正式答案。Globe and Mail今天报道,加拿大联邦和省级隐私监管机构经过调查后认定:OpenAI在开发第一代ChatGPT时违反了加拿大隐私法。
违反在哪里
调查结论很明确:OpenAI在开发第一个ChatGPT模型的过程中,收集了大量个人信息,但当时并未建立足够的保障机制(adequate safeguards),也没有取得有效的同意(valid consent)。
这两个词在加拿大隐私法下都有具体含义。"保障机制"指的是:你怎么处理这些数据、谁能访问、出问题如何追责;"有效同意"指的是:用户必须清楚知道他们的信息被用来做什么、有合理的方式拒绝。OpenAI第一代模型上线时,这两条都没做到位。
监管方在报告里提到,OpenAI此后已就主要担忧做出处理。这意味着公司已经做了一些改进,但调查本身还是把"违反"两个字写在了纸上。
为什么这事在加拿大很重要
加拿大近期正在成为AI隐私监管的重要前线。本站昨天刚报道过苏格兰小提琴家Ashley MacIsaac起诉Google,原因是Google的AI工具把他和一桩谋杀案错误关联——给他名誉造成实际损害。今天又来一个OpenAI被认定违反加拿大隐私法。
这两个案子合在一起就是一个清晰的趋势:加拿大不打算让大型AI公司在没有规则的地方乱跑。无论是大模型的训练数据来源,还是AI生成内容造成的损害,都开始有具体的法律框架介入。
对普通用户意味着什么
这次调查的"违反"是历史认定,主要指第一代ChatGPT。对今天还在用ChatGPT写邮件、查资料、整理思路的普通用户来说,当下的合规状态已经改善,使用本身没有问题。
但有一条值得提醒:往ChatGPT、Claude、Gemini这种聊天机器人里输入个人敏感信息(社保号、银行账号、医疗记录、未公开的工作机密),无论这家公司合规与否,都不是个聪明做法。一旦输入,谁也无法保证这些信息不会以某种形式留在系统里。
具体的监管机构构成、调查的时间跨度、罚款细节、OpenAI的完整回应文本,请以加拿大隐私专员办公室的正式报告以及Globe and Mail原文为准。