人工智能(AI)尤其是大型语言模型(LLMs)的进步,正在深刻地影响社会科学研究。这些基于Transformer架构的机器学习模型在大量文本数据上进行预训练,日益具备模拟人类反应和行为的能力,为以极大的规模和速度测试关于人类行为的理论与假设提供了新的机遇。这也带来了紧迫的挑战:社会科学的研究实践应如何适应,甚至被重新构想,以充分利用基础人工智能的力量?如何在确保研究透明性和可重复性的同时做到这一点?
LLM可以扮演的角色
社会科学依赖多种方法,包括问卷调查、行为测试、对半结构化回应的混合方法分析、基于代理的建模(ABM)、观察研究和实验。这些方法的共同目标是获得关于个人、群体、文化及其动态的普遍性特征的表征。随着先进人工智能系统的出现,社会科学的数据收集方式可能会发生变化。大型语言模型(LLMs)利用深度学习捕捉语言中的复杂关系。它们在处理、生成和与人类语言进行语境感知、语义准确的交互方面具备的语言理解能力,代表着与以往人工智能方法的重大飞跃——此前的AI常常难以处理语言中的细微方面,如讽刺、隐喻或情感色调。通过适当的条件设置,LLMs 能更准确地模拟社会科学研究中的人类行为反应。
LLMs 可能会取代人类参与者进行数据收集。例如,LLMs 已经展示了其在生成关于消费者行为的现实调查回应方面的能力。尽管关于这一应用的可行性尚存争议,但至少,使用模拟参与者的研究可以用来生成新的假设,然后再在人类群体中加以验证。这种方法的成功依赖于训练数据的算法保真性、模型训练的透明性、提示工程,以及基准选择。
这种情景为何具备现实可能性?经过海量数据的预训练,先进的AI模型能够代表广泛的人类经验和视角,可能比传统的人类参与方法具备更大的自由度来生成多样的回应,从而有助于降低研究中的可泛化性问题。由于人类参与者在注意力持续时间、回应偏差或习惯化等现实限制方面存在问题,LLMs 也可以在更广泛的参数范围内生成回应,从而提供对潜在潜变量更少偏倚的视角。这使它们在传统数据收集不可行的高风险项目中尤为有用,允许研究者在模拟人群中测试干预措施,再实施于真实世界。
LLMs 还可以以其他方式作为替代工具。它们有潜力通过再现不同理论或意识形态流派的观点来加强政策分析。例如,LLMs 可以被训练来捕捉复杂辩论的细微差别,比如关于在面对人类与技术因素影响时,核威慑是否稳定和可靠的问题。LLMs 可被训练来评估多种视角,包括“假如”场景的评估,例如1962年古巴导弹危机,并对这些情景的可行性进行判断。一旦LLMs能够通过意识形态图灵测试——即它们能以与真实人类难以区分的方式准确地再现对立观点——研究人员便可用它们生成未来情景。经过恰当训练的未来LLMs甚至可能在某些分析任务上优于人类,例如整合冲突观点以生成更优的预测与政策建议。
AI 还可以在社会互动研究中充当“同谋”(即受控实验伙伴)的角色,无论是涉及个人还是群体,并可作为基于代理模拟的一部分。一个LLM与ABM结合的混合系统可以利用LLM来推导社会决策或行为的实证规则,以模拟具有特定特征和信念的个体间的社会互动,从而探索这些特征如何影响后续与人类的互动,为更广泛的社会科学问题提供信息,比如虚假信息如何在社交网络中传播。
这些研究引发了关于LLMs作为人类认知与决策模型的边界问题。我们是否可以通过让LLM在分享前评估一条新闻内容的质量,来“引导”它,从而复制人类研究?如果可以,那么我们是否可以利用集成的LLM/ABM模型来识别减少虚假信息在社交网络中传播的干预措施?更广泛地说,如果LLM/ABM系统能够提供关于人类代理如何选择分享信息、在社会困境中合作与竞争、以及如何遵循社会规范的新见解,它们将能比以往基于人类决策的模型更高保真地揭示人类行为与社会动态背后的机制。
将LLMs 融入 ABMs 会带来新的挑战,因为它们运作原理不同。LLMs 基于从海量语言数据中学习得出的统计模式来生成和解释语言,而传统 ABMs 则依赖于预设的形式规则,这些规则可以使用真实语言数据和其他定性数据来生成。需要新的ABM设计来充分发挥 LLM 在问卷模拟、在模糊情境中的行为表现,以及开放性回应等方面的能力。通过为 ABMs 构建更真实的初始人群,LLMs 能够建模个体的潜在认知或情感状态,超越传统研究者的能力,为未来的理论生成打开新的大门。
LLMs 未来的潜在优势包括生成如其训练语料中的文化产品般多样的样本,比依赖通常不够异质性和代表性的便利样本的传统方法,更准确地描绘人类行为与社会动态。由于具备全样本规模的校准数据,LLMs 可能有助于解决社会科学研究中常见的一些导致模型偏差的问题,包括可泛化性和自我选择偏差。
科学家—人文学者困境
有效的AI 辅助研究依赖于 AI 能够准确地反映多样化人口群体的观点。众所周知,来自语言文化产物的预训练模型会捕捉社会中存在的社会文化偏见。当这些偏见被识别出来时,一个关键的问题是它们的来源:这些偏见是否真实反映了人群,还是模型构建过程中的产物?模型构建偏差可能源自设计和开发过程中不恰当或无效的选择(例如,选择对不同人口群体有效性不一致的构念、整理缺乏多样性或体现某些人工标注者偏见的数据集、选择无法捕捉少数群体特定模式的模型),也可能是现存社会不平等的反映。
科学家—人文学者困境成为一个关键问题:科学家希望研究嵌入了社会文化偏见的“纯粹”LLM,以模拟人类行为并追踪其文化演化,而伦理约束则要求工程师保护 LLM 免受这些偏见影响。目前,LLM 工程师已经在对预训练模型进行微调,使其更符合“应当存在的世界”,而不是现实世界,这种消除偏见的努力可能削弱 AI 辅助社会科学研究的有效性。LLM 训练的专有“黑箱”性质也挑战了研究人员评估其内在机制和复制研究结果的能力。为了解决这一问题,应倡导开源 LLM 的使用,允许科研用途访问预训练但未微调的模型,并采用透明的方法论,例如 BLOOM、Cerebras-GPT 或 LLaMA,以确保 AI 驱动研究的可靠性和可信度。
总体而言,研究人员需要制定LLM 在研究中使用的伦理指南,关注与数据隐私、算法公平性(相对于单一文化系统)、环境成本以及LLM生成结果可能被误用等相关的问题。关于数据质量、公平性以及对强大AI系统的公平访问权等现实问题也将至关重要。
权衡取舍与实践智慧
在决定是否使用LLM 来模拟人类行为时,研究人员必须首先验证语言媒介(潜在)构念。他们可以将 LLM 生成的回应视为一组“非人类参与者”的样本,并系统地变化提示词,就像传统实验中呈现随机刺激一样。在使用 LLM 进行研究时,一个关键的考量是外部效度与内部效度之间的权衡。未来训练于多元文化内容的 LLM,将通过模拟类人回应和对现实情境的泛化来提供更高的外部效度;但其不透明性限制了其内部效度。相比之下,在小型、受控数据集上构建的实验室自然语言处理模型虽然具备更强的内部效度,但因训练数据有限,其可靠性和广泛适用性将受限,影响其在不同情境下的一致表现。研究人员应根据自身研究优先级谨慎选择不同的方法。
研究人员还需考虑其研究的具体语境。对于涉及暴力的高风险情境,或那些需要大量人类参与者而在实践中难以进行的情景,更适合使用LLM。例如,LLM 可用于探索太空旅行中的人类动态,或在研究网络性侵掠者时,生成“掠食者”与“受害者”原型,这类研究由于可能对人类参与者造成心理创伤而伦理上存在重大问题。
随着AI 重塑社会科学的研究格局,研究人员也将扩展自身技能,扮演诸如模型偏差侦测者、AI 数据验证者或人机交互学者等新角色。在这一背景下,保持概念清晰、理解测量基础,以及秉持伦理导向的实践智慧来选择适配自身研究问题的 AI 辅助设计将至关重要。随着 AI 辅助数据收集的民主化,社会科学教育需加强对早期阶段研究者的培养,尤其是定量方法(如计算、统计)的训练,这呼唤对现有教育体系的改革。
正如柏拉图《洞穴寓言》中囚徒注视墙上的影子并误以为那就是现实,LLMs 依赖于文化产物中所描述的人类经验“影子”。这些影子只能提供对其所代表现象的有限理解,因为文化产物所体现的大众心理学并不总是准确反映人类行为机制——这是社会科学家必须认识到的一个限制。检视 LLM 的局限性和偏见,也折射出许多领域中常见实践的问题,比如代表性偏差、抽样方法问题,或方法论个人主义。
尽管存在这些障碍,LLMs 仍让社会科学家有机会打破传统研究方法的局限,以创新方式推进研究。由于在简单任务中表现不逊,以及 LLM 引导的机器人在开放式回应中将变得与人类参与者难以区分,这些模型很可能导致当今社会科学广泛依赖的众包平台(如 Amazon Mechanical Turk)式微,从而催生新的“人类数据验证”方法。社会科学家必须做好准备,应对技术演变带来的不确定性,同时保持对当前研究实践局限的敏感。只有通过确保透明性与可重复性,AI 辅助的社会科学研究才能真正推动我们对人类经验的理解。
文章来源:Igor Grossmann, Matthew Feinberg , Dawn C. Parker, Nicholas Christakis, Philip E. Tetlock, William A. Cunningham. AI and the transformation of social science research. Science. June 2023. DOI: 10.1126/science.adi1778
Leave a Reply