徐文鸣 | 法学实证研究之反思：以因果性分析范式为视角-罗马法与意大利法研究中心

法学实证研究之反思：以因果性分析范式为视角

【作者与文章来源】

作者：徐文鸣，中国政法大学法与经济学研究院副教授，意大利博洛尼亚大学法学院法与经济学博士。

文章来源：《比较法研究》2022年第2期。

摘要：法学实证研究当下面临外部缺乏认同、内部陷入发展瓶颈的双重挑战，主要原因在于描述性统计分析局限于事实发现、相关性分析的科学性不足。法学实证研究的工作重心应当转向检验竞争性的理论假设，即通过数据分析进行理论证伪，实现突破性理论创新，促进法学研究的发展。从当代科学哲学的角度看，理论证伪必须建立在因果性分析的基础之上。法学实证研究迈向科学成熟的路径之一，在于引入统计学的虚拟事实模型，利用法律制度变化形成的准自然实验，并结合双差分、断点分析、工具变量和配对分析等识别模型，构建具有法学特色的因果性分析范式。

关键词：法学实证研究；科学性；因果性分析；虚拟事实模型；理论证伪

一、法学实证研究的瓶颈与出路

二、观测数据与虚拟事实模型

三、准自然实验与因果关系识别模型

四、结语

法学实证研究是一种归纳推理的方法，从广义上看包括任何系统地收集、整理和分析信息（数据）的研究。[1]也有学者主张，只要是研究真实的世界，而不是仅研究“语词构成的概念世界或由信条构成的理论世界”，都可以视为实证研究。[2]依据统计方法的介入程度，它又可以进一步分为定性分析和定量分析。[3]定性分析，也被称为法学经验研究，通过田野调查进行案例讨论，并不必然使用量化分析方法。[4]根据该定义，案例分析同样属于定性分析，只是其样本容量较小，甚至有时为单个案例。[5]定量分析，也即狭义的法学实证研究，强调遵守统计学的基本原则和程序，收集、处理和分析大样本数据。[6]此外，根据样本产生方式的差异，定量分析又可以分为基于实验数据（experimental data）的定量分析[7]和基于观测数据（observational data）的定量分析。[8]本文讨论的对象主要是基于观测数据的法学定量研究。

虽然法学实证研究在国内发展的历史较短，仍然属于“小众”领域，但已经引起学界的广泛关注和讨论。该领域兴起的部分原因在于，它从法教义学体系外部提供了关于现实中法律的经验证据，[9]弥补了长期以来部门法的规范分析与制度实践脱节的不足。[10]当然，法学实证研究也引起了一些质疑，有论者认为法学规范层面的原理无法用事实层面的现象来证明，[11]并且存在问题意识不足、数据分析与理论脱节和方法略显幼稚等短板。笔者认为法学实证研究陷入上述争论的主要原因在于描述性统计分析局限于事实发现，而回归分析的科学性不足。它迈向科学成熟必须回归“检验竞争性理论假说”的初心，向“理论假设—实证检验”的研究范式转型。[12]社会科学大多经过这一蜕变过程，如经济学在20世纪90年代即经历了实证革命，当时推动因果推断（causal inference）发展的学者也在2021年获得诺贝尔经济学奖。[13]法学实证研究的科学化路径应当以统计学中的虚拟事实分析框架为基础，将法律制度的变化作为准自然实验（quasi-natural experiment），[14]并结合工具变量、双差分、断点分析和（或）配对分析等识别模型，最终形成具有法学特色的因果性分析范式。

一、法学实证研究的瓶颈与出路

（一）法学实证研究的兴起与挑战

法学实证研究是法学与其他学科的交叉融合，在世界范围内已经有近百年的历史，但直到20世纪90年代，它才兴起于美国法学院。[15]标志性事件是美国法学实证研究协会的成立，它为学术共同体提供了稳定的交流平台。此后，美国主流法学院从事实证研究的科研人员数量快速增长，以实证分析为导向的研究中心逐渐成为法学院必备的科研机构。[16]美国法学实证研究实现了从早期年发文量不足50篇，到现在年发文量超过200篇的快速增长。[17]它的影响不仅停留在象牙塔内，还广泛推动了立法修法、行政监管和司法制度的改革。[18]法学实证研究在美国如此兴盛，除了得益于法律数据大幅增长，还要归功于法学院聘请了大量获得双博士学位的青年学者，他们成为推动实证研究发展的主力。[19]

虽然法学实证研究在美国法学界取得了令人瞩目的成果，但其在欧洲和亚洲法学院还处于发展的初期。法学实证研究在我国属于社科法学领域的重要分支，其学术旨趣在于从法律外部研究法律问题。[20]从学术论文产出数量来看，该领域论文的绝对数量呈现快速增长的趋势，2011年至2015年间“中国法学核心科研评价来源期刊”总计发表法学实证研究论文115篇，比2006年至2010年发文总量增长近40%。[21]特别是裁判文书网上线后，以裁判文书为对象的实证研究呈现出快速增长的态势。[22]但从相对比例来看，法学实证研究仍属于“小众”领域。根据“中国法学创新网”的统计，“中国法学核心科研评价来源期刊”在2011年至2015年间共发表论文7282篇，法学实证研究发文量仅占1.6%。

从统计方法上看，现有成果一般采用描述性统计分析和（或）相关性分析。[23]描述性统计分析关注事实发现，可以大致分为以下三个研究方向：[24]第一，对法院或司法活动的描述，如在线诉讼、[25]证人出庭；[26]第二，对法律规范实效的描述，如证券市场禁入制度、[27]证券虚假陈述民事诉讼制度；[28]第三，对法学研究现状的描述，如商法学实证研究的现状、[29]青年法学学者的引证情况。[30]而相关性分析则使用多元回归推断不同变量之间的变化关系。它与描述性分析最大的区别在于，多元回归可以通过控制其他相关变量进而分析在其他条件不变的情况下被解释变量与核心解释变量之间的关系。例如，在检验异地审理对腐败惩罚的影响时，褚红丽等学者即在实证模型中控制了是否立功、是否自首和腐败金额等因素，以排除其他同时与异地审理和腐败惩罚存在相关关系的变量的影响（如腐败金额）。[31]而白建军对交通肇事罪量刑决定因素的讨论，也显示出在变量之间作用机制较为复杂时，多元回归有助于排除其他干扰因素的影响。[32]

然而，主流规范分析法学认为法学实证研究并不属于“纯粹的”法学研究。规范法学在方法论上推崇演绎推理，[33]不主张关注法学的经验面向。[34]它强调从“应然”层面分析法律问题，反对用事实层面的现象来证明规范层面的原理。[35]规范法学自身具有体系完整性，“关注体系内部之论证与自我批判，任何超出现行法规范本身的如价值、伦理、效率、实施效果等考量都是体系外因素”。[36]体系外因素并不具备规范意义，只有运用法学特定的研究范式，才能促进法学理论的增量发展，实证方法至多仅起到辅助作用。[37]

另一方面，法学实证研究的质量也面临着多方面的批评。一是问题意识不足，未能深入部门法内部进行微观分析，回应我国法治建设的重要议题。[38]当然，缺乏问题意识可能是法学研究整体面临的挑战，而不仅仅是实证研究独有的短板。[39]二是缺乏体系思维，没有统一的理论范式，存在将理论碎片杂糅在一起的问题。[40]三是实证研究故事化，容易陷入“纯叙事”的误区，就事论事，缺乏理论贡献。[41]四是事实发现与理论分析“两张皮”，文献综述或理论探讨部分与数据分析距离太远，甚至没有关系。[42]五是研究方法运用不熟练，部分法学学者并未系统地学习实证研究方法，统计分析质量层次不齐。[43]上述批评中后两项针对操作层面的短板，可以通过加强研究训练弥补；而前三项则针对方法论层面的问题，必须通过转变法学实证研究的范式进行回应。作为一门发展中的交叉学科，法学实证研究存在不足之处并不为奇，回应发展中的挑战是它迈向科学成熟的必经之路，也是当下实证法学学者不得不完成的工作。

（二）理论证伪与实证研究

法学实证研究最初以“变革者”的身份出现。白建军早在20年前就对法学实证研究的贡献进行了系统阐述，认为实证分析至少在两方面是法学研究必不可少的：第一，实证研究有利于清晰认识客观事实，能够保证法律对社会的影响最大程度地符合预期，避免由良好愿望和想象指导法律实践；第二，法律的运行是动态的，对法律实施效果的测量有助于修正立法和司法活动。[44]规范论证需要以客观经验为基础，无论解释论还是立法论，都涉及引用经验事实作为支持理由。[45]部分规范论证隐含假定涉及事实的判断是不证自明的，因而显得它们没有经验面向。[46]

虽然描述性统计分析在法学实证研究发展初期受到一定的追捧，但是学界当前已经出现“审美疲劳”。法学实证研究保证其科学性、实现与理论勾连的路径在于回归统计分析的初心。自20世纪中叶，科学解释的公认范式转向“假定-推理”模式，即由一般的规律和限制条件组成理论前提，从前提假设出发并借助演绎推理的方法，推导出对科学现象的解释。[47]波普指出理论的科学性体现为可证伪性，实证研究则是检验和证伪竞争性理论的工具。[48]作为归纳推理的方法，实证研究的理论证成能力有限，由于存在逻辑跳跃，它无法通过对特定事例的归纳和纯粹的逻辑推理证实理论。[49]但是，实证研究却具有强大的理论证伪能力，当学者发现的实证证据与理论预测不一致时，纯粹的逻辑推理即可证伪该理论。科学进步转向依靠积累证伪主流理论的经验证据，逐渐完善理论体系。[50]

法学实证研究的理论证伪面向，有效地回应了方法论层面的批评。第一，缺乏问题意识。证伪型法学实证研究的问题意识体现于被检验的理论假说，与中国社会发展所面临的具体问题紧密联系。然而，不得不承认它的问题意识受到理论命题科学性和数据可得性的双重限制，大量重要的研究问题无法进行实证检验。一方面，规范法学关注的问题可能不具备可证伪性，研究命题无法进行量化分析；另一方面，我国当下数据公开状况并不理想，限制了实证法学学者讨论学术热点话题的能力。

第二，缺乏体系思维。证伪型法学实证研究并不以直接的体系构建为目标，而是通过理论证伪实现对现有体系的创造性破坏。它在遵守统计学一般原理和操作程序的基础上，科学地为规范体系的演进提供经验证据。[51]统计学对于如何进行实证研究，已经形成一套近乎“八股文”的操作程序和基本原则，包括研究问题、文献综述和理论假设、样本来源和变量定义、分析方法和结论等。[52]统计学的体系性保证了法学实证研究的可重复性，使得实证研究具有被证伪的可能，实现其科学性的双重保障。

第三，缺乏理论贡献。描述性统计分析关注的重点是事实发现，确实容易产生理论基础薄弱的观感。而证伪型实证研究的出发点为竞争性的理论假设，收集、整理和分析数据的最终目的都是为了涵摄规范理论。当下国内部分法学实证研究实际也是以理论证伪为导向，在完成数据分析后，并未停留在事实发现层面。例如，程金华基于对民间借贷四倍利率限制的实证研究，提出废除四倍利率规则、设置差异化利率上限的规范建议。[53]证伪型实证研究意图在保证科学性的前提下实现法学理论创新。

证伪型实证研究所具备的破坏性创新能力，建立在其能够识别因果关系的基础之上。统计学的基本原理指出相关关系不代表因果关系，以相关性分析进行理论证伪的科学性是存疑的。“内部有效性”（internal validity）是检验因果推断科学性的标准，即研究人员能否确定被解释变量的变化是由核心解释变量的变化引起的（result from）。[54]如果实证研究无法确定核心解释变量引起被解释变量的变化，它则不能声称进行统计上的因果推断，进而主张发现因果关系。[55]王鹏翔和张永健将上述统计原理阐释为差异制造事实，即“采取某个行为或措施会对某个结果的发生与否或发生概率造成差异”，并强调只有差异制造事实才能作为规范理由的事实。[56]易言之，规范法学需要实证研究检验是否存在某种因果关系（差异制造事实），进而证伪竞争性的规范理论命题。描述性统计分析和（或）单纯的回归分析，至多只能证实变量之间的相关关系，因而其理论证伪能力存在瑕疵，将其作为规范论证的事实基础存在逻辑漏洞。

二、观测数据与虚拟事实模型

（一）观测数据与统计偏误

科学研究最早使用实验数据进行因果性分析，英国统计学家罗纳德·费雪（Ronald Fisher）于1925年首次在农业遗传学研究中运用随机控制实验（randomized controlled experiment）进行因果推断。[57]当前，随机控制实验已成为检验因果关系的黄金法则。它主要包括三个特征：第一，研究对象被随机划分为处理组（treatment group）和对照组（control group），处理组接受外部干预措施（intervention），而控制组则不接受上述干预；第二，研究人员可以控制外部干预措施；第三，通过观测两组研究对象在干预后结果变量（outcome variables）的差异推断因果关系。科学实验成功的关键在于，随机分配处理组和对照组可以保证外部干预措施独立于实验开始前两组对象的统计特征，因而简单的回归分析即满足因果推断的内部有效性。以新药品的双盲临床实验为例，研究人员希望检验新药是否对特定疾病存在疗效。外部干预措施为接受新药治疗，参与临床实验的患者在接受药物之前被随机分为处理组和对照组。处理组被分配接受药物治疗，而对照组则接受无任何效果的安慰剂（placebo）。上述两组病人在受到外部干预后病情发展的差异，即代表新药与疗效之间的因果关系。

遗憾的是法学实证研究因为法律和道德的限制，往往不具备进行大规模随机控制实验的可能性，仅能退而求其次使用观测数据检验竞争性的理论假设。然而，使用观测数据和多元回归模型检验竞争性的理论假设存在理论瑕疵。法学实证研究常用的多元回归模型如以下等式（1）所示：

结果变量=α+β*核心解释变量+γ*控制变量+误差值等式（1）

其中，控制变量的作用在于排除其他相关因素的干扰，待检验的规范理论假设为结果变量和核心解释变量之间不存在因果关系。如果实证分析结果显示，参数β在统计上显著不为零，即可证伪原假设所涵摄的规范理论。但是，只有当实证模型的误差项与核心解释变量相互独立时，即不存在内生性问题，回归分析估计的系数才反映结果变量与核心解释变量之间因果关系。申言之，多元回归分析证伪规范理论的能力建立在一个隐含假设之上，即回归分析自身能够证成实证研究的内部有效性，它所发现的相关关系等价于因果关系。

然而，由于存在以下四个方面的统计偏误（bias），上述隐含假设对于大部分多元回归分析是不成立的。[58]第一，模型设定偏误（functional form bias）。线性函数一般会被选为回归模型的函数形式，其隐含假定变量之间不存在非线性关系，例如幂函数关系。实证分析的结果因而存在模型依赖（model dependence），不同实证模型的结果可能存在明显差异。[59]关于实证模型函数形式的假定可以进行相应的统计检验，但不应直接主张线性函数真实反映了变量之间的因果关系。

第二，遗漏变量偏误（omitted variable bias）。等式（1）所示多元回归模型通过控制变量排除其他相关因素的干扰。虽然学者在理论上可以通过控制所有相关变量，使得核心解释变量独立于模型的误差项，但遗漏变量偏误在实践中很难避免。特别是在法学实证研究中，大量影响结果变量的因素还未被发现或者无法量化。例如，“法律与金融”的实证研究发现投资者保护水平与证券市场的发展正相关，并提出规范性建议主张发展中国家移植普通法国家的公司法和证券法。[60]该研究忽略了遗漏变量偏误的影响，证券市场的发展水平取决于多方面的因素（如宗教和文化等），跨国实证研究很难量化所有相关变量。如果存在遗漏变量，那么回归分析估计所得的核心解释变量的系数即是有偏的。[61]

第三，反向因果关系（reverse causality）。核心解释变量和结果变量之间可能存在反向因果关系，易言之，虽然多元回归模型显示结果变量和核心解释变量之间存在相关关系，但无法排除上述关系是由结果变量影响解释变量而导致的。例如，实证研究显示交错董事制度会降低企业价值，但此类研究并未排除以下反向因果关系，即价值较低的上市公司主动选择交错董事制度以减少其被收购的可能性。[62]因此，主张上市公司取消交错董事会的规范建议即缺乏科学的实证研究支持。

第四，自选择偏误（self-selection bias）。所谓自选择偏误是指具有某些特征的研究对象，主动选择特定的干预措施，且该特征又与结果变量相关，导致样本的分布异于总体分布。[63]受到研究样本自选择偏误的影响，多元回归分析无法形成具有涵摄规范理论的差异制造事实。例如，由于裁判文书网并未全面公开判决文书，因而上网的判决文书的特征分布可能异于所有文书的特征分布，基于该网站披露数据的实证研究即可能存在自选择偏误。[64]

（二）虚拟事实模型

统计学的虚拟事实模型（counterfactual model）为处理观测数据和相关统计偏误提供了理论框架。该模型也被称为鲁宾因果模型（Rubin Causal Model），由哈佛大学统计系前主任唐纳德·鲁宾（Donald Rubin）在20世纪70年代提出，主张通过选择识别策略（identification strategy）构建统计上可比较的处理组和控制组，进而在观测数据的基础上进行因果推断。[65]它广泛应用于政策评估（policy evaluation）领域，检验法律制度变化所带来的后果，也即建立规范层面的“差异制造事实”。[66]

虚拟事实模型对因果关系的定义借鉴了大卫·休谟（David Hume）的哲学观。休谟认为因果关系是指我们界定一个对象（object）为原因，意味着它之后将产生另一个对象，与此同时，所有与第一个对象类似的对象都会产生第二个类似对象。[67]申言之，如果第一个对象不产生，则第二个对象从来不会产生。虚拟事实模型将因果关系定义为：当特定研究对象分别处于处理组和控制组时其潜在结果变量（potential outcome variables）观测值之间的差异。在法学实证研究的语境下，虚拟事实模型对因果关系的定义如表1所示。外部干预措施来源于法律制度的变化，它会影响研究对象的结果变量。当法律制度改变时（处理组），研究对象结果变量的观测值为T; 而当法律制度保持不变时（控制组），其结果变量的观测值为C。法律制度变化与研究对象结果变量之间的因果关系即为T-C。

表1：虚拟事实模型关于因果关系的定义

	处理组	控制组	法律制度变化与研究对象结果变量之间的因果关系
研究对象结果变量可能的观测值	T	C	T-C

虚拟事实模型所定义的因果关系具有以下三个特征：第一，特定研究对象在某个时刻只属于处理组或控制组，研究人员因而仅观测到虚拟事实模型涉及到的两种状态之一，也即另一种是未发生的虚拟状态。因此该模型面临数据缺失的问题，即无法同时获得研究对象处于两种状态下的结果变量的观测值，这也被称为因果推断的根本挑战。[68]第二，虚拟事实模型通过统计模型构建当研究对象处于未发生的虚拟状态下其结果变量的取值，以解决数据缺失的问题。因此，基于该模型的统计分析无法识别个体层面的因果关系，而只能估计群体层面的因果关系。第三，虚拟事实模型只能识别法律制度变化与结果变量之间的因果关系，如果法律制度保持不变，则不存在符合该模型定义的因果关系。[69]

多元回归分析也可以从虚拟事实模型的角度进行解构。当样本中处理组和控制组不具备可比性时，其分析结果即存在统计偏误。研究样本的结构不同，其异质性来源也存在差异。第一，如果样本为时间序列数据，其数据结构为法律制度修改前后相同研究对象的观测数据，法律制度修改前的观测值视为控制组，修改后的视为处理组。回归模型的被解释变量即是研究对象的结果变量，核心解释变量是哑变量，它在法律制度修改后取值为1，修改前取值为0，其他特征变量则为控制变量。回归所得结果等于剔除控制变量的影响后该研究对象的结果变量在法律制度修改前后的差异。虽然处理组和控制组包括的研究对象是相同的群体，但是其结果变量在时间序列维度上还可能受到其他因素的影响，例如宏观经济环境的改变。这些干扰因素可能影响法律制度变化的效果。

第二，如果样本为横截面数据，它的数据结构即为两组研究对象，一组受到法律制度变化的影响（处理组），一组不受该变化的影响（控制组）。回归模型的被解释变量即是研究对象的结果变量，核心解释变量是哑变量，处理组观测对象的取值为1，控制组观测对象的取值为0。回归所得结果等于剔除控制变量的影响后，处理组和控制组结果变量的差异。然而，横截面数据无法控制处理组和控制组在法律制度发生变化之前可能存在的差异，因此回归分析所得结果可能存在显著的统计偏误。[70]

三、准自然实验与因果关系识别模型

（一）准自然实验

由于无法观测到研究对象在不同处理状态下结果变量的取值，虚拟事实模型进行因果推断的关键在于解决数据缺失问题，也即是运用统计模型构建具有可比性的处理组和控制组。虽然社会科学很难进行大规模的随机实验，但法学实证研究具备独特的优势，法律制度的变化带来外生于研究对象的冲击，而这种冲击会产生近似于随机分配的外部干预效果，属于最常见的准自然实验。[71]对法律与金融交叉学科领域研究成果的实证分析发现，在2001年至2011年间发表的142篇以准自然实验进行因果推断的论文中，有63篇利用了法律制度的变化。[72]

准自然实验与科学实验存在两个相同的特征：第一，外部冲击将研究对象分为处理组和对照组，虽然分组不服从随机分配，但是运用统计识别模型，可以实现与随机分配近似的（as-if）效果；[73]第二，处理组接受外部干预措施，控制组则不接受，通过观测干预措施实施后两组研究对象结果变量之间的差异可以进行因果推断。准自然实验与科学实验的差异在于，学者无法控制外部干预措施，因此需要使用统计模型对其他干扰变量进行控制。[74]常用的因果关系识别模型包括双差分模型（difference-in-differences）、断点分析模型（regression discontinuity design）、工具变量模型（instrumental variable）和配对分析模型（matching）。当然，这些模型并不是互斥的，一项研究经常综合使用多种模型和回归分析提高因果推断的内部有效性。[75]由于文章篇幅的限制，在此仅结合实例讨论这些模型的基本设定和核心假设。

（二）双差分模型

双差分模型利用法律制度引起的时间序列维度和横截面维度的变化识别因果关系。根据虚拟事实模型的设定，样本在横截面维度依据是否受到法律制度变化的影响可以分为处理组和控制组；而在时间序列维度按照法律制度变化前后划分为处理前组和处理后组。双差分模型估计法律制度变化对研究对象的影响等于，处理组在法律制度变化前后结果变量的平均值之差，减去控制组在法律制度变化前后结果变量的平均值之差。它利用控制组结果变量在法律制度修改前后的差异，构造处理组结果变量的虚拟取值，即构建处理组在未受到法律制度变化影响的情况下，其结果变量在法律制度修改前后的差异。双差分模型识别因果关系隐含着平行趋势假设（parallel trend assumption），即处理组如果未受到法律制度修改的影响，其结果变量在时间序列维度将与控制组保持相同的趋势。[76]

陈天昊等学者利用双差分模型推断检察行政公益诉讼与环境污染治理实效之间的因果关系。[77]该研究将全国人民代表大会常务委员会颁布《关于授权最高人民检察院在部分地区开展公益诉讼试点工作的决定》作为准自然实验，该决定给13个试点省生态环境方面的检察监督制度带来了外部冲击。在模型构造方面，73个试点城市构成了处理组，而相同省份内未被选为公益诉讼试点的70个城市构成对照组。检察行政公益诉讼试点工作自2015年开始，因而2015年之前被视为处理前组，该年之后为处理后组。双差分模型估计试点成功降低了部分污染物的排放量，因而拒绝了检察行政公益诉讼在污染治理方面仅有“芝麻”和“绿豆”般实际效果的理论假设。

（三）断点分析模型

法律法规经常会设置决定其适用范围的阈值，即当且仅当相关主体的特征（如企业的规模、年龄等）满足一定标准时，它们才受到规则的约束。断点分析法利用上述阈值引起的研究对象处理状态的差异来进行因果推断，因此该特征也被称为启动变量（forcing variable）。[78]根据虚拟事实模型的设定，当研究对象的启动变量取值大于（小于）特定阈值时，它们即受到法律制度的约束，属于处理组；而当研究对象的启动变量取值小于（大于）特定阈值时，它们即不受法律制度的约束，属于控制组。[79]虽然处理状态在阈值处发生突变（discontinuity），但阈值附近研究对象的差异并不显著，具备统计可比性。因此，断点分析模型仅使用阈值附近一定带宽（bandwidth）内的处理组和控制组研究对象进行因果推断。该模型将阈值附近控制组结果变量的观测值，作为处理组结果变量在未受到法律制度影响时的虚拟取值。断点分析模型要求研究对象无法操纵自己的启动变量，以主动改变它的处理状态。如果存在这种可能性，阈值附近的研究对象即不具备可比性，断点分析所得结果存在自选择偏误。

二级市场流动性匮乏是限制我国新三板市场发展的主要原因。[80]鄢伟波等学者利用断点分析模型检验新三板分层改革，是否能改善高级别板块挂牌股票的流动性。[81]该研究以《全国中小企业股份转让系统挂牌公司分层管理办法（试行）》规定的盈利能力、成长性和做市特征分层标准作为启动变量，将首批创新层挂牌股票作为处理组，而将基础层中接近满足分层标准的挂牌股票作为控制组。断点分析模型发现仅根据盈利标准进入创新层的股票流动性得到了显著提升，而根据做市特征标准进入创新层的股票流动性并未获得明显改善。

（四）工具变量模型

工具变量模型的构造关键在于选择和证成工具变量的合理性，即满足以下两个假设：第一，相关性假设，工具变量与内生的核心解释变量存在相关关系，该假设可以通过回归分析进行检验；第二，排他性约束假设（exclusion restriction assumption），工具变量除了与核心解释变量相关之外，与决定被解释变量的其他变量都不相关。该假设的要求较为严格，且无法通过实证模型检验，一般依赖学者对于相关制度和理论的讨论论证。上述特点保证工具变量与被解释变量之间存在联系，且产生这种联系的唯一渠道是核心解释变量，以实现类似于随机分配处理组和控制组的效果。法律制度的变化通过工具变量间接改变研究对象的核心解释变量。根据虚拟事实模型的设定，间接受到法律制度变化带来外部冲击影响的研究对象为处理组，而未受到影响的为控制组。工具变量模型使用两阶段回归（two-stage least squares）进行因果推断：第一阶段，以核心解释变量为被解释变量，工具变量为自变量进行回归；第二阶段，以结果变量为被解释变量，工具变量为自变量进行回归。工具变量模型估计所得因果关系，等于第二阶段回归与第一阶段回归的自变量系数之比。

工具变量模型应用于法学实证研究的经典案例是讨论受教育年限和收入之间是否存因果关系。[82]美国大部分州都将孩童年满6周岁的自然年度作为入学年度。因而，同一年入学的学生在年龄方面可能存在显著差异。例如，有些州立法规定出生日期在12月31日之前的孩童即满足录取条件，那么第4季度出生的孩童在未满6周岁时即可入学，而一季度出生的孩童大约要等到6岁半才能入学。同时，美国义务教育法要求未满16周岁的学生都必须接受学校教育。基于上述规定，学生年满16周岁时，其受教育的年限会因为他们不同的出生日期而存在差异。根据虚拟事实模型的设定，处理组为下半年出生的学生，而控制组为上半年出生的学生，前者平均受教育年限更长。该研究中工具变量是研究对象的出生日期，它通过受教育年限间接影响收入。该工具变量一方面与研究对象的受教育年限相关，也即是受教育年限是出生日期的函数；另一方面也满足排他性约束假设，即出生日期是随机决定的，独立于研究对象的其他特征。对美国20世纪普查数据的工具变量模型分析显示，以出生季度为工具变量，受教育年限显著地提升了研究对象的收入水平。

（五）配对分析模型

如前文所述，使用观测数据进行的实证研究无法保证处理组和控制组之间的可比性，因而回归分析可能存在统计偏误。配对分析模型是一类样本数据预处理工具，它使用处理组和控制组研究对象的特征变量，结合统计算法匹配两组中具备可比性的研究对象，直接降低配对后样本的异质性。[83]研究人员再使用多元回归分析经过预处理的样本来推断因果关系。[84]该模型成立需要满足“非混淆假设”（unconfoundedness assumption），即在匹配后的样本内，处理状态的分布独立于结果变量。配对分析模型具有双保险的优势，仅需正确设定配对模型或回归模型，即可准确识别因果关系。[85]该模型的处理组为受到法律制度变化影响的研究对象，而控制组为未受到影响的研究对象。配对分析模型对因果关系的估计，等于回归分析所得核心解释变量的系数。

常用的配对算法包括以下三种：第一，精确配对法（exact matching），即给处理组内的研究对象匹配一个所有特征变量都相同的控制组研究对象。该算法的优势在于最大化配对后处理组和控制组的可比性，但劣势也十分明显，即随着用于配对的特征变量数量的增长，精确匹配的难度也随之上升。第二，最近邻配对法（nearest neighbor matching），它以距离算法从控制组中挑选与处理组“距离”最近的研究对象进行匹配。最近邻配对法克服了精确配对法匹配难的问题，但与后者相比，匹配后样本的异质性有所增加。第三，倾向值配对法（propensity score matching），它首先以研究对象的特征变量计算其成为处理组的倾向性得分，随后结合精确配对法或最近邻配对法，选取并配对处理组和控制组中倾向性得分最接近的研究对象。由于倾向性得分理论上代表着研究对象被干预的概率，它实际上是一种平衡性得分（balancing score），即如果处理组和控制组的倾向性得分具备相同的统计分布，那么两组研究对象的特征变量具备统计可比性。

胡昌明等学者利用配对算法检验“聋哑人犯罪可以从宽处罚”的规范命题，以系统抽样方法从裁判文书网获得1060件盗窃罪裁判文书作为研究样本。[86]其中，被告为聋哑人的案件属于处理组，而被告为非聋哑人的案件属于控制组。该研究采用倾向值配对法，为每位聋哑人被告匹配一个非聋哑人被告。计算倾向值的模型包括犯罪数额、法定量刑情节等变量。匹配后样本中处理组和控制组被告，除了在是否为聋哑人方面存在差异外，其他量刑情节保持相同或相近的状态。配对分析模型显示仅当盗窃数额巨大时，聋哑人量刑与非聋哑人相比才存在从宽的情况，而当未满足盗窃数额巨大要件时，对聋哑人的犯罪量刑并未从宽。

四、结语

虽然实证研究方法“入侵”法学研究的时间不长，仍属于“小众”领域，但也已经面临方法论层面的质疑，如问题意识不足、缺乏体系思维和研究故事化。究其原因，当前以描述性统计分析和相关性分析为主的法学实证研究呈现科学性不足的缺陷。法学实证研究范式的科学化需要回归实证研究的初心，即检验和证伪竞争性理论假设，实现破坏性理论创新。然而，理论证伪高度依赖因果性分析，以相关性分析证伪理论假设存在逻辑漏洞。社会科学进行因果推断的难点在于，使用观测数据存在引入统计偏误的风险，必须通过相应的研究设计进行纠偏。

具有法学特色的因果性分析应当至少包括以下几个模块。首先，它应当围绕法学理论争论展开，通过规范性分析提出待检验的竞争性理论假设，明确实证研究的目的在于通过因果性分析证伪原假设所涵摄的规范理论，进而完善规范体系；其次，研究设计应当以准自然实验为基础，阐释法律制度的变化或司法判决等如何对特定群体产生外部冲击，同时根据是否受到该冲击的影响将研究样本划分为处理组和控制组；再次，讨论实证分析的识别策略和变量定义，常用的识别策略包括双差分模型、断点分析模型、工具变量模型或（和）配对分析模型，然后通过回归分析进行因果性推断，并证伪特定理论假设；最后，讨论实证研究结果的规范含义，以及它在完善规范体系方面的作用。

注释：

[1]See Peter Cane & Herbert Kritzer, Introduction, in Oxford Handbook of Empirical Legal Research 5, 8(Peter Cane & Herbert Kritzer eds., Oxford University Press 2010).

[2]参见苏力：《好的研究与实证研究》，载《法学》2013年第4期，第16页。

[3]参见陈若英：《中国法律经济学的实证研究：路径与挑战》，载《法律和社会科学》2010年第7卷，第5—8页。

[4]参见陈柏峰：《法律实证研究的兴起与分化》，载《中国法学》2018年第3期，第135页。

[5]苏力强调以微观案件的事理阐明一般性的法理，认为“从个案到理论的一般化过程并不意味着研究所取得与分析所依赖的材料必须是一般性的才能据此得出一般化的结论，而是在于从一个小点抽象出理论模型，才能完成一般化的过程。”参见苏力：《跨越个案》，载《法律和社会科学》2010年第7卷，第241页。

[6]参见白建军：《论法律实证分析》，载《中国法学》2000年第4期，第30—31页。

[7]See Zhuang Liu, Does Reason Writing Reduce Decision Bias? Experimental Evidence from Judges in China, 47 J. Legal Stud.83, 86(2018).

[8]参见唐应茂：《司法公开及其决定因素：基于中国裁判文书网的数据分析》，载《清华法学》2018年第4期，第38页。

[9]参见黄辉：《法学实证研究方法及其在中国的运用》，载《法学研究》2013年第6期，第15页。

[10]参见左卫民：《迈向实践：反思当代中国刑事诉讼知识体系》，载《中外法学》2011年第2期，第402页。

[11]参见雷磊：《法教义学的基本立场》，载《中外法学》2015年第1期，第214页。

[12]笔者并未否认法学实证研究其他分支领域的发展前景，如法律大数据分析即为当前法学实证研究最热门的方向，参见左卫民：《迈向大数据法律研究》，载《法学研究》2018年第4期，第139页。

[13]三位美国教授戴维·卡德、约书亚·安格里斯特和奎多·因本斯因为使用准自然实验解答重要的社会问题而获得诺贝尔经济学奖，参见https://www.nobelprize.org/prizes/economic-sciences/2021/press-release/访问日期：2021年12月17日。

[14]本文使用“法律制度”来指代法律、行政法规、规章、规范性文件、司法解释、政策文件等规则文本。

[15]See Herbert M. Kritzer, Empirical Legal Studies before 1940: A Bibliographic Essay, 6 J. Empirical Legal Stud.925, 927(2009).

[16]例如斯坦福大学法学院的四十余位研究人员，已经有近三十位转向从事实证研究。See Daniel E. Ho & Larry Kramer, The Empirical Revolution in Law, 65 Stan. L. Rev.1195, 1203(2013).

[17]See Michael R. Heise, An Empirical Analysis of Empirical Legal Scholarship Production, 1990-2009, 2011 U. Ill. L. Rev.1739, 1743.

[18]See Theodore Eisenberg, The Origins, Nature, and Promise of Empirical Legal Studies and a Response to Concerns, 2011 U. Ill. L. Rev.1713, 1721.

[19]即法律博士（Juris Doctor）和社会科学博士（Doctor of Philosophy）。See Jonathan Klick, The Empirical Revolution in Law and Economics: Inagural Lecture for Erasmus Chair in Empirical Legal Studies 15(Eleven International Publishing 2014).

[20]参见贺欣：《经验地研究法律：基于社会科学的外部视角》，载《学术月刊》2021年第3期，第112页。

[21]参见程金华：《当代中国的法律实证研究》，载《中国法学》2015年第6期，第65页。

[22]参见屈茂辉：《基于裁判文书的法学实证研究之审视》，载《现代法学》2020年第3期，第29—44页。

[23]法学实证研究的受众也在一定程度上决定了现阶段主流的分析方法只能是描述性统计分析和相关关系分析。参见唐应茂：《法律实证研究的受众问题》，载《法学》2013年第4期，第26页。

[24]笔者在此并不试图进行系统的文献综述，分类和讨论难免有所遗漏，更为详细的综述可见侯猛：《实证“包装”法学——法律的实证研究在中国》，载《中国法律评论》2020年第4期，第61—71页。

[25]参见左卫民：《中国在线诉讼：实证研究与发展展望》，载《比较法研究》2020年第4期，第161页。

[26]参见罗苟新：《职务犯罪二审证人出庭率研究——以W中院2011—2015年案件为样本》，载《山东大学学报（哲学社会科学版）》2018年第1期，第38页。

[27]参见黄辉、李海龙：《强化监管背景下的中国证券市场禁入制度研究：基于实证与比较的视角》，载《比较法研究》2018年第1期，第76页。

[28]参见徐文鸣：《证券民事诉讼与投资者赔偿——基于虚假陈述案件的实证分析》，载《山东大学学报（哲学社会科学版）》2017年第3期，第67页。

[29]参见林少伟、林斯韦：《中国商法学实证研究测评——基于2000年至2015年的法学核心期刊论文》，载《法学》2018年第1期，第79页。

[30]参见侯猛：《中国法学的实力格局——以青年学者的引证情况为分析文本》，载《中国法律评论》2017年第5期，第168页。

[31]参见褚红丽、孙圣民、魏建：《异地审理与腐败惩罚：基于判决书的实证分析》，载《清华法学》2018年第4期，第23页。

[32]参见白建军：《基于法官集体经验的量刑预测研究》，载《法学研究》2016年第6期，第29页。

[33]参见黄宗智、高原：《社会科学和法学应该模仿自然科学吗？》，载《开放时代》2015年第2期，第158页。

[34]参见苏力：《中国法学研究格局的流变》，载《法商研究》2014年第5期，第58页。

[35]参见雷磊：《法教义学的基本立场》，载《中外法学》2015年第1期，第213页。

[36]参见金可可：《民法实证研究方法与民法教义学》，载《法学研究》2012年第1期，第49页。

[37]参见徐阳：《论规范研究统领下的刑事诉讼法学研究方法》，载《政法论坛》2019年第2期，第92页。

[38]参见强世功：《中国法律社会学的困境与出路》，载《文化纵横》2013年第5期，第115页。

[39]参见顾培东：《法学研究中问题意识的问题化思考》，载《探索与争鸣》2017年第4期，第48页。

[40]参见侯猛：《社科法学的传统与挑战》，载《法商研究》2014年第5期，第74页。

[41]参见徐昕：《司法的实证研究：误区、方法与技术》，载《暨南学报（哲学社会科学版）》2009年第3期，第57页。

[42]参见程金华：《迈向科学的法律实证研究》，载《清华法学》2018年第4期，第149页。

[43]参见胡平仁、蔡要通：《部门法学领域的法律实证研究——基于文章和课题统计数据的实证分析》，载《学术论坛》2017年第6期，第54页。

[44]参见白建军：《法学研究中的实证发现——以刑事实证研究为例》，载《政治与法律》2019年第11期，第3页。

[45]参见王鹏翔、张永健：《经验面向的规范意义——论实证研究在法学中的角色》，载《北航法律评论》2016年第1卷，第30页。

[46]参见赵雷：《社会科学与法律论证》，载《山东大学学报（哲学社会科学版）》2018年第5期，第75页。

[47]参见[英]萨米尔·奥卡沙：《科学哲学》，韩广忠译，译林出版社2013年版，第24页。

[48]需要说明的是，可证伪性并不是绝对的。参见[英]卡尔·波普：《科学发现的逻辑》，查汝强、邱仁宗译，科学出版社1986年版，第68页。

[49]波普曾举过一个经典例子，不管研究人员观测到多少只白天鹅，都无法得出结论所有天鹅都是白色的；但只要观测到一只黑天鹅，就足以拒绝所有天鹅都是白色的假设。

[50]参见[美]托马斯·库恩：《科学革命的结构》，金吾伦等译，北京大学出版社2003年版，第44页。

[51]参见张永健、程金华：《法律实证研究的方法坐标》，载《中国法律评论》2018年第6期，第154页。

[52]参见彭玉生：《“洋八股”与社会科学规范》，载《社会学研究》2010年第2期，第180页。

[53]参见程金华：《四倍利率规则的司法实践与重构：利用实证研究解决规范问题的学术尝试》，载《中外法学》2015年第3期，第716页。

[54]See Rose McDermott, Internal and External Validity, in Cambridge Handbook of Experimental Political Science 27, 38(James Druckman, Donald Green, James Kuklinski & Arthur Lupia eds., Cambridge University Press 2011).

[55]See Guido W. Imbens, Better LATE than Nothing: Some Comments on Deaton (2009) and Heckman and Urzua (2009), 48 J. Econ. Lit.399, 422(2010).

[56]参见王鹏翔、张永健：《经验面向的规范意义——论实证研究在法学中的角色》，载《北航法律评论》2016年第1卷，第47页。

[57]See Ronald Fisher, Statistical Methods for Research Workers 273(Oliver and Boyd 1925).

[58]其他影响实证研究内部有效性的因素还包括：变量构建（construct validity）、测量偏误（measurement error）和霍索恩效应（Hawthorne effect）等。

[59]See Gary King & Langche Zeng, The Dangers of Extreme Counterfactuals, 14 Pol. Analysis 132, 146(2005).

[60]See Rafael La Porta, Florencio Lopez-de-Silanes & Andrei Shleifer, The Economic Consequences of Legal Origins, 46 J. Econ. Lit.285, 296(2008).

[61]遗漏变量偏误的大小由两方面因素决定：第一，被解释变量与遗漏变量的相关程度；第二，核心解释变量与遗漏变量的相关程度。参见[美]杰弗里·伍德里奇：《计量经济学导论：现代观点》（第五版），张成思等译，中国人民大学出版社2018年版，第576—577页。

[62]See Martijn Cremers & Simone Sepe, The Shareholder Value of Empowered Boards, 68 Stan. L. Rev.67, 85(2016).

[63]See James J. Heckman, Sample Selection Bias as a Specification Error, 47 Econometrica 153, 157(1979).

[64]参见马超、于晓虹、何海波：《大数据分析：中国司法裁判文书上网公开报告》，载《中国法律评论》2016年第4期，第195—246页。

[65]See Susan Athey & Guido W. Imbens, The State of Applied Econometrics: Causality and Policy Evaluation, 31 J. Econ. Perspectives 3, 12(2017).

[66]这里法律规范的实效包含两层含义：第一，是否存在差异制造事实，即法律规范是否引起某项结果的发生；第二，如果存在差异制造事实，法律规范的实效有多大。

[67]参见[英]大卫·休谟：《人性论》，关文运译，商务印书馆2016年版，第282页。

[68]See Paul W. Holland, Statistics and Causal Inference, 81 J. Am. Stat. Assn.945, 948(1986).

[69]See Donald Rubin, Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies, 66 J. Educ. Psychol.688, 692(1974).

[70]See Joshua Angrist & Jorn-Steffen Pischke, Mostly Harmless Econometrics: An Empiricist's Companion 38(Princeton University Press 2009).

[71]See Thad Dunning, Natural Experiments in the Social Sciences 6(Cambridge University Press 2012).

[72]See Vladimir Atanasov & Bernard Black, Shock-Based Causal Inference in Corporate Finance and Accounting Research, 5 Crit. Fin. Rev.207, 226(2016).

[73]统计学将该术语表达为“条件独立假设”（conditional independence hypothesis），即在剔除了控制变量的影响后，处理状态哑变量与被解释变量无关。

[74]See Thomas D. Cook & Donald T. Campbell, Quasi-Experimentation: Design and Analysis Issues for Field Settings 62(Rand-McNally 1979).

[75]回归分析的功能在于通过控制研究对象的其他特征实现条件期望的独立性。See Joshua D. Angrist & Jörn-Steffen Pischke, Undergraduate Econometrics Instruction: Through Our Classes, Darkly, 31 J. Econ. Perspectives 125, 131(2017).

[76]See Marianne Bertrand, Esther Duflo & Sendhil Mullainathan, How Much Should We Trust Differences-in-Differences Estimates?119 Q. J. Econ.249, 253(2004).

[77]参见陈天昊、邵建、王雪纯：《检察行政公益诉讼制度的效果检验与完善路径：基于双重差分法的实证分析》，载《中外法学》2020年第5期，第1328—1352页。

[78]See David S. Lee & Thomas Lemieux, Regression Discontinuity Designs in Economics, 48 J. Econ. Lit.281, 282(2010).

[79]See Guido W. Imbens & Thomas Lemieux, Regression Discontinuity Designs: A Guide to Practice, 142 J. Econom.615, 618(2008).

[80]参见徐文鸣、陶震：《反思多层次资本市场的分层逻辑——基于初级证券交易所的跨国比较研究》，载《政法论坛》2021年第4期，第145—149页。

[81]参见鄢伟波、王小华、温军：《分层制度提升新三板流动性了吗？——来自多维断点回归的经验证据》，载《金融研究》2019年第5期，第172—176页。

[82]See Joshua D. Angrist & Alan B. Krueger, Does Compulsory School Attendance Affect Schooling and Earnings?106 Q. J. Econ.979, 981(1991).

[83]See Donald Rubin, Using Multivariate Matched Sampling and Regression Adjustment to Control Bias in Observational Studies, 74 J. Am.Stat. Assn.318, 324(1979).

[84]由于倾向值是估计所得，因而在回归方程中应当对方差进行调整。See Alberto Abadie & Guido Imbens, Matching on the Estimated Propensity Score, 84 Econometrica 781, 799(2016).

[85]See Daniel E. Ho, Kosuke Imai, Gary King & Elizabeth A. Stuart, Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference, 15 Pol. Analysis 199, 233(2007).

[86]参见胡昌明、赵忠荀、马铁丰：《法律实践与规范的背离：基于聋哑人犯罪从宽量刑的实证检验》，载《山东大学学报（哲学社会科学版）》2020年第2期，第30—39页。