因果数据融合的持重直接学习方法
定义给定一组背景属性下,治疗组与对照组的结果均值之差为平均治疗效应(cate),估计cate是观察性研究中的基本问题之一,如医疗处理对患者的平均因果效应。研究者们提出了很多方法来估计单个数据集上的cate,但由于样本量无限,得到的因果效应估计值精度较低。一个自然的想法是结合其他类似的数据集,增大样本量,提高因果效应估计的精度。同时,在大数据时代下,多源异构数据的爆炸性增长也为数据融合估计cate带来了令人兴奋的机遇和挑战。
在本文中,我们主要介绍一种基于同质和异质数据估计cate的因果数据融合方法。首先,提出数据融合的直接学习框架,将目标因果效应从其他函数中分离出来,并实现因果效应估计的双重稳健性。其次,为提高估计的精度和稳定性,本文基于半参数服从理论,提出因果信息感知加权函数。最后,基于构造伪结果和在加权最小二乘准则下对协变量进行回归,引入一种加权多源直接学习器(wmdl),其具有易实现、双重稳健性和模型灵活性的优点。下面我们进行具体介绍。
一、定义与符号
按照惯例,大写字母表示随机变量,小写字母表示具体实现值;y表示感兴趣的结局,a表示二值处理目标,x表示协变量,y (a)表示当治疗a被设置为a时观察到的潜在结果。
1.1 异质医治效应:,其中,。它可表示由协变量X不同定义的不同亚群间的平均处理效应的异质性。另一方面,考虑关于结果的一般模型,观察到的结果可以通过以下建模:
(1)
其中,,令为主要效应函数,为处理效应函数。注意到,因此,估计CATE等价于估计处理效应函数。
1.2 异构数据源:假设数据来自K个相互独立的数据源,数据源S = {1,···,K}。考虑在不同数据集中观察到的协变量不同,令X表示所有数据集共有的感兴趣的协变量,表示第s个数据集中除协变量X之外特有的协变量。表示从第S个数据源观察到的数据集,因此,其中样本独立同分布,服从于。当不同来源的数据是来自同一大总体的样本时,本文将这些数据称为同构数据,否则称为异构数据。
1.3 假设:
二、方法
2.1 因果数据融合
在多个数据源的场景下,按照公式(1)相同的推导,对观察到的结果进行建模得公式(2):,
1)同构因果数据融合,其中不同数据源之间的条件平均处理效应是相等的,即;
2)异构因果数据融合,至少有一个数据源与其他数据源具有不同的条件平均处理效应。
2.2 同质因果数据融合的直接学习
令表示治疗倾向评分、表示选择倾向得分,有和。
部分平衡性:若
依据部分平衡性,建立同质因果数据融合的双重稳健性直接学习方法,即定理1:若假设1-3成立,且是任意的正可积函数,则,其中每个数据源需满足以下条件之一:1);2)主要效应函数,并且满足关于的部分平衡性。
2.3 因果信息感知加权函数
如定理1所示,权值函数在直接学习中起着重要的作用;的选择不一定影响估计的一致性,但影响估计量的效率。理想的权重应该是有利于提高估计精度和稳定性。为此,本文提出一个由半参数效率界驱动的加权函数,描述用于推断目标参数所包含的观测数据中的信息量。在不失一般性情况下,将第一个数据源设置为目标数据源,即它的样本是从我们感兴趣的总体中提取的。
对应于数据集s和混杂x的界用表示,基于数据的任何正则渐近线性估计量的渐近方差都不能小于这个界。则和之间关于x的相对信息为
以上加权函数可以分解为两个分量的乘积:1)转移项描述第s个数据源与目标数据源之间的不平衡性,占目标种群较大份额的亚种群分配更大的权重;2)信息项描述满足的因果信息量,因此包含更多因果信息的样本分配更大的权重。
最后,提出加权多源直接学习器(WMDL)方法,如算法1:
2.4 异构因果数据融合的直接学习
由于异构因果数据融合中假设3不再满足,我们将重写为,因此感兴趣的因果效应量是。类似于定理1,若满足假设1-2,我们可通过求解得到函数。
因此,对于异构因果数据融合,我们仍可应用所提出的WMDL,以一种直接、灵活并鲁棒的方式来估计CATE。具体来说,nuisance估计器与同构因果数据融合设置保持相同,并且CATE的估计过程与算法1相似,只是最后一步我们是求解。
三、讨论
本文考虑所有数据集包含共有的协变量X,然而,在某些情况下,只有目标人群的协变量可获得。因此,将其他数据源的因果效应迁移到目标人群也是很有趣的,并本文提出的WMDL也可以应用于因果迁移学习。同时,本文提出的因果数据融合的直接学习方法是双加权的,其中治疗倾向评分调整了偏差并增强了鲁棒性,因果信息感知加权函数提高了效率。在未来,或许可以考虑将模型的不确定性添加到加权函数中,以获得更稳定的性能。
四、参考文献
[1] Li, Xinyu, et al. “Robust Direct Learning for Causal Data Fusion.” arXiv preprint arXiv:2211.00249 (2022).
本文链接: https://www.yizhekk.com/1247168992.html