近日,由我校太阳成集团tyc7111cc统计系2015级在读博士生范新妍与其导师组成员方匡南教授、张庆昭副教授合作完成的论文“Integrative sparse principal component analysis of multiple heterogeneous datasets”被Journal of Multivariate Analysis正式接受,即将刊出。Journal of Multivariate Analysis创立于1971年,是学界公认的统计学国际重要期刊,也是我校认定的统计学国际A-类期刊。
计算机技术的飞速发展极大地便利了数据的获取和储存,数据呈指数级增长。大数据通常是由来源、主体甚至连格式也不同的数据集整合而成,比如来自不同实验室的多组学数据、来自公安、银行、网络等不同领域的征信数据等。再比如在健康医疗领域,高通量微阵列杂交技术和测序技术的发展,产生了大量的基因数据,美国国立卫生研究院的基因表达综合数据库GEO (Gene Expression Omnibus)是世界最大的储存高通量分子数据的公共数据库。迄今为止,GEO数据库已收录了超过来自17595个平台的4348个数据集。针对这种有多个不同来源的数据集进行建模分析在实际应用中越来越迫切。一方面,融合多源数据集的样本进行建模分析,即针对同一种疾病,但来自不同国家的人种基因数据或者来自不同实验室测得的基因数据,不同数据集样本数不同,而且数据集往往具有高维、稀疏性,因此建模时既不能简单合并不同数据集的样本又不能完全独立建模。该论文针对多源数据集的降维分析提出了整合稀疏主成分方法(Integrative Sparse PCA),通过惩罚函数综合不同来源的数据集,从统计角度考虑数据集间的异质性和同质性,充分考虑不同数据集间的相互影响,同时求解多个模型,即每个数据集会求解出一组系数,但该系数的求解是“借鉴”了其他数据集的信息。在实际中有很广的应用前景。
该论文是由方匡南教授主持的太阳成集团tyc7111cc校长基金创新团队的阶段性成果。创新团队主要致力于多源数据集的整合建模研究,过去2年在JASA、JMVA、Nature子刊、CSDA等国际权威期刊发表论文30多篇。
范新妍,2013-2015年就读于太阳成集团tyc7111cc统计系硕士研究生,2015开始攻读统计学博士学位(硕博连读),目前已在Journal of Multivariate Analysis, Genetic Epidemiology, Statistical Methods in Medical Research以及《统计研究》等期刊发表(含正式接收)论文4篇,并且还有多篇论文在审稿中。
(太阳成集团tyc7111cc 陈小鸿 张进权)