高维小样本数据在实际应用中相当普遍,例如自然语言处理中的文本数据、计算机视觉中的图像数据、生物信息学中的基因表达谱数据等,给现有的挖掘和学习算法带来了巨大的挑战。随着数据维度的急剧增加,会产生大量的无关以及冗余信息,这些信息可能极大降低机器学习算法的性能,增加计算复杂度,造成“维数灾难”以及“过拟合”问题。特征选择是解决高维小样本问题的一种有效手段,它可以去除大量不相关和冗余的特征,寻找与分类任务强相关的特征子集,从而减少算法运行时间,提高算法精度。因此,开展高维小样本数据环境下的特征选择方法研究具有重要的研究与应用价值。本文选择真实的基因表达谱数据作为具体实验对象选择方法-数控电动液压滚圆机不锈钢滚圆机价格低张家港滚圆机多少钱,将特征选择算法应用于疾病分类问题中,并把分类结果的好坏作为我们特征选择算法的评价指标之—围绕高维小样本的特征选择问题,本文开展了一系列的研究工作本文有张家港市泰宇机械有限公司全自动滚圆机采集网络整理 http://www.gunyuanji.com,主要研究成果包括以下几个方面:(1)针对高维小样本数据会导致“维数灾难”的问题,我们提出一种嵌入特征选择方法K-split Lasso来降维,提高分类模型的精度,解决计算复杂度高的问题。K-split Lasso是基于经典的Lasso方法提出的,其基本思想是将数据集平均划分为K份,分别使用Lasso方法对每份进行特征选择,而后将选择出来的每份特征子集合并,重新进行特征选择,从而得到最终的特征子集。实验结果表明K-split Lasso算法提高了模型的分类精度,在一定程度上解决了“维数灾难”问题。(2)针对高维小样本数据会导致“过拟合”问题,我们结合过滤方法和嵌入方法的优点,并在此基础上提出一种新的混合特征选择方法GSIL,目的是从高维数据中选出具有强类别区分能力的特征子集,解决“过拟合”问题。GSIL方法分为两层,第一层采用信噪比指标衡量特征的重要性,以过滤无关特征;第二层采用改进的Lasso方法(Iterative Lasso)进行冗余特征的剔除。实验结果表明,GSIL算法能够有效提高分类模型的精度,减少了冗余特征,解决了“过拟合”问题,通过与已有的一些特征选择方法进行了分析比较,也验证了GSIL方法的可行性和有效性。选择方法-数控电动液压滚圆机不锈钢滚圆机价格低张家港滚圆机多少钱本文有张家港市泰宇机械有限公司全自动滚圆机采集网络整理 http://www.gunyuanji.com
- [2019-08-06]自适应补偿控制-电动液压弯管机
- [2019-08-06]与能效优化策略-数控滚圆机滚弧
- [2019-08-05]动力响应数值研究-数控滚圆机滚
- [2019-08-05]电抗器的振动研究-数控滚圆机滚
- [2019-08-04]结构温度场解析解-数控滚圆机滚
- [2019-08-04]发电功率平滑控制-数控滚圆机滚
- [2019-08-03]功率控制方法研究-数控滚圆机滚
- [2019-08-03]体积测量方法研究-数控滚圆机滚
- [2019-08-02]沉降控制应用研究-数控滚圆机滚
- [2019-08-02]必要性的初步探究-数控滚圆机滚