数据预处理基本方法 发表于 2017-04-06 | 分类于 数据挖掘 本文介绍进行数据挖掘和机器学习之前需要对数据进行的基本预处理方法[1],包括量纲标准化、有偏数据的检测和转换、离群点的检测和处理、降维、特征选择、缺失值处理、去除或者增加predictor、样本类别失衡处理,针对不同的数据挖掘任务和机器学习模型需要采用相应的预处理方法。采用UCI上的adult数据集作为例子分析。 阅读全文 »
SVM模型的由来及SMO算法的python实现 发表于 2017-04-03 | 分类于 机器学习 本文从感知机模型出发,分析支持向量机在此基础上希望解决的问题,从SVM的原始形式推导出对偶形式,然后介绍求解SVM对偶形式问题的SMO算法的主要步骤,最后给出Python实现。 阅读全文 »
adaboost算法的python和R实现 发表于 2017-04-03 | 分类于 机器学习 本文对Adaptive Boosting算法进行简单介绍,并分别利用Python和R语言进行了实现,只适用于数值类单特征的二分类问题。 阅读全文 »