在之前的BLOG里,我们一同学习了异常检测系统开发的诸多细节,但是由于我们是对于各个特征分开处理概率的,导致了一些新的问题的产生。这篇BLOG,我们就来看看这些问题,以及学习如何使用多元高斯分布下的异常检测算法进行解决。 原算法的缺陷 对于我们之前学习的异常检测算法,一种可能的延伸多是进一步使用元高斯分布 (multivariate Gaussian distribution),相比较于...
在上一篇BLOG中,我们一同学习了异常检测算法的原理和实现,在这篇BLOG中,就让我们来看看更多在开发异常检测系统中的实现细节吧! 评估系统 在开发机器学习系统的时候,我们往往需要一个评估系统来评价我们的系统优劣。所以在系统开发的第一部分,我们将重点关注如何评价一个异常检测算法。 在之前的BLOG中,我们已经提到了使用评估系统的重要性,这样做的想法是当我们在用某个学习算法来开发一个具体的...
在之前的BLOG里,我们一起研究了两类无监督学习算法模型,在这一部分,就让我们一同来看看另一种无监督学习的模型——异常检测吧。 问题动机 在这篇BLOG中,我们将一同学习异常检测(Anomaly detection)算法,而这也是无监督学习机器学习算法的一个常见应用。这种算法的一个有趣之处在于它虽然主要用于非监督学习问题但从某些角度看又类似于一些监督学习问题。下面就让我们细细道来。 首先...
在之前的BLOG中,我们学习了如何运用PCA进行降维。在这篇BLOG里,就让我们一同来看看PCA的几个应用吧! 压缩重现 在之前的BLOG我们一同学习了如何运用 PCA (主成分分析) 来进行压缩数据,我们现在能将高达一千维度的数据压缩到 只有一百个维度,或者将三维数据压缩到两个维度……那么按照道理来说如果有一个这样的压缩算法,那么也应该有一种方法可以从压缩过的数据近似地回到原始高维度的...
对于降维问题来说,目前最流行且最常用的算法是主成分分析法 (Principal Componet Analysis, PCA),这篇BLOG就让我们手把手学习并实现PCA算法吧。 了解PCA算法 在这一部分,我想首先开始讨论 PCA 问题的公式描述。也就是说我们尝试用公式准确地精确地描述我们想让 PCA 来做什么。 假设我们有下图这样的一个数据集,这个数据集含有二维实数空间内的样本 X:...