在上一篇BLOG中,我们提到了手动的误差分析和自动的数值误差分析也就是误差评估,但是仅仅靠简单的误差率来进行评估会出现不小的问题,这篇BLOG就让我们一探究竟。 查准率和召回率 在上一篇BLOG中,我们一同学习了误差分析以及设定误差度量值的重要性。有了算法的评估和误差度量值,有一件重要的事情要注意,就是使用一个合适的误差度量值,这有时会对于我们的学习算法造成非常微妙的影响。 如果我们只是...
在之前的BLOG中,我们学习了一些在搭建机器学习工程的相关技巧。在这篇BLOG中,就让我们从垃圾邮件分类这个小项目入手,看看应该如何着手一个工程吧! 基本模型的建立 接下来我们将一同学习机器学习系统的设计,看看我们可能会遇到的主要问题并探讨高效的解决方法。首先我们举一个垃圾邮件分类的例子,假如我们想建立一个垃圾邮件分类器,首先我们就要找到这些垃圾邮件与非垃圾邮件的相关例子: 比如上图中...
在之前的BLOG里,我们提出了遇到模型不理想的拟合问题,我们该干什么的困惑,并且一同学习了模型评估的数学方法。现在,就让我们从图像出发,再次审视我们的拟合问题,并找到该干什么的答案。 方差与偏差 当我们运行一个学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况,要么是偏差比较大,要么是方差比较大。换句话说出现的情况要么是欠拟合,要么是过拟合。那么这两种拟合问题哪个和偏差有关,哪...
在前面的很长一段时间里,我都一直在更新机器学习的内容。现在机器学习的大致内容也已过半,所以我计划利用这段时间,学习复习一些经典算法。这篇BLOG,就让我们一同来看看三种并查集算法吧! 普通并查集 并查集的概念 什么是并查集呢?并查集,是在一些有 N 个元素的集合应用问题中,体现点归属类别的树状集合。我们通常是在开始时让每个元素构成一个单元素的集合,然后按一定顺序将属于同一组的元素所在的集...
到目前为止,我们已经一同学习了许多不同的学习算法。然而在懂机器学习的人当中,依然存在着很大的差距。一部分人确实掌握了怎样高效有力地运用这些学习算法,而另一些人可能没有完全理解怎样运用这些算法,因此总是把时间浪费在毫无意义的尝试上,接下来我们就来看看如何让确保你在设计机器学习的系统时走的是一条最合适最正确的道路。 接下来该干什么? 为了确保我们不会在无意义的调整上浪费时间,我们需要重点关注...