在之前的BLOG里,我们一同学习了线性回归,逻辑回归,神经网络等诸多算法。而在这篇BLOG,我们就要一同学习一种更加强大的算法——支持向量机(Support Vector Machine),以带给我们一个更加方便快捷的监督学习解决方法。 优化目标 支持向量机(Support Vector Machine)或者简称SVM,是一种在学习复杂的非线性方程时更为清晰更加强大的学习算法,正如我们之...
在之前的BLOG里,我们多次提到数据规模对于机器学习算法的作用。数据规模越大训练出来的算法一定更加优秀吗?这篇BLOG就让我们一探究竟吧。 数据与算法效果 在之前的BLOG里。我曾告诫大家不要盲目地花大量的时间去收集大量的数据,因为数据不一定时时刻刻都能起到作用,比如当你的模型正在欠拟合的情况下。但是不得不承认,有时是唯一能实际起到改良算法作用的就是大量的数据。那么数据到底在学习算法的训...
在上一篇BLOG中,我们提到了手动的误差分析和自动的数值误差分析也就是误差评估,但是仅仅靠简单的误差率来进行评估会出现不小的问题,这篇BLOG就让我们一探究竟。 查准率和召回率 在上一篇BLOG中,我们一同学习了误差分析以及设定误差度量值的重要性。有了算法的评估和误差度量值,有一件重要的事情要注意,就是使用一个合适的误差度量值,这有时会对于我们的学习算法造成非常微妙的影响。 如果我们只是...
在之前的BLOG中,我们学习了一些在搭建机器学习工程的相关技巧。在这篇BLOG中,就让我们从垃圾邮件分类这个小项目入手,看看应该如何着手一个工程吧! 基本模型的建立 接下来我们将一同学习机器学习系统的设计,看看我们可能会遇到的主要问题并探讨高效的解决方法。首先我们举一个垃圾邮件分类的例子,假如我们想建立一个垃圾邮件分类器,首先我们就要找到这些垃圾邮件与非垃圾邮件的相关例子: 比如上图中...
在之前的BLOG里,我们提出了遇到模型不理想的拟合问题,我们该干什么的困惑,并且一同学习了模型评估的数学方法。现在,就让我们从图像出发,再次审视我们的拟合问题,并找到该干什么的答案。 方差与偏差 当我们运行一个学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况,要么是偏差比较大,要么是方差比较大。换句话说出现的情况要么是欠拟合,要么是过拟合。那么这两种拟合问题哪个和偏差有关,哪...