机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent) - CzmMiao的博客生活 - ITeye博客

`

czmmiao

浏览: 4371504 次
性别:
来自: 厦门

最近访客更多访客>>

zzbing

sky3063

hotsunshine

zyi74

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

di1984HIT： xuexilee!!!
Oracle 11g R2 RAC高可用连接特性 – SCAN详解
aneyes123：谢谢非常有用那
PL/SQL的存储过程和函数(原创)
jcjcjc：写的很详细
Oracle中Hint深入理解(原创)
di1984HIT：学习了，学习了
Linux NTP配置详解 (Network Time Protocol)
avalonzst：大写的赞..
AIX内存概述(原创)

机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

博客分类：

机器学习

阅读更多

回归与梯度下降：

回归在数学上来说是给定一个点集，能够用一条曲线去拟合之，如果这个曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归，回归还有很多的变种，如locally weighted回归，logistic回归，等等，这个将在后面去讲。

用一个很简单的例子来说明回归，这个例子来自很多的地方，也在很多的open source的软件中看到，比如说weka。大概就是，做一个房屋价值的评估系统，一个房屋的价值来自很多地方，比如说面积、房间的数量（几室几厅）、地段、朝向等等，这些影响房屋价值的变量被称为特征(feature)，feature在机器学习中是一个很重要的概念，有很多的论文专门探讨这个东西。在此处，为了简单，假设我们的房屋就是一个变量影响的，就是房屋的面积。

假设有一个房屋销售的数据如下：

面积(m^2) 销售价钱（万元）

123 250

150 320

87 160

102 220

… …

这个表类似于帝都5环左右的房屋价钱，我们可以做出一个图，x轴是房屋的面积。y轴是房屋的售价，如下：

如果来了一个新的面积，假设在销售价钱的记录中没有的，我们怎么办呢？

我们可以用一条曲线去尽量准的拟合这些数据，然后如果有新的输入过来，我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合，可能是下面的样子：

绿色的点就是我们想要预测的点。

首先给出一些概念和常用的符号，在不同的机器学习书籍中可能有一定的差别。

房屋销售记录表 - 训练集(training set)或者训练数据(training data), 是我们流程中的输入数据，一般称为x

房屋销售价钱 - 输出数据，一般称为y

拟合的函数（或者称为假设或者模型），一般写做 y = h(x)

训练数据的条目数(#training set), 一条训练数据是由一对输入数据和输出数据组成的

输入数据的维度(特征的个数，#features)，n

下面是一个典型的机器学习的过程，首先给出一个输入数据，我们的算法会通过一系列的过程得到一个估计的函数，这个函数有能力对没有见过的新数据给出一个新的估计，也被称为构建一个模型。就如同上面的线性回归函数。

我们用X1，X2..Xn 去描述feature里面的分量，比如x1=房间的面积，x2=房间的朝向，等等，我们可以做出一个估计函数：

θ在这儿称为参数，在这儿的意思是调整feature中每个分量的影响力，就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令X0 = 1，就可以用向量的方式来表示了：

我们程序也需要一个机制去评估我们θ是否比较好，所以说需要对我们做出的h函数进行评估，一般这个函数称为损失函数（loss function）或者错误函数(error function)，描述h函数不好的程度，在下面，我们称这个函数为J函数

在这儿我们可以做出下面的一个错误函数：

这个错误估计函数是去对x(i)的估计值与真实值y(i)差的平方和作为错误估计函数，前面乘上的1/2是为了在求导的时候，这个系数就不见了。

如何调整θ以使得J(θ)取得最小值有很多方法，其中有最小二乘法(min square)，是一种完全是数学描述的方法，在stanford机器学习开放课最后的部分会推导最小二乘法的公式的来源，这个来很多的机器学习和数学书上都可以找到，这里就不提最小二乘法，而谈谈梯度下降法。

梯度下降的推导过程可以参见下面文章:

http://www.zhizhihu.com/html/y2011/3632.html

梯度下降法是按下面的流程进行的：

1）首先对θ赋值，这个值可以是随机的，也可以让θ是一个全零的向量。

2）改变θ的值，使得J(θ)按梯度下降的方向进行减少。

为了更清楚，给出下面的图：

这是一个表示参数θ与误差函数J(θ)的关系图，红色的部分是表示J(θ)有着比较高的取值，我们需要的是，能够让J(θ)的值尽量的低。也就是深蓝色的部分。θ0，θ1表示θ向量的两个维度。

在上面提到梯度下降法的第一步是给θ给一个初值，假设随机给的初值是在图上的十字点。

然后我们将θ按照梯度下降的方向进行调整，就会使得J(θ)往更低的方向进行变化，如图所示，算法的结束将是在θ下降到无法继续下降为止。

当然，可能梯度下降的最终点并非是全局最小点，可能是一个局部最小点，可能是下面的情况：

上面这张图就是描述的一个局部最小点，这是我们重新选择了一个初始点得到的，看来我们这个算法将会在很大的程度上被初始点的选择影响而陷入局部最小点

下面我将用一个例子描述一下梯度减少的过程，对于我们的函数J(θ)求偏导J：（求导的过程如果不明白，可以温习一下微积分）

下面是更新的过程，也就是θi会向着梯度最小的方向进行减少。θi表示更新之前的值，-后面的部分表示按梯度方向减少的量，α表示步长，也就是每次按照梯度减少的方向变化多少。

一个很重要的地方值得注意的是，梯度是有方向的，对于一个向量θ，每一维分量θi都可以求出一个梯度的方向，我们就可以找到一个整体的方向，在变化的时候，我们就朝着下降最多的方向进行变化就可以达到一个最小点，不管它是局部的还是全局的。

用更简单的数学语言进行描述步骤2）是这样的：

倒三角形表示梯度，按这种方式来表示，θi就不见了，看看用好向量和矩阵，真的会大大的简化数学的描述啊。

参考至：http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathmatic_in_machine_learning_1_regression_and_gradient_descent.html

如有错误，欢迎指正

邮箱:czmcj@163.com

分享到：

UDEV SCSI Rules Configuration for ASM in ... | 浅谈Feature Scaling

2016-08-30 14:21
浏览 1038
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

regression.rar_gradient descent_机器学习_梯度下降: j机器学习方法：采用梯度下降方法进行线性回归。展示了整个回归的过程。

matlab中的pinv代码-Machine-Learning-Linear-Regression-Gradient-Descent:机器学习: matlab中的pinv代码机器学习线性回归梯度下降 #Machine Learning Course Coursera作者：Andrew NG 它包含具有单变量和多变量的线性回归和梯度下降的矢量化实现。它还包括通过正则方程法的解决方案。 #Regression...

【机器学习笔记】第2章：单变量线性回归: 文章目录第2章：单变量线性回归2.1 模型描述 Model representation2.2 代价函数 Cost function2.3 梯度下降 Gradient descent2.4 线性回归的梯度下降 Gradient descent for linear regression 第2章：单变量线性回归...

吴恩达机器学习编程题即部分答案: ] gradientDescent.m - Function to run gradient descent [†] computeCostMulti.m - Cost function for multiple variables [†] gradientDescentMulti.m - Gradient descent for multiple variables [†] ...

人工智能与机器学习简介.pptx: 机器学习(Machine Learning)基础理论基础 VC维理论、信息论、bias-variance tradeoff（过拟合与欠拟合）算法模型决策树、人工神经网络、支持向量机、K-Means…… 优化算法梯度下降（gradient descent）、牛顿法 ...

主成分回归代码matlab及例子-machine-learning-r:R中的机器学习: 线性回归梯度下降（lr_gradientdescent）逻辑回归 Logistic回归成本函数和梯度（logr_cost）逻辑回归优化器（logr_optimize）预测（logr_predict） Softmax回归 Softmax回归成本函数和梯度（softmax_cost） ...

【机器学习笔记】第3章：多变量线性回归: 文章目录第3章：多变量线性回归3.1 多功能 Multiple features3.2 多元梯度下降法 Gradient descent for multiple variables3.3 多元梯度下降法演练I-特征缩放 Gradient descent in practice I:Feature Scaling3.4 ...

【李宏毅机器学习笔记】8、Tips for Training DNN: 【李宏毅机器学习笔记】1、回归问题（Regression）【李宏毅机器学习笔记】2、error产生自哪里？【李宏毅机器学习笔记】3、gradient descent 【李宏毅机器学习笔记】4、Classification 【李宏毅机器学习笔记】5、...

【李宏毅机器学习笔记】7、反向传播（Backpropagation）: 【李宏毅机器学习笔记】1、回归问题（Regression）【李宏毅机器学习笔记】2、error产生自哪里？【李宏毅机器学习笔记】3、gradient descent 【李宏毅机器学习笔记】4、Classification 【李宏毅机器学习笔记】5、...

【李宏毅机器学习笔记】6、简单介绍深度学习（Deep Learning）: 【李宏毅机器学习笔记】1、回归问题（Regression）【李宏毅机器学习笔记】2、error产生自哪里？【李宏毅机器学习笔记】3、gradient descent 【李宏毅机器学习笔记】4、Classification 【李宏毅机器学习笔记】5、...

【李宏毅机器学习笔记】9、卷积神经网络（Convolutional Neural Network，CNN）: 【李宏毅机器学习笔记】1、回归问题（Regression）【李宏毅机器学习笔记】2、error产生自哪里？【李宏毅机器学习笔记】3、gradient descent 【李宏毅机器学习笔记】4、Classification 【李宏毅机器学习笔记】5、...

数据分析--分析方法.docx: （3）梯度下降法求J(θ)的最小值求J(θ)的最小值可以使用梯度下降法，根据梯度下降法可得θ的更新过程：事实上，采用梯度上升法和梯度下降法是完全一样的，这也是《机器学习实战》中采用梯度上升法的原因。...

2020年机器学习深度学习下载地址.txt: 李宏毅2020机器学习深度学习 P1. Machine Learning 2020_ Course Introduction P2. Rule of ML 2020 P3. Regression - Case Study P4. Basic Concept P5. Gradient Descent_1 P6. Gradient Descent_2 P7. ...

浙江大学人工智能课程课件: Stochastic Gradient Descent, Backpropagation Feedforward Neural Network Convolutional Neural Networks Recurrent Neural Network (LSTM, GRU) Generative adversarial network (GAN) Deep learning in NLP ...

吴恩达 Mechine Learning_Week 1 学习笔记: Mechine Learning_Week 1 1 引言1.1机器学习的定义1.2监督学习1.2无监督学习2 单变量线性回归2.1Model Representation2.2Cost Function2.3Gradient Descent2.4Gradient Descent For Linear Regression 1 引言 1.1...

机器学习：机器学习: 实现了不同的机器学习模型，例如梯度下降（线性回归）随机梯度下降支持向量机（二次编程）用于二进制分类分类决策树装袋助推具有松弛功能的双SVM 原始松弛K最近邻居K均值聚类光谱聚类朴素贝叶斯用于分类朴素贝叶斯...

机器学习: 实现了不同的机器学习模型，例如梯度下降（线性回归）随机梯度下降支持向量机（二次编程）用于二进制分类分类决策树装袋助推具有松弛功能的双SVM 原始松弛K最近邻居K均值聚类光谱聚类朴素贝叶斯用于分类朴素贝叶斯...

机器学习：Python机器学习在图像处理和算法实现中的应用，包括期望最大化，因子分析，高斯混合模型，OPTICS，DBSCAN，随机森林，决策树，支持向量机，主成分分析，K最近邻，K Means，朴素贝叶斯混合模型，高斯判别分析，牛顿法，梯度下降: 机器学习介绍机器学习是如此别致，每个程序员甚至非程序员都开始学习。经过几个月的在线课程，每个人都成为了自称为数据科学家。管理人员寄予厚望，并部署数据科学家来进行机器学习。很快，人们遇到了死胡同，...

Week 2 笔记 - by Roger1: 1.Linear Regression 1.Hypothesis: 2.Parameters: 2.Gradient descent 优化 3.Polynomi

Global site tag (gtag.js) - Google Analytics