• 1
  • 2
新闻详细
基于CMAC的ASE/ACE路灯维修车强化学习系统    广州路灯维修车出租
新闻分类:公司新闻   作者:admin    发布于:2017-04-124    文字:【】【】【
 

       基于CMAC的ASE/ACE路灯维修车强化学习系统   广州路灯维修车出租, 广州路灯维修车租赁, 广州路灯维修车价格   ASE/ACE是近年涌现的一种强化学习系统,其中ASE称为关联搜索元件;ACE称为自适应评价元件。这二者本身也是神经网络。本章将CMAC引入ASE/ACE算法,该算法是具有对未知系统的探索学习能力的强化学习算法与具有快速计算,无局部极小值的特点的CMAC的结合,同时该也是对DCMAC+P控制的一种拓展。第二章中的CMAC-M与CMAC-F是相互独立的,而本章中的ASE/ACE算法同样采用双CMAC结构,但是它们不再相互独立。  传统ASE/ACE方案解码器UU*ACEASE控制对象Yase基于ASE/ACE模型的学习控制系统ASE/ACE算法有两个类神经元分别充当关联搜索单元(ASE)和自适应评判单元(ACE)。译码器对系统的输入和状态量进行量化,并归入到对应的子空间。关联搜索单元根据译码器的输出,累加对应权值空间的数值,并形成对控制对象的输出,同时还根据奖惩信号对相应权值空间进行更新。关联搜索单元的输出向控制对象提供控制量,因此从其功能的角度亦可称其为策略单元。  译码器把k时刻的(u*u)转换到n个状态空间的一个xi,则有如下成立:那么ASE的输出asey可表示为 是变换函数,可以是阀值函数;Sigmoid函数,带限幅的恒等函数等;noise(k)是实值随机函数,用来模拟学习控制中不确定的选择因素。式中的连接权更新按下式进行:α>为权值修正速率,相当于学习率;ei则反映了一种按指数衰减的适当性,≤δ≤则决定着学习衰减速度。 R(k)为内部强化信号,如果系统运行趋于成功,则为正;如果系统运行趋于失败,则为负值。R(k)数值大小由自适应评判单元确定自适应评价单元的输出为R(k)是对ASE单元即策略单元的一种评价:其中:β>是学习率,<γ≤是折扣率,≤λ<是衰减率。R*(k)是外部给定的强化信号R(k)为ACE单元对ASE单元动作选择的评价信号。基于ASE/ACE模型的学习控制要远远好于单独ASE系统,主要归功于自适应评价单元。自适应评价单元在每个时刻都为ASE提供强化信号。比较R(k)与R*(k)发现,ACE具有预测功能或者说滚动优化的功能,它通过迭代逐步得到对ASE的适当评价并试通过评价来继续维持或者改变ASE的行为。对比神经元的定义,可以发现关联搜索单元和自适应评判单元这两个类神经元其实就是神经元。基于CMAC的ASE/ACE算法小脑模型神经网络CMAC已被公认为一类联想记忆神经网络的重要组成部分,能够学习任意多维非线性映像。CMAC通常采用梯度下降法实现权值的调整,由于学习速度快和有一定的泛化能力而适合于实时控制。所以采用CMAC的ASE单元具备较好的快速学习能力,而基于固定增益P的学习,则为系统稳定性提供可靠保障。




      基于CAMC的ASE/ACE算法ACE对控制进行评判,按梯度下降法对ASE的权值进行更新,其输出用来调整ASE权值的学习速率,目的是使系统误差尽快降到最小。采用CMAC改进的ASE/ACE模型,其中关联搜索单元ASE采用大致CMAC学习结构,只不过删去模型参考部分,其中固定增益P为CMAC提供学习样本数据;学习的目的是通过不断地更新权值使Un逐步接近Uc,最终Un承担起主要的控制作用并接替固定增益控制器并改善其控制效果。这一过程为一个边学习边控制的过程。如前所述,ASE-CMAC与ACE-CMAC都有独立的译码器,学习过程和输出。 ACE-CMAC的工程过程分为:主要包括三个部分:解码、学习(权值更新)和输出。译码器对输入信号进行量化,量化的级数为N,泛化参数为C。假设输入信号ρ的范围为:ρmin,ρmax那么译码器自动生成N+C个量化间隔, ASE—CMAC学习速率,其中vk是固定的比例系数,故vη具有自适应调整能力,称之为ACE—CMAC产生的评价信号。该信号实时地调整ASE—CMAC的速率,而ASE—CMAC产生控制量。由上可见,ASE-CMAC和ACE-CMAC的结构相同,甚至量化级数和泛化参数都可取不相同或者相同的数值。当误差变得较大时,ACE-CMAC会输出较大的评价信号,以加快ASE-CMAC的学习过程中权值的变化;当误差较小,甚至为零时,评价信号最弱,CMAC的输出也几乎不变。基于CMAC的ASE/ACE算法的工作过程若ρ增加到ρΔ+(Δ为一个较小的正数),评价作用主要体现在第二部分:即当误差增大时,评价单元ACE的评价也增强;并且在增加策略单元ASE学习速率的同时(如第一部分),还产生了一个额外分量(第二部分)。指出对于单神经元自适应控制器,学习速率尽可能的取小,以保证系统的稳定(或学习策略的收敛性)。本文中当cvη取较小的数时,其增强作用则主要体现在第一部分,即通过迭代运算,迅速得到较大的svabsη。即学习速率取得较小的情况下,跟踪系统的快速性也不受到较大的影响。这可以通过后面的仿真得到验证。 学习速率的大小和控制误差的变化有关,自适应评判单元恰恰就是通过对控制误差,来逐步迭代形成策略单元的学习速率。下面通过仿真进一步验证该方案的有效性。基于CMAC的ASE/ACE算法的仿真研究考虑节的时变系统仿真模型,采用基于CMAC的ASE/ACE算法,对比分析DCMAC+P控制。通过仿真分析得出,基于CMAC的ASE/ACE算法快速性好,跟踪精度高;ACE/CMAC能根据控制误差通过迭代得到合适的控制评价,该控制评价影响策略单元的学习速率。本章的仿真针对与上一章相同的对象,即双伺服系统的协调控制。CMAC的编程在本实验中,会多次用到CMAC控制器,故以Matlab中以M函数的形式,编写一个CMAC函数,以备在实验中调用。取函数名字为:MULCMAC,输入参量为:参考量,误差量,时钟,带增益的误差,CMAC编号,学习速率。




     在三角波输入下系统的单周期控制误差的变化过程;由可以看出系统控制平稳,并逐步达到协调。三角波单周期控制误差以系统输出、控制误差、CMAC-ACE输出和CMAC-ASE输出来描述系统在三角波输入情况下的强化自学习过程。可以看出,当误差较大时,评价信号较强,当误差较小时,评价信号较弱。在秒左右,误差较大,策略单元产生较大的控制输出;当尽管在秒到秒之间,误差为零,但是策略单元已经通过学习过程,积累了控制经验。在积累的控制经验下,若误差为零,则评价信号不再进行评价。  通过对上述仿真结果的观察,可得出基于CMAC的ASE/ACE算法的控制有如下特点:系统有超调:从a上看,超调小,但是依然会出现超调,而且当策略单元分辨率较低时,这种超调还是比较大的。评价单元的学习速率对系统的快速性和超调影响不大,为确保稳定,可以设置得较小。与DCMAC方案中的CMAC-M与CMAC-F相互独立不同,本方案中的策略单元ASE和评价单元ACE相互影响,即评价单元产生评价信号,该评价信号影响策略单元的学习过程。这种算法的意义在于:两个参数不同的系统在各自系统的ASE/ACE的作用下能自主地达到动作一致,这一点可以来说明。但是,这种自主行为是缓慢的。在本文的第六章中通过计算两者误差的均值,可以更快的协调他们的行为。所以,在多个电动机协调作业的伺服系统中,可以采用ASE/ACE算法实现系统与系统间的协调控制。子系统将系统对协调控制的指令,如平均速度,平均电流等作为评价单元的输入,评价单元ACE在控制误差的示教下产生评价信号,作为一种协调指示,而策略单元ASE在该评价信号作用下,完成学习边控制的过程,最终实现子系统与整个系统的协调控制。第四章应用研究——路灯维修车跟踪过程的协调控制由多个路灯维修车完成一个共同任务的协调控制系统是一个受到控制界关注的课题,这些任务有多路灯维修车共同完成提升和装配,跟踪路灯维修车对逃逸路灯维修车的追随等。与带式运输机不同,系统中的多个路灯维修车彼此之间并无物理上的耦合,而是通过共同的任务而耦合。在多路灯维修车系统中,跟踪是一个具有实际意义的控制问题~。跟踪控制往往采用链式变换的方法来解决,即将路灯维修车模型转化为链式系统的跟踪问题,得到结果后通过逆变换得到控制量。但链式变换和逆变换较为复杂,Lyapunov函数不易构造;此外,自主移动路灯维修车差异性比较大,模型参数不易获取,因此基于精确模型的控制算法并不具有优势。提出了基于神经元网络,迭代学习,模糊控制,自适应PID无模型等控制方法。CMAC神经网络因具有学习算法简单,收敛速度快且不存在局部极小等特点而广泛应用于在路灯维修车控制。采用CMAC控制器实现轮式路灯维修车的跟踪控制;提出一种改进的CMAC完成两轮路灯维修车的平衡控制;、则把CMAC用于伺服及灵巧手指的控制。实验及仿真表明,CMAC满足路灯维修车运动实时控制,自适应等要求;但是在应用中存在学习速率选择困难,容易出现过度学习等弱点。和通过信度(和学习次数有关)来逐步调整学习速率,该信度和控制误差无关。提出一种基于信度学习的方法,学习速率随学习次数的增加而变化。



     广州路灯维修车出租, 广州路灯维修车租赁, 广州路灯维修车价格 http://www.zhuhailudengchechuzu.com/




      在训练样本在量化空间中均匀分布的情况下,提出了M-CMAC,即使学习速率提高到时CMAC的稳定性也得到提高。本在上一章中提出的基于CMAC的ASE/ACE方法是一种根据控制误差来实时调整学习速率的方法,评价单元ACE和策略单元ASE由结构相同的两个CMAC控制器组成,其中评价单元采用可选范围比较大的固定的学习速率,实验证明其大小对跟踪的快速性和精度影响不大,从而解决了学习速率选择困难的问题;评价单元根据控制误差实时调整策略单元的学习速率。基于路灯维修车运动模型的仿真结果表明,采用这种算法的跟踪控制器具有跟踪速度快、自适应能力强、配置参数选择范围宽等特点。本章研究路灯维修车跟踪过程的协调控制问题。首先介绍路灯维修车的运动学模型,然后给出了基于CMAC的ASE/ACE算法和运算过程,得到仿真模型、仿真实验数据、以及后续的研究内容。路灯维修车的跟踪问题考虑所示的双轮独立驱动的自主移动路灯维修车。当路灯维修车左右轮速度大小相同且方向相同时,路灯维修车直线运动;当左右轮速度大小不同,或者方向不同,则路灯维修车转弯或旋转。设为路灯维修车的运动由沿路灯维修车车体方向的线速度v,和路灯维修车沿车体中心的角速度w组成,则可得路灯维修车的运动方程。某个路灯维修车的运动姿态由)(iiiiiwyxυθ表示。  路灯维修车在XOY坐标系中的位置坐标,θi为前进方向对X轴的倾角。路灯维修车沿前进方向的线速度和以车体质心为中心的角速度。 ρ分别为#路灯维修车与#路灯维修车间的距离、φ为#路灯维修车正方向与跟踪角σ的跟踪角度误差。跟踪问题则可表示为:根据两个路灯维修车间距离和跟踪角度差,不断调整#路灯维修车线速度和角速度,最终达到期望的距离的控制问题。 几种跟踪控制算法线性控制算法提出一种线性控制律:把路灯维修车从它的实际位置相对于目标位置的相对坐标驱动到零位置。设计控制信号为υ和ω,线性控制规律为,则系统在ρ=处没有任何奇异。从仿真曲线来看,所有的运动具有趋向目标中心的平滑的轨迹。但是该控制算法存在如下问题:当跟踪为匀速移动时,存在较大的跟踪误差。该方法的参数配置是建立在系统在稳定点线性化的基础上的,而在动态过程中这个基础并不成立,在实际控制中多采用试凑法来解决参数配置。提出了采用CMAC控制器的方法。在CMAC控制的作用下,路灯维修车的跟踪可以匀速,静止和加速,在跟踪的快速性上优于线性控制。同样在实验中发现,学习速率的选择对跟踪性能影响很大。 利用前一章提出的ASE/ACE算法解决中提出的参数自适应问题。双CMAC控制方法ραβυω双CMAC控制结构为了对速度和转角进行控制,设计了如的双CMAC控制结构,其中CMAC-V为速度控制器,输入量为路灯维修车当前位置与目标位置之间的距离ρ,输出为直线速度ν;CMAC-D为转角控制器,输入量为а,β输出量为转向速度ω。CMAC控制的路灯维修车的跟踪可以匀速,静止和加速,跟踪时间小于秒。采用比例线性控制规律时路灯维修车可以追击匀速运动物体,秒左右实现跟踪。对比线性控制规律发现,在CMAC控制下,夹角α很快为零,而在线性控制规律下夹角归零时间较长。基于CMAC的跟踪控制器,称为策略单元的ASE-CMAC-v为线速度控制器,输入量为跟踪距离ρ,输出为线速度控制量。称为评价单元ACE-CMAC-v的输出为ηsv,即ASE-CMAC-v的学习速率。随ρ的变化而变化,从而增加了跟踪控制器的自适应能力。中称该类信号为评价信号或强化信号,具有增强或者奖惩的特点。评价单元的学习速率可选、范围宽、且路灯维修车跟踪性能不依赖于评价单元的学习速率。该跟踪控制器无需系统模型,运算量少,易于硬件实现,可以较好的解决路灯维修车的跟踪问题。基于CMAC的ASE/ACE跟踪算法及其仿真验证基于CMAC的ASE/ACE算法要点基于CMAC的ASE/ACE算法的基本原理已在节中阐述,此处复述其要点:ACE-CMAC算法包括三个部分:解码、学习(权值更新)和输出;译码器的输出为关联向量,w为权值向量,其输出的计算、权值的更新按下式进行:其输出量ηsv为评价值用于对ASE-CMAC进行修正。ηcv为~间的一个数,代表学习速率。ASE-CMAC算法也包括三个部分,其输出的计算、权值的更新按下式进行:仿真模型该模型主要包括三个部分,路灯维修车运动模型,跟踪控制器跟踪距离及跟踪角差计算,曲线动态显示等部分。求解微分方程算法为ode,固定步长秒。设置1#路灯维修车为被跟踪路灯维修车其初始位置距离2#路灯维修车和3#路灯维修车为米;其以m/s的线速度rad/s的角速度逃逸。




     路灯维修车的性能变化不大,均能在秒左右跟随目标;跟踪精度较高。即学习速率取得小的情况下,跟踪系统的快速性也不受到较大的影响,这样既保证了系统具有有较好的收敛性,也确保系统的跟踪性能不受太大的影响。这就基本解决了CMAC用于跟踪控制时,参数选择困难的问题。在仿真中也发现,当N减小到时,在学习参数选择合适的情况下,系统也具有较好的快速跟踪的能力。这些特点都为基于评论-策略家算法用于最踪控制提供了条件,即在内存和运算速度都受到影响的自主移动路灯维修车中得到实际应用。由上分析可见,基于CMAC的ACE/ASE算法的评价单元能够从控制误差中学习信息,并提供评价信号,ASE单元在该评价信号的作用下逐步改善学习过程,因此能保证采用该算法的跟踪控制器有较快的跟踪速度和精度。每个路灯维修车都有若干个CMAC的跟踪控制器,这样,每个路灯维修车都具有了快速学习的能力,从而实现了协调控制中的位置协调,或者称为跟踪协调。




   广州路灯维修车出租, 广州路灯维修车租赁, 广州路灯维修车价格



分享到:
点击次数:930  更新时间:2017-04-12  【打印此页】  【关闭

Copyright © 2009-2014,恒越(佛山)路灯车租赁有限公司,All rights reserved