中国机械工程 ›› 2025, Vol. 36 ›› Issue (12): 2986-2992.DOI: 10.3969/j.issn.1004-132X.2025.12.022
• 智能制造 • 上一篇
妥吉英(
), 徐笑南, 李俊, 张玉琛, 黄安, 胡都, 刘梓林(
)
收稿日期:2025-04-09
出版日期:2025-12-25
发布日期:2025-12-31
通讯作者:
刘梓林
作者简介:妥吉英,男,1988年生,讲师、硕士研究生导师。研究方向为智能控制、非线性动力学。发表论文20余篇。E-mail:tjy@cqut.edu.cn。
基金资助:
Jiying TUO(
), Xiaonan XU, Jun LI, Yuchen ZHANG, An HUANG, Du HU, Zilin LIU(
)
Received:2025-04-09
Online:2025-12-25
Published:2025-12-31
Contact:
Zilin LIU
摘要:
为提升柔性动作-评价(SAC)算法的收敛速度及训练的稳定性,在引入优势函数与奖励聚中机制的基础上,提出一种改进SAC算法。为验证改进SAC算法的训练效果,在六轴机械臂路径规划场景中进行了仿真分析,并与深度确定性策略梯度(DDPG)算法、双延迟深度确定性策略梯度(TD3)算法及SAC算法进行对比。结果显示,改进SAC算法在收敛速度和稳定性上均超越DDPG、TD3与SAC算法,训练1500回合后其路径规划成功率较SAC算法提高4.8%。进一步的实验验证了改进SAC算法的规划结果在真实环境中的可行性与有效性。
中图分类号:
妥吉英, 徐笑南, 李俊, 张玉琛, 黄安, 胡都, 刘梓林. 一种基于改进SAC算法的六轴机械臂路径规划[J]. 中国机械工程, 2025, 36(12): 2986-2992.
Jiying TUO, Xiaonan XU, Jun LI, Yuchen ZHANG, An HUANG, Du HU, Zilin LIU. A Six-axis Robotic Arm Path Planning Based on Improved SAC Algorithm[J]. China Mechanical Engineering, 2025, 36(12): 2986-2992.
| 关节 | ||||
|---|---|---|---|---|
| 1 | 64.2 | 1.571 | 149.58 | 0 |
| 2 | 305 | 0 | 0 | |
| 3 | 0 | 1.571 | 0 | 3.142 |
| 4 | 0 | 213.91 | 0 | |
| 5 | 0 | 1.571 | 0 | 1.571 |
| 6 | 0 | 0 | 74.91 | 0 |
表1 MDH参数表
Tab.1 MDH parameter table
| 关节 | ||||
|---|---|---|---|---|
| 1 | 64.2 | 1.571 | 149.58 | 0 |
| 2 | 305 | 0 | 0 | |
| 3 | 0 | 1.571 | 0 | 3.142 |
| 4 | 0 | 213.91 | 0 | |
| 5 | 0 | 1.571 | 0 | 1.571 |
| 6 | 0 | 0 | 74.91 | 0 |
| DDPG | TD3 | SAC | 改进SAC | |
|---|---|---|---|---|
| 成功率/% | 82.46 | 91.44 | 91.53 | 96.33 |
表2 不同的DRL算法路径规划结果对比
Tab.2 Comparison of path planning results of different DRL algorithms
| DDPG | TD3 | SAC | 改进SAC | |
|---|---|---|---|---|
| 成功率/% | 82.46 | 91.44 | 91.53 | 96.33 |
图11 六轴机械臂关节转角仿真曲线(实线)与关节角度测量曲线(点线)的对比
Fig.11 Comparison of joint angle simulation curve (solid line) and joint angle measurement curve (dashed line) for a six-axis robotic arm
| [1] | LIU Y C, HUANG C Y.DDPG-based Adaptive Robust Tracking Control for Aerial Manipulators with Decoupling Approach[J].IEEE Transactions on Cybernetics, 2021(99):1-14. |
| [2] | ALI A A, SHI J F, ZHU Z H.Path Planning of 6-DOF Free-floating Space Robotic Manipulators Using Reinforcement Learning[J].Acta Astronautica, 2024, 224:367-378. |
| [3] | 戴晟潭,王寅,尚晨晨.基于深度强化学习的多无人车协同路径规划方法[J/OL].北京航空航天大学学报, 2024.(2024-09-10)[2025-04-08]. . |
| DAI Shengtan, WANG Yin, SHANG Chenchen.Multi-UAV Collaborative Path Planning Method Based on Deep Reinforcement Learning[J/OL]. Journal of Beijing University of Aeronautics and Astronautics, 2024. (2024-09-10)[2025-04-08]. . | |
| [4] | 陈学松,杨宜民.强化学习研究综述[J].计算机应用研究, 2010, 27(8):2834-2838. |
| CHEN Xuesong, YANG Yimin. A Review of Reinforcement Learning Research[J]. Computer Applications and Research, 2010, 27(8):2834-2838. | |
| [5] | 李永迪,李彩虹,张耀玉,等.基于改进SAC算法的移动机器人路径规划[J].计算机应用, 2022, 43(2):654-660. |
| LI Yongdi, LI Caihong, ZHANG Yaoyu, et al. Path Planning of Mobile Robots Based on the Improved SAC algorithm[J]. Computer Applications, 2022, 43(2):654-660. | |
| [6] | 刘正发.面向局部路径规划的深度强化学习移动机器人导航[D].贵阳:贵州大学,2021. |
| LIU Zhengfa. Deep Reinforcement Learning-based Mobile Robot Navigation for Local Path Planning[D]. Guiyang: Guizhou University, 2021. | |
| [7] | 裴结安.基于深度强化学习的机械臂动态避障规划策略研究[D].南昌:华东交通大学,2022. |
| PEI Jiean. Research on Dynamic Obstacle Avoidance Planning Strategy of Robotic Arm Based on Deep Reinforcement Learning[D]. Nanchang:East China Jiaotong University, 2022. | |
| [8] | ZHANG Y, CHEN P.Path Planning of a Mobile Robot for a Dynamic Indoor Environment Based on an SAC-LSTM Algorithm[J].Sensors, 2023, 23(24): 9802. |
| [9] | KHALIL W, KLEINFINGER J.A New Geometric Notation for Open and Closed-loop Robots[C]∥IEEE International Conference on Robotics & Automation.San Francisco, 1986:1174-1179. |
| [10] | 靳雁霞,乔星宇,张翎,等.布料与刚体模型间的空间网格碰撞检测方法[J].中国图象图形学报, 2024, 29(10):3144-3156. |
| JIN Yanxia, QIAO Xingyu, ZHANG Ling, et al. A Spatial Mesh Collision Detection Method Between Cloth and Rigid Body Models[J]. Journal of Image and Graphics, 29(10), 3144-3156.. | |
| [11] | CAO X, ZOU X, JIA C,et al.RRT-based Path Planning for an Intelligent Litchi-picking Manipulator[J].Computers and Electronics in Agriculture, 2019, 156:105-118. |
| [12] | SUTTON R S, BARTO A G.Reinforcement Learning: an Introduction[J].IEEE Transactions on Neural Networks, 1998, 9(5):1054. |
| [13] | BELLMAN R. A Markovian Decision Process[J]. Journal of Mathematics and Mechanics, 1957(6): 679-684. |
| [14] | 张宇航, 陈雯柏, 张佳琪, 等. 一种面向六自由度机械臂柔顺装配的深度强化学习策略[J]. 重庆理工大学学报 (自然科学), 2025, 38(12): 148-154. |
| ZHANG Yuhang, CHEN Wenbai, ZHANG Jiaqi, et al.A Deep Reinforcement Learning Strategy for Compliant Assembly of Six-degree-of-freedom Robotic Arms[J]. Journal of Chongqing University of Technology (Natural Science), 2025, 38(12): 148-154. | |
| [15] | HAARNOJA T, ZHOU A, HARTIKAINEN K,et al.Soft Actor-Critic Algorithms and Applications[EB/OL].[2025-04-08].. |
| [16] | 何联格,李天华,聂远航,等.一种基于DDPG算法的6轴机械臂控制研究[J].重庆理工大学学报(自然科学), 2023, 37(9):134-140. |
| HE Lianluo, LI Tianhua, NIE Yuanhuang, et al. A Study on the Control of a 6-axis Robotic Arm Based on the DDPG Algorithm[J]. Journal of Chongqing University of Technology(Natural Science), 2023, 37(9), 134-140. | |
| [17] | 时高松, 赵清海, 董鑫, 等. 基于 PPO 算法的自动驾驶人机交互式强化学习方法[J]. 计算机应用研究, 2024, 41(9):2732-2736. |
| SHI Gaosong, ZHAO Qinghai, DONG Xin, et al. A Human-machine Interactive Reinforcement Learning Method for Autonomous Driving Based on the PPO Algorithm[J]. Application Research of Computers, 2024, 41(9):2732-2736. | |
| [18] | 方宝富, 余婷婷, 王浩, 等. 稀疏奖励场景下基于状态空间探索的多智能体强化学习算法[J]. 模式识别与人工智能, 2024, 37(5): 435-446. |
| FANG Baofu, YU Tingting, WANG Hao, et al.Multi-agent Reinforcement Learning Algorithm Based on State Space Exploration in Sparse Reward Scenarios[J]. Pattern Recognition and Artificial Intelligence, 2024, 37(5): 435-446. | |
| [19] | NAIK A, WAN Y, TOMAR M, et al. Reward Centering[EB/OL]. [2025-04-08].. |
| [1] | 张道德, 卢子健, 赵坤, 杨智勇. 非平坦环境下履带机器人多目标路径规划方法研究[J]. 中国机械工程, 2025, 36(02): 305-314. |
| [2] | 张志文1, 2, 刘伯威3, 张继园1, 唐杰1, 张天赐1, 2. 麻雀搜索算法-粒子群算法与快速扩展随机树算法协同优化的智能车辆路径规划[J]. 中国机械工程, 2024, 35(06): 993-999,1009. |
| [3] | 唐炜, 孙宇, 顾金凤, 陈远. 连续切换轮系下变尺寸物料的传输模型与路径规划[J]. 中国机械工程, 2023, 34(11): 1372-1385. |
| [4] | 武星, 杨俊杰, 汤凯, 翟晶晶, 楼佩煌. 面向复合地图的移动机器人分层路径规划[J]. 中国机械工程, 2023, 34(05): 563-575. |
| [5] | 张家旭, 周时莹, 李长龙, 郭崇, 赵健. 线控四轮转向汽车自主代客泊车路径规划[J]. 中国机械工程, 2022, 33(08): 993-1000. |
| [6] | 邹裕吉, 宋豫川, 王馨坤, 王毅. 自动导向小车与加工设备多目标集成调度的聚类遗传算法[J]. 中国机械工程, 2022, 33(01): 97-108. |
| [7] | 张家骅, 李爱平, 刘雪梅. 行驶时间区间不确定的装配线物料配送路径规划[J]. 中国机械工程, 2021, 32(18): 2239-2246. |
| [8] | 路浩, 陈洋, 吴怀宇, 程磊, . 受路网和测量约束的变电站巡检机器人路径规划[J]. 中国机械工程, 2021, 32(16): 1972-1982. |
| [9] | 陈哲, 刘丰, 吴晓川, 杜悟迪. 复合材料预制体多针多向协同织造路径生成方法研究[J]. 中国机械工程, 2021, 32(10): 1151-1156. |
| [10] | 林歆悠, 周斌豪, 夏玉田. 融合动态能耗与路网信息的电动汽车充电路径规划策略[J]. 中国机械工程, 2021, 32(06): 705-713. |
| [11] | 李国民;高亮;李新宇. 不确定性环境下轨道自动导引车动态调度[J]. 中国机械工程, 2019, 30(08): 926-931. |
| [12] | 姜康;马世纪. 基于改进A*算法的线缆路径规划方法[J]. 中国机械工程, 2019, 30(06): 699-708. |
| [13] | 尹国涛1;朱政赫2;宫虎1;卢振丰2;雍华山2;刘磊3;何伟3. 基于工业机器人的汽车覆盖件柔性冲孔系统[J]. 中国机械工程, 2019, 30(04): 494-497,402. |
| [14] | 李茂月;陈月;徐光岐. 基于入位基准线的避死区自动泊车路径规划[J]. 中国机械工程, 2019, 30(01): 53-63. |
| [15] | 张笛1;钟明2;陈龙1;梁军1;葛慧敏1;谈建祥3. 基于改良C-W节约算法的甩挂运输车辆调度模型[J]. 中国机械工程, 2018, 29(19): 2352-2356. |
| 阅读次数 | ||||||
|
全文 |
|
|||||
|
摘要 |
|
|||||