基于长短时记忆卷积神经网络的刀具磨损在线监测模型

机械加工过程中的刀具状态监测是机床状态监测的重要组成部分[1]。加工中不可预测的刀具磨损会增加生产资源消耗，影响工件的质量。为了减少资源消耗保证工件质量，需要对刀具磨损状态进行高效、高精度的监测[2]。随着信号处理和传感器技术的发展，采用多种传感器可以实现刀具磨损状态的有效监测[3]。传统的刀具磨损状态监测首先通过多种传感器对反映刀具磨损的数据进行采集，然后对采集的数据进行时域、频域和时频域分析，提取刀具磨损相关特征，如平均值、方差、偏度、谱偏度及小波系数等[4]，通过对提取的特征进行特征选择得到与刀具磨损强相关的特征，将这些强相关特征输入回归模型、随机森林模型、支持向量机、模糊神经网络等机器学习模型进行模型训练，最后将训练好的模型用于刀具磨损预测。特征提取的质量直接影响模型的质量和性能。传统的机器学习存在一些缺点：首先，特征的提取需要耗费大量的人力资源并要求掌握全面的专业领域知识；其次，人为进行特征提取由于领域知识的限制等可能导致原始信号中反映刀具磨损的信息丢失；最后，采集的数据其本质为时间序列数据，上述的模型无法用于序列数据建模，无法挖掘序列数据背后的序列特征。深度学习方法为处理和分析这些大规模机械数据提供了有效的工具[5]。

近年来，卷积神经网络(convolution neural network ，CNN)在图像识别领域取得了巨大的成就，它通过卷积操作从原始数据中提取到复杂的并具有鲁棒性的多维度特征[6-7]，使得建立的模型具有更高的精度和鲁棒性。曹大理等[8]将加工过程中采集的数字信号视为一维图像，提出了一种基于CNN的刀具磨损在线监测方法。1989年，SCHMIDHUBER[9]提出了循环神经网络(recurrent neural network, RNN)用于序列数据建模。长短时记忆(long short term memory,LSTM)神经网络通过引入门操作缓解了RNN中梯度消失或梯度爆炸问题，使得LSTM神经网络能够捕获长时依赖并且可以对不定长的序列数据建模，因此LSTM神经网络在语音识别、自然语言处理方面得到了大量的应用并取得了很好的效果[10-13]。为了挖掘原始序列数据其内在的序列特征，ZHAO等[14]考虑采集数据具有时间序列数据的性质，提出了一种基于LSTM神经网络的刀具磨损监测方法。上述方法和模型中，利用CNN对原始时序数据进行自适应特征提取只考虑了数据在多维度上的特性，未考虑数据的时间序列特性，因此会造成原始数据序列特征信息的丢失；采用LSTM神经网络虽然可以对原始序列数据建模并进行序列特征提取，但忽略了时序数据在多维度上的特征。

因此，本文提出了一种基于长短时记忆卷积神经网络(LSTM-CNN)的刀具磨损在线监测模型，使用力、振动和声发射传感器对加工过程中的相关信号进行采集。为了避免传统人为特征提取过程中的信息丢失，同时考虑原始时间序列数据的序列特性和多维度特性，利用LSTM神经网络对原始时间序列数据建模并提取序列特征，采用CNN提取多维度特征，通过回归实现提取到的特征到刀具磨损值的映射。在模型中引入正则化，防止模型过拟合，提高模型的鲁棒性和泛化能力。通过实验验证了该模型的有效性和可行性，与其他刀具磨损监测模型进行了对比，结果表明该模型与其他模型相比具有更高的准确性。

1 在线监测框架

基于LSTM-CNN的刀具磨损在线监测框架如图1所示。使用传感器对数控加工中心加工过程中反映刀具磨损的相关信号进行同步采集并将采集的信号标记为Xk;加工过程中的刀具磨损状况无法在线获取，因此当刀具完成一次切削后通过显微镜离线测量的方式获得并标记为yk。LSTM-CNN在初始时的参数权重不确定，因此，使用历史数据对LSTM-CNN进行训练以确定网络中的参数权重；根据网络对刀具磨损值预测表现，不断调整网络中的参数权重，最终得到一个最优模型。将最优模型应用于生产环境中，根据传感器采集的当前数据对当前的刀具磨损值进行预测。

为了提高刀具磨损在线监测模型的预测精度，在LSTM-CNN中需要设置合理的隐藏层神经元数目和时间步长,卷积层与池化层数目，卷积核大小与步长。

2 在线监测模型

2.1 LSTM-CNN构建

LSTM-CNN结构如图2所示。传感器采集的原始时间序列数据Xk作为LSTM-CNN网络的数据输入，输入的数据经过标准化后作为LSTM神经网络的输入，利用LSTM神经网络对标准化后的序列数据建模并提取序列特征，并将在LSTM神经网络中最后时刻的输出作为CNN的输入，通过3层卷积层和1层池化层提取多维度特征。最后输出的特征同时包含了原始时间序列数据的多维度特征和序列特征，通过回归层实现特征到刀具磨损值的映射。

LSTM-CNN输入数据Xk是在加工过程中第k个刀具磨损状态下使用力、振动和声发射传感器采集得到时间序列数据，

是一个形状为1×d的张量，表示在t时刻传感器采集的多维传感数据，d为传感器采集数据的维度，T为序列数据的长度，在本文中d=7,T=100。为了提高网络的泛化能力，序列数据Xk经过归一化后输入LSTM神经网络进行序列建模并提取序列特征，LSTM神经网络中的时间步长设置为100，每个时刻输入的数据维度设置为7，隐藏层神经元数目设置为64，因此在LSTM神经网络终点时刻的隐藏层输出的序列特征数目为64；将LSTM神经网络在终点时刻T的隐藏层输出hT作为CNN的输入，在CNN中通过3次卷积和1次最大池化操作进行多维度特征提取，3次卷积的卷积核大小为(3, 3)，步长为1，卷积深度分别为8、16和64，输出特征数目为1 024；最后在回归层通过2次全连接实现到刀具后刀面磨损值ypre的映射。

在LSTM-CNN中，为了避免样本数据中异常数据的存在导致网络无法收敛，提高网络的学习速度和泛化能力，需要对原始数据进行标准化处理。本文采用Z-score方法对原始数据进行标准化处理。Z-score进行标准化处理方法如下：

式中，x为原始数据；μ为原始数据的均值；σ0为原始数据的方差；Z为经过标准化处理后的数据，将Z作为LSTM神经网络的直接输入。

将标准化后的序列数据输入LSTM神经网络中进行序列建模和序列特征提取，LSTM神经网络在RNN的基础上引入了遗忘门、输入门和输出门以控制沿序列传递的信息，这些信息可以更准确地捕获长时依赖，缓解梯度消失或梯度爆炸问题。LSTM神经网络中的细胞状态和隐层状态更新公式如下：

在每个时刻t，细胞状态Ct通过输入门it、忘记门ft、输出门Ot和前一时刻的隐藏层状态ht-1与细胞状态Ct-1更新得到，细胞中的隐层状态ht根据当前时刻输入的数据和细胞状态Ct进行更新；式(2)中的参数Wf、Wi、WC、WO(Wf、Wi、WC、WO∈Rn×T)和bf、bi、bC、bO(bf、bi、bC、bO∈Rn)通过模型训练学习得到，被所有时刻所共享，n是隐藏层神经元数目，T是时间步长，“⊙”表示逐元素乘积，σ(·)表示sigmoid激活函数，tanh(·)表示tanh激活函数。

将LSTM神经网络在终点时刻的输出hT作为CNN的输入，CNN的输入依次通过卷积1、最大池化、卷积2、卷积3进行多维度特征提取，卷积过程如图3和下式所示：

其中，w为卷积核，其形状为二维矩阵，wm,n为卷积核矩阵中第m行、第n列的元素值；hT为卷积层输入，为矩阵形式，hTi+m,j+n表示卷积层输入矩阵hT中第i+n行、第j+m列的元素值，b为偏置项，f为Relu激活函数。

为使卷积后的多维特征图形状与输入特征图保持一致，在卷积前先进行零填充，为提高网络的鲁棒性和泛化能力，减小网络规模，提高训练速度，在CNN中加入最大池化操作。最大池化操作如图4所示。

CNN的输出作为回归层的输入实现了特征到刀具磨损值的映射，特征到刀具磨损的映射如下：

式中，

为刀具磨损预测值；wR为回归层特征权重参数矩阵；Ak为CNN输出的特征。

在本文中，由于网络最终输出为刀具后刀面磨损值，是一个连续变量，因此将网络最终的输出维度设为1。

2.2 LSTM-CNN正则化

由于深度学习模型具有很高的复杂性，因此大规模的训练数据对模型的鲁棒性至关重要。但是在刀具磨损监测问题中，很难获得大规模的训练数据样本，用于模型训练的数据样本过小容易导致模型过拟合，因此，需要对LSTM-CNN进行正则化，从而缓解模型过拟合现象的发生。本文在LSTM-CNN模型中引入了Dropout算法来实现LSTM-CNN模型的正则化。该算法在每次模型训练中都会随机地屏蔽掉一部分神经元，使得网络结构发生微小变化，形成一个新的网络结构。因此，对于输入的同一个样本，相当于在不同的神经网络上进行训练，这样就减少了神经元之间的依赖性，即每个神经元不依赖于某几个其他的神经元，从而达到了扩充数据样本量的效果；此外，训练过程中对神经元的随机屏蔽，使得神经网络在进行特征提取的过程中，降低了网络对局部特征的敏感度，使神经网络能学习到与其他神经元之间的更加健壮的特征，从而提升网络的鲁棒性。加入Dropout算法后的神经网络在进行训练过程中，会随机屏蔽掉神经网络中的部分神经元，形成一个新的神经网络结构，从数据样本输入到预测结果输出的整个前向传播过程是在新的网络结构中进行的，因此，被随机屏蔽掉的神经元不会对神经网络的前向传播过程产生影响。模型训练完成后，在测试阶段，Dropout将被关闭，所有隐藏神经元的输出将对模型测试产生影响。对于LSTM-CNN模型来说，在LSTM神经网络中添加Dropout，意味着在训练阶段会对LSTM网络输出层的神经元进行随机屏蔽，即数据样本在输入后，通过LSTM神经网络提取得到的序列特征，会随机丢弃掉部分序列特征再输入到CNN中继续进行多维度特征提取。

2.3 模型训练

在LSTM-CNN模型中，参数Wf、Wi、WC、WO、bf、bi、bC、bO、w、b和回归层特征权重参数矩阵wR需要通过模型训练学习得到，因此需要通过训练数据对模型进行训练以获取模型中的最优参数，模型训练流程如图5所示。首先，将采集的全部数据分为训练数据集和测试数据集，在本文中将C1、C4和C6数据集合并，随机选取数据总量的80%作为训练集用于模型训练获取最优模型参数，其余数据作为测试数据集用于评估模型的性能。模型训练使用Adam算法最小化损失函数，损失函数定义如下：

将模型预测值

与真实刀具磨损值yk的均方差作为损失函数，n表示训练样本数据的数量，Eloss表示损失函数值，模型训练的目标是使Eloss最小。模型训练过程中，根据随机训练次数增加损失函数是否减小来判断损失函数是否收敛，若损失函数不收敛，对模型进行调整后再继续训练，若损失函数收敛，则将训练好的模型使用测试数据进行模型预测；通过比较预测结果与真实值的平均绝对误差Pmae和均方根误差Prmse判断模型的效果，Pmae和Prmse的表达式如下：

若Pmae和Prmse值较大，则模型存在过拟合，需再调整模型进行训练；若Pmae与Prmse值较小，则模型具有较高的精度，保存模型用于生产环境。

3 实验验证

3.1 实验条件

为了验证基于双向RNN的刀具磨损在线监测模型的有效性，本文采用2010年美国PHM协会举办的刀具剩余使用寿命预测竞赛的公开数据集进行实验[15]。实验所用主要设备及加工参数如表1和表2所示。

切削过程中采用力、振动和声发射传感器对刀具磨损相关信号进行采集，传感器安装如图6所示。在工作台和工件之间安装Kistler三向测力仪，对加工过程中X、Y、Z三个方向的切削力进行测量；在工件上安装3个Kistler压电加速度计，实现对刀具加工过程中X、Y、Z 3个方向的振动信号测量；在工件上安装了1个Kistler声发射传感器，实现对切削过程中产生的高频应力波进行测量，因此，最后得到的数据的维度为 7。传感器输出信号经过Kistler电荷放大器放大后，使用NI DAQ PCI 1200进行采集，采样频率为50 kHz。当刀具沿X方向完成108 mm的端面铣削后使用LEICA MZ12显微镜对刀具后刀面磨损状况进行离线测量，每把刀具测量得到315个刀具磨损值，每个刀具磨损值对应的原始信号为(n，7)的张量。最后将数据总量的80%作为训练集以进行模型训练，其余20%的数据作为测试集以评估模型的性能。

3.2 实验设计

为了验证提出的基于LSTM-CNN刀具磨损在线监测模型的有效性及优越性，本文使用相同的数据集对以下方法进行了比较：

(1)线性回归[16](linear regression, LR)模型：通过对原始信号进行特征提取，使用线性回归模型进行预测；

(2)CNN：使用卷积神经网络进行刀具磨损预测；

(3)LSTM神经网络：使用长短时记忆网络对刀具磨损进行预测；

(4)LSTM-CNN(32)：使用隐藏层神经元数目为32的长短时记忆卷积网络对刀具磨损进行预测；

(5)LSTM-CNN(64)：使用隐藏层神经元数目为64的长短时记忆卷积网络对刀具磨损进行预测；

(6)LSTM-CNN(128)：使用隐藏层神经元数目为128的长短时记忆卷积网络对刀具磨损进行预测；

(7)BD-GRU(bi-directional gated recurrent unit, BD-GRU)[17]：使用双向门控循环单元对刀具磨损进行预测；

(8)DH-GRU(deep heterogeneous gated recurrent unit, DH-GRU)[17]：使用深度异构门控循环单元对刀具磨损进行预测。

由于回归模型不能处理序列数据，因此需要先进行特征提取。从原始信号中提取时域、频域和时频域特征具体的特征与文献[16]中使用的特征相同，最后得到一个54维的特征向量，输入线性回归模型中预测刀具磨损。

在CNN、LSTM神经网络、LSTM-CNN模型中，可以将原始数据直接输入，因此不用人工进行特征提取。考虑到采样频率非常高,达到50 kHz，导致每个样本数据的长度都超过100 000，因此对样本数据进行采样得到长度为100，维度为7的新样本数据。在CNN模型中，通过3层卷积操作和1层池化操作提取64维空间特征，将特征输入回归层实现刀具磨损预测；在LSTM神经网络中，设置隐藏层神经元的数目为64，提取64维的序列特征输入回归层；在LSTM-CNN网络模型中，隐藏层神经元数目对模型的复杂度和性能表现影响较大,为了比较不同参数设置下模型的性能，LSTM-CNN中隐藏层神经元数目分别设置为32、64和128，在卷积操作中，相同感受野的情况下采用较小卷积核可以减少模型的参数个数和降低计算复杂度，卷积步长代表了特征提取的精度，步长越小精度越高，因此，卷积核大小设置为(3, 3)，卷积步长为1；池化可对提取到的特征信息进行降维，为了不使特征维度过小影响模型精度，将池化大小设置为(2, 2)，池化步长设置为2，最终提取到多维特征并输入回归层。为了提高上述模型的鲁棒性，在回归层之前加入Dropout操作并且将保留比例keep_prob设置为0.8。

WANG等[17]为了捕获序列输入中隐藏的序列特征，将专家知识集成到深度学习模型中，设计了一种局部特征提取方法，用于增强特征学习。该模型能够捕获长期相关性，从而提高模型预测Pmae和Prmse的预测精度。为了保证本文提出的LSTM-CNN刀具磨损在线监测模型的优越性，使用相同的数据集与文献[17]中提出的双向门控循环单元(BD-GRU)和深度异构门控循环单元(DH-GRU)进行刀具磨损预测，并对模型的性能进行比较。本文采用Pmae和Prmse作为上述模型的评估指标，比较上述模型在刀具磨损预测上的性能。

3.3 实验结果与分析

基于TensorFlow框架建立LR、CNN、LSTM神经网络和LSTM-CNN模型，使用训练集进行模型的训练，在测试集上进行模型的评估。各模型的Pmae和Prmse如表3和表4所示。CNN、LSTM和LSTM-CNN在不同数据集下对刀具磨损预测的表现如图7～图11所示。

通过表3和表4的实验结果对比可以发现，在所有模型中LR模型的表现最差，导致这种现象的原因，一方面是人为提取特征可能会丢失原始数据中的某些有用信息，另一方面是由于线性模型在非线性拟合上的局限性。

对比表3和表4中的实验结果可知，与线性模型相比，深度学习模型在刀具磨损预测中性能有了较大的提升，深度学习模型在刀具预测上表现优秀，表明通过深度学习模型对原始数据进行特征提取能从原始信号中挖掘更深层和更全面的

特征信息，证明了深度学习模型在刀具磨损监测领域应用的可行性和有效性。

在深度学习模型中，通过比较CNN模型和LSTM模型可以发现，LSTM模型的拟合效果明显优于CNN模型的拟合效果，这是由于采集的数据其本质是时间序列数据，因此，原始数据的序列特征相比于其空间特征与刀具磨损值有更强的相关性。对比表3、表4、图7、图8和图10可以发现，在所有的模型中，LSTM-CNN模型的表现最好，在LSTM模型和CNN模型中，尽管刀具磨损预测值的变化趋势与真实值大体一致，但刀具磨损预测值与真实值存在较大的误差。

表3、表4、图10、图11的实验结果表明，在不同隐藏层神经元数目设置下的LSTM-CNN模型中，将隐藏从神经元数目设置为64的模型具有最佳的效果，相较于隐藏层神经元数目为32模型，LSTM-CNN(64)在不同数据集上的平均绝对误差Pmae和均方根误差Prmse有了较大的提升。然而进一步增加隐藏层神经元的数目，将其设置为128，发现LSTM-CNN(128)在数据集C4上有较小的提升，但是在数据集C1和C6上反而有所下降，表明再增加隐藏层神经元的数目对模型性能的提升效果不太显著，同时会增加模型的参数个数和计算复杂度。因此，在LSTM-CNN中将隐藏层的神经元数目设为64，模型的性能最佳。

对比表3和表4中LSTM-CNN、双向门控循环单元(BD-GRU)和深度异构门控循环单元(DH-GRU)在各数据集上的表现可以发现，本文提出的LSTM-CNN模型在不同的隐藏层神经元数目设置下，在各数据集上的性能表现优于文献[17]中提出的BD-GRU模型和DH-GRU模型。造成这样现象的原因可能在于BD-GRU模型和DH-GRU模型未考虑数据的多维度特性，提取的特征不够全面。因此，本文提出的LSTM-CNN刀具磨损在线监测模型在国内外同类研究中具有一定的优越性和先进性。

从图7～图11的实验结果中可以发现，LSTM-CNN模型能够很好地反映真实刀具磨损值的变化，在隐藏层神经元数目设置为64时模型的性能最佳，同时模型的预测值与刀具磨损的真实值间的误差很小，验证了提出的基于LSTM-CNN刀具磨损在线监测模型的有效性及优越性，同时表明提出的LSTM-CNN模型在刀具磨损监测的精度上有了较大的提高。

4 结论

本文提出了一种基于长短时记忆卷积神经网络(LSTM-CNN)的刀具磨损在线监测模型，该模型利用LSTM神经网络对原始时间序列数据建模并提取序列特征，采用CNN通过3次卷积和1次池化操作提取多维度特征，不仅避免了人为提取特征过程中原始数据信息丢失问题，还可以从原始时间序列数据中挖掘与刀具磨损值强相关的隐藏特征。通过实验验证了该模型在刀具磨损预测上应用的可行性与有效性。与其他几种模型的对比分析证明了本文提出的模型在刀具磨损预测精度上有了较大的提高。

目前，该模型只在铣削加工上进行了验证，在后续的研究中可以考虑在车削等加工中的应用，也可考虑增加模型训练数据的规模进一步提高模型的精度。

[1] ANTIC A, POPOVIC B, KRSTANOVIC L, et al. Novel Texture-based Descriptors for Tool Wear Condition Monitoring[J]. Mechanical Systems and Signal Processing, 2018, 98：1-15.

[2] ELSHEIKH A, YACOUT S, OUALI M S. Bidirectional Handshaking LSTM for Remaining Useful Life Prediction[J]. Neurocomputing, 2019, 323：148-156.

[3] JOSE V, FERNANDO R. A Review of Machining Monitoring Systems Based on Artificial Intelligence Process Models[J]. International Journal of Advanced Manufacturing Technology, 2010, 47(1/4):237-257.

[4] WANG Jinjiang, XIE Jinyao, ZHAO Rui, et al. Multisensory Fusion Based Virtual Tool Wear Sensing for Ubiquitous Manufacturing[J]. Robotics and Computer-integrated Manufacturing, 2017, 45：47-58.

[5] ZHAO Rui, YAN Ruqiang, CHEN Zhenghua, et al. Deep Learning and Its Applications to Machine Health Monitoring[J]. Mechanical Systems and Signal Processing, 2019, 115：213-237.

[6] BABU G, ZHAO P, LI X. Deep Convolutional Neural Network Based Regression Approach for Estimation of Remaining Useful Life[J]. Database Systems for Advanced Applications,2016,9642:214-228.

[7] SHIN H, ROTH H, GAO M, et al. Deep Convolutional Neural Networks for Computer-aided Detection：CNN Architectures, Dataset Characteristics and Transfer Learning[J]. IEEE Transactions on Medical Imaging, 2016, 35(5)：1285-1298.

[8] 曹大理,孙惠斌,张纪铎,等.基于卷积神经网络的刀具磨损在线监测[J].计算机集成制造系统,2020,26(1):74-80.

CAO Dali, SUN Huibin, ZHANG Jiduo, et al. In-process Tool Condition Monitoring Based on Convolution Neural Network[J]. Computer Integrated Manufacturing Systems, 2020,26(1):74-80.

[9] SCHMIDHUBER J. A Local Learning Algorithm for Dynamic Feedforward and Recurrent Networks[J]. Connection Science, 1989, 1(4)：403-412.

[10] AULI M, GALLEY M, QUIRK C, et al. JointLanguage and Translation Modeling with Recurrent Neural Networks[C]∥ Association for Computational Linguistics. Seattle,2013：1044-1054.

[11] ANDRRJ K, LI Feifei.Deep Visual-semantic Alignments for Generating Image Descriptions[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, 2015：3128-3137.

[12] POLLASTRI G,PRZYBYLSKI B, ROST B, et al. Improving the Prediction of Protein Secondary Structure in Three and Eight Classes Using Recurrent Neural Networks and Profiles[J].Proteins,2002,47(2):228-235.

[13] VINYALS O, TOSHEV A, BENGIO S, et al. Show and Tell：a Neural Image Caption Generator[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston, 2015：3156-3164.

[14] ZHAO Rui, WANG Jinjiang, YAN Ruqiang, et al. Machine Health Monitoring with LSTM Networks[C]∥2016 10th International Conference on Sensing Technology (ICST). Nanjing, 2016:1-6.

[15] LI Xiao, LIM B, ZHOU Jianghua, et al. FuzzyNeural Network Modelling for Tool Wear Estimation in Dry Milling Operation[C]∥Annual Conference of the Prognostics and Health Management Society. San Diego, 2009:1-11.

[16] WANG Jinjiang, XIE Junyao, ZHAO Rui, et al. Multisensory Fusion Based Virtual Tool Wear Sensing for Ubiquitous Manufacturing[J]. Robotics and Computer-integrated Manufacturing,2017,45:47-58.

[17] WANG Jinjiang, YAN Jianxin, LI Chen, et al. Deep Heterogeneous GRU Model for Predictive Analytics in Smart Manufacturing：Application to Tool Wear Prediction[J]. Computers in Industry, 2019, 111：1-14.