机器学习可解释性(Interpretability),或XAI(Explainable Artificial Intelligence ),其实就是搞机器学习的研究者们始终存在的一个担忧:很多现在的深度神经网络没有办法以一种从人类角度完全理解模型的决策。我们知道现在的模型既可以完胜世界围棋冠军电竞冠军,图形识别语音识别接近满分,然而我们对这些预测始终抱有一丝戒备之心,就是我们因为不完全了解他们的预测依据是什么,不知道它什么时候会出现错误。这也是现在几乎所有的模型都没法部署到一些对于性能要求较高的关键领域,例如运输,医疗,法律,财经等。我们会发现这些领域仍然无法完全相信模型的预测能力,试想一下,如果哪天5级无人驾驶车真的突然问世了,你会真的放弃方向盘上路在车里睡觉吗?因此人们现在急于想要探求出的是,我们有没有办法去解释这些模型,从而真正建立人与模型之间的信任。
对于比较模糊的理论和学科来讲,一般开头都需要抠抠字眼。可解释性其实是我从Interpretability翻译过来的,还有一个词是Explainability。这两个词在一开始的时候其实是经常互换的,大家都指的是一个意思,就是对模型的行为有一个解释。之后两个名词又有了些细微的差别:Interpretability或者Interpretable AI是使本就透明的模型(白盒)通俗易懂,所有经验水平的用户都可以明白模型的含义;而Explainabilily或者Explainable AI则是研究者对于黑盒模型的行为作出人们所能理解的解释。本文讨论是包括这两种理论的更广义一些的可解释性。