Interpretable Multimodal Misinformation Detection with Logic Reasoning 阅读笔记

2023/10/10 论文阅读假新闻检测

标题

基于逻辑推理的可解释性多模态不实信息检测

作者和出处

City University of Hong Kong(香港城市大学), Nanyang Technological University(南洋理工大学), University of Washington(华盛顿大学)

摘要

在线社交平台上的多模态虚假信息已成为一个关键问题，因为与传统的纯文本信息相比，多媒体内容使可信度更高，传播更容易。尽管现有的多模态检测方法已经取得了高性能，但缺乏解释性阻碍了这些系统在实际部署中的可靠性。受神经符号人工智能（NeuralSymbolic AI）的启发，我们将神经网络的学习能力与符号学习的解释性相结合，提出了一种新颖的基于逻辑的神经模型用于多模态虚假信息检测，通过将可解释的逻辑子句整合到目标任务的推理过程中。为了使学习有效，我们使用神经表示参数化符号逻辑元素，这有助于自动生成和评估有意义的逻辑子句。此外，为了使我们的框架能够适用于多种虚假信息来源，我们引入了五个元谓词，它们可以用不同的关联来实例化。在三个公共数据集（Twitter、Weibo 和 Sarcasm）上的结果证明了我们的模型的可行性和多样性。我们的工作实现可以在这个链接中找到。

引言和结论

我们提出了一种基于神经符号人工智能的可解释多模态虚假信息检测模型 LogicDM。我们预先定义了从相应虚假信息检测视角演变而来的五个元谓词和相关变量。我们建议通过融合多个关联来动态表示这些谓词，以覆盖多样化的在线信息。此外，我们区分推理过程以平滑地选择谓词和跨模态对象，以自动推导和评估可解释的逻辑子句。在虚假信息检测任务上的大量实验证明我们的方法的有效性，而在讽刺检测任务上的外部实验揭示了其多样性。

方法

特征提取

对于文本，我们先把文本tokenize化，再送入一个带着单层lstm的BERT中，对每个token进行编码。

对于图片，先将图片调整大小到224*224，然后再分成z^2^个patch,reshape成序列送入ResNet34和ViT中去提取特征，最后用一个双层的MLP将特征映射到d维。

跨模态实体生成

先将上个模块得到的文本和图片向量放到一个多模态图中，图和文本节点之间默认连接，文本之间通过Spacy建立连接，图片之间默认临近的patch是连接的。然后用GCN计算节点的Embedding，计算完了以后计算文本，图片，文本与文本之间，图片与图片之间，文本与图片之间共五种类型的多模态实体表示，维度分别为Ot∈R^md^，Ov∈R^rd^，O~~t,t~~∈R^(m*m)d^，O~~v,v~~∈R^(rr)d^，O~~t,v~~∈R^(mr)*d^。最后通过5个mlp分别挑选出5*k个最重要的向量作为下一个模块的输入。

子句生成

用一个可学习的矩阵和一个预定义好的实体-标签矩阵来计算元谓词的特征表示$$\mathbf{B}_t=\text{sparsemax}([\hat{\mathbf{O}}_t,\mathbf{y}]\mathbf{W}_t^e\mathbf{C}_t^\top)\mathbf{C}_t.$$
对两个特征矩阵进行加权得到总体的文本和图片表示
$$\mathbf{t}_T=\mathbf{T}^\top\text{softmax}(\mathbf{T}\mathbf{W}_T)$$
$$\mathbf{v}I=\mathbf{V}^\top\text{softmax}(\mathbf{V}\mathbf{W}I)$$
用以下公式计算出挑选每个元谓词的概率，取前$5k\times\beta $个元谓词进行评估
$$\mathbf{S}{T,I}=\mathrm{sparsemax}(\mathbf{B}\mathbf{W}{T,I}[\mathbf{t}_T,\mathbf{v}_I])$$
$$\mathbf{S}_y=\text{sparsemax}([\mathbf{B},\mathbf{y},\mathbf{B}-\mathbf{y},\mathbf{B}\circ\mathbf{y}]\mathbf{W}y)$$
$$\mathbf{S}=\mathrm{sparsemax}(\mathbf{S}{T,I}\circ\mathbf{S}_y)$$

子句评估

用$\mu(b_t(t,y))=\text{sigmoid}([\mathbf{b}_t,\mathbf{p},\mathbf{b}_t-\mathbf{p},\mathbf{b}_t\circ\mathbf{p}]\mathbf{W}_\mu)$来计算元谓词的真值，其中$\mathbf{p}=\mathbf{o}_t\circ\mathbf{y}$
GCN中每层的输出合取（∧ ），层和层之间析取（∨），计算最后的标签真值，取较大的真值作为最终的标签。

这是LogicDM模型图

个人感悟

用图卷积网络来进行实体特征融合，融合完的实体挑选，送入计算真值，再用某种方法计算总体的真值。还是有点逻辑思想在里面的。

LOADING