ESG 信息披露“漂绿“识别的自然语言处理方法回顾

0. ESG 信息披露“漂绿“识别的自然语言处理方法回顾

1. 引言

在当今瞬息万变的金融环境中,语言已成为塑造经济现实和引导投资决策的核心要素[4]。随着可持续发展理念的日益深入,金融领域对文本和语音所承载的叙述、情感和披露信息的依赖愈发显著。自然语言处理(NLP)与金融领域的融合,尤其是在可持续性视角的引入下,标志着一种根本的认知范式转变,致力于通过计算方法解析市场动态的论述维度[4]。特别是在环境、社会和治理(ESG)评估框架下,精确区分企业真实的承诺与旨在误导的“漂绿”行为,对于投资者和监管机构而言至关重要,它直接关系到资本的有效配置和市场信任的维护[6]。

可持续性议题为金融领域带来了深层次的复杂性和紧迫性。传统金融追求量化确定性,而可持续性则往往涉及定性、细微且长期的范畴,这些信息在本质上通过语言得以表达。因此,无论是评估ESG绩效、识别真正的可持续性实践与“漂绿”行为,还是量化企业战略文件中嵌入的气候相关转型风险,所有这些任务都迫切需要对复杂语言进行大规模的解释与分析[4]。在此背景下,NLP不仅是提升数据处理效率的工具,更是驾驭复杂且常含糊的语言景观的必要手段,因为它能够将金融价值与可持续成果有效地交织起来[4]。NLP有望解码可持续性声明的言外之意,超越自我报告指标的局限性,从而从语言分析本身获得更深入的理解,揭示公司内部战略沟通与公众认知之间可能存在的不一致,这可能表明存在夸大或歪曲ESG成就的企图[4,6]。

digraph_beqrqv6j_1749995710153_“漂绿”行为的危害与挑战

“漂绿”行为对企业可持续发展和公众信任构成严峻挑战。随着消费者和投资者环境意识的日益增强,企业试图通过误导性沟通利用这种趋势,导致“漂绿”行为日益普遍,构成了可持续金融发展的主要障碍[1,3]。例如,欧洲委员会在2021年发现42%的消费品网站存在虚假或误导性可持续性声明,且2022年至2023年间欧洲和美洲银行及金融服务领域的“漂绿”案件增加了70%[1]。这种行为不仅可能导致法律后果,还会损害公司声誉,并对投资者信任、市场效率和气候变化应对产生负面影响[1,3]。例如,大众汽车“柴油门”事件对公司及其股东造成了巨大的财务和声誉损失,甚至影响了其他汽车制造商的股价[1]。因此,开发有效的“漂绿”检测机制变得至关重要,而自然语言处理在此背景下识别“漂绿”具有显著的必要性与潜在价值[1,2,3,6]。

传统的“漂绿”识别方法往往难以有效应对大规模非结构化文本数据,这正是自然语言处理发挥关键作用的领域。NLP方法能够计算性地分析和解读与企业可持续发展活动相关的文本数据,通过识别气候相关声明、评估绿色声明、进行情感和语调分析以及主题检测等中间任务来辅助检测“漂绿”行为[3,6]。尽管现有文献已初步探讨了“漂绿”的负面影响,但对这些影响在不同维度(如企业信任、投资者决策、市场效率和气候变化应对)上的深层机制和量化评估仍有待深入研究。通过对ESG报告、新闻稿等非结构化文本的分析,NLP能够帮助投资者和监管机构更准确地评估企业的真实可持续性表现,从而促进更透明和负责任的市场环境[2]。

1.1 研究背景与意义

在当代金融领域,语言在构建经济现实和影响投资决策方面扮演着至关重要的角色[4]。金融价值、风险感知与投资决策日益受到文本和语音所承载的叙述、情感及披露信息的影响,而自然语言处理(NLP)与金融的融合,尤其是在可持续性视角的引入下,标志着一种根本性的认知转变,旨在以计算方式处理市场动态的论述维度[4]。特别是在环境、社会和治理(ESG)评估中,区分企业的真实承诺与表演性“漂绿”行为对投资者和监管机构至关重要[6]。

可持续性议题为金融领域带来了更深层次的复杂性和紧迫性。传统金融追求量化确定性,而可持续性则常涉及定性、细微且长期的范畴,这些信息本质上通过语言表达。因此,评估ESG绩效、识别真正的可持续性实践与“漂绿”行为、量化企业战略文件中嵌入的气候相关转型风险等任务,均需要对复杂语言进行大规模的解释[4]。在此背景下,自然语言处理不仅是提升效率的工具,更是驾驭复杂、常含糊的语言景观的必要手段,因为金融价值与可持续成果在此相互交织[4]。自然语言处理有望解码可持续性声明的言外之意,超越自我报告指标的局限性,从而从语言分析本身获得更深入的理解,揭示公司内部战略沟通与公众认知之间可能存在的不一致,这可能表明存在夸大或歪曲ESG成就的企图[4,6]。

“漂绿”行为对企业可持续发展和公众信任构成严峻挑战。随着消费者和投资者环境意识的日益增强,企业试图通过误导性沟通利用这种趋势,“漂绿”行为日益普遍,构成了可持续金融发展的主要障碍[1,3]。例如,欧洲委员会在2021年发现42%的消费品网站存在虚假或误导性可持续性声明,且2022年至2023年间欧洲和美洲银行及金融服务领域的“漂绿”案件增加了70%[1]。这种行为不仅可能导致法律后果,还会损害公司声誉,并对投资者信任、市场效率和气候变化应对产生负面影响[1,3]。例如,大众汽车“柴油门”事件对公司及其股东造成了巨大的财务和声誉损失,甚至影响了其他汽车制造商的股价[1]。因此,开发有效的“漂绿”检测机制变得至关重要,而自然语言处理在此背景下识别“漂绿”具有显著的必要性与潜在价值[1,2,3,6]。

传统的“漂绿”识别方法往往难以有效应对大规模非结构化文本数据,这正是自然语言处理发挥关键作用的领域。自然语言处理方法能够计算性地分析和解读与企业可持续发展活动相关的文本数据,通过识别气候相关声明、评估绿色声明、进行情感和语调分析以及主题检测等中间任务来辅助检测“漂绿”行为[3,6]。尽管现有文献已初步探讨了“漂绿”的负面影响,但对这些影响在不同维度(如企业信任、投资者决策、市场效率和气候变化应对)上的深层机制和量化评估仍有待深入研究。通过对ESG报告、新闻稿等非结构化文本的分析,自然语言处理能够帮助投资者和监管机构更准确地评估企业的真实可持续性表现,从而促进更透明和负责任的市场环境[2]。

1.2 综述目的与结构

本综述旨在为读者提供一个全面的视角,深入探讨自然语言处理(NLP)在识别ESG信息披露中“漂绿”现象的最新进展。本研究将系统地回顾利用NLP方法检测企业“漂绿”行为的研究现状、所采用的技术、研究发现以及现有局限性,并为后续章节设定清晰的路线图。

本综述的核心关注点在于文献类型、所采用的NLP技术、已取得的研究发现以及当前研究所面临的局限性。在文献类型方面,本综述将涵盖多种形式的文本资料,例如企业可持续发展报告[1]、公司内部ESG情绪数据以及社交媒体公众舆论数据[6]。

在NLP技术方面,本综述将深入分析各类方法的应用与有效性。其中包括基于预训练模型(如BERT、FinBERT)的文本分类、情感分析和主题检测[2]、监督学习和无监督学习方法[3]。特别地,本综述还将探讨结合情感分析与对齐分析技术,并与ESG评级相结合的方法,以量化企业报告可持续性表现与实际表现之间的差异,例如“漂绿倾向分数”(GTS)的引入[1]。此外,基于NLP的问答系统也将作为检测“漂绿”行为的潜在解决方案进行探讨[6]。

研究发现方面,本综述将展示NLP在识别ESG信息披露中“漂绿”行为的潜力,包括揭示企业内部ESG情绪与公众舆论之间的关联[6],以及自动化检测企业可持续发展报告中“漂绿”倾向的方法[1]。同时,本综述也将对现有文献进行系统梳理,分析NLP在可持续金融领域的应用进展、不同方法和模型的有效性[4]。

然而,该领域仍面临诸多挑战和局限性。数据稀缺性是主要限制之一,高质量、大规模的标注数据集的缺乏阻碍了模型的训练与泛化能力。此外,NLP模型的可解释性问题也亟待解决,尤其是在金融和ESG等对决策透明度要求较高的领域。最后,现有研究的样本量限制和方法论约束也可能影响研究结果的普适性。本综述将系统性地审视这些挑战,并探讨其对未来研究方向的影响[2]。

本综述的结构将遵循以下路线图:首先,我们将概述“漂绿”的定义及其在ESG信息披露中的表现形式。接着,将详细阐述不同NLP技术在检测“漂绿”中的应用,包括文本分类、情感分析、主题建模等。随后,我们将深入探讨现有的研究成果和案例分析,并对各种方法的有效性进行评估。最后,本综述将总结当前研究的局限性,并展望未来的研究方向和潜在突破,以期为该领域的进一步发展提供有价值的参考。

2. “漂绿”行为的定义、特征与监管框架

在深入探讨ESG信息披露中“漂绿”识别的自然语言处理方法之前,本章旨在构建对“漂绿”行为的全面理解。首先,将界定“漂绿”的核心概念,明确其在环境、社会和治理(ESG)领域的多维表现形式。其次,将剖析“漂绿”行为的显著特征与潜在危害,揭示其对企业、投资者乃至全球可持续发展目标的负面影响。最后,本章将概述当前针对“漂绿”行为的监管框架与政策演进,为后续章节中探讨的技术识别方法奠定坚实的理论基础和实践背景。

digraph_qehnmyob_1749995712867_“漂绿”行为的核心定义与识别维度

“漂绿”(Greenwashing)是指企业在环境、社会或治理(ESG)绩效方面进行误导性或欺骗性宣传,以虚假地展现其可持续发展努力或夸大其“美德”的行为[2,3,4,5,6]。其核心在于企业实际可持续性表现与(过度积极的)沟通之间的显著差异[1]。具体而言,它表现为企业在环境或社会绩效上做出误导性声明,使得投资者难以辨别真实的努力与虚假宣传[2]。尽管学界对“漂绿”的具体定义存在细微差异,但普遍共识在于其本质特征为“沟通与实际表现之间的不符”以及“误导性或欺骗性宣传”[1]。

在识别“漂绿”行为时,现有研究从多个维度展开讨论,主要包括:一是可持续性维度的范围,部分研究将其严格限定于环境声明,而另一些则将社会(S)和治理(G)维度纳入考量,认为“漂绿”可能涉及虚假的劳工实践或透明度承诺等社会和治理层面的误导性宣传[1,3,6]。二是关于是否存在“有意欺骗”的主观意图,学界存在分歧,部分研究认为其为构成“漂绿”的必要前提,而另一些则认为,无论是否存在欺骗意图,只要沟通与实际表现不符并产生误导性结果,即可视为“漂绿”[1]。三是主体范围,尽管“漂绿”通常与公司行为紧密相关,但其定义有时也扩展至更广泛的组织类型,而非仅限于营利性企业[1]。四是发生层面,“漂绿”行为既可能发生在产品层面(例如,虚报产品环保性能),也可能发生在组织层面(例如,夸大公司整体的可持续发展战略)[1]。

“漂绿”行为的危害是多方面且深远的,对企业、投资者、消费者乃至全球可持续发展目标都产生负面影响。首先,它通过虚假宣传损害企业声誉,使其在消费者和投资者心中的可信度降低,当消费者发现声明与实际不符时,信任基础被破坏,长期可能导致品牌忠诚度下降甚至抵制[1,2,3]。其次,“漂绿”误导投资者决策,阻碍资本有效配置到真正致力于可持续发展的企业和项目,这对于向更可持续经济转型至关重要,甚至可能导致投资者遭受财务损失[1,2,4,5]。例如,企业内部ESG情绪与社交媒体公众舆论之间的不一致,可作为利益相关者识别潜在“漂绿”的“危险信号”[6]。再者,通过营造虚假的可持续发展形象,“漂绿”削弱了社会各界对真正可持续行动的关注和投入,最终可能阻碍全球应对气候变化和实现其他可持续发展目标的努力[2,3,4]。最后,“漂绿”行为还引发了显著的伦理问题,如信息不对称、侵犯消费者知情权和选择权,并可能带来法律责任,对企业长期发展造成负面影响[3]。因此,识别和规制“漂绿”行为对于维护市场诚信、促进负责任的商业实践以及加速全球可持续发展进程至关重要。

2.1 “漂绿”的概念、识别维度与潜在危害

“漂绿”(Greenwashing)作为企业可持续发展实践中的一个关键问题,其核心在于企业在环境、社会或治理(ESG)绩效方面进行误导性或欺骗性宣传,从而虚假地展现其“美德”或夸大其可持续发展努力[2,3,4,5,6]。

从现有文献来看,“漂绿”的定义存在一定的异同。多数研究倾向于将其界定为企业实际可持续性表现与其(过度积极的)沟通之间的差异[1]。例如,有研究将“漂绿”定义为企业在环境或社会绩效方面做出误导性声明的行为,这使得投资者难以区分真实的努力与虚假宣传[2]。另有研究强调,其核心在于企业对其ESG绩效的欺骗性描绘[6]。尽管定义角度略有不同,但其核心特征均指向“沟通与实际表现之间的不符”以及“误导性或欺骗性宣传”这一本质[1]。

然而,在具体考量“漂绿”的表现时,文献存在一些讨论维度上的差异[1]:

  1. 可持续性维度范围:部分学者将“漂绿”严格限定在环境声明范畴,即仅关注企业在环保方面的虚假宣传[3]。然而,另一些研究则将社会(S)和治理(G)维度纳入考量,认为“漂绿”可能涉及虚假的劳工实践或透明度承诺等社会和治理层面的误导性宣传[1,6]。
  2. 是否存在“有意欺骗”:关于“漂绿”是否必须包含“有意欺骗”的主观意图,学术界存在分歧。部分研究认为,有意欺骗是构成“漂绿”的必要前提,而另一些研究则认为,无论是否存在欺骗意图,只要沟通与实际表现不符并产生误导性结果,即可视为“漂绿”[1]。
  3. 主体范围:尽管“漂绿”通常与公司行为紧密相关,但其定义有时也扩展至更广泛的组织类型,而不仅仅局限于营利性企业[1]。
  4. 发生层面:“漂绿”行为既可能发生在产品层面(例如,虚报产品环保性能),也可能发生在组织层面(例如,夸大公司整体的可持续发展战略)[1]。

“漂绿”的危害是多方面且深远的,对企业、投资者、消费者乃至全球可持续发展目标都产生负面影响:

  • 侵蚀企业信誉与消费者信任:“漂绿”行为通过虚假宣传损害企业声誉,使其在消费者和投资者心中的可信度降低[1,2,3]。当消费者发现企业的声明与实际不符时,信任基础被破坏,长期可能导致品牌忠诚度下降甚至抵制。
  • 误导投资者决策与市场效率:“漂绿”使得投资者难以识别真正致力于可持续发展的企业,从而阻碍资本有效配置到可持续项目和公司,这对于向更可持续经济转型至关重要[1,2,4,5]。误导性信息还可能导致投资者做出次优决策,甚至遭受财务损失[1]。例如,当公司内部ESG情绪与社交媒体公众舆论之间存在不一致时,这可能成为利益相关者识别潜在“漂绿”行为的“危险信号”[6]。
  • 阻碍可持续发展目标的实现:通过营造虚假的可持续发展形象,“漂绿”削弱了社会各界对真正可持续行动的关注和投入,最终可能阻碍全球应对气候变化和实现其他可持续发展目标的努力[2,4]。例如,对气候变化应对的负面影响虽然未在所有文献中直接强调,但识别“漂绿”的必要性间接说明了其对ESG信息披露的负面作用[3]。
  • 引发伦理问题:“漂绿”行为引发了显著的伦理问题。首先,它导致了信息不对称,企业利用其在信息获取上的优势,向公众和投资者传递虚假或夸大的信息,从而侵犯了市场公平性原则。其次,误导性信息侵犯了消费者的知情权和选择权,剥夺了他们基于真实信息做出可持续消费决策的机会。此外,这种行为也可能引发法律责任,并对企业的长期发展带来负面影响[3]。因此,识别和规制“漂绿”行为对于维护市场诚信、促进负责任的商业实践以及加速全球可持续发展进程至关重要。

2.2 “漂绿”量化方法与识别挑战

“漂绿”的识别与量化是当前可持续发展研究中的关键挑战。自然语言处理(NLP)技术已被广泛应用于此领域,通过多种量化指标来捕捉企业“漂绿”行为的特征。这些指标通常包括词语密度、情感极性以及语言复杂性等,旨在揭示企业披露信息与实际可持续性表现之间的潜在差异[1,4]。

在量化方法方面,研究者探索了多种路径。例如,有研究提出“漂绿倾向分数”(GTS)作为一种自动检测企业可持续发展报告中“漂绿”倾向的方法[1]。GTS通过结合情感分析、对齐分析和ESG评级来量化报告与实际可持续性表现之间的差异。其计算公式为: GTS_i=SV_i×SDGA_i(ESGS_i100)2×10GTS\_i = SV\_i \times SDGA\_i \left( \frac{ESGS\_i}{100} \right)^2 \times 10 其中,SV_iSV\_i代表情感值,SDGA_iSDGA\_i代表可持续发展报告与联合国可持续发展目标(SDGs)之间的余弦相似度,而ESGS_iESGS\_i则代表由数据提供商提供的ESG得分。GTS值越高,表明“漂绿”倾向越高[1]。此外,还有研究利用NLP技术对内部企业披露(如PDF文档)和外部社交媒体(如Twitter)上的文本数据进行情绪分析,并通过计算内部和外部情绪得分之间的相关系数来识别潜在的“漂绿”行为[6]。此类方法通常使用FinBERT-ESG-9-Categories模型进行ESG主题分类,并利用TextBlob库进行情感分析,以衡量文本的情感倾向[6]。预训练的NLP模型如FinBERT也被用于分析公司公开声明,以量化“漂绿”风险[5]。这些基于规则、统计或深度学习的指标构建方法各有优缺点。例如,深度学习模型在模式识别方面表现出色,能够从非结构化文本中提取可量化的“漂绿”证据,并将其转化为结构化数据,以支持定量分析[4]。然而,这些方法在评估企业可持续性绩效和识别“漂绿”风险方面的有效性受多种因素影响。量化结果常与其他财务或非财务数据结合使用,以提供更全面的洞察,例如通过比较公司宣传与实际ESG绩效之间的差异。

尽管NLP技术在量化“漂绿”方面取得了进展,但其识别和量化仍面临诸多挑战。首先,“漂绿”没有普遍接受的定义,这导致其具体表现形式多样,且在环境、社会维度、是否需要故意欺骗以及产品或组织层面有所不同[1,3]。这种定义上的模糊性使得识别标准不一,增加了检测的复杂性[3]。其次,“漂绿”的实施方法多样,涉及文本和视觉形式,需要不同的检测技术[1]。例如,模糊术语的使用、选择性披露和象征性行动等“漂绿”表现形式,使得识别和量化工作更为复杂[2]。

可持续性报告的数据质量和标准化问题严重阻碍了NLP模型的有效性。可持续性报告的分散性、不一致性和缺乏严格的保证,导致数据质量问题突出,对模型的上下文理解构成重大挑战[2,4]。此外,语言的微妙性、讽刺、回避和故意模糊等特点,使得NLP模型难以准确捕捉文本的真实意图[2,4]。当前文献对这些问题的量化影响和解决方案的讨论仍显不足。

进一步的挑战在于当前NLP模型,特别是复杂的深度学习模型,普遍存在的“黑箱”问题。其决策过程缺乏透明度,在金融等受监管领域引发了严重的可解释性担忧[2,4]。尽管NLP在模式识别方面表现出色,但在处理讽刺、双关语、文化细微之处以及高度专业化的技术语言时仍面临困难,这可能导致误报或漏报,并需要人类专家进行干预以提供上下文理解、验证和最终判断[4]。此外,现有研究普遍缺乏大规模、公开可用的已标注“漂绿”数据集,许多研究依赖有限的、非专门为此目的策划的数据集,这使得基准测试和模型性能比较变得困难[3]。同时,模型在嘈杂的真实世界环境中的泛化能力不足,尤其是在处理多样化数据集时表现不佳,进一步加剧了识别的挑战[3]。

鉴于上述挑战,未来的研究应致力于设计更鲁棒、更具解释性的量化模型,以应对“漂绿”行为的复杂性和动态性。这包括开发能够更好地处理语言微妙性和上下文依赖性的NLP技术,并探索结合多模态数据(如文本与视觉信息)的识别方法。同时,需要建立更大规模、高质量的标注数据集,以支持监督学习方法的有效应用,并着重提升模型的透明度和可解释性,以增强其在实际应用中的信任度和采纳率。

2.3 监管政策与“漂绿”治理

现有法规对企业ESG信息披露的要求日益严格,以期通过强制性披露或鼓励性措施有效遏制“漂绿”行为。监管机构已明确认识到“漂绿”问题的严重性,并积极出台相关立法以进行打击,例如欧洲议会近期推出的旨在打击产品层面“漂绿”行为的立法措施[1]。在气候变化背景下,尽管公共部门投入了大量资金,但仅依靠公共投资无法满足所有必要的需求,因此迫切需要可靠的可持续性报告来有效引导资本流向可持续的公司和项目[1]。

监管政策在治理“漂绿”方面发挥着显著作用,例如可持续金融披露监管(SFDR)已被证明能有效减少金融和非金融行业的“漂绿”行为,展现出显著的溢出效应[5]。SFDR通过其适用性作为工具变量,建立了不同行业间“漂绿”风险的因果关系,并提出了理论模型以理解其影响非金融行业的渠道[5]。

此外,监管机构正日益将气候风险及其他ESG因素与金融稳定紧密联系起来,这反映了市场对可持续性绩效不佳所带来的风险以及可持续解决方案所蕴含的融资机会的认识不断提高[2,4]。在此背景下,自然语言处理(NLP)技术在辅助监管机构更有效地监测和识别“漂绿”行为方面展现出关键作用[2,4]。NLP技术能够自动化分析海量文本数据,协助监管者识别潜在的“漂绿”行为,从而提升市场透明度和企业责任[2]。未来的研究应将监管标准整合到“漂绿”检测方法中,强调将监管框架与NLP方法相结合的重要性,以明确界定“漂绿”行为的基准[3]。

NLP技术能够协助企业确保其报告符合日益增长的可持续性披露要求,并通过自动提取关键信息和检查完整性来监控大量公司的合规性[4]。通过处理复杂的语言数据,NLP能够将可持续性的定性信息转化为可操作的信号,从而促进资本向更可持续的企业和活动配置,并将其整合到估值模型、信用风险评估和投资组合构建中,从而推动更透明和负责任的企业实践[4]。

然而,监管机构在推动ESG信息透明化和打击“漂绿”行为中仍面临诸多挑战,例如信息不对称、监管套利以及企业策略的多变性。NLP技术作为关键工具,有望显著提升监管效率,实现大规模、高精度的监控。展望未来,结合区块链、智能合约等技术,有望实现ESG信息的自动化审计和信任增强,进一步提升监管的有效性。

2.4 典型“漂绿”类型与表现形式

“漂绿”行为的识别复杂性在很大程度上源于其多样化的表现形式和动态演变特征。尽管不同文献对“漂绿”的分类体系存在差异,但其核心特征均指向企业在环境、社会和治理(ESG)信息披露中传递误导性信息的行为 [3]。识别这些误导性声明是当前研究的重点,而非对其进行细致的分类,这暗示了“漂绿”行为的多样性,并未明确给出“漂绿”行为的具体类型(例如“七宗罪”分类法),也未详细描述其语言策略或表现形式 [2]。

在环境维度上,“漂绿”通常表现为企业对自身环境友好程度的夸大宣传。例如,企业可能声称其产品是“环保的”或“绿色的”,但缺乏具体的指标、第三方认证或可验证的数据来支撑这些声明。这种模糊性和缺乏透明度的声明,使得消费者和投资者难以判断其真实性。一个典型的案例是,某公司可能宣传其包装材料可回收,但实际上该材料的回收基础设施并不普及,或者回收过程对环境仍有负面影响。这种行为增加了识别难度,因为其往往利用消费者对环保概念的积极认知,而非直接进行虚假陈述,而是通过含糊其辞或选择性披露来误导。

在社会维度上,“漂绿”可能体现为企业在劳工实践、社区关系或供应链管理方面的虚假承诺。例如,企业可能声称遵守“公平贸易”原则,但实际操作中并未达到国际公认的公平贸易标准,或者缺乏独立的第三方审计来验证其声明。又如,企业可能声称对供应链中的劳工权益负责,但对其供应商的真实工作条件缺乏有效监督。这些行为往往通过发布企业社会责任(CSR)报告、参与慈善活动等方式来营造积极形象,但其核心业务实践却未能完全兑现这些承诺。识别这类“漂绿”需要深入分析企业的实际运营数据、供应链审计报告以及员工反馈等,这使得基于文本的自动识别面临挑战。

在治理维度上,“漂绿”则可能涉及虚假透明度承诺或对公司治理结构的不实描述。例如,企业可能宣称拥有独立的董事会,但实际上这些“独立董事”与公司管理层或主要股东存在密切关联,未能有效履行监督职责。此外,企业可能在公司治理报告中选择性地披露信息,避免提及潜在的利益冲突或治理缺陷。这类“漂绿”增加了识别的复杂性,因为其往往涉及到复杂的股权结构、董事会成员背景以及公司内部控制流程的深层分析,而非简单的文本识别。

综上所述,无论是环境、社会还是治理维度的“漂绿”,其核心特征都是通过模糊、夸大、选择性披露或直接虚假陈述来误导利益相关者。这些典型表现形式的复杂性和隐蔽性,使得传统的基于规则或关键词的“漂绿”识别方法难以应对。这为后续自然语言处理(NLP)方法的针对性设计提供了基础,要求NLP模型不仅能识别表层语言特征,还能深入理解文本背后的真实意图,结合多源信息进行综合判断,以提高“漂绿”识别的准确性和效率。

3. ESG文本数据处理与NLP基础方法

在明确了“漂绿”的概念、量化方法及其监管背景之后,本章将深入探讨为实现对环境、社会和公司治理(ESG)文本数据的有效分析和“漂绿”行为的精准识别,所需的文本数据处理与自然语言处理(NLP)基础方法。本章首先阐述了用于“漂绿”识别的文本数据来源及其特点,强调了数据多样性与质量在识别准确性中的关键作用。接着,详细探讨了文本预处理的通用步骤、挑战以及预处理策略的选择。随后,本章将转向自然语言处理中的核心环节——特征工程与文本表示,重点介绍传统方法与现代深度学习方法的应用,及其如何捕捉语义信息以区分真实声明与虚假宣传。

3.1 文本数据来源与预处理

在“ESG 信息披露‘漂绿’识别”领域,文本数据来源的多样性及其预处理策略对识别结果的准确性具有显著影响。现有研究广泛利用多种文本数据源,以期全面捕捉企业ESG实践及其潜在的“漂绿”行为。

1. 文本数据来源与特点

当前研究中用于“漂绿”识别的文本数据来源呈现出多样化趋势,主要可分为内部企业披露和外部信息来源。内部企业披露通常包括企业可持续发展报告、年度报告、新闻稿、监管备案文件以及财报电话会议记录等[4]。例如,有研究明确指出,企业可持续发展报告是评估公司整体“漂绿”倾向的正式且全面的沟通形式,因为它不同于社交媒体或广告等更非正式的沟通渠道[1]。这些报告通常可从公司官方网站获取,少数情况下需通过电子邮件请求或从年度报告中提取相关可持续性部分[1]。此外,也有研究利用联合国可持续发展目标(SDGs)的描述作为辅助数据来源,因其作为国际公认的基准,有助于指导可持续投资评估[1]。

外部信息来源则涵盖新闻文章、社交媒体(如 Twitter)、非政府组织报告、员工评论以及卫星图像分析描述等[4,6]。例如,有研究将内部企业披露(如官方PDF文档)和外部社交媒体(Twitter)相结合,旨在全面理解企业ESG活动及其有效性,并识别潜在的冲突[6]。Twitter 内容通常通过 API 和网络抓取工具获取[6]。

不同数据来源的特点及其对识别结果的影响是关键考量。内部披露通常代表了企业官方的、经过精心策划的形象,可能存在美化和规避风险的倾向;而外部信息,特别是社交媒体和新闻报道,则可能提供更即时、更客观甚至批判性的视角。NLP 技术能够有效弥合传统量化数据流无法捕获的信息鸿沟,从这些多样的文本来源中提取非结构化的ESG信息,从而为“漂绿”识别提供更丰富、更客观的评估依据[4]。早期 NLP 方法主要依赖关键词搜索和初步情感分析,而当前研究则通过整合和交叉引用多源信息,实现了更全面的分析[4]。

2. 文本预处理的通用步骤与挑战

文本预处理是“漂绿”识别的关键环节,其质量直接影响后续分析和模型性能。尽管并非所有文献都详细阐述了具体的预处理步骤,但普遍强调了数据质量的重要性,指出即使是最先进的 NLP 模型也无法克服数据质量问题,依赖未经验证或有偏见的数据源将导致输出结果的偏差或不可靠性[4]。

常用的文本预处理步骤包括:

  • 标准化处理:将文本转换为小写,移除变音符号、多余空格、URL、联系信息、命名实体和联系方式(如电子邮件地址和电话号码)[1]。
  • 语言翻译:对于非英语数据,可能需要使用高质量的翻译服务(如 DeepL)将其翻译成英语,以便统一分析[6]。
  • 分词(Tokenization):将文本分解成独立的词或短语单元[1,6]。
  • 停用词去除(Stopwords Removal):移除文本中常见的、对语义贡献不大的词语(如“的”、“是”、“和”等)[1,6]。
  • 词形还原(Lemmatization)或词干提取(Stemming):将不同形式的词语还原为基本形式,例如将“running”、“runs”还原为“run”[1,6]。
  • 词性标注(Part-of-Speech Tagging):识别词语的语法角色,如名词、动词、形容词等,有助于更深层次的语义分析[1]。
  • 特殊字符和数字排除:移除文本中的标点符号、特殊符号和数字,以减少噪声[6]。

尽管上述步骤是通用的,但针对特定领域词汇的处理仍面临挑战。ESG 领域存在大量专业术语和行业特定表达,这些词汇的准确识别和处理对“漂绿”识别至关重要。例如,气候相关文本的 NLP 模型预训练数据来源包括企业可持续发展报告和新闻文章等,这些数据有助于开发专门针对气候相关应用的 NLP 模型[3]。然而,一些研究并未详细阐述文本清洗、分词、词形还原、停用词去除等具体预处理方法,也未深入探讨数据规模、领域特定性以及预处理步骤对模型性能的具体影响[2,3,5]。

3. 预处理策略选择

在“漂绿”识别场景下,预处理策略的选择应根据数据特点和任务需求进行。考虑到“漂绿”行为的复杂性和隐蔽性,对原始文本进行精细化处理显得尤为重要。例如,对于企业披露文本,可能需要特别关注其官方措辞和修辞手法,因此词性标注和命名实体识别等步骤可能更为关键。而对于社交媒体数据,由于其口语化、碎片化的特点,更侧重于噪声去除和非标准表达的规范化。

总体而言,虽然并非所有研究都详尽阐述了预处理细节,但其对于原始数据质量的强调,以及在部分研究中对翻译、标准化、分词、词形还原、停用词去除等步骤的实践,都凸显了文本预处理在“漂绿”识别中的基础性作用。未来的研究应更系统地探讨不同预处理策略对模型性能的影响,并针对 ESG 领域的特定词汇和表达模式,开发更有效的预处理方法。

3.2 NLP特征工程与表示

在ESG信息披露“漂绿”识别中,自然语言处理(NLP)的特征工程与文本表示是捕捉语义信息、区分真实声明与虚假宣传的关键步骤。传统的文本表示方法,如词袋模型(Bag-of-Words)和TF-IDF(Term Frequency-Inverse Document Frequency),通过统计词频和文档频率来量化词语的重要性,例如TF-IDF曾被用作“漂绿”识别任务的基准方法[3]。然而,这些方法通常忽略了词语之间的语义关系和上下文信息,限制了模型对复杂语言模式的理解能力。

相比之下,词嵌入(Word Embeddings)和句嵌入(Sentence Embeddings)等现代文本表示技术能够有效地捕捉词语和句子层面的语义信息,显著提升模型对文本深层含义的理解。例如,Word2Vec等词嵌入技术能够将词语映射到连续的向量空间中,使得语义相似的词语在向量空间中距离相近,从而使分析比单纯的关键词匹配更具细微性[4]。在“漂绿”识别场景下,词嵌入和句嵌入的优势在于它们能够捕捉企业声明中的微妙语气、言外之意以及潜在的误导性信息,而非仅限于表面词汇。

具体而言,多种研究采用了先进的深度学习模型和预训练嵌入来增强语义理解。例如,基于Transformer架构的深度学习模型,如FinBERT,在处理公司公开声明和ESG文本数据时,能够学习并表示复杂的语义信息,从而有效捕捉语言模式[2,5]。FinBERT模型尤其适用于金融文本,能够捕捉金融文档和报告中的细微差别和上下文信息,这对于提取情感信息、评估公司绩效以及检测潜在的“漂绿”行为至关重要[6]。

此外,研究人员还结合了情感分析和对齐分析等方法来增强文本表示。情感分析,如使用VADER模型在句子层面捕捉可持续发展报告的语气和强调点,已被证明在新闻媒体等正式文本中表现良好[1]。然而,由于情感分析无法评估内容的实际相关性,对齐分析被引入以解决此局限性。通过利用预训练的词嵌入模型(如基于MPNet语言模型的flax-sentence-embeddings/all_datasets_v3_mpnet-base)生成句子向量,并聚合成文档向量,然后通过余弦相似度计算其与可持续发展目标(SDGs)描述文本的距离,可以有效衡量内容对齐度[1]。这为后续的分类或聚类任务提供了更为丰富的输入特征,有助于更精准地识别“漂绿”行为。

在金融和ESG领域,领域特定的词嵌入或表示方法显示出显著优势。例如,专为金融文本设计的FinBERT-ESG-9-Categories模型能够将文本数据分类到九个相关ESG主题中,捕捉金融文档中的细微差别,并提取情绪信息,这对于检测“漂绿”行为具有重要价值[6]。此类模型通过在大量金融和ESG领域文本上进行预训练,能够学习到领域特有的词义和上下文关系,从而提升“漂绿”识别的准确性。综合利用各种NLP工具,如spaCy、AllenNLP和NLTK进行段落解析、核心指代解析和语义角色标注,也能将ESG核心数据转化为结构化问答对,进一步增强文本的语义理解和表示能力[6]。

总而言之,在“漂绿”识别场景下,相较于传统的文本表示方法,基于深度学习的词嵌入和句嵌入方法更具优势,特别是那些在金融或ESG领域进行过预训练的模型。它们能够更有效地捕捉文本的语义信息、上下文关联和情感倾向,为后续的分类或聚类任务提供高质量的特征输入,从而显著提升“漂绿”行为识别的准确性和鲁棒性。

4. 基于NLP的“漂绿”识别方法与应用

本章旨在深入探讨如何利用自然语言处理(NLP)技术,对企业ESG(环境、社会和治理)信息披露中的“漂绿”行为进行识别和量化。随着ESG理念的日益普及,企业对可持续发展的承诺日益增多,但部分企业可能存在通过虚假、夸大或误导性信息来粉饰其环境和社会表现的“漂绿”现象。识别这些隐藏在大量文本数据中的“漂绿”行为,对于维护市场透明度、引导负责任投资以及促进企业真正实现可持续发展具有至关重要的意义。

本章将系统阐述NLP驱动的多种方法,包括文本分类、情感分析、主题发现、模式识别以及深度学习技术在“漂绿”识别中的应用。这些方法不仅能够从海量的ESG报告、新闻稿、社交媒体数据中提取关键信息,还能够进一步分析文本的语义、情感倾向以及上下文关联,从而揭示潜在的“漂绿”策略。

首先,本章将介绍基于监督学习的方法,如文本分类和情感分析,如何通过对已标注数据的训练和微调,实现对“漂绿”文本的精确识别和量化。其次,将探讨无监督学习方法在缺乏标注数据情境下的应用,重点关注主题模型和模式识别如何自动发现文本中的潜在主题和异常模式,从而间接揭示“漂绿”行为。接着,将深入剖析深度学习,特别是高级语言模型(如Transformer架构模型)在理解复杂语境和捕捉细微语义差异方面的优势,及其在识别高级“漂绿”策略中的潜力。最后,本章将讨论情感分析的辅助作用以及多任务集成模型如何通过结合多种NLP技术来提升“漂绿”检测的准确性和鲁棒性。通过对这些方法的综合分析,本章旨在为研究人员和从业者提供一个全面而深入的视角,以应对“漂绿”识别这一复杂挑战,并指明未来的研究方向和技术发展潜力。

4.1 基于监督学习的“漂绿”识别:文本分类与情感分析

监督学习方法在“漂绿”识别及可持续金融分析领域展现出显著优势,尤其体现在其高准确率方面。这些方法的核心在于利用已标注数据集对模型进行训练和微调,从而使模型能够识别和分类文本中的特定模式,进而辅助评估企业披露信息的真实性与一致性[3]。

在特征表示方面,虽然现有研究并未详细比较不同词嵌入方法对模型性能的具体影响,但自然语言处理(NLP)模型通过分析公司披露评估可持续性表现,通常涉及文本分类任务,如识别气候相关声明或评估绿色声明真实性[2]。词嵌入技术通过捕捉词语的语义信息,能够有效提升模型对文本深层含义的理解能力,这对于识别文本中隐藏的“漂绿”意图至关重要。

高质量标注数据集的获取是监督学习成功的关键。虽然文章未直接阐述如何通过众包或专家标注等方式获取高质量数据,但强调了标注数据集在模型微调中的重要性[3]。模型泛化能力的评估则通过严格的评估指标来实现,例如将新方法与TF-IDF(词频-逆文档频率)等简单基线进行比较,并使用F1分数和ROC-AUC(受试者工作特征曲线下面积)等多种指标来全面评估模型性能[3]。这些指标有助于衡量模型在未见过数据上的表现,从而反映其识别“漂绿”的实际能力。

监督学习方法在细致的情感检测和评估企业披露与框架一致性方面发挥着重要作用,这间接支持了“漂绿”识别。早期文本分类和情感分析在声誉风险评估中的应用,为识别“漂绿”迹象或评估环境、社会和治理(ESG)绩效提供了辅助手段[4]。通过对文本情感倾向的分析,可以揭示企业在可持续性声明中是否存在夸大、模糊或选择性披露等“漂绿”策略。

然而,现有文献在监督学习模型的具体算法、实验设置、性能对比以及不同模型识别特定“漂绿”策略的适用性方面存在研究空白。尽管有研究提及监督学习在“漂绿”识别中的应用,并强调了严格评估指标的重要性,但并未具体探讨支持向量机、逻辑回归、神经网络等常用算法在识别不同类型“漂绿”策略(如夸大、模糊、选择性披露)时的性能差异和原因[3]。未来的研究应聚焦于比较不同监督学习模型在特定“漂绿”策略识别任务上的表现,并结合在不同数据集上的实验结果进行批判性评估,以明确不同模型的适用场景及其局限性。同时,还需要深入探讨如何利用更先进的特征工程方法和模型架构来提升“漂绿”识别的准确性和泛化能力。

4.2 基于无监督学习的“漂绿”识别:主题发现与模式识别

在“漂绿”识别领域,由于标注数据的稀缺性,无监督学习方法展现出独特的优势。这类方法主要依赖于文本挖掘和关键词识别技术,能够在未经标注的数据中自动发现潜在的主题和模式,从而间接揭示“漂绿”行为[3]。

主题模型(Topic Modeling)是无监督学习在ESG报告分析中的一项重要应用,能够识别文本中的关键主题和潜在模式[4]。通过追踪企业沟通或新闻媒体中ESG主题和叙事随时间的演变,主题模型有助于识别新兴风险、公司关注点的转变,以及公众对特定可持续性问题的关注度变化,从而间接揭示“漂绿”行为[4]。例如,当企业披露的主题与其实际行动或外部评价存在显著偏差时,可能预示着“漂绿”行为的存在。然而,现有研究尚未详细阐述这些无监督模型在识别“漂绿”中的具体应用案例、实验设置或评估方式[3,4]。

尽管无监督学习方法在处理未标注数据方面具有显著优势,但在实际应用中仍面临一些挑战。例如,选择合适的主题数量对主题模型的性能至关重要,不当的主题数量可能导致结果的偏差或难以解释。此外,无监督方法在发现新颖或隐蔽的“漂绿”模式方面存在局限性,特别是在“漂绿”策略不断演变的情况下。结果的解释性也是一大挑战,因为无监督模型输出的模式或簇往往需要结合人工分析才能验证其是否真正指向“漂绿”行为。未来研究可以探索如何将无监督学习与少量标注数据结合,或者引入可解释性人工智能(XAI)技术,以提升无监督方法在“漂绿”识别中的准确性和可信度。

4.3 基于深度学习的“漂绿”识别:高级语言模型与上下文理解

在“漂绿”识别领域,深度学习模型因其在处理大规模、复杂文本数据方面的卓越能力而受到广泛关注。相较于传统机器学习方法,深度学习模型能够更有效地捕捉文本中的局部特征与全局依赖关系,并深入理解语义信息。预训练语言模型(PLMs)的兴起进一步提升了这一能力,这些模型通过大规模语料库学习通用的语言表示,并在下游可持续性分析任务中展现出优异性能[2,3,4]。

尤其值得关注的是基于Transformer架构的深度学习模型,如BERT、FinBERT和GPT系列,它们在捕捉文本的上下文细微差别方面取得了显著进展[2,4]。这些模型通过其自注意力机制,能够同时考虑文本序列中的所有词语,从而建立复杂的词语间依赖关系,进而提升对误导性或模糊声明的识别能力。例如,FinBERT作为一种专门针对金融文本训练的BERT变体,能够在大规模金融文本语料库上进行预训练,以捕捉金融文档和报告中的细微差别和上下文信息,这对于预测股价、评估公司绩效以及检测潜在的“漂绿”行为至关重要[5,6]。研究表明,FinBERT能够有效地进行ESG主题分类,例如将数据集分类为气候变化、自然资本、污染与废弃物、人力资本等九个ESG相关主题,为后续的情感分析奠定基础,进而支持识别与“漂绿”相关的潜在不一致信息[6]。

在语义表示方面,研究也利用诸如基于MPNet语言模型的flax-sentence-embeddings/all_datasets_v3_mpnet-base模型,在句子层面生成文本嵌入向量[1]。这些句子向量可以进一步聚合成文档向量,并通过余弦相似度计算与联合国可持续发展目标(SDGs)描述文本的对齐程度。此方法旨在捕捉报告内容的语义相关性,并将其作为“漂绿倾向分数”(GTS)的一个组成部分,反映公司沟通内容与公认可持续性框架的匹配程度[1]。这凸显了深度学习模型在理解和量化文本与预设可持续性标准之间关联方面的潜力。

尽管深度学习模型在“漂绿”识别中展现出强大优势,但仍存在挑战。其中一个显著问题是模型的“黑箱”特性,即其决策过程通常难以解释。为了提升模型的可解释性,研究者可以利用注意力机制可视化等技术,以揭示模型在做出预测时所关注的文本部分。此外,深度学习模型对领域专业知识的依赖和对计算资源的需求也是其局限性。虽然预训练模型可以通过在可持续性特定语料库上进行微调来增强其相关性[4],但这种微调过程仍需大量标注数据和计算能力。未来的研究方向应着重于开发更具可解释性的深度学习模型,并探索如何利用有限的领域专家知识和计算资源来有效地识别复杂且动态变化的“漂绿”行为。

4.4 情感分析与多任务集成模型在“漂绿”识别中的应用

情感分析作为自然语言处理(NLP)领域的重要工具,在“漂绿”识别中扮演着辅助角色,通过识别文本中的积极、消极或中性情感,为潜在的误导性声明提供额外线索[4]。该技术能够对企业内部ESG声明和外部社交媒体(如Twitter)上的公众情绪进行评估,例如利用TextBlob或VADER等情感分析库,对文本内容分配情绪分数,从而衡量其中嵌入观点的感情倾向[1,6]。通过对比公司内部宣传与外部公众舆论的情绪,研究发现两者之间可能存在脱节,特别是在“污染与废弃物”等特定领域,内部情绪与外部感知之间呈现负线性相关,这被视为潜在“漂绿”行为的预兆[6]。

情感分析在更广泛的可持续性评估中亦展现出应用潜力,例如,在地方新闻和社交媒体上监测社区对公司项目或运营的看法,评估环境和社会影响评估报告中的利益相关者对话质量,从而在潜在的社会风险或冲突升级之前识别它们[2,4]。然而,情感分析存在局限性,其对领域特定词汇和讽刺的识别能力有待提升[1]。仅凭情感分析无法评估内容的实际相关性或避免“漂绿”现象,因为公司在描述可持续性努力时通常会使用积极语言,但其背后可能缺乏实质性行动[1]。

为克服单一情感分析的局限性,多任务集成模型应运而生,通过协同处理多个NLP任务来提升“漂绿”检测的准确性和鲁棒性。这些NLP任务分类包括但不限于气候相关声明识别、绿色声明评估、情感和语调分析以及主题检测[2,3,4]。例如,研究提出了一个基于NLP的问答框架,该框架利用核心ESG数据生成结构化问答对,通过整合spaCy、AllenNLP和NLTK等多种NLP工具进行段落解析、句子级解析、核心指代消解、缩写解析和文本蕴含等任务,从而验证ESG声明的真实性,实现自我监测和实时验证的功能[6]。

此外,“漂绿倾向分数”(GTS)的多任务集成模型通过结合情感分析、对齐分析(将报告内容与可持续发展目标SDGs进行比较)以及ESG评级,综合评估沟通语气、内容与可持续性框架的对齐程度以及实际ESG表现,从而更全面地检测“漂绿”倾向[1]。这种集成方法旨在避免因公司过度夸大所有可持续性方面而获得相同“漂绿”分数的情况,即使其在某些方面实际表现不佳[1]。这些任务通过协同作用,共同为评估企业可持续性表现提供了多维度的见解,并为未来的多任务学习模型奠定了理论基础,例如通过将NLP与计算机视觉(如卫星图像监测森林砍伐或排放)和其他数据模态结合,提供更稳健和可验证的可持续性绩效图景[4]。

当前文献在提供情感分析具体实践案例方面存在不足,未来研究可以深入探讨如何利用情感极性、强度和语调变化来更精细地捕捉“漂绿”的隐蔽性。例如,进一步研究情感分析如何识别文本中潜在的夸大、模棱两可或规避性语言,这可能是“漂绿”行为的微妙信号。

5. 挑战与未来方向

尽管自然语言处理(NLP)在识别企业“漂绿”行为方面展现出巨大潜力,但当前研究仍面临多重挑战,这些挑战不仅限制了现有方法的效能和泛化能力,也为未来的研究方向提供了明确的指引。本章旨在系统梳理这些挑战,并展望未来的研究路径,以期推动“漂绿”识别领域向前发展。主要挑战包括数据稀缺性与标注难题、跨模态信息融合与外部知识增强的不足、模型透明性、可解释性、鲁棒性与合规性考量,以及动态演化与实时监测机制的缺失。

digraph_4mcuq5y9_1749995715610_“漂绿”识别挑战与未来方向

首先,高质量、大规模已标注数据集的匮乏是制约当前“漂绿”识别研究的核心障碍。现有的监督学习方法严重依赖于充足且精准的标注数据,然而在ESG信息披露领域,用于“漂绿”检测的可用数据集极其稀缺,这极大地阻碍了数据驱动模型的发展与应用[1]。例如,尽管NLP在金融和ESG领域潜力巨大,但由于缺乏标准化、机器可读的报告格式,使得数据摄入和比较过程复杂化,特别是在特定、小众ESG主题上,标注数据尤为稀缺[4]。此外,数据标注本身不仅耗时且成本高昂,其复杂性也进一步加剧了问题,导致许多研究不得不依赖有限的、未明确为“漂绿”检测目的而策划的数据集,使得基准测试难以进行,并阻碍了更有效检测模型的开发[2,3]。现有研究中,对“漂绿”事件的识别仍主要依赖人工调查,而这些调查往往只能揭示更严重、更非法的“漂绿”行为,更微妙、普遍存在的合法“漂绿”案例则未被充分关注[1]。数据集规模和多样性的不足以及数据不平衡问题,使得模型难以泛化到未见过的新数据或复杂的“漂绿”策略中[2]。

其次,当前“漂绿”识别主要依赖单一模态的文本分析,但“漂绿”行为的复杂性日益增加,使得单一模态分析难以满足全面、精准识别的需求。未来的研究必须拓展识别维度,通过跨模态信息融合与外部知识增强来提升模型的准确性、鲁棒性和可解释性[4]。这包括将文本数据与视觉信息(如卫星图像)、物联网(IoT)传感器数据、视频分析甚至财务数据和地理空间数据等异构数据源进行深度融合,以构建更全面、可验证的企业可持续性绩效图景[4]。此外,外部知识的增强对于提升模型对ESG领域专业术语和行业背景的理解至关重要。通过集成外部知识图谱、领域本体和专家知识库,可以显著增强模型捕获深层语义的能力,并提升对“漂绿”行为的深层理解,甚至追溯其产生的原因和影响,从而提供更具可解释性的识别结果[2]。

再者,模型的透明度、可解释性、鲁棒性以及合规性是“漂绿”识别领域不可忽视的关键挑战。复杂深度学习模型固有的“黑箱”性质在金融等严格监管领域引发了对模型决策过程透明度的持续担忧,这限制了研究人员和用户对模型结果的信任[2,4]。尽管可解释人工智能(XAI)技术如LIME和SHAP正在被应用以帮助理解模型决策,但对模型透明度不足的讨论深度仍有待加强[4]。同时,模型在噪声大、真实世界环境中的鲁棒性表现,以及对对抗性攻击或细微语言变化的抵御能力,都是影响其实际应用可靠性的重要挑战[2,3]。此外,随着全球可持续性披露要求的增加,确保NLP工具能够帮助企业符合监管要求,并协助监管机构监控大量公司的合规性变得尤为重要[4]。将监管标准整合到“漂绿”检测方法中,明确界定“漂绿”的基准,是未来研究的重要方向,这意味着模型需要与现有法规和政策保持一致[3]。

最后,企业“漂绿”策略的动态演化要求构建自适应的NLP模型,以实现实时监测和新型模式识别。传统的静态模型难以有效应对不断更新的“漂绿”手段,因此需要持续的模型更新以纳入新的语言模式,并更侧重于验证企业行动而非仅分析声明内容[2,4]。利用流式数据处理技术和动态主题建模等方法可以对企业披露信息进行实时监测,并识别新兴风险和语境变化[4]。将“漂绿”识别视为一个序贯决策过程,并引入强化学习(RL)框架具有显著潜力,因为它能够根据实时反馈调整识别策略,以应对“漂绿”策略的动态演化。此外,联邦学习(Federated Learning)等隐私保护技术,也为在不暴露原始数据的前提下实现跨机构信息共享和模型协同训练提供了可能,从而构建更强大、更鲁棒的全球模型,解决数据隐私合规性问题,并促进知识共享与协作。然而,尽管现有研究已提出用于持续监测的NLP框架,但处理模糊或矛盾信息时仍需人工专家介入,这表明完全自动化的实时监测仍存在挑战,需要结合人工干预来提高准确性[6]。

综上所述,未来“漂绿”识别研究应聚焦于克服这些挑战,通过创新性的数据获取和标注策略、多模态信息融合、外部知识增强、可解释性与鲁棒性模型设计以及动态实时监测机制的构建,以期提升“漂绿”识别的准确性、时效性与社会应用价值。

5.1 数据稀缺性与标注难题

在ESG信息披露背景下,“漂绿”行为的识别,尤其是通过自然语言处理(NLP)方法实现时,面临着显著的数据稀缺性与标注难题。这主要体现在以下几个方面:

首先,高质量、大规模已标注数据集的匮乏是当前研究面临的核心挑战。现有研究普遍指出,用于“漂绿”检测的可用数据极其稀缺,严重阻碍了监督机器学习等数据驱动方法的发展与应用[1]。例如,尽管NLP在金融和ESG领域具有巨大潜力,但缺乏标准化、机器可读的报告格式,使得数据摄入和比较过程复杂化,且针对特定、小众ESG主题的标注数据尤为稀缺[4]。许多研究仍依赖有限的、未明确为“漂绿”检测目的而策划的数据集,这使得基准测试难以进行,并阻碍了更有效检测模型的开发[3]。

其次,数据标注的复杂性和高昂成本进一步加剧了问题。获取大量高质量的“漂绿”文本标注是耗时且成本高昂的,这限制了监督学习模型的发展和性能[2]。目前,“漂绿”事件的曝光仍主要依赖于人工调查,例如记者或非政府组织进行的调查,这些努力往往只能揭露更严重、更非法的“漂绿”行为,而更微妙、普遍存在的合法“漂绿”案例则未被充分调查[1]。此外,现有数据集的规模和多样性不足,以及数据不平衡问题,使得模型难以泛化到未见过的新数据或复杂的“漂绿”策略中[2]。例如,有研究仅限于对少数制药公司的分析,数据来源受限且部分内部企业数据集不可访问,导致研究发现主要强调潜在的“漂绿”危险信号,而非确凿事件,其普适性难以推广到其他行业[6]。尽管研究尝试通过翻译和预处理来弥补原始数据的局限性,但仍难以构建大规模、高质量的标注语料库来训练和验证模型[6]。

为克服上述挑战,未来研究应探索以下策略:

首先,构建更具代表性和多样性的数据集至关重要。可以考虑采用众包(Crowdsourcing)的方式,利用分布式人工智能来加速数据标注过程,降低标注成本。同时,主动学习(Active Learning)能够选择最有信息量的数据点进行人工标注,从而最大限度地提高标注效率,在有限的标注预算下实现更好的模型性能。此外,利用迁移学习(Transfer Learning)将预训练模型(如大型语言模型)应用于“漂绿”检测任务,可以在数据稀缺的领域中取得良好效果,通过微调少量特定领域的标注数据来适应新任务。

其次,针对数据质量和标准化问题,可以考虑引入区块链技术。区块链的不可篡改性和可追溯性特点能够从源头上确保ESG数据的真实性和可靠性,从而提升数据质量和标准化水平。通过区块链记录ESG信息的披露过程,可以有效防止信息篡改,增强数据透明度,为NLP模型提供更可信的输入。

最后,应深入探讨和实践零样本/少样本学习(Zero-shot/Few-shot Learning)和远程监督(Distant Supervision)等方法。零样本/少样本学习允许模型在有限甚至没有标注数据的情况下执行任务,这对于特定、小众ESG主题的“漂绿”检测尤为重要[4]。远程监督则通过启发式规则或外部知识库自动生成弱标签,从而扩大训练数据集的规模。此外,多语言数据增强也是一个值得探索的方向,通过翻译和整合不同语言的ESG报告来丰富数据集的多样性。然而,当前文献对这些方法的实践应用案例讨论相对不足,这为后续研究提供了明确的方向,鼓励研究人员探索这些前沿技术在“漂绿”识别中的具体应用和效果评估。

5.2 跨模态信息融合与外部知识增强

随着“漂绿”行为复杂性的提升,单一模态的ESG信息披露文本分析已难以满足全面、精准识别的需求。未来的研究方向应着重于拓展“漂绿”识别的维度,通过跨模态信息融合与外部知识增强来提升模型的准确性、鲁棒性和可解释性。

跨模态信息融合在“漂绿”识别中具有巨大潜力。传统的自然语言处理方法主要关注文本数据,但“漂绿”行为的证据可能散布于多种数据形式中。例如,除了文本报告,视觉信息如卫星图像可以用于监测森林砍伐或排放情况,物联网(IoT)传感器数据可以提供实时的环境参数,而视频分析则可以用于评估利益相关者会议中的沟通情况[4]。将这些异构数据源进行深度融合,能够构建更全面、可验证的企业可持续性绩效图景。例如,将企业报告中关于环境保护的文本声明与描绘其运营区域森林砍伐情况的卫星图像进行联合分析,或者将媒体新闻情绪与排放传感器数据关联起来,可以更稳健地验证企业声明的真实性,从而有效识别潜在的“漂绿”行为[4]。此外,结合财务数据和地理空间数据等多模态信息,将有助于从更宏观和微观的层面洞察企业的ESG实践,揭示文本信息背后的深层关联,从而提升“漂绿”识别的有效性。

外部知识增强是提升模型对专业术语和行业背景理解的关键。在ESG领域,存在大量专业性强、语境依赖性高的术语和概念。简单地依赖数据驱动的自然语言处理模型可能难以捕捉这些深层语义。通过集成外部知识图谱、领域本体和专家知识库等外部知识源,可以显著增强模型对ESG专业术语和行业背景的理解能力[2]。例如,可以利用知识图谱构建企业的ESG画像,将企业在不同维度(如环境、社会、治理)的表现、相关事件、合作方、供应商等信息结构化,并通过图神经网络进行多模态数据融合。这种方法不仅能够提升对“漂绿”行为的深层理解,还有助于追溯其产生的原因和影响,从而提供更具可解释性的识别结果。

综上所述,未来“漂绿”识别的研究应积极探索多模态数据融合与外部知识增强的结合,这将为构建更准确、更鲁棒、更具可解释性的“漂绿”识别模型提供新的视角和方法[2]。

5.3 模型透明性、可解释性、鲁棒性与合规性考量

在ESG信息披露“漂绿”识别领域,提升模型的透明度、可解释性、鲁棒性以及确保其合规性是当前研究面临的关键挑战。复杂深度学习模型固有的“黑箱”性质,在金融等受严格监管的领域尤为突出,引发了对模型决策过程透明度的持续担忧[4]。研究表明,缺乏透明度会限制研究人员和用户对模型结果的信任,特别是在需要高风险决策的情境中[2]。

为解决这一问题,可解释人工智能(XAI)技术,如LIME和SHAP,正被应用于文本分析,旨在帮助分析师理解模型为何将特定声明分类为“漂绿”或赋予其特定ESG风险分数[4]。这些技术有助于提升利益相关者对模型输出的信任,并促进模型的持续改进。尽管现有文献已开始关注这一问题,但对模型透明度不足的讨论深度仍有待加强。

模型的鲁棒性是其在真实世界复杂环境中有效性的关键。未来的研究必须解决当前模型在噪声大、真实世界环境中的性能表现,特别是要关注模型在不同数据集上的泛化能力[3]。模型对对抗性攻击或细微语言变化的抵御能力同样是重要挑战,因为这可能导致模型被恶意规避,从而影响其在实际应用中的可靠性[2]。

合规性考量在金融领域具有特殊的重要性。随着全球可持续性披露要求的增加,自然语言处理工具能够帮助企业确保其报告符合监管要求,并协助监管机构监控大量公司的合规性[4]。例如,可持续金融披露监管(SFDR)在减少“漂绿”方面的溢出效应表明了监管政策在治理“漂绿”方面的重要性,这暗示了自然语言处理技术在支持监管机构合规性考量方面的巨大潜力[5]。将监管标准整合到“漂绿”检测方法中,明确界定“漂绿”的基准,是未来研究的重要方向,这意味着模型需要与现有法规和政策保持一致[3]。

然而,当前法规在全面应对“漂绿”行为方面仍存在不足。自然语言处理技术能够支持监管机构进行大规模、高效的合规性审查,从而推动更透明和负责任的企业实践。未来,通过区块链、智能合约等技术有望实现ESG信息的透明化和自动化审计。此外,自然语言处理模型可能继承并放大训练数据中存在的社会偏见,例如性别偏见或地理偏见,这需要进行仔细的审计和缓解措施[4]。鉴于监管机构日益将气候风险和ESG因素与金融稳定联系起来,未来的“漂绿”识别工具不仅需要满足严格的合规性要求,更应能在法律框架内提供可信的证据[2]。

5.4 动态演化与实时监测机制

随着企业“漂绿”策略的持续演变,构建自适应的自然语言处理(NLP)模型以实现实时监测和新型模式识别成为当前研究的重点和挑战[2,4]。传统的静态模型难以有效应对不断更新的“漂绿”手段,因此需要持续的模型更新以纳入新的语言模式,并更侧重于验证企业行动而非仅分析声明内容[4]。

为了应对这一挑战,可以利用流式数据处理技术,对企业披露信息进行实时监测。动态主题建模(Dynamic Topic Modeling)等方法能够有效追踪企业沟通或新闻媒体中ESG主题和叙事随时间演变,从而识别新兴风险、企业关注点的转变或公众对特定可持续性问题的关注度变化,为早期预警提供基础[4]。

在模型构建方面,将“漂绿”识别视为一个序贯决策过程,并引入强化学习(Reinforcement Learning, RL)框架具有显著潜力。RL模型能够根据实时反馈调整识别策略,以应对“漂绿”策略的动态演化。例如,模型可以学习在不同语境下对特定词汇或短语的语义进行重新评估,并通过奖励机制(如成功识别“漂绿”行为)优化其决策路径。这使得模型能够持续学习并适应新的欺骗性模式,避免因策略僵化而失效。

此外,为了提升模型的泛化能力和实时监测效率,可以考虑引入隐私保护技术,例如联邦学习(Federated Learning)。联邦学习允许在不暴露原始数据的前提下,实现跨机构的企业“漂绿”信息共享和模型协同训练。各机构可以在本地训练其模型,并将模型参数或梯度而非原始数据上传至中央服务器进行聚合,从而构建一个更强大、更鲁棒的全球模型。这不仅解决了数据隐私合规性问题,也促进了不同行业或地区之间在“漂绿”识别方面的知识共享与协作。

目前,已有研究提出了基于NLP的框架,旨在满足对“漂绿”行为进行持续警惕性监测的需求。例如,通过将内部企业文档中的核心ESG数据转化为结构化的问答对,可以简化内部验证ESG声明的过程,并作为实时验证器响应利益相关者的查询,促进透明度和问责制[6]。然而,该研究也指出,在处理文本中的模糊或矛盾信息时,系统虽能识别并标记模糊性以供人工审查,但在出现潜在不匹配或矛盾时仍需人工专家介入,这表明完全自动化的实时监测仍存在挑战,需要结合人工干预来提高准确性[6]。

综上所述,未来实时“漂绿”预警系统将可能集成RL的自适应学习能力、联邦学习的隐私保护与协作优势,以及流式数据处理技术,实现对企业披露信息的动态、高效且持续的监测。尽管目前仍存在完全自动化挑战,但结合领域知识和必要的人工干预,这些技术有望显著提升“漂绿”识别的准确性和时效性,为监管机构和利益相关者提供更强有力的支持。

6. 结论

本章旨在对本文的整体发现进行总结,探讨当前研究的局限性,并展望未来的研究方向。通过系统回顾自然语言处理(NLP)在识别ESG信息披露中“漂绿”现象的应用,本综述揭示了该领域所取得的显著进展以及仍需克服的挑战。

本综述的核心发现凸显了自然语言处理(NLP)在识别ESG信息披露中的“漂绿”行为以及更广泛的可持续金融领域所展现的巨大潜力和现有局限性[2,4]。NLP作为一种范式转变,通过对报告、新闻、社交媒体、法规和演讲等海量非结构化文本数据进行算法解释,能够识别并操作化可持续经济中价值和风险的论述性构建,从而提取关于环境诚信、社会责任和治理质量的关键信号[2,4]。这些信号不仅具有切实的财务后果,而且有助于将对可持续性的理解更深入地整合到资本配置和风险管理的核心逻辑之中[4]。

NLP技术在自动化、效率和大规模文本处理方面展现出显著优势。例如,BERT和FinBERT等先进的深度学习模型在识别复杂且微妙的“漂绿”行为方面表现出有效性,通过文本分类、情感分析和主题检测等任务,为理解和量化企业ESG表现提供了有力工具[2]。这些技术已成功应用于改进ESG评级方法、气候风险评估平台、绿色清洗检测服务、供应链可持续性监测和专题可持续投资研究[4]。具体而言,有研究引入了“漂绿倾向分数”(GTS),该方法通过情感分析和对齐分析技术,结合ESG评级来量化报告与实际可持续性表现之间的差异,并被证明是一种可扩展、可重现且客观的工具,可帮助投资者、监管机构、非政府组织和企业识别“漂绿”行为[1]。此外,NLP还能够辅助监管机构和投资者做出更明智的决策,从而促进市场透明度和责任制[2]。监管政策的重要性也通过NLP方法得到印证,例如可持续金融披露监管(SFDR)能够有效减少“漂绿”行为,并通过FinBERT模型进行量化分析[5]。

然而,现有研究也暴露出NLP在语义理解和复杂模式识别方面的提升空间,以及在识别“漂绿”行为方面仍存在的显著差距[3]。尽管NLP方法在识别ESG领域潜在“漂绿”倾向方面潜力巨大,但在处理企业内部ESG策略情绪与公众情绪之间的脱节时,仍需细致审查。例如,一项针对制药巨头内部ESG策略情绪与Twitter上公众情绪的对比分析显示,两者之间存在显著脱节,尤其是在“污染与废弃物”领域,情绪一致性表现出明显的不协调,这表明企业ESG声明与普遍公众情绪之间可能存在潜在脱节,强调了对潜在“漂绿”行为进行细致审查的必要性[6]。

现有研究中发现的共同模式和趋势表明,包括监督学习、无监督学习、深度学习和情感分析在内的NLP方法在应对不同“漂绿”场景(如模糊性、选择性披露、夸大性声明)中展现出不同的有效性与不足。例如,情感分析和对齐分析技术结合ESG评级可量化企业报告与实际可持续性表现的差异,以检测“漂绿”倾向[1]。针对企业声明与公众情绪脱节的问题,研究设计了基于NLP的问答系统,利用核心ESG数据生成相关问答对,为打击“漂绿”行为提供有力工具[6]。这些方法在整体上对“漂绿”识别领域做出了重要贡献,为识别误导性气候沟通提供了新的视角。但要建立能够自动识别误导性气候沟通、提高企业问责制和透明度的系统,仍需解决现有研究的局限性[3]。这需要超越易于量化的指标,解码意图、评估承诺、识别隐藏在叙事中的新兴风险,最终将对可持续性绩效更丰富、更全面的理解整合到资本配置和风险管理的核心逻辑中[4]。

6.1 主要研究发现总结

本综述的核心发现揭示了自然语言处理(NLP)在识别ESG信息披露中“漂绿”现象以及更广泛的可持续金融领域所蕴含的巨大潜力和尚存的局限性。NLP作为一种范式转变,能够识别并操作化可持续经济中价值和风险的论述性构建,通过算法解释海量的非结构化人类语言数据,如报告、新闻、社交媒体、法规和演讲,以提取关于环境诚信、社会责任和治理质量的关键信号[2,4]。这些信号不仅具有切实的财务后果,而且有助于将对可持续性的理解更深入地整合到资本配置和风险管理的核心逻辑之中[4]。

NLP技术在自动化、效率和大规模文本处理方面展现出显著优势。例如,先进的深度学习模型,如BERT和FinBERT,在识别复杂且微妙的“漂绿”行为方面表现出有效性,通过文本分类、情感分析和主题检测等任务,为理解和量化企业ESG表现提供了有力工具[2]。这些技术在提高ESG评级方法、气候风险评估平台、绿色清洗检测服务、供应链可持续性监测和专题可持续投资研究方面均取得了成功应用[4]。具体而言,有研究引入了“漂绿倾向分数”(GTS),该方法通过情感分析和对齐分析技术,结合ESG评级来量化报告与实际可持续性表现之间的差异,并被证明是一种可扩展、可重现且客观的工具,可帮助投资者、监管机构、非政府组织和企业识别“漂绿”行为[1]。此外,NLP还能够辅助监管机构和投资者做出更明智的决策,从而促进市场透明度和责任制[2]。监管政策的重要性也通过NLP方法得到印证,例如可持续金融披露监管(SFDR)能够有效减少“漂绿”行为,并通过FinBERT模型进行量化分析[5]。

然而,现有研究也暴露出NLP在语义理解和复杂模式识别方面的提升空间,以及在识别“漂绿”行为方面仍存在的显著差距[3]。尽管NLP方法在识别ESG领域潜在“漂绿”倾向方面潜力巨大,但在处理企业内部ESG策略情绪与公众情绪之间的脱节时,仍需细致审查。例如,一项针对制药巨头内部ESG策略情绪与Twitter上公众情绪的对比分析显示,两者之间存在显著脱节,尤其是在“污染与废弃物”领域,情绪一致性表现出明显的不协调,这表明企业ESG声明与普遍公众情绪之间可能存在潜在脱节,强调了对潜在“漂绿”行为进行细致审查的必要性[6]。

现有研究中发现的共同模式和趋势表明,NLP方法(包括监督学习、无监督学习、深度学习和情感分析)在应对不同“漂绿”场景(如模糊性、选择性披露、夸大性声明)中展现出不同的有效性与不足。例如,情感分析和对齐分析技术结合ESG评级可量化企业报告与实际可持续性表现的差异,以检测“漂绿”倾向[1]。针对企业声明与公众情绪脱节的问题,研究设计了基于NLP的问答系统,利用核心ESG数据生成相关问答对,为打击“漂绿”行为提供有力工具[6]。这些方法在整体上对“漂绿”识别领域做出了重要贡献,为识别误导性气候沟通提供了新的视角。但要建立能够自动识别误导性气候沟通、提高企业问责制和透明度的系统,仍需解决现有研究的局限性[3]。这需要超越易于量化的指标,解码意图、评估承诺、识别隐藏在叙事中的新兴风险,最终将对可持续性绩效更丰富、更全面的理解整合到资本配置和风险管理的核心逻辑中[4]。

6.2 研究局限性与未来展望

当前关于ESG信息披露“漂绿”识别的自然语言处理(NLP)研究取得了显著进展,然而,仍面临诸多尚未解决的关键问题和挑战,这些局限性主要集中在数据质量与标准化、语言复杂性以及模型可解释性等多个维度。

首先,在数据质量和标准化方面,现有研究普遍受限于可用“漂绿”数据的稀缺性与不一致性[1]。例如,当前研究常面临样本量小、行业覆盖范围有限的问题,如某项研究仅限于制药行业12家公司,极大地限制了研究发现的普适性[6]。此外,可持续性报告的分散性和非标准化格式,以及内部企业数据的不可访问性,阻碍了进行稳健的统计定量分析,使得多数研究更多地揭示了潜在的“漂绿”危险信号而非确凿事件[2,4,6]。更为重要的是,当前研究缺乏大规模、公开可用的已标注数据集,这使得不同模型间的基准测试和比较变得异常困难[3]。同时,“漂绿”的定义缺乏普遍共识,其具体表现形式在环境、社会维度以及是否涉及故意欺骗等方面存在差异,进一步加剧了识别的复杂性[1,3]。

其次,在语言复杂性和上下文理解方面,ESG信息披露的文本往往包含微妙的表达、讽刺、回避和故意模糊等语言策略,这些对NLP模型的精确理解构成了严峻挑战[2,4]。此外,“漂绿”的实施方法多样,涉及文本和视觉等多模态形式,需要不同的检测技术来全面捕捉其表现形式[1]。

第三,在模型可解释性与应用方面,现有NLP模型,特别是深度学习模型,普遍存在“黑箱”性质,这阻碍了其决策过程的透明度,进而影响了用户对模型的信任和采纳[2,4]。高昂的计算成本和对专业知识的依赖,以及模型可能放大训练数据中固有偏见的问题,也限制了NLP技术的广泛应用与民主化[4]。

鉴于上述局限性,未来研究应从技术、数据、应用和政策多个维度进行突破,以实现更准确、更鲁棒、更具解释性的“漂绿”识别系统。

技术层面,未来的研究应深入探索和整合更先进的NLP模型和深度学习架构,提升“漂绿”检测的精度,并结合专家知识图谱来增强模型的领域理解能力[2,6]。特别是,可以利用大语言模型(LLMs)的零样本/少样本学习能力,识别新兴或隐蔽的“漂绿”模式,例如通过语义相似度或反事实推理来检测潜在的误导性信息。探索知识图谱与NLP的深度融合,旨在实现从“漂绿”识别到溯源的转变,为理解“漂绿”行为的根本原因提供支持。此外,应发展多语言“漂绿”识别模型,以应对跨国企业ESG信息披露的复杂性。针对多模态“漂绿”行为,未来研究可以探索集成多模态分析技术,处理非文本形式的“漂绿”表现,例如图像和视频信息[1]。

数据层面,未来研究需扩展研究范围至更多元化的行业,以验证当前发现的普适性[6]。同时,应整合更多样化的数据源,如财务披露、第三方ESG评估报告、新闻报道、社交媒体、广告,甚至卫星图像和传感器数据,以提供更全面的可持续性绩效图景,并捕捉更全面的“漂绿”表现形式[1,4,6]。构建标准化的基准测试平台,鼓励公司匿名化报告其ESG成就,将有助于缓解数据稀缺和标准化问题[1,3]。

应用层面,未来的研究应探索将NLP技术与OpenAI等前沿平台结合的可能性,以期获得更优化的输出结果,并最终实现NLP技术的民主化,使其能被更广泛的用户群体(如监管机构、投资者、非政府组织等)所利用,从而推动可持续金融领域的创新和发展[2,4,6]。此外,发展面向监管的智能辅助系统,并探讨“漂绿”识别结果对企业ESG评级、投资者情绪和市场估值的量化影响,构建因果推断模型,量化评估“漂绿”行为对企业长期可持续发展和市场绩效的负面影响,将为监管机构制定更有效的干预政策提供科学依据[2,4]。

最后,在政策层面,未来的研究需要进一步明确“漂绿”的定义,并将其与监管标准进行整合,以建立清晰的识别基准,从而提升检测的准确性和权威性[1,3]。同时,应对伦理挑战(如操纵、隐私问题),适应可持续性语言和概念的快速演变,并确保NLP发展与全球向公正转型和公平可持续性成果的努力保持一致,将是未来的重点。

References

[1] Unveiling Green Facades: Detecting Greenwashing Tendencies in Corporate Sustainability Reports - ScholarSpace https://scholarspace.manoa.hawaii.edu/server/api/core/bitstreams/0edc6764-e487-4d0d-9a5f-6dbbbf1dd88f/content

[2] Detecting Greenwashing in the Environmental, Social, and Governance Domains Using Natural Language Processing - IC3K 2023 - INSTICC https://www.insticc.org/node/TechnicalProgram/ic3k/2023/presentationDetails/121554

[3] [Literature Review] Corporate Greenwashing Detection in Text -- a Survey https://www.themoonlight.io/en/review/corporate-greenwashing-detection-in-text-a-survey

[4] Natural Language Processing Finance → Term - Sustainability Directory https://sustainability-directory.com/term/natural-language-processing-finance/

[5] Spillover Effects of Sustainable Financial Disclosure Regulation - Knowledge UChicago https://knowledge.uchicago.edu/record/6120?ln=en

[6] Detecting Greenwashing in the Environmental, Social, and Governance Domains Using Natural Language Processing - SciTePress https://www.scitepress.org/publishedPapers/2023/121554/pdf/index.html