基于AIGC的文化遗产图像智能生成方法研究——以青铜器为例
2026-03-26 阅读次数:122

侯西¹,² 王雨鑫¹ 臧君涵¹ 刘文斌²,³ 王晓光²,³;1曲阜师范大学传媒学院 日照 276826、2武汉大学文化遗产智能计算实验室 武汉 430072、3武汉大学 信息管理学院 武汉 430072

1 引言

以生成式AI(generative artificial intelligence)为代表的数智技术为文化遗产保护、传承创新与活化利用提供了新工具、新手段和新条件。AIGC(artificial intelligen generated content)驱动的知识生产范式也发生了深刻变革,从传统的专家主导逐渐转向人机协同创新的格局。面向人工智能新时代,如何借助AIGC技术实现文化遗产活化利用,学界和业界正在积极开展研究与探索实践。图像生成技术和视觉语言大模型突出的图像理解与生成能力,更为文化遗产领域图像智能分析与计算、数字内容创作与生成以及图像资源活化利用提供强有力的技术支撑。然而,通用大模型在文化遗产这一复杂和特殊领域的适配性和专业性存在局限,文化遗产各细分垂直领域的大模型研究与建设仍不够完善。

为探索图像生成技术在文物数字保护领域的创新应用,明确AIGC技术赋能文化遗产图像智能生成与活化利用的方法论与路径。本研究从AIGC赋能的视角出发,旨在探索生成式AI在文化遗产图像智能生成与创新性活化应用;以我国青铜器文物为例,构建青铜器知识本体模型,以系统揭示青铜器类型、形制、纹饰、铭文信息及历史背景等多维知识。通过使用青铜器文物数字图像训练微调稳定扩散模型(stable diffusion,SD),从而使其更精准理解与生成具有中国青铜器风格特色的图像。基于案例研究,本文提出AIGC驱动的文化遗产图像智能计算与活化利用的方式与路径。研究成果不仅为青铜器文物保护与学术研究、创意设计与创新活化提供有力支持,也为文化遗产领域图像智能化的研究与应用提供参考和借鉴。

2 相关研究

2.1 图像生成大模型

图像生成是生成式AI的一项核心任务,其根据用户的提示和条件精确控制生成符合用户需求的图像。图像生成技术从传统的基于生成对抗网络的方法,发展到当前备受瞩目的图像生成大模型,再到多模态大模型方向发展。近年来,Midjourney、DALL·E、StableDiffusion、FLUX.1、Imagen等为代表的图像生成模型或算法取得显著的进步。其中,基于扩散模型的StableDiffusion由Stability AI公司在2022年开源公布,推动了文本生成图像领域的发展。扩散模型(diffusionmodel)也已经被应用在文生图、图像风格迁移、图像修复、图像编辑和高清修复等任务[1]。StableDiffusion模型常用的高效参数微调方法有DreamBooth、Hypernetwork、Textual inversion和LoRA等[2]。LoRA(lowrankadaptation)算法是其中最常用的方法,其在风格调整、角色生成、概念生成等方面能够提高AI图像生成的多样性和灵活性。在使用StableDiffusion生成图像中另一个常用的辅助工具是ControlNet。ControlNet是条件生成对抗网络,通过添加一些额外信息和条件控制扩散模型生成的走向,可以精确化控制或调整生成图像的内容、结构、风格和细节。此外,国内图像生成大模型方面也取得显著进展。比如,阿里云通义旗下的通义万相、百度的文心一格、可图大模型、腾讯混元DiT等。其中,快手研发的基于潜在扩散的大规模文本转图像生成模型“可图(Kolors)”在理解和生成中文特定内容方面表现出色,并支持中英文输入。混元-DiT是腾讯开源的基于Diffusion Transformer(DiT)架构的文本到图像生成模型,模型具有中英文细粒度理解能力,采用海量中文数据进行训练,对中国元素理解具有一定的优势[3]。

此外,融合文本、语音、图像、视频等多模态数据进行联合学习的多模态大模型,在跨模态理解、多模态推理和生成方面展现出强大的能力。多模态大模型的训练与研发成为图像理解与生成的重要发展方向。

2.2 文化遗产领域图像智能生成研究与创新应用

生成式AI等新兴技术成为文化遗产智慧数据资源建设、数字化传承与创新、活化与利用的新力量[4]。人工智能技术为GLAM(美术馆、图书馆、档案馆、博物馆)机构馆藏资源的数字焕新带来了新方式和新动能,在文物数字保存与修复、多维展示、知识发现与科研协作、艺术创新和传播教育等场景得到越来越广泛的应用[5]。

在领域图像智能生成与艺术创作方面,S.G.Wu等结合大语言模型和多源监督技术提出知识感知的文物图像生成,利用中国文物图像训练数据对Taiyi-SD基础模型进行微调,实现更好的文物图像合成[6]。Y.J.Gu等基于扩散模型微调实现中国传统山水画的生成[7];侯云鹏等利用LoRA算法微调楚漆器风格图像生成模型,为非遗的数字化传承提供了新思路和方法[8]。于鹏等基于AIGC范式研究苗族服饰设计,训练苗族服饰LoRA模型,为服饰现代化设计和服饰文化传承提供新的可能[9]。李莉等基于GAN和Diffusion框架进行传统纹样设计和生成[10]。此外,也有学者从“非遗+AI”的视角,使用SD模型技术进行包装创新设计和传统手工艺表现形式的活化[11]。生成式AI技术正在从创作工具、艺术语言、艺术形态与风格等多个层面重构着图像的生产范式[12]。

视觉语言大模型展现出的大规模图像内容分析、解释和推理能力,使其在辅助文物修复和图像阐释方面也发挥着重要作用。比如,李春桃等基于深度学习技术分析青铜器图像,实现对青铜器进行分期断代[13]。W.F.Wang等提出基于孪生傅里叶网络(SFN)的少样本青铜器分类方法,实现对爵、尊、卣、觚等6类青铜器的图像分类[14]。X.Y.Zhang等训练SD图像生成模型对仰韶彩陶图像进行修复[15]。H.S.Guan等利用扩散模型提出甲骨文破译的方法,为甲骨文文字破译提供重要线索[16]。L.Wang等利用AIGC模型来绘制汉字图像,促进对汉字的理解与学习[17]。同时,通过利用视觉语言模型和多模态技术对文化遗产领域图像数据中蕴含的符号和图形进行解析,进而提取其文化元素、文化符号和文化基因,为文化遗产的数字化保护和传播提供强有力的支持。

综上,AIGC技术已经越来越深入地应用在文化遗产领域,图像生成技术为青铜器文物保护与修复、科学研究与文化传播等带来新思路和新手段;但目前文化遗产垂直领域以及青铜器细分领域的专业大模型建设仍有待加强和完善。应加强构建更加契合中国青铜器研究需求的专业化大模型,以增强对中国文化语境下青铜器文化特征的理解与表达能力。

3 研究设计

为了更好的实现文化遗产领域图像的智能生成与处理,需要利用领域训练数据对图像生成模型进行微调与优化。本研究选择中国青铜器文物数字图像作为案例,在图像生成模型StableDiffusion的基础上,使用高效参数微调算法进行模型微调,以生成青铜器风格的图像。研究的总体框架与流程如图1所示,主要流程包括数据准备与预处理、人智协同的图像语义标注、模型微调与优化以及模型应用等。


图片

3.1 训练数据集准备与预处理

在对SD模型微调中,训练图像的质量直接影响模型生成图像的质量。本研究从台北故宫博物院典藏资料检索系统[18],过滤筛选青铜器文物图像及其元数据作为训练数据集。典藏资料检索系统使用国际图像互操作框架(international image interoperability framework,IIIF),每件青铜器文物有多个角度采集的数字图像。同时,青铜器文物记录具有专业权威的元数据描述记录,包括中英文名称、年代、尺寸、描述说明等元数据字段,为基于大语言模型的图像语义标注提供重要的信息。

为确保模型训练的效果,需要对采集的图像进行预处理。选择高清晰度、多角度、主体突出的文物数字图像,去掉水印、标准色卡等无关信息,保留图像中的青铜器主体特征。由于青铜器的门类与种类较为庞杂,训练图像数据集主要选取鼎、尊、壶、鬲、爵等较为常见的容器类青铜器,排除乐器、兵器、铜镜等类型。使用LoRA算法进行模型训练时要求图像尺寸一致,本研究批量裁剪图片为768×768像素。最后,模型微调训练数据集共计选取605张高质量青铜器文物数字图像。

3.2 青铜器知识本体设计与构建

为实现青铜器知识单元及其关联关系的统一结构化表示,同时为青铜器图像语义标注提供标准化词汇,本文设计构建青铜器知识本体模型。

3.2.1 青铜器器形描述的维度

在考古、文物与博物馆学领域,对器物类文物的命名与描述时,往往涉及器物类型、器形、质地、图案纹样、制作工艺等多个方面。从类型学的角度,青铜器的器形特征和具体形态是进行类型划分的基础,器形特征的变化和发展反映出特定历史时期和文化背景。青铜器的基本部件包括“口”“颈”“腹”“足”“盖”“提梁”等部件,青铜器形制与部件结构示意图,如图2所示。对青铜器部件形态进行说明与描述时,往往使用“直”“侈”“圈”“束”“微鼓”等形容词对器形或部件特征进行修饰。同时,青铜器的部件变化呈现出规范性和个性化的特点,规范性强调保持器物的主要部件的形态体现器物的核心功能,个性化则对次要部件进行灵活变化满足器物辨识度与艺术性的需求。


图片

利用大语言模型辅助图像语义标注过程中,青铜器的造型与部件特征可以直观的体现在数字图像中。因此,本研究主要从器类、器形、材料、纹饰等维度对青铜器图像进行描述与标注,而青铜器的铸造工艺、铭文释义、出土地点信息等不能直接表现在图像内容中,此类信息不作为图像语义标注的重点,但这些信息对理解青铜器背景知识非常重要,被设计到青铜器知识本体模型中。

3.2.2 青铜器知识表示本体构建

领域本体能够描述与揭示领域概念及概念间的语义关系,在领域知识库构建、知识组织、语义检索等方面发挥重要作用。本文在参考借鉴青铜鼎本体、铜器类文物元数据标准等相关研究的基础上,设计构建青铜器知识本体模型,旨在对青铜器知识进行解构与结构化表示。

针对中国青铜器中的“青铜鼎”,T.Wei等设计青铜鼎本体(Ding ontology)[19],该本体对鼎的相关知识进行知识建模与表示,核心类包括青铜器对象、功能、部件或组件以及朝代、地点等。胡汗林等从青铜器、类别、时间、地点和资料等5个方面构建青铜器的概念体系[20]。同时,本研究借鉴中国国家文物局和北京大学等单位编制的文物数字化保护元数据标准中的《铜器类文物元数据标准》。该标准与著录规则规定了描述和解释青铜器资源内容和形式特征应遵循的具体操作,设计提出包括23个元素的铜器元数据标准,包括器形、纹饰、纹饰位置、铭文或符号、铭文的字符数、铭文位置、释文、材质、铸造工艺等。本研究将该元数据标准中的元素抽象为类或对象属性,补充丰富青铜器知识本体。

本文在Ding本体的基础上,补充完善了青铜器的具体器型和功能,新增纹样类、铭文或符号类、铸造工艺类、主题类、地理位置类等,其中,纹样类记录青铜器装饰纹样的母题、风格与类型等,将其分为兽面纹、几何纹类、龙纹类、凤鸟文类、人物画像类等。最终设计构建的青铜器知识本体核心类目及其结构,如图3所示。


图片

在构建青铜器知识本体模型时,除了对青铜器核心类和知识单元的定义描述外,定义和规范其对象属性同样重要;对象属性用于描述青铜器知识之间的语义关系,通过自定义对象属性从而形成丰富的知识体系。比如,自定义对象属性:partternLocaiton记录纹样装饰所在的青铜器部位和位置信息,有助于图像生成模型更深入理解和生成纹饰图案。青铜器知识本体模型的核心对象属性见表1。


图片

在青铜器知识本体顶层结构的基础上,增加具体实例或者概念术语,用于图像的标注和知识组织。在对青铜器知识本体实例填充时,将具体的实例与“艺术与建筑叙词表(AAT)”等受控词表中的主题词进行映射,进一步规范对青铜器图像标注时的词汇;比如,“爵”与“jues”(AAT:300265830)对齐。通过青铜器知识本体模型实现对青铜器相关知识及其关联关系进行结构化存储。

3.3 大语言模型增强的人智协同图像语义标注

在对训练图像数据进行数据标注时,为提高数据标注的效率,往往借助大语言模型或预训练模型对图像进行自动标注,比如,在Stable Diffusion中常用WD1.4标签器利用神经网络自动反推图像的提示词。此外,大语言模型在自然语言处理和知识密集型任务中展现出强大能力,也成为数据标准、特征提取和知识推理等领域更高效的方法

大语言模型突出的语义理解与分析能力,为领域知识抽取、文本分析、自动标注等自然语言处理工作提供了有力工具。同时,大语言模型增强的人机协同的数据标注模式能够保证标注数据的质量和准确度。相关研究结果揭示出了ChatGPT等大语言模型在数据标注任务中的表现优于众包工作者,大大提升了标注的效率[21]。由于本研究采集的青铜器文物元数据具有较好的文本描述信息,为此,本研究利用大语言模型实现对文物数字图像的自动语义标注。

在使用大语言模型的过程中,设计和构建合适的提示与指令在提升模型性能、控制输出质量和满足特定需求方面起到关键作用。本文参考“思维链(COT)”的方式,构建提示模板引导大语言模型实现对图像的自动语义标注。提示模板包括角色定义、任务描述、任务要求以及给定文本等部分。具体而言,通过指定模型作为一名文物领域专家,要求其根据青铜文物描述文本提取关键特征词,同时要求模型按照指定的格式返回响应,提示词模板如图4所示。为更好的引导大语言模型的语言理解与标注能力,采用少样本学习的提示词策略,通过增加示例更好的引导大语言模型完成标注任务。


图片

本研究采集的青铜器文物元数据信息中描述有青铜器的器型、部件特征、纹饰与铭文等信息。由于青铜器文物元数据描述主要为中文语言,因此采用开源的通义千问模型Qwen2-72B-instruct,该模型在训练中学习了更多的中文语料,并进一步强化了中文理解和表达能力。

基于大语言模型的图像自动标注存在“幻觉”、错误等情况,需要人工手动的审核与校对以进一步调优标签。根据“青铜器知识本体”和大语言模型自动语义标注的结果,人工对大语言模型自动标签结果进行审核与校对,调整标签的顺序、添加特殊标签、删除无法体现在图像中的特征。比如,补充LoRA模型的触发词、朝代信息、颜色、拍摄视角等方面的标注词。其中,触发词是指在提示词中添加的特定词汇,以激活或优化LoRA模型的表现。经过人智协同标注后青铜器图像训练数据集的具体示例,如表2所示。


图片

4 基于LoRA的青铜器风格图像生成模型微调

在训练数据预处理与标注的基础上,利用低秩适配方法进行图像生成模型训练和微调,并经过多次参数调整与优化,最终得到面向青铜器领域的图像生成模型。

4.1 低秩适配方法

大模型微调是利用特定领域的数据集对预训练模型进一步优化与训练,使模型学习该领域知识,从而优化大模型在特定任务上的表现和性能。目前,大模型微调常用的方式主要包括全量微调以及采用参数高效微调优化部分参数。LoRA是其中常用的参数高效微调方法,该方法由微软研究团队在2021年提出的一种微调方法[22],因其参数数量较小,可以减少对算力和存储空间的需求。

在大模型微调过程中,假设预训练模型的权重矩阵为W,∆W是训练过程中更新的权重大小,权重更新定义如公式(1)所示:


图片

在全量微调时需要更新所有的模型权重,对计算能力和存储空间要求较高。E.J.Hu等提出LoRA方法替代性地将权重变化∆W分解为一个低秩表示,将∆W分解成两个较小矩阵A与B的乘积,即Wupdated=W+A·B。在训练过程中直接学习∆W的分解表示,固定W不变,LoRA方法可以将训练参数插入到模型的神经网络中,大幅减少模型的训练参数,其架构如图5所示。


图片

LoRA核心原理是在原始模型权重基础上叠加一个新的权重,冻结预训练大模型的权重参数,仅对低秩矩阵进行训练。LoRA微调中训练的权重维度要远低于原始的模型权重维度,显著减少计算成本和存储需求。LoRA不仅用于对大型语言模型的微调,也应用在图像生成领域的大模型和场景中。基于LoRA方法对Stable Diffusion的微调可以实现对特定风格和细节的精准迁移,扩展基础大模型的生成能力,适应下游任务。在少量标注训练数据的情况下,也可以有效地对模型进行个性化调整,提高模型的泛化能力,拓宽了图像生成模型的适用范围。

4.2 图像生成模型的微调

基于LoRA的训练参数设置影响着模型的效果,因此需要多次参数调整与优化。主要关键参数包括重复次数、训练轮数、学习率、最大训练轮数、批处理大小以及优化器等。其中,重复次数是一张训练图像素材的重复次数;学习率是控制每次训练时参数更新的幅度,过低的学习率导致训练速度过慢,出现欠拟合,使得模型无法泛化;过高的学习率使得训练速度加快但容易导致模型不收敛。训练轮数是训练算法在整个训练数据集上一次完整训练迭代,影响模型对数据特征的学习程度。

本文在AutoDL云计算平台在线训练,选用GPU为RTX4090D24G。采用常用的开源训练脚本Kohya-ss[23]设置相关参数进行模型微调训练。选择SDXL1.0作为基础模型,该版本模型提升了图像生成质量并提供更便捷的提示词设定。最后,本研究经过多次的参数调整与优化,使用训练数据集包含图像数量605张,重复次数为10,最大训练轮数为30次,每3个周期保存一次模型文件,学习率设置为le-4,优化器采用AdamW8bit,网络维度设置为64。如图6所示,使用TensorBoard工具可视化分析损失值与训练次数之间的关系,损失曲线的总体趋势逐渐下降,反映出模型不断优化并收敛。


图片

在观察损失函数曲线的基础上,通过进行XYZ序列图测试,从而直观的选择最符合青铜器风格特征的LoRA模型。XYZ序列图是通过设置不同的模型与权重生成多张图像,帮助用户直观地对比选择哪种模型和权重下生成的效果最好。XYZ序列图可以直观地看出LoRA模型不同权重对生成图像的影响,判断是否存在过拟合或欠拟合的程度。

如图7所示,X轴是训练过程中不同轮次生成的LoRA模型,Y轴是图像生成时设置的该模型的权重。从图中以看出,X轴和Y轴数值越高越接近原始训练图像。当Y轴权重数值大于0.5时,图像开始接近中国青铜器的风格、造型与视觉特征,并随着权重的增大,逐渐接近训练图像。


图片

为测试本文训练的青铜器风格LoRA模型化能力,使用XYZ序列图的形式测验不同采样方式下的图像生成效果。如图8所示,显示了使用DPM++、Eulera、Heun等不同的采样算法,利用本文训练的青铜器LoRA模型生成的图像效果。可以看出,在不同的采样方式下,本研究训练微调的青铜器图像生成模型都具有较好的效果。


图片

4.3 微调模型的效果评估

在图像质量评价与图像生成模型效果评估方面,当前研究工作已经提出了一些客观评估和计算指标。常用的评价指标有图像美学评价指标,基于分布的评价指标包括IS、FID等,以及基于嵌入和人类偏好的评价指标,包括HPS、PickScore、CLIPScore等[24]。

由于本研究微调的模型主要面向青铜器文物领域,在文生图提示词撰写时涉及许多领域专业词汇和文化语境。为评估生成图像与提示词之间的相关性,本研究选择采用广泛使用的图文质量评价指标PickScore、ImageReward和CLIPScore指标。其中,PickScore是一个文生图模型的评价指标,利用大型的人类用户偏好数据进行训练[25];ImageReward是通用的文本生成图像的人类偏好奖励模型[26];CLIPScore基于OpenAI的CLIP模型,可以有效衡量图像生成模型的描述文本与图像内容之间的匹配度和相关性[27]。

本研究使用的评估数据集由5位硕士研究生在熟悉文生图流程的基础上构建。每位用户要求使用同一个提示词,分别利用SDXL1.0基础模型、微调模型和FLUX.1-dev-fp16模型生成青铜器风格图像作品,共计生成70条记录,210张图像。为直观的对比模型的图像生成效果,在相同的提示词下,使用微调模型与SDXL基础模型生成的图像效果对比,如表3所示。从主观评价上看,微调模型生成的图像更加符合中国青铜器的视觉特征。


图片

在客观评价上,基础模型与微调模型在三个评价指标上的得分分布,如图9所示。可以看出,相比SDXL基础模型,经过微调后的模型在图文一致性和人类偏好上均有较好的表现。与FLUX.1模型对比,微调后的模型在Image Reward指标得分上存在一定的差距,同时在生成图像的多样性和稳定性方面也有待优化与完善。总的来说,通过主观的判断和定量的评估指标计算,经过微调的后图像生成模型实现了更高效、更好的中国青铜器文物风格图像生成。


图片

4.4 图像生成模型的应用

Stable Diffusion环境下使用微调后的图像生成模型,可以提高青铜器图像智能生成与内容创作的效率与质量。首先,简化了提示词的撰写,可以通过使用简单的青铜器类型名称、部件特征等提示词或专业词汇就能生成具有该器形特征的青铜器图像,提高了图像生成的图文一致性。其次,在青铜器LoRA模型的基础上,结合ControlNet能够实现对生成青铜器图像的精确控制。如表4所示,利用ControlNet处理器对青铜器线稿图或全形拓图像进行线条与轮廓的提取,综合文本提示词、视觉提示和微调模型实现对青铜器的辅助修复或复原,生成具有真实感的青铜器摄影图像。最后,结合该模型可以辅助青铜纹样设计、造型设计、文物修复等方面的科学研究,为文化素材创作、文化创意产品设计以及文物保护传播提供帮助。


图片

此外,本研究微调训练的青铜器图像生成模型也存在一些不足,该模型在青铜器纹样、铭文等细节生成方面有待优化。同时,由于青铜器的类型与器型较为多元和复杂,本研究收集的训练图像数据集覆盖度不足,对某些特殊类型的青铜器图像生成效果仍有待提升。

5 AIGC驱动的文化遗产图像智能计算与活化利用

生成式AI技术驱动GLAM机构的数智化转型和创新发展[28],成为文化遗产领域图像资源的智能计算与活化利用的加速器,图像数智化成为不断发展的趋势[29]。具体来讲,AIGC驱动文化遗产领域图像知识库与基因库等智慧数据资源建设,支持对领域图像的智能计算与分析,促进智能内容生产与交互体验的创新,实现了对文化遗产图像的智能理解、计算与分析到图像阐释的全方面赋能。

5.1 文化遗产领域图像知识库与基因库的建设

AI技术有力助推了面向文化遗产活化利用的智慧数据的生成和价值实现[30]。新兴技术的应用加速了文化遗产领域非结构化数据向语义化、关联化和结构化智慧数据转化的进程。针对复杂多源、多源异构、碎片化的文化遗产图像资源,AI实现了图像语义描述向数智化演进[31],为文化基因提取、匹配、标注和再造提供新的潜能

借助视觉语言大模型能够对图像进行目标检测与识别、语义分割和视觉分析,提取领域图像的细粒度文化符号、母题与象征等文化元素,进而建设细粒度图文知识库、素材库、符号库与文化基因库等。例如,敦煌研究院基于海量的数字化成果,经过筛选、标注、加工,构建了数字敦煌开放素材库[32]。北京邮电大学研发文化图案元素智能化提取与处理技术以及系列工具,牵头发布“中华传统文化记忆符号库·纹样版”[33]。此外,利用多模态大模型技术,从文本、图像、音视频等多模态数据中提取领域知识对象、文化模因和文化构造,形成文化遗产知识大图、文化基因库和文化基因图谱[34]。AIGC技术逐渐嵌入到文化遗产领域数据生命周期全流程,GLAM机构应在丰富的馆藏文化资源的基础上,充分利用AIGC技术优势,进行文化遗产图像知识库、基因库和素材库等新型智慧数据资源的开发建设。

5.2 文化遗产领域图像的智能理解与计算

AIGC技术对图像智能计算与理解的加持下,结合数字人文、人文计算、社会计算、计算艺术史等研究范式,为文化遗产保护、文物修复、历史复原、跨文化传播等提供更加科学的指导和决策。

面向大规模的视觉资源,在生成式AI的辅助下精准分析图像中蕴含的符号和象征意义,开展计算美学、文化分析、文化计算等前沿交叉研究。比如,在中国传统绘画图像的分析与计算方面,人工智能技术已经被应用于绘画图像创作、阐释、数字化和展示等众多方面[35]。视觉人工智能技术已经成为解锁视觉数字档案的关键,提高了数字档案的可发现性、可访问性和可用性[36]。通过智能计算与分析技术,将图像、文献、语词等在技术逻辑层面全面关联,实现对已有知识进行理解、融合与再造。例如,对古画印章的自动提取与修复[37-38],利用图像生成模型破译甲骨文[16],绘画作品的艺术分析与鉴赏[39],图像的跨文化传播与理解[40],壁画虚拟修复[41],文物虚拟修复与展示以及AI辅助鉴别与辅助考释等。同时,CLIP、BLIP等为代表的多模态技术能够理解图像和文本两种模态信息,并建立二者的联系,打破语言和视觉的界限,已广泛应用于图像分类、文本—图像检索、文本到图像生成等任务。多模态技术的发展对文化遗产领域大规模图文数据的智能分析提供了可能,也促进了文化遗产研究、数字人文研究的多模态转向[42]。

5.3 文化遗产领域图像的创意表达与文化体验

生成式AI也在推动着GLAM机构数字文化内容生产模式的转变和服务创新能力的升级[43]。图像生成模型在质量增强、可控生成、内容编辑与风格化等方面取得巨大进步,视觉艺术创作范式已经由人类设计、人工智能协助转变为人智协同合作[44],还为用户创造了更加丰富的互动体验。通过创新的艺术形式和技术手段,将文化遗产图像转化为生动、互动的跨模态内容,提供沉浸式和个性化的文化体验与文化叙事,促进公众对文化遗产的深刻理解和情感连接,激发社会对文化遗产的保护意识和参与热情。例如,S.Zhao等利用生成式AI将二维壁画图像转为3D对象,实现VR交互环境下的壁画场景重构和再现,提高了传统手工制作方式的效率[45]。AI沉浸展《韩熙载夜宴图》则在三维空间复原出画卷中的人物和场景,将人工智能对话融入数字虚拟人互动对话[46]。在馆藏资源管理与方面,哈佛艺术博物馆利用大语言模型对37万余张图像自动描述与标注,支持用户对馆藏资源的多维探索[47]。克利夫兰艺术博物馆利用AI技术支持用户对馆藏图像的智能扩图、辅助数字策展等创意应用[48]。

借助虚实融合、数字人、多智能体等技术,文化遗产图像资源被转化为互动数字叙事、虚拟展览等多样化形态;这些创新实践不仅增强了用户对文化遗产的认知理解,更在深层次上促进情感连接和文化共鸣。

6 结语

生成式AI技术的发展推动了文化遗产领域图像的智能化研究。本研究结合知识组织理论和图像生成技术,从AIGC赋能文化遗产活化的视角,利用大语言模型与图像生成技术,探索实现对文化遗产领域图像的智能生成与创新应用。以中国青铜器为研究对象,设计提出青铜器知识本体模型,为青铜器图像语义标注提供受控词汇与规范控制。在此基础上,本文提出基于大语言模型增强的人智协同图像语义标注方法,提升了领域图像语义标注和描述的效率和质量。通过利用LoRA算法对StableDiffusion图像生成模型进行微调,实现了对青铜器风格图像的智能生成和创作。最后,在案例实证研究和经验总结的基础上,归纳提出AIGC驱动的文化遗产图像智能计算和活化利用的路径与方式。具体而言,AIGC赋能文化遗产领域智慧数据建设,支持对领域图像的智能计算以及资源的创意转化。本研究构建的青铜器领域知识本体以及青铜器风格图像生成模型,为青铜器知识库建设、文化素材与内容生产、文物修复与学术研究提供了新的工具与技术支持。同时,研究提出的基于大语言模型的人智协同图像语义标注方法以及图像生成模型高效参数微调的技术方案,也为文化遗产其他细分领域的相关工作提供可复用的参考框架。

然而本研究仍面临一些问题与挑战。例如,高质量青铜器图像训练数据集的不足在一定程度上限制了模型的泛化能力,生成图像的多样性及模型的稳定性仍有待进一步提升。未来研究将提升图像生成模型在青铜器纹饰、造型、铭文等细节层面的表现。同时,进一步优化微调支持中文提示词的图像生成模型,以更精准地理解与生成具有中国特色的文化符号和文化元素。(参考文献 略)


来源期刊:《图书情报工作》