AI 技术在数字人文融合出版中的伦理挑战
(绥化学院,黑龙江绥化 152061) 吴春生 赵轶男
摘要:随着一波又一波的数字与智能化飞速发展,它对出版行业的生态产生了巨大的影响。“数字化文化”的崛起,人工智能已成为出版内容生成、编辑校对、个性化推荐和版权管理等诸多方面的有力支撑。然而,近年来,在数字化人文出版中出现了一系列的问题。这不只是一简单的可靠性与安全性的问题,它还牵涉到一系列的伦理、法律和社会问题。在充分利用 AI 技术为读者提供便捷的前提下,合理处理以上问题,是当前数字化人文与出版面临的重大课题。
关键词:AI 技术;数字人文融合出版;伦理挑战
将人工智能技术应用于数字人文出版,不仅可以提升图书发布过程的智能化程度,还可以利用大数据的分析与智能算法,为读者提供更为精准的资讯推送,提升使用者的阅读感受。人工智能也能给我们带来灵感,促进出版形式的多样化。但是,随着科技的飞速发展,也伴随着许多不确定因素。著作权归属问题、数据隐私保护问题、算法歧视与歧视问题,都对现行的新闻媒体伦理与法律制度产生了新的需求。这不仅对我们的出版业健康发展产生了不良的影响,而且对整个社会的文化生态也产生了巨大的影响。在此基础上,研究数字人文语境下的人工智能研究,有助于构建健康可持续的出版生态。
一、基于人工智能技术的数字化人文整合出版面临的伦理问题
1.作品的真实与著作权的界限不清
由于 AI 算法能够生成文本、图像和声音等不同的文本,内容非常的广泛从而引发了文本的伦理问题。在解读时,由于不能准确地判定是否为 AI 所生成,导致了对文本的误解,并导致了信任危机。 AI 创作的内容版权的性质也变得更加复杂,因为传统版权法建立在创作者的智慧工作之上,而 AI 作品中并无“创作者”这一概念,这就给版权的权属带来了困难。版权所有权的不明确,直接关系到版权归属者和出版商的权益,也妨碍了知识的自由流通和创新。
2.信息的机密性和保密性带来的潜在风险
利用人工智能的方法需要对海量的数据进行采集与分析,例如:用户的阅读习惯、兴趣、地域等。在此背景下资料的机密性与安全成为一个重大的道德议题。当收集数据时,存在着过度收集和误用的风险。发行人和人工智能提供商有权在未经用户同意的情况下,为商业目的或其它未经许可的目的收集大量私有数据。同时,也有可能出现信息泄漏或者被人利用的危险。因此,在网络环境下,网络中的网络安全问题日益突出。然而,由于跨国数据的跨国转移,相关法律法规的制定更加复杂,各国或地区对其隐私的保障存在差异,加大了其安全管理的困难。
3.不同的信息品质对算法自身的影响
目前大部分的人工智能算法都是建立在海量数据之上的,这些数据蕴含着不同的文化背景和人们的喜好,在内容生成、推荐和决策等环节都会受到一些人的影响。比如,现有的以文字为基础的推荐方式,往往只针对特定类别的文字,而忽略其它类别的文字,从而造成“信息茧房”,从而限制了人们的浏览视野。由于对计算机程序的偏好,也会对它的内容多样性以及它的文化包容性造成一些不利的影响。人工智能所产生的资讯可能不足以回应不同文化,性别,种族的观点与体验。这种单向的出口,不但不利于经济的多样化发展,反而会使社会更加不公正。
二、AI 技术在数字人文融合出版中的伦理挑战应对策略
1.建立 AI 生成内容全流程管理与版权归属明晰机制
应建立人工智能生成内容的识别标准,明确人工智能产生的文字、图片、声音等都要有自己的标识,标识要包括生成工具的名称和版本、核心数据集的名称、产生的准确时间等,并通过哈希值验证来保证其不可篡改性,同时还要求在显示内容时要以可视的方式呈现出来,比如在文字的末尾加一个标识,在图片的角落里嵌入一个水印。构建人工智能生成内容溯源体系,利用区块链技术构建分布式记账网络,记录生成内容的全链条信息,包括算法模型的特定版本号、生成时的参数(如温度参数、迭代次数等)、人工干预的具体步骤和修改内容等,并建立可供公开访问的溯源查询界面,用户只要输入唯一的标识,就能获得完整的溯源信息,系统需要确保查询的响应时间不大于 3 秒。制定版权归属的规则,由行业协会和法律机构共同制定一个标准,即完全由人工智能产生、没有人类智慧贡献的内容,其著作权归算法模型拥有者所有,拥有者需要在使用原始训练数据的时候,在显著位置标注出与原始训练数据有关的主要数据提供者的名字,并按照内容商业利用收入的 3%-5%向数据提供者支付费用。为 AI 生成内容的著作权注册开辟一条专用通道,在现有著作权登记系统中增加“AI 生成内容”一栏,简化提交材料要求,只需提交内容样本,生成标识信息,著作权归属证明等材料即可,3 个工作日内完成登记,注册信息同步到国家版权信息公共服务平台,实现实时查询。设立第三方调解组织,由 5 年以上人工智能技术研发经验的专家组成,10 年以上的法律学者,出版行业 15 年以上的资深从业者组成,机构需制定标准化调解流程,从受理申请到出具调解意见不超过 15 个工作日,调解意见需包含事实认定、法律依据、处理建议等内容,并同步至司法裁判参考数据库。
2.构建数据全生命周期安全管理与跨境传输规范体系
实行数据采集备案制度,出版机构和 AI 服务商需要在数据采集前 7 个工作日向当地文化和信息化监管部门提交采集计划书,计划书中要包括采集的具体用途(如算法训练、用户画像等)、数据类型(用户阅读时长、偏好标签等)、使用范围(仅限于内部模型训练)、保存时间(最多 3 年)等内容,监管机构需在 5 个工作日内完成审核,审核通过后发放采集备案凭证。将用户数据分为基本信息(用户名、注册时间等)和敏感信息(如身份证号、支付记录等),其中基础信息采用默认授权方式,用户需要在独立的授权界面上验证敏感信息,授权操作需要用手机验证码或者人脸识别来进行二次验证。授权记录是加密的,保存时间是永久的,用户可以在任何时候查询自己的授权记录。建立存储和传输的加密标准,用户的数据必须使用 SM4 加密算法进行加密,存储系统需要经过三级安全等级保护认证,并定期(每季)对安全漏洞进行扫描。采用 SSL/TLS1.3 协议进行数据传输,在传输过程中对密钥进行动态更新,并采用不对称加密算法生成密钥。建立一个数据安全监控体系,需要对数据访问的IP 地址、访问时间、操作类型(查询、修改、删除等)进行实时监控,设置异常行为判断标准(如非工作日大量下载数据、异地 IP 频繁访问等),一旦发现异常行为,将在十分钟内自动将预警信息发送给管理员终端,并临时冻结异常操作账户,直到人工核查。第五个步骤是制定数据跨境传输标准,由国家主管部门与外交部、网络委员会共同划定国家或地区的数据隐私保护安全级别,只有安全级别为 1 的地区才能将其列入白名单。数据在跨境传输前需要经过脱敏处理,去掉姓名、身份证号码和特定地址等能够识别个人身份的信息,并经过第三方脱敏效果评价。在传输前,需要将传输目的、接收方资质证明、安全保障措施说明等内容提交给省级网信部门,并经审核后才能传输,传输记录至少要保存5 年以上。
3.建立算法偏见动态监测与内容多样性保障机制
建立算法偏好判定标准,明确内容推荐性别比例(男性与女性之间的差异不大于 15%)、种族(各主要种族的比例均在 5%以上)、文化类型(传统文化、现代文化、外来文化等类型占比差值不超过 20%)等,设定阈值,当某类指标连续 30 天超出阈值时,系统自动触发偏见预警。标准化算法训练数据的预处理过程,对数据进行多维度清洗,采用关键词过滤、语义分析等方法剔除带有明显偏见的样本(如性别歧视、种族歧视等)。引入第三方评价机构对清洗后的数据进行偏倚评价,评价指标包括偏倚残留率(需要小于 3%)、数据均衡度等,通过评价才能应用于模型训练;在训练过程中引入差异性权重参数,对少数民族和小众文化相关的数据采用 1.5 倍的基本权重,使数据分布更加均衡。设计多元化推荐算法,确保不同文化背景的内容所占比例不少于 20%,不同观点所占比例不少于 15%,同时满足用户基本需求。每周向用户推送至少 2 种类型的内容,它们在他们的历史浏览记录中所占比例在 5%以内,推送的数量不少于 10%。建立算法透明管理体系,发行人和人工智能服务商每个季度都要发布算法原理简版说明,推荐逻辑流程图,核心训练数据源等。每年的三月底,都要公布上年度的算法偏差检测报告,报告中要包括各项指标的测试结果,超标的指标的改进措施,以及执行后的效果。赋予用户算法调整权限,设置多元化调整模块,用户可以自由调整不同文化类型和观点倾向的内容(调整幅度为±30%),用户调整记录实时反馈到算法优化系统中,为后续算法参数的调整提供参考。
结束语:
在运用人工智能技术时,不仅要兼顾技术的先进性和有效性,还要兼顾它所带来的社会、文化生态效应。结合当前的科技发展趋势,通过多个领域的协作,构建更加完善的理论体系,应对数字化人文图书的各种问题。为此,我们应该大力提倡科技与道德之间的良性交互,让人工智能能够更好地为人类的发展和文化的繁荣与发展做出贡献。
参考文献:
【1】范军,钟准健.数字人文视域下学术出版的数字变革与发展启示[J].中国数字出版,2024,2(03):46-55.
【2】杜方伟.出版深度融合发展自主知识体系建构规则与路径[J].编辑之友,2024,(05):35-41.
【3】张国功.融合文学与编辑出版学的书评写作课程实践教学探析——基于“人文阅读与书评写作”课程的研究[J].豫章师范学院学报,2024,39(02):53-60.
【4】张梦石.融合出版浪潮下的专业出版社转型路径探析——以 上 海 音 乐 出 版 社 为 例 [J]. 中 国 数 字 出版,2024,2(02):103-108+115.
本 文 系 黑 龙 江 省 教 育 科 学 规 划 重 点 课 题 项 目 ( 编 号 :GJB1421423)后人类时代新文科建设模型研究;数字出版与新媒体时代文化创意研究科研创新团队(编号:SIT05010)。



