生命科学行业能否破解技术转移难题？

思考下最近几年开发的新冠疫苗，您可能会想，我们是否已经破解了快速技术转移的“密码”。这不好说。新冠疫苗之所以能够快速问世，离不开巨大的人力投入以及坚韧不拔的毅力。

事实上，很多公开发表的文章中都讨论了辉瑞公司在推动新冠疫苗的技术转移中投入的人力。顺便说一下，整个过程包含 50,000 个流程步骤模型或工序模型。尝试着使用pdf文档制作一份详细的技术转移说明，但事实上几乎无法涵盖完整配方。

关键在于，虽然我们可以这么做，但这不是长久之计。如果再来一场疫情，我们还能派出 300 个人来参与技术转移吗？当然没问题。但这种思路对于商业化产品行得通吗？肯定不行。我们需要考虑利用现有技术尽可能消除技术转移中的人为因素。

技术转移：一次绝佳机遇

能力

技术转移：一次绝佳机遇

技术转移活动不仅限于生命科学产品生命周期的早期阶段。它们无处不在，而每次转移花费的成本高达数百万美元。

了解更多信息

挖掘数据

讽刺的是，在技术转移过程中收集的大量数据最初可能都是数字化形式的。但当您开始汇总可能来自多个系统的信息概要时，这些信息会被转换或重新制作成 PDF 文件或所谓的“电子文档”。

当您将这些信息传递给制造运营部门时，他们需要执行逆向工程，以便将信息传输至企业资源规划 (ERP) 或制造执行系统 (MES)。当我们与客户讨论这一挑战时，我们认为必须采用更好的方法来获取数字化或非数字化数据，并将其转换为统一的结构化数据格式，推动数字主线的发展。

我们处理什么类型的数据？图 1 数据模型的最顶层为实际药物本身的信息，如原料药、活性药物成分、中间体等等。当然，这些信息也会根据小分子药物和大分子药物的特性，去各自定义。

数据模型的中间层为药品包装信息。如果是口服固体剂型，使用泡罩包装。如果是配有靶向药物给药装置的生物制剂，则会配备设计精良的给药装置、材料单，甚至可能附有用于评估治疗方案和剂量的部件。这使得治疗过程具备自主性。

通常，我们在这些类别中看到的技术信息有很大差别。包装开发工程师不能开发原料药，反之亦然。他们的工作具有很强的专业性，专注于自身所在的领域，他们善于利用现有系统不断开展深入研究，但这些东西对科学家而言，未必有价值。如果我是一名包装工程师，正在利用 3D 建模应用程序来开发包装，但这对研究关键分子的科学家来说毫无意义。

数据模型最下面两层与工艺开发相关。思考一下工艺过程，无论是在研发实验室还是在中试工厂，您都要花 10 到 15 年的时间进行工艺开发，而且您正试图将规模扩大至商业化水平。然后，您还试图解决可能收到的不同地区的市场授权中存在的复杂性问题。

从本质上而言，一种药品可能最终会有 50 或 60 种配方，这取决于其生产地点数量和您支持的市场变化的数量。

最后是关于设备层。我们知道，大多数制药和生物技术公司都没有完全相同的工厂设备布局设计，在这里是存在多样性的。他们可能在某个位置使用配液设备或生物反应器，操作方式可能和在另一地区略有不同。在进行技术转移或大规模批量生产时，需要考虑到这一点。

这就是我们试图通过这些技术转移文档解决的复杂性问题。

我们还缺少什么？

在过去的 100 年里，我们一直在做同样的工作来定义配方。得益于现有的计算能力，我们可以使用几种不同的方法来加速数据收集和数据流动的过程。

真正缺少的是一种机制或流程，它将收集 10 至 15 年的所有开发数据，并将其转换为可以重复使用的格式，可供 ERP 或 MES 轻松使用。其旨在改进当前的方法，即每个工厂仅需有 10 到 15 个人，他们负责理解开发人员所交付的文档。

更有趣的是，如果您是一家合同开发和制造企业 (CDMO)，可能会有更多的工作。如果您需要与多家以不同形式提供技术转移资料的制药创新者打交道，您可能会需要一个流程开发团队，该团队将花费 6 到 18 个月的时间来理解其目标，然后将其反馈给制药创新者，并说：“这就是您的意思吗？”

我们需要谷歌翻译。这款应用程序可以在手机上使用，不仅能将一种语言译为另一种语言，还可以检查语义和语法语境。如果它只翻译单个单词，可能只达到 30% 的效果。它需要深入理解输入的短语的含义。

这就是我们努力的方向：在大量的电子文档中查找 word 文档或扫描图像，并试图从中推断其数字化含义。

图 2 展示了生命科学行业人员所熟知的当前技术转移过程。图片左侧是在技术转移前用于定义产品、包装和工艺的系统。所有这些技术转移的数据都需要通过防火墙，被内部制造部门或外部的CDMO企业所接收。

我们的任务是将这些电子文档或基于图像的文档转换为结构化且可重复的数字化内容，从而稳定地提供至下方合作伙伴，并消除解释文档内容的人为工作。这样，任何下方合作伙伴均可以安全有效的利用这些技术转移数据。

我们是如何做到的

看看完成这项任务的过程，首先我们需要确保提交的数据是安全的。许多公司通过 FTP、电子邮件、电话和网站进行通信，从控制策略角度来看，这么做很难保护知识产权 (IP)。总之，在技术转移过程中流动的数据很多都是企业的知识产权，必须得到保护并在适当的时间提供给合适的一方。

这不仅仅是数据的转换；还涉及数据跟踪。在发生不良事件时，您需要进行审计跟踪，以便准确了解转换内容、审批人员、签署人员、数据接收人员和数据使用人员。

有人负责收集来自科学家和过程开发工程师使用的不同系统的所有信息。然后，他们需要将信息汇总至单个文档或文档概要中，并编排将数据交付给制造部门的过程。

我们缺少的是像谷歌翻译这样的编排和转换工具，它能够理解您试图通过技术转移进行交流的真正意图，并将其转化为可预测和可利用的东西。

其理念是，一旦将数据解析为可理解、可重复使用的格式，下游接收方就不需要人工输入所有信息。相反，信息会自动推送至需要它的系统。

我们旨在使用自然语言处理机制来理解文档（语境、语义和语法意图），并使用机器学习算法来理解每个文档的意图并将其转换为 ISA 88 结构化格式。本质上而言，它将文档与数字数据拼接在一起，形成系统可以轻松使用的的可重复使用的结构化数据。

但技术转移文档不仅仅只包含表格或层级结构形式的数字或文本数据，还会包含图像数据、色谱分析，以及抽样方法和测试方法。这些非结构化数据集无法轻松转换为数字数据。但它们与某个层级的数字数据相关，因此您需要能够理解文档中可能隐藏在不同数据集之间的内在差异。

当您使用自然语言处理工具运行文档时，它可以拍摄扫描图像并使用光学字符识别 (OCR) 技术提取数据。或者，如果数字数据最初是从一份 PDF 文档中捕获的，那么可以再次提取数据。

某些情况下，数据缺乏上下文背景。工具只是用于提取数据，并表示：“我了解文档中存在的数据量。” 我们可以利用自然语言处理工具的输出功能寻找关键指标，创建更易于被下方接收系统导入或应用的表格数据集。

这种方法的优势之一是能够实现协作。如果没有看懂 PDF 文档上的某个数值，便很难与他人开展协作。如何传达这一点？您发了一封电子邮件，上面写道，“嘿，在文档第 22 页第 3 段第 4 行有一个数值，我看不懂。” 如果您能够提取这些信息，智能层就可以告诉您缺少什么，或者突出显示您应该注意的部分，从而使流程更加高效。

选择一种途径

有两个方向。一是继续做当前正在做的事情，因为您对其有深入了解。在生命科学行业，推动变革困难重重。因此，您可以继续与开发企业开展合作，让他们继续制作多年一直使用的 PDF 文档，然后使用自然语言处理层将其转换为数字化、可重复使用且易于读取的内容。这是其中一种途径。

第二种途径是采用数字化原生工具，允许您在开发早期阶段对过程和材料进行建模，并发布本地数字数据集。当然我们需要面对现实，因为我们知道，在生命科学行业的某些领域中，需要数年甚至数十年的时间才能采用原生数字解决方案。

在此期间，我们正在推广这两种途径：首先，利用人工智能和机器学习的计算能力，将文档转换为可重复使用的格式，然后再逐渐采用数字化原生工具。这么做的最大优势是提高劳动效率，但还有其他优势：

加快临床试验、上市和市场授权的速度
降低内外部转移至制造环节的总成本
提高工艺验证的速度和效率
减少设施、产线和设备配置/启动的延迟
提高批次质量，减少废料和浪费
提高监管递交和审批的速度
从开发、制造至监管流程中，通过设计提高闭环质量
改进批次谱系的可追溯性（正确的国家和产品信息）

了解优化数据收集的优势

发布时间 2022年6月8日

Sachin Misra

Kalypso，Rockwell Automation 全球现场首席技术官

Sachin 领导 Kalypso 的全球制药和生物技术行业实践，并共同领导生命科学实践。他在数字价值链咨询服务和技术实施方面拥有25年以上的经验。

揭示技术转移的复杂性

挖掘数据

我们还缺少什么？

我们是如何做到的

选择一种途径