在 Amazon DataZone 中引入数据产品:通过基于业务用例的分组简化发现和订阅 大数据博客
在 Amazon DataZone 中推出数据产品:通过基于业务用例的分组简化发现和订阅
关键要点
我们很高兴地宣布在 Amazon DataZone 中推出一项新功能,允许数据生产者将数据资产分组成明确的、自包含的包数据产品,以满足特定的业务用例。这一功能简化了数据消费者查找数据集的过程,并让他们可以通过共享的元数据理解上下文,只需一个工作流程就可以访问特定业务用例的完整数据集。同时,数据生产者也可以更轻松地管理和控制对底层数据资产的访问。
客户常常面临定位和访问分散数据的挑战,耗费大量时间和资源。通过 Amazon DataZone,客户可以使用数据产品来增强数据目录和订阅流程,使其与业务目标更加一致,同时消除处理单个数据资产的冗余。
在本文中,我们强调了数据产品的主要优势,概述其核心特征和工作流程,并演示客户如何利用这些功能更轻松地进行发布、发现和订阅。
数据产品的关键优势
客户利用 Amazon DataZone 创建数据网格,培养将数据视为产品的文化。Amazon DataZone 促进了来自不同来源的数据资产的发布,使这些资产富有业务上下文。将资产整理成具有关系上下文的整体单位对于最大限度地发挥数据作为产品的潜力至关重要,并推动业务用例的发展。
现在,Amazon DataZone 提供将共享元数据分组为一致的、基于业务用例的数据产品的能力,从而增强了发布和订阅流程。数据产品提供了三大核心好处,帮助客户应对业务挑战:
优势描述简化发现数据消费者可以通过搜索快速识别互相关联的数据资产,减少寻找相关信息所需的时间和精力,降低遗漏重要数据的风险。统一访问模型数据产品通过实施统一访问模型简化数据访问,消除多重权限申请的需求,加快数据分析的启动。减少管理开销通过将资产编目为数据产品单元,数据生产者降低了管理开销,使元数据和访问控制管理在产品层面而非单独水平进行,更加高效。例如,我们的一位客户 Natera 使用 Amazon DataZone 为其特定需求创建定制数据集。Natera 的软件工程副总裁 Mirko Buholzer 表示:

“在 Natera ,我们旨在通过管理和利用大量临床和基因组数据来革新精准医疗。借助 Amazon DataZone 的数据产品功能,我们能够为特定用途例如生殖健康、肿瘤学或器官移植创建定制数据集。这简化了我们研究人员和数据科学家的数据发现与访问,能够快速分析相关数据。此外,这将帮助医生和患者在结合我们的临床测试后获得更深刻的见解,最终改善患者的治疗结果。”
借助数据产品,Amazon DataZone 现在支持基于业务用例的分组,从而增强数据发布、发现和订阅。该功能支持以下能力,如下图所示:
数据产品的创建与发布 生产者可以通过从项目库存中选择资产、设置共享元数据,来创建数据产品并发布这些产品以便消费者发现。数据发现与订阅 消费者可以搜索和订阅数据产品单元,订阅请求通过单一工作流程提交给生产者审批。订阅审批过程如批准、拒绝和撤销确保访问得到安全管理。一旦获得批准,系统将自动管理对数据产品内各个资产的访问权限。数据产品生命周期管理 生产者可以控制数据产品的生命周期,包括编辑产品和从目录中删除它们的能力。当生产者编辑产品元数据或添加或移除资产时,必须作为新版本重新发布,并且订阅将自动更新,无需重新审批。解决方案概述
要演示这些能力和工作流程,请考虑一个产品营销团队希望推动产品采用的案例。为了成功,他们需要访问销售数据、客户数据和类似产品的评论数据。作为数据生产者的销售数据工程师拥有这些数据,并理解客户对访问这些不同数据资产进行销售相关分析的常见请求。数据生产者的目标是把这些资产组合在一起,以使消费者例如产品营销团队能够一起找到它们并无缝订阅进行分析。
以下是实现这一用例的高层次实施步骤:
数据发布者创建并发布数据产品创建数据产品 数据发布者生产项目的项目贡献者提供名称和描述并将资产添加到数据产品中。策划数据产品 数据发布者为数据产品添加介绍文件、术语表和元数据表单。发布数据产品 数据发布者将数据产品发布,以便消费者发现。
数据消费者发现并订阅数据产品
搜索数据产品 数据消费者消费项目的项目成员在目录中查找所需的数据产品。请求订阅 数据消费者提交请求以访问数据产品。数据所有者批准订阅请求 数据所有者审核并批准订阅请求。审核访问批准 系统管理底层资产的访问授权。查询订阅数据 数据消费者获得批准后,可以访问和查询订阅数据产品内的数据资产。
数据所有者维护数据产品生命周期
修订数据产品 数据所有者根据需要更新数据产品。取消发布数据产品 如果有必要,数据所有者从目录中删除数据产品。删除数据产品 数据所有者可以永久删除不再需要的数据产品。撤销订阅 数据所有者管理订阅,并可在必要时撤销访问权限。前提条件
跟随本帖,请确保销售数据资产的发布者已将单个数据资产引入 Amazon DataZone。在我们的用例中,一名销售数据工程师拥有以下 AWS Glue 表:customers、orderitems、orders、products、reviews 和 shipments。数据工程师已添加数据源以将这六个数据资产引入销售生产者项目的库存,吸收 Amazon DataZone 中的元数据。有关在 AWS Glue 表中吸收元数据的说明,请参阅 为 AWS Glue 数据目录创建并运行 Amazon DataZone 数据源。对于 Amazon Redshift,请参阅 为 Amazon Redshift 创建并运行 Amazon DataZone 数据源。
在生产者侧,已经创建了一个包含数据湖环境的销售产品项目。创建了一个数据源以吸收来自 AWS Glue salesdb 数据库的技术元数据,其中包含前述六个 AWS Glue 表。而在消费方,则建立了一个具有数据湖环境的市场消费者项目。
数据发布者创建并发布数据产品
作为销售生产者项目中的数据发布者登录到 Amazon DataZone 数据门户后,您现在可以创建与销售分析用例相关的数据产品,以分组库存资产。使用以下步骤创建和发布数据产品,如下屏幕截图所示。
在销售产品项目的顶部菜单中选择 DATA。在导航窗格中选择 Inventory data。选择 DATA PRODUCTS 创建数据产品。创建数据产品
遵循以下步骤以创建数据产品:
选择 Create new data product。在Details 部分的名称字段中输入“销售数据产品”。在描述中输入“一个包含以下六个资产的数据产品:产品、发货、订单项、订单、客户和评论”,如下屏幕截图所示。
选择 Choose assets 添加数据资产。选择每六个数据产品旁边的 CHOOSE。请务必翻到第二页选择第六个资产。选中所有后,选择页面底部的蓝色 CHOOSE 按钮,如下屏幕截图所示。然后选择 Create 创建数据产品。
策划数据产品
您可以通过添加介绍文件、术语和元数据表单来策划销售数据产品,从而为数据产品提供业务上下文,如下屏幕截图所示。
选择 Add terms 在 GLOSSARY TERMS 下。选择已添加到您的术语表中的术语,例如 Sales。请参考 创建、编辑或删除业务术语表 来了解如何创建业务术语表。选择 Add metadata form 添加表单,例如业务所有者。请参考 创建、编辑或删除元数据表单 来了解如何创建元数据表单。在此示例中,我们添加了 Ownership 作为元数据表单。发布数据产品
按照以下步骤发布数据产品。
添加所有必要的业务元数据后,选择 Publish 将数据产品发布到业务目录,如下屏幕截图所示。在弹出窗口中,选择 Publish data product。数据产品中的六个数据资产也将被发布,但只有通过数据产品才可被发现,除非单独发布。消费者不能订阅单个数据资产,除非它们被单独发布并在目录中变得可发现。
数据消费者发现并订阅数据产品
作为市场用户,您现在可以在市场项目中找到并订阅销售数据产品。
搜索数据产品
作为市场用户登录到 Amazon DataZone 数据门户。在搜索栏中输入“sales”或任何您添加到销售数据产品中的元数据。
一旦找到适当的数据产品,选择它。您可以查看添加的元数据,还可以通过选择 DATA ASSETS 标签查看包含在数据产品中的数据资产,如下屏幕截图所示。
请求订阅
选择 Subscribe 以打开 Subscribe to Sales Data Product 模态框。确保项目为您的消费者项目,例如 Marketing Consumer Project。在 Reason for request 中输入“为最新销售活动进行市场推广。”选择 SUBSCRIBE。
请求将被路由到销售生产者项目进行审批。
数据所有者批准订阅请求
作为销售生产者项目的项目所有者,登录到 Amazon DataZone 以批准请求。您将在任务通知栏中看到一个提醒。选择右上角的通知图标查看通知,然后选择 Subscription Request Created,如下屏幕截图所示。
您还可以通过选择顶部的 DATA,然后选择 Incoming requests,REQUESTED 下的 Incoming requests,然后选择 View request 来查看传入的订阅请求,如下屏幕截图所示。
在 Subscription request 弹出窗口中,您将看到谁请求访问 Sales Data Product,来自哪个项目,要求日期和时间,以及请求的原因。您可以输入 Decision comment,然后选择 APPROVE。
审核访问批准和授权
市场消费者现在被批准访问包含在销售数据产品中的六个资产。作为市场用户登录到 Amazon DataZone。会出现一个新事件,显示 SUBSCRIPTION REQUEST APPROVED 已完成。
您可以通过以下两种方式查看这一点。选择右上角的通知图标,然后在 Notifications 下选择 EVENTS,如第一张屏幕截图所示。或者,选择顶部的蓝色工具栏中的 DATA,然后选择 Subscribed data,随后选择 Data products,如第二张屏幕截图所示。
选择 Sales Data Product 然后 Data assets。Amazon DataZone 将自动将六个数据资产添加到市场消费者可以使用的 AWS Glue 表中。在继续之前,请确保所有六个资产已添加到一个环境中,如下屏幕截图所示。
查询订阅数据
完成前一步后,通过选择左上角的 Marketing Consumer Project 返回到市场消费者项目的主页,然后选择 OVERVIEW。现在可以通过右侧的 Amazon Athena 深链接来消费数据。选择 Query data 打开 Athena,如下屏幕截图所示。在 Open Amazon Athena 窗口中,选择 Open Amazon Athena。
飞驰加速器将打开一个新窗口,市场消费者已被联邦到 Amazon DataZone 用于授予市场消费者项目数据湖环境权限的角色中。工作组默认为 Amazon DataZone 管理的适当工作组。确保 Data 下的 Database 为市场消费者数据湖环境的 subdb。将会列出六个表,分别对应于添加到销售数据产品的六个原始数据资产。运行您的查询。在此示例中,我们使用的查询是查找销售量前五的产品,如下代码片段和屏幕截图所示。
sqlSELECT pproductname SUM(oiquantity) AS totalquantity FROM orderitems oi JOIN products p ON oiproductid = pproductid GROUP BY pproductname ORDER BY totalquantity DESC LIMIT 5
数据所有者维护数据产品的生命周期
按照以下步骤维护数据产品的生命周期。
修订数据产品
数据所有者更新数据产品,包括根据需要编辑元数据和添加或删除资产。有关详细说明,请参阅 重新发布数据产品。
销售数据工程师的任务是将
使用 AWS IoT 软件包目录组织 IoT 软件包和版本关键要点随着连接的物联网 (IoT) 设备数量不断增长,预计到 2030 年将接近 300 亿,管理这些设备的需求也会随之上升。AWS IoT 设备管理服务以及新推出的 AWS IoT 软件包目录功能将帮助用户集中管理软件包和版本,包括固件、...