首页 > 云海(数据开放) > 帮助文档 > 新手上路

新手上路

一、登录

开发者进入云海首页,点击【登录】或【控制台】,跳转到登录页面


使用京东帐号登录。Beta 1.0为邀约制。

二、选择工作APPKEY

登录后,点击【控制台】,进入选择工作APPKEY界面。
对于没有应用APPKEY时,界面显示


点击【创建应用】,开发者可以到京东开发者中心(https://dev.jd.com/)去创建应用。
对于有应用APPKEY时,界面显示


选择开发时所用的APPKEY,点击【设置】,进入云海主界面。

三、数据仓库

数据仓库主要展示云海对外开放的基础数据表,供用户查看表详情、申请表和取消表授权等操作。


对于未登录或登录后无云海权限的用户,数据仓库展示部分基础数据表。对于登录后有云海权限的用户,数据仓库根据用户选择的appkey展示该appkey下的可见表,具体展示的数据表列表由云海管理员根据appkey设置。


用户可以根据appkey、表名、表描述、来源、获取类型、计算类型、计算周期、一级主题和二级主题等对数据表进行过滤查看。
点击表名可以进入表详情查看界面


查看数据表详情,主要可以查看表字段、字段类型和字段描述;查看分区详情主要可以查看分区字段和分区值。
点击数据仓库界面或表详情界面的【加入申请单】,加入成功后跳转到加入申请单成功界面,同一张数据表只能加入一次,不可重复加入。


点击【去提交申请单】进入申请单提交界面


必须填写申请目的、上传MRD和PRD,提交申请后待后台管理审核,审核通过后用户即可有权限使用该表。

四、查看数据及权限

4.1 我的权限
4.1.1申请记录

提交数据申请后,点击【申请记录】查看数据申请的状态,有“通过”、“未通过”和“未审核”三种状态


每提交一次申请,就会有一条对应的申请记录。对每一次记录可以查看详情。

4.4.2 样本卖家

开发者可以查看样本卖家,查看样本卖家的授权起始时间


样本卖家数据设置的作用是为程序试跑过滤数据,任务试跑时不是跑所有授权的卖家数据,而是只跑授权数据中某些设置为样本卖家的数据,这样就可以减少试跑数据量,提高试跑效率。开发者样本卖家设置,需要开发者提供对应的应用APPKEY,由云海管理员在后台进行设置。

五、数据开发

了解自己拥有的数据后,开发者即可进入【数据开发】页进行SQL开发,这里使用HiveSQL语法。(本次 Beta1.0版本支持的语法详情见【帮助说明】-【常见问题】-【语法支持说明】),进入数据开发界面
5.1
个人数据

个人数据是开发者自己建的数据表,表类型有结果表和上传表。上传表对应抽取任务,主要存储开发者调用云海数据上传接口上传的数据,结果表保存的是计算任务完成后最终结果数据。

表和字段支持拖曳,可以将表名和字段名拖曳到右侧的数据开发界面,方便程序开发时hiveSql的编写。在库名上点击鼠标右键,展示菜单新建目录、可视化建表和DDL建表。
新建目录:

目录的建立主要为了方便开发者对表做归类处理。
可视化建表:
点击可视化建表,右边出现建表界面



选择表的数据保存周期,填写表描述,给表依次添加字段,包括字段类型和字段描述信息,以及表的索引列,点击【保存】,表便建立成功。
DDL建表:
点击DDL建表,右边出现建表界面

在开发界面写好建表语句,点击运行,即可建表成功。
点击展开数据表树,展示该库下所有数据表,点击表可以依次展开表字段和字段描述。
鼠标右键点击某个数据表,出现删除、复制表名、查看详情、可视化修改表和DDL修改表菜单。



删除和修改表只能对未部署的表进行删除和修改操作。
查看表详情:
点击查看表详情,右边出现表详情展示界面



可以查看数据表详情和分区详情。
可视化修改表:
点击可视化修改表,右边出现修改表界面



支持修改表数据存储周期、表描述、表字段类型、字段描述和增加字段,不支持删除字段,点击【保存】,表修改成功。
DDL修改表:
点击DDL修改表,右边出现修改表界面



开发者可以根据示例写修改表的语句,点击运行,表便修改成功。
5.2 基础数据



基础数据是按主题进行归类展示的,此处展示的基础数据表都为已经授权的表。右键点击基础表,可以复制表名和查看表详情。点击查看表详情,可以查看基础数据详情,类似个人数据。基础数据的表名和列名也支持拖曳功能。
5.3 我的程序
点击【我的程序】,展示开发的所有程序列表,在数据开发根目录上点击右键,出现新建目录和新建程序菜单
新建目录:



开发者可能建立目录,方便对开发程序做归类。
新建程序:



发者建立自己的开发程序,程序建立成功后,点击程序,点击【保存】,程序建立成功。在左侧鼠标右键点击某程序,可以对该程序进行修改名称移动到删除操作。移动到可以把程序移动到其他的目录上,也可以通过拖曳的方式实现。点击程序名称,进入hivesql编辑界面



对 于编辑完成的程序,点击【保存】,程序会被保存,并且系统会解析出程序中表的依赖关系,并保存(如果存在依赖关系)。点击【运行】,可以执行sql,系统 会检验sql语法、表的权限等。开发者可以通过sql运行,查看运行记录和结果数据,进行程序的调试,直到写出符合开发者要求的sql。


六、生产部署

6.1 任务部署
当程序满足了需求后。需要将其部署成为每天定时运行的计算任务。数据开发界面有快捷按钮。也可以到达【生产部署】页面,选择任务部署的功能,进行部署。
点击【生产部署】,进入任务部署页面,下面分别介绍抽取任务、计算任务和导出任务的部署。
6.1.1 抽取任务部署
抽取任务主要负责将开发者通过云海数据上传接口上传到mysql的数据导入到hive中,提供程序计算时使用。
 
部署抽取任务时需要选择上传表,根据上传表是否有分区,确定任务的执行规则。当选择有分区的上传表时,部署的抽取任务是周期性执行的;当选择的上传表没有分区时,部署的抽取任务是定时执行的。
 
定时执行时,开发者需要选择任务的执行时间点,当所选择的时间大于当前时间一个小时以上时,该任务就在当天所选时间点执行,其他情况下,任务在第二天所选时间点执行。抽取任务无需审核,提交部署后就直接上线。
6.1.2 计算任务部署
计 算任务有三种,一种是只依赖抽取任务的,一种是只依赖于基础数据表,还有一种是两者都依赖。只依赖抽取任务的计算任务需要抽取任务触发,抽取任务执行完成 后才开始执行计算任务。只依赖于基础数据表的计算任务,基础数据计算出来后就触发计算任务的执行,两种都依赖的计算任务必须等待抽取任务和基础数据都完成 后才触发其开始执行。
 
计算任务的部署需要选择部署程序,提交部署后,系统会进行验证,主要验证:
1. 选择的程序必须能解析出依赖数据表和结果数据表;
2. 对应的依赖数据表为上传表时,所对应的抽取任务状态必须为已上线;
3. 产出结果表不能被其他已部署的计算任务所使用。
以上三点若有一个不满足,则任务无法部署成功。
任务成功部署后,会马上进行试跑。试跑状态及试跑日志可以在任务列表中进行查看。计算任务需要审核,试跑通过后需手动点击“上线”,任务在后台经过云海管理员审核通过后,才会正式上线。
6.1.3 导出任务部署
完成计算任务的部署后,在确保计算任务状态为已上线后,在任务部署模块选择部署"导出"任务。
 
部署导出任务需要选择结果表,导出任务主要负责把计算结果数据从hive表导出到mysql表。导出任务无需审核,提交部署后就上线,并生成任务ID。等待计算任务完成后就触发导出任务开始执行。
6.2 任务列表
任务部署完成后,可以在任务列表界面查看所有任务的相关信息,可以根据任务类型或任务状态进行过滤查看
查看抽取任务:
 
抽取任务有“上线”、“下线”、“删除”和查看任务“详情“等操作。
查看计算任务:
 
计算任务根据其状态可以“上线”、“下线”、“停止部署”、“删除”、“提交部署”,“查看详情”和“查看依赖关系”等操作
导出任务查看:
 
导出任务有“上线”、“下线”、“删除”和“查看任务详情”等操作。
6.3 运行记录
 
任务每天运行一次都会产生一次记录,对应一天多次运行的只显示最新的运行记录。在运行记录中点击【任务重跑】,可以重新运行该任务,点击【任务日志】,可以查看任务试跑时的日志,如下图
 
点击【任务依赖】,可以查看该任务与其他任务之间的依赖关系,如下图

七、发布数据接口


导出任务部署完成后(即:状态为已上线),还需要定义一个数据接口用于通过JOS调用计算任务产出的结果数据。接口发布界面如下
 
接口编辑完成后可以点击【快速测试sql】,测试sql的正确性和权限。点击【保存】,接口被保存。点击【提交发布】,接口直接发布上线。快速测试sql、保存和提交发布都会生成"接口ID"。
接口列表—数据接口列表中,可以查看所有的接口
 
所有的接口都可以进行“详情”查看操作,对“已上线”的接口可以进行“下线”操作;对“未发布”的接口可以进行“编辑”、“发布”和“删除”操作;对“已下线”的接口可以进行“上线”、“停止部署”和“删除”操作。
联系云海管理员,请邮件发送至clouddata@jd.com。




八、资源管理

8.1 计算层资源

8.1.1 资源汇总:展示最近7天hive层的资源汇总情况、资源每天的增量峰值、最近7天内每天的内存消耗总量以及7天内每天的cpu消耗总量。


点击日期,可以查看每天每半个小时的资源消耗情况。

8.1.2 计算资源详情
统计展示任务执行后消耗的计算资源,如cpu和内存



这里分两个列表,正常的任务与商家初始化任务,商家初始化任务是用户开通为商家初始化功能后任务自动触发为新订购商家跑数据的任务。每个任务执行完成后都会统计任务的执行来源与资源消耗,执行来源为系统执行与isv重跑两种。

8.1.3 存储资源详情


统计展示hive层资源的存储情况,每个计算任务执行完成后会统计该任务在分区上产生的数据量和表内行数,用户也可以对分区上的数据进行删除操作,系统也会对过期的数据进行定时清理。

8.2 查询层
查询层主要统计展示mysql层的资源存储,以及数据下载,数据上传和任务状态查询接口的调用情况。

8.2.1 资源汇总
统计展示mysql层7天内每天的存储资源总量、存储资源增量峰值,上传接口调用量、下载接口调用量以及查询任务状态接口调用量。

8.2.2 存储资源详情


统计展示每个导出任务执行后,在mysql层产生的数据资源,统一资源存储空间和表内行数。用户也可以对数据进行删除操作,过于过期的数据,系统也会定时的清理。

8.2.3 查询资源详情

查询资源主要是数据上传接口、数据下载接口和任务状态查询接口的调用情况。

8.3 基础设置

8.3.1 商家数据初始化


该功能主要为新订购的商家准备数据,设置时长为2,那就为商家准备前两天的数据,保证商家订购应用后会比较及时的看到数据。

8.3.2 报警设置


为任务设置报警后,当任务失败时用户会收到报警通知,根据设置的类型,可以邮件或短信报警,也可以同时报警。

联系云海管理员,请邮件发送至clouddata@jd.com。