目录:
脚本发布有什么作用?
如何创建一个MR脚本?
如何创建一个Spark脚本?
脚本批量导入时出现异常导致脚本导入不完全如何处理?
如何把脚本回滚到之前的版本?
python脚本中用到的包应该放到哪?
如何在Khan脚本中运行oracle脚本?
在IDE中无法使用shell脚本进行ssh操作?
执行Hive脚本时长时间无响应?
Q:脚本发布有什么作用?
A:1.只有发布的脚本才可以进行版本控制,可以进行回滚操作。
2.如果工作流中要配置编辑好的脚本,脚本只有发布才可以在工作流中调度。
Q:如何创建一个MR脚本?
A:进入数据工厂,点击数据开发-脚本管理,点击+,选择MR
图 脚本选择图
图 表参数图
参数1:选择jar包存放在HDFS的位置
参数2:填写函数名,如com.bfd.wordcount
参数3:填写相应参数,如输入输出路径
Q:如何创建一个Spark脚本?
A:进入数据工厂,点击数据开发-脚本管理,点击+,选择Spark
图 表参数图
参数1:选择jar包存放在HDFS的位置
参数2:填写函数名,如com.bfd.wordcount
参数3:填写相应参数,如输入输出路径
Q:脚本批量导入时出现异常导致脚本导入不完全如何处理?
A:手动删除已经导入的脚本,然后重新提交压缩包进行导入。
Q:如何把脚本回滚到之前的版本?
A:点击查看历史版本,选择相应版本点击回滚。
图 历史版本图
图 版本回滚图
Q:如何在KHan脚本中运行Oracle脚本?
A:在KHan脚本的第一行添加 set dialect =‘oracle’;即可。
图 KHan脚本图
Q:在IDE中无法使用shell脚本进行ssh操作?
A:1.先检查runner所在的机器jupiter用户是否有配置免密登录。
2. shell中运行ssh需要在命令后面添加后续的命令并用引号引起来。例如,ssh root@ 192.168.69.12"echo hello"
Q:执行Hive脚本时长时间无响应?
A:可能引起错误的原因:
1.在项目中未配置相应的Hive库;
2.Hive出现问题;
3.runner出现问题;
4.集群资源紧张导致查询效率低下;
5.过大的数据量,使得运算时间增长。
解决方案:
1.首先检查项目的配置信息,在数据工厂-配置管理-项目配置中的业务配置下是否配置了Hive库层级。
2.若已配置好层级,仍旧有问题则检查是否能运行其他脚本,若能运行则可能问题在Hive上,在配置中心中编辑Hive资源看是否能正常连接,查看Hive集群状态定位问题,可尝试重启Hive。
3.若其他脚本也无法运行则问题可能出在runner上,在ambari中查看bdos-runner服务看是否正常运行,一般可能集群环境不稳定导致runner挂掉,重启即可。
4.在有非常占用集群资源的工作流在运行时,也会导致Hive查询时间过长。
5.若其他Hive的语句能正常执行,可能是因为数据量过大导致,Hive 执行较慢。