目录:
数据接入数据源下拉框没有目标库?
如何将关系型数据库表全量导入到Hive库中?
如何将FTP数据导入到Hive库中?
数据接入的高级设置中参数的作用?
数据接入执行异常怎么处理?
DB数据导出中,更新模式的作用?
数据接入中单表、多表、条件这三种源类型的区别?
sqoop导入KHan表时,表中数据0都变成了null?
数据导入,数据建模等一些情况下,选择目标源后,无法选择具体的库?
Q:数据接入数据源下拉框没有目标库?
A:首先在安全中心中查看自己是否有Hive库的操作权限,如果没有就在我的权限中申请Hive库的操作权限。
租户所有者或者系统管理员给用户授予Hive库权限。
在配置管理-业务配置中配置已授权访问的Hive库。
图 业务配置数据源图
Q:如何将关系型数据库表全量导入到Hive库中?
A:以MySQL为例,在数据工厂模块中,点击数据同步-数据接入-新增,选择DB。
基本信息:资源类型选择MySQL,导入方式选择Hive;
源:源类型选择单表,然后选择MySQL要导入的库表;
目标:目标源选择SysHive,选择相应的Hive库表,Hive表不需要创建,表名可以自定义;
高级设置:是否覆盖选择是,填写扩展参数 -m 1,选择队列。
点击执行即可。
图 数据接入配置信息图
图 数据接入配置信息图
Q:如何将FTP数据导入到Hive库中?
A:首先要创建和FTP文件格式一致的Hive数据库表,注意Hive表的列分隔符和行分隔符要和FTP文件一致。然后在数据工厂模块中,点击数据同步-数据接入-新增,选择FTP,依次填写信息。
图 FTP数据接入配置信息图
图 FTP数据接入配置信息图
Q:数据接入的高级设置中参数的作用?
A:在高级设置中,是否覆盖用于控制数据接入时目标表的数据是否先清空;是否增量导入用于控制数据时按照增量的方式接入还是全量的方式接入;扩展参数是执行sqoop时需要的参数,如-m 1等。
Q:数据接入执行异常怎么处理?
A:查看过程日志里面报的错误,如果错误中有“Tried to end inactive copy”,这个就是数据的问题,要根据数据情况修改字段分隔符或者行分隔符等。
Q:DB数据导出中,更新模式的作用?
A:更新模式分为默认、仅更新、允许插入三种,默认是直接插入,仅更新是生成update语句然后执行,允许插入式生成upsert语句然后执行。
Q:数据接入中单表、多表、条件这三种源类型的区别?
A:单表是指单表导入,多表是指多张表同时导入多张表,条件是指根据SQL语句查询出来的数据进行插入。
Q:sqoop导入KHan表时,表中数据0都变成了null?
A:sqoop导入时添加null-string和null-non-string参数。例如,-m 1 --null-string '\\N' --null-non-string '\\N' --fields-terminated-by '\t'
Q:数据导入,数据建模等一些情况下,选择目标源后,无法选择具体的库?
A:项目配置中未配置库,在数据工厂-配置管理-项目配置中配置库层级即可