帮助与文档
大数据操作系统 > 用户操作指南 > 数据工厂 > FTP数据接入
新增FTP数据接入
FTP数据接入是指通过sqoop插件把FTP中的文件接入到HDFS系统或者Hive数据库中。
新增一条Sqoop连接记录,设置FTP源和目标,配置FTP数据接入规则。保存后可在工作流中以Sqoop脚本形式调用。
相关参数说明:
字段 | 说明 |
基本信息 | |
资源名称 | 数据接入的业务名称。 |
导入方式 | 数据接入到Hive或HDFS中。 |
源 | |
FTP源 | 加载出配置中心配置的FTP的所有资源名称。 |
资源文件目录 | FTP文件的路径,必须为有权限的路径。支持动态时间规则文件名,时间规则如yyyy-mm-dd,目录名/时间规则拼起来为最终资源文件目录,从此目录中读取数据,参数根据任务运行日期更新替换。 |
目标 | |
目标源 | 加载出配置中心配置的类型为hive的资源名称。 |
目标库 | 根据所选的Hive目标源,加载出该项目有权限的所有数据库名称。 |
目标表名 | 根据选择的Hive目标库,加载出该库下有权限的所有表名。 |
HDFS路径 | Hdfs的绝对路径,存储数据的目录。 |
高级设置 | |
是否覆盖 | 指执行接入操作时是否覆盖之前导入的数据。是:每次执行都会清空之前导入的数据,重新导入;否:每次执行会保留之前已存在的数据,然后将新的数据进行追加。 |
队列 | 指定执行该数据接入任务的队列。 |
配置完成后,执行sqoop操作验证配置是否成功。当分区值为变量时,执行Sqoop时需要输入分区变量值。过程日志:点击执行按钮可以查看过程日志;结果日志:执行完成后查看结果日志。可以查看是否导入成功。
图 执行Sqoop接入数据
编辑FTP数据接入
编辑FTP数据接入的配置。
删除FTP数据接入
删除:删除FTP数据接入的配置。
查询FTP数据接入
查询:可以根据资源名称,数据源名称查询。
图 查询FTP数据接入