首页 > 资讯 > > 内容页

大数据NiFi（十八）：离线同步MySQL数据到HDFS

发表于: 2023-02-21 18:21:51 来源：腾讯云

离线同步MySQL数据到HDFS

案例：使用NiFi将MySQL中数据导入到HDFS中。

以上案例用到的处理器有“QueryDatabaseTable”、“ConvertAvroToJSON”、“SplitJson”、“PutHDFS”四个处理器。

(资料图片仅供参考)

一、配置“QueryDatabaseTable”处理器

该处理器主要使用提供的SQL语句或者生成SQL语句来查询MySQL中的数据，查询结果转换成Avro格式。该处理器只能运行在主节点上。

关于“QueryDatabaseTable”处理器的“Properties”配置的说明如下：

配置项	默认值	允许值	描述
Database Connection Pooling Service（数据库连接池服务）			用于获得与数据库的连接的Controller Service。
Database Type（数据库类型）	Generic		选择数据库类型。Generic 通用类型OracleOracle 12+MS SQL 2012+MS SQL 2008MySQLPostgreSQL
Table Name（表名）			查询数据库的表名，当使用“Custom Query”时，此为查询结果的别名，并作为FlowFile中的属性。
Columns to Return（返回的列）			查询返回的列，多个列使用逗号分隔。如果列中有特殊名称需要加引号，则所有列都需要加引号处理。
Additional WHERE clause（where条件）			在构建SQL查询时添加到WHERE条件中的自定义子句。
Custom Query（自定义SQL查询）			自定义的SQL语句。该查询被构建成子查询，设置后不会从其他属性构建SQL查询。自定义SQL不支持Order by查询。
Maximum-value Columns（最大值列）			指定增量查询获取最大值的列，多列使用逗号分开。指定后，这个处理器只能检索到添加/更新的行。不能设置无法比较大小的列，例如：boolean/bit。如果不指定，则参照表中所有的列来查询全量数据，这会对性能产生影响。
Max Wait Time（最大超时时间）	0 seconds		SQL查询最大时长，默认为0没有限制，设置小于0的时间默认为0。
Fetch Size（拉取数据量）	0		每次从查询结果中拉取的数据量。
Max Rows Per Flow File（每个FlowFile行数）	0		在一个FlowFile文件中的数据行数。通过这个参数可以将很大的结果集分到多个FlowFile中。默认设置为0，所有结果存入一个FlowFile。
Output Batch Size（数据输出批次量）	0		输出的FlowFile批次数据大小，当设置为0代表所有数据输出到下游关系。如果数据量很大，则有可能下游很久没有收到数据，如果设置了，则每次达到该数据量就释放数据，传输到下游。
Maximum Number of Fragments（最大片段数）	0		设置返回的最大数据片段数，设置0默认将所有数据片段返回，如果表非常大，设置后可以防止OOM错误。
Normalize Table/Column Names（标准表/列名）	false	truefalse	是否将列名中不兼容avro的字符修改为兼容avro的字符。例如，冒号和句点将被更改为下划线，以构建有效的Avro记录。
Transaction Isolation Level			设置事务隔离级别。
Use Avro Logical Types(使用Avro逻辑类型)	false	truefalse	是否对DECIMAL/NUMBER, DATE, TIME 和 TIMESTAMP 列使用Avro逻辑类型。
Default Decimal Precision（Decimal数据类型位数）	10		当 DECIMAL/NUMBER 数据类型转换成Avro类型数据时，指定的数据位数。
Default Decimal Scale（Decimal 数据类型小数位数）	0		当 DECIMAL/NUMBER 数据类型转换成Avro类型数据时，指定的小数点后的位数。

Generic 通用类型OracleOracle 12+MS SQL 2012+MS SQL 2008MySQLPostgreSQL

Table Name（表名）查询数据库的表名，当使用“Custom Query”时，此为查询结果的别名，并作为FlowFile中的属性。 Columns to Return （返回的列）查询返回的列，多个列使用逗号分隔。如果列中有特殊名称需要加引号，则所有列都需要加引号处理。 Additional WHERE clause （where条件）在构建SQL查询时添加到WHERE条件中的自定义子句。 Custom Query （自定义SQL查询）自定义的SQL语句。该查询被构建成子查询，设置后不会从其他属性构建SQL查询。自定义SQL不支持Order by查询。 Maximum-value Columns （最大值列）指定增量查询获取最大值的列，多列使用逗号分开。指定后，这个处理器只能检索到添加/更新的行。不能设置无法比较大小的列，例如：boolean/bit。如果不指定，则参照表中所有的列来查询全量数据，这会对性能产生影响。 Max Wait Time（最大超时时间）0 seconds SQL查询最大时长，默认为0没有限制，设置小于0的时间默认为0。 Fetch Size（拉取数据量）0 每次从查询结果中拉取的数据量。 Max Rows Per Flow File（每个FlowFile行数）0 在一个FlowFile文件中的数据行数。通过这个参数可以将很大的结果集分到多个FlowFile中。默认设置为0，所有结果存入一个FlowFile。 Output Batch Size（数据输出批次量）0 输出的FlowFile批次数据大小，当设置为0代表所有数据输出到下游关系。如果数据量很大，则有可能下游很久没有收到数据，如果设置了，则每次达到该数据量就释放数据，传输到下游。 Maximum Number of Fragments（最大片段数）0 设置返回的最大数据片段数，设置0默认将所有数据片段返回，如果表非常大，设置后可以防止OOM错误。 Normalize Table/Column Names（标准表/列名）false true false 是否将列名中不兼容avro的字符修改为兼容avro的字符。例如，冒号和句点将被更改为下划线，以构建有效的Avro记录。 Transaction Isolation Level 设置事务隔离级别。 Use Avro Logical Types(使用Avro逻辑类型)false true false 是否对DECIMAL/NUMBER, DATE, TIME 和 TIMESTAMP 列使用Avro逻辑类型。 Default Decimal Precision（Decimal数据类型位数）10 当 DECIMAL/NUMBER 数据类型转换成Avro类型数据时，指定的数据位数。 Default Decimal Scale（Decimal 数据类型小数位数）0 当 DECIMAL/NUMBER 数据类型转换成Avro类型数据时，指定的小数点后的位数。

配置步骤如下：

1、新建“QueryDatabaseTable”处理器

2、配置“SCHEDULING”调度时间

这里调度时间配置为99999s,读取数据库，这里读取一次即可，默认0会不间断读取数据库会对服务器造成非常大压力。执行仅支持“Primary”主节点运行。

3、配置“PROPERTIES”

配置“Database Connection Pooling Service”选择创建，在弹出页面中可以按照默认选择直接点击“Create”。

点击“->”继续配置MySQL连接：

在弹出的页面中填入：

连接MysqlURL:

jdbc:mysql://192.168.179.5:3306/mynifi?characterEncoding=UTF-8&useSSL=false

MySQL驱动类：com.mysql.jdbc.DriverMySQL jar包路径：需要提前在NiFI集群各个节点上创建对应目录并上传jar包。连接mysql的用户名和密码。

通过以上配置好连接mysql如下：

配置其他属性如下：

二、配置“ConvertAvroToJSON”处理器

此处理器是将二进制Avro记录转换为JSON对象，提供了一个从Avro字段到JSON字段的直接映射，这样得到的JSON将具有与Avro文档相同的层次结构。输出的JSON编码为UTF-8编码，如果传入的FlowFile包含多个Avro记录，则转换后的FlowFile是一个含有所有Avro记录的JSON数组或一个JSON对象序列(每个Json对象单独成行)。如果传入的FlowFile不包含任何记录，则输出一个空JSON对象。

关于“ConvertAvroToJSON”处理器的“Properties”配置的说明如下：

配置项	默认值	允许值	描述
JSON container options（Json选择）	array	nonearray	如何解析Json对象，none:解析Json将每个Json对象写入新行。array：解析到的json存入JsonArray一个对象
Wrap Single Record（数据库类型）	false	truefalse	指定解析到的空记录或者单条记录是否按照“JSON container options”配置包装对象。
Avro schema（表名）			如果Avro数据没有Schema信息，需要配置。

配置步骤如下：

1、创建“ConvertAvroToJSON”处理器

2、配置“PROPERTIES”

3、连接“QueryDatabaseTable”处理器和“CovertAvroToJSON”处理器

连接好两个处理器后，可以配置“Connection”为负载均衡方式传递数据：

三、配置“SplitJson”处理器

该处理器使用JsonPath表达式指定需要的Json数组元素，将Json数组中的多个Json对象切分出来，形成多个FlowFile。每个生成的FlowFile都由指定数组中的一个元素组成，并传输到关系"split"，原始文件传输到关系"original"。如果没有找到指定的JsonPath，或者没有对数组元素求值，则将原始文件路由到"failure"，不会生成任何文件。

关于“SplitJson”处理器的“Properties”配置的说明如下：

配置项	默认值	允许值	描述
JsonPath Expression（Json表达式）			一个JsonPath表达式，它指定用以分割的数组元素。
Null Value Representation（Null值表示）	empty string	empty stringthe string "null"	指定结果为空值时的表示形式。

配置步骤如下：

1、创建“SplitJson”处理器

2、配置“PROPERTIES”

3、连接“ConvertAvroToJSON”处理器和“SplitJson”处理器

连接后，连接关系选择“success”：

同时配置“ConverAvroToJSON”处理失败的数据自动终止：

四、配置“PutHDFS”处理器

该处理器是将FlowFile数据写入到HDFS分布式文件系统中。关于“PutHDFS”处理器的“Properties”主要配置的说明如下：

配置项	默认值	允许值	描述
Hadoop Configuration Resources（Hadoop配置）		nonearray	HDFS配置文件，一个文件或者由逗号分隔的多个文件。不配置将在ClassPath中寻找‘core-site.xml’或者‘hdfs-site.xml’文件。
Directory（目录）			需要写入文件的HDFS父目录。如果目录不存在，将创建该目录。
Conflict Resolution Strategy(冲突解决)	fail	replaceignorefailappend	指示当输出目录中已经存在同名文件时如何处理。

配置步骤如下：

1、创建“PutHDFS”处理器

2、配置“PROPERTIES”

注意：以上需要在各个NiFi集群节点上创建“/root/test”目录，并且在该目录下上传hdfs-site.xml和core-site.xml文件。

3、连接“SplitJson”处理器和“PutHDFS”处理器

同时设置“SplitJson”处理器中“failure”和“original”数据关系自动终止。

设置“PutHDFS”处理器“success”和“failure”数据关系自动终止：

配置好的连接关系如下：

五、运行测试

1、在MySQL创建库“mynifi”,并且创建表“test1”，向表中插入10条数据

mysql> create database mynifi;Query OK, 1 row affected (0.02 sec)mysql> use mynifi;Database changedmysql> create table test1(id int,name varchar(255),age int );Query OK, 0 rows affected (0.07 sec)mysql> insert into test1 values (1,"zs",18),(2,"ls",19),(3,"ww",20),(4,"ml",21),(5,"tt",22)

2、首先启动“QueryDatabaseTable”处理器观察队列数据

3、单独启动“ConvertAvroToJson”处理器观察队列数据

4、单独启动“SplitJson”处理器观察队列数据

5、单独启动“PutHDFS”处理器观察HDFS对应目录数据

查看数据：

注意：

如果在“QueryDatabaseTable”处理器中设置增属性“Maximum-value Columns”为id，那么每次查询都是大于id的增量数据。如果想要存入HDFS文件为多行而不是一行，可以将“CovertAvroToJson”处理器属性“JSON container options”设置为none，直接解析Avro文件得到一个个json数据，然后直接连接“PutHDFS”处理器即可。

标签： PostgreSQL JSON 云数据库 Server

今日聚焦!美国高校研发出锂电池"完美替代者"

2022-11-01查看详情

每日简讯：不惧风雨，山地骑行

2022-11-01查看详情

当前速递！湖南大学无锡半导体先进制造创新中心正式揭牌

2022-11-01查看详情

大数据NiFi（十八）：离线同步MySQL数据到HDFS

​离线同步MySQL数据到HDFS

一、配置“QueryDatabaseTable”处理器

二、​​​​​​​配置“ConvertAvroToJSON”处理器

三、​​​​​​​配置“SplitJson”处理器

四、配置“PutHDFS”处理器

五、​​​​​​​​​​​​​​运行测试

1、在MySQL创建库“mynifi”,并且创建表“test1”，向表中插入10条数据

2、首先启动“QueryDatabaseTable”处理器观察队列数据

3、单独启动“ConvertAvroToJson”处理器观察队列数据

4、单独启动“SplitJson”处理器观察队列数据

5、单独启动“PutHDFS”处理器观察HDFS对应目录数据

大数据NiFi（十八）：离线同步MySQL数据到HDFS

2020款“荣威RX5 PLUS”将于6月份上市，内饰带有浓浓北欧风！

天天视讯！武汉大学自考本科法学_武汉大学自考本科

全球今头条！到站不停车？石家庄鹿泉区1路车驾驶员被处罚

中国光伏晒出亮眼“成绩单”

世界最资讯丨卷起来了！文旅局长零下 20 度穿长裙代言家乡

网上微信拉票怎么收费 投票1000票多少钱 天天信息

美元兑以色列谢克尔日内涨1%，至3.5736，为3个月以来高点。-每日视点

对大A股市2月14日的复盘记录|天天热推荐

世界微动态丨北京首钢3月17日重返五棵松，前两个主场定于首钢篮球中心

奋进的春天丨汉中留坝：跑好项目建设开春“第一棒”|环球速讯

贵阳向全社会征求3号线、S1线车站站名

中证500etf期权行情价格怎么判断合适买入？ 天天热闻

苗岭深处，有颗“金钉子”_焦点快播

Modder 创建了在 DLSS 兼容游戏上启用 DLAA 的工具

世界快讯:无双大蛇z武器属性搭配_无双大蛇z武器

越女剑_说一说越女剑的简介|全球最资讯

提示使用u盘之前需要将其格式化怎么办_使用u盘之前需要将其格式化怎么办

9527电影手机端_9527电影院网

全球速读：硬碰硬?美双航母和B-1B在南海进行夺岛演练,山东舰编队正在集结

电脑桌面怎么截屏后并保存_电脑上怎么截屏保存在电脑桌面上 全球观热点

世界即时：cad标注颜色改不了怎么办_精子颜色偏黄怎么办

全球热资讯！千分之符号怎么打出来_千分之几的符号怎么打

世界新资讯：纳帅：普利斯肩膀一毫米都没动这不是红牌 裁判赛后没任何表示

龙泽熊胆胶囊_熊胆丸_龙泽熊胆胶囊的功效与作用

降压药吃多了会怎样在家怎么处理_降压药吃多了会怎样

杨家墩村_关于杨家墩村简述

中国船舶沪东中华交付全球最大江海联运型LNG船|全球聚看点

钠的最高价氧化物是什么_钠的最高价氧化物

太阳风翻译器_太阳风地址翻译 资讯推荐

环球今日讯！450公里外的牵挂

中国人民银行拟发文规范内地与香港利率互换市场互联互通合作|天天聚看点

全球微动态丨好自为之的意思的读法

大理美好生活市集新鲜开集！诚邀上海居民邂逅打卡！

焦点滚动:如何制作三个臭皮匠的服装

官方认定新疆男篮构成注册违规 周琦恢复“自由身”_环球热门

世界看热讯：差分方程_说一说差分方程的简介

每日头条!山东文旅景区投资集团有限公司

全球热头条丨长沙投靠落户有学历要求吗现在

转会1＋1：国米抛售铁卫引英超双雄竞争皇马500万回购青训新星

三名教师获市优质课一等奖

天天观焦点：磷肥6+2会议是什么意思_磷肥

世界观速讯丨希洛克装备分解_希洛克装备

最新快讯!珠江流域启动新一轮应急补水调度

新华传媒：公司对中译语通持股比例较小-全球观天下

热血小说网_热血小说

热门：未成年人大额消费，商家要尽责提醒

三花智控：新能源汽车已经进入不可逆的快车道

湘江文艺丨柴棚：在诗中怀揣一枚楚国的橘子和他告别|全球快资讯

全球今日报丨mate20官方价格_mate20价格_华为mate20价格

长沙市第五批“两大重点人才工程”正在申报中

环球微动态丨摩羯座男生的性格,摩羯座的男生有哪些优点和缺点 摩羯男性格到底怎样

螺栓螺母配套问题_螺栓螺母_全球快看

焦点速读：塞夏文_塞夏文夏尔死了

证券日报属于什么单位

世界头条：安之星净水器好不好_安之星净水器

机构：中国电动车市场增速放缓，1月锂电池材料价格全线下跌-环球动态

七个字的歌名有哪些

环球快消息！华达呢面料_华达呢

如何制作无毒且食品安全的手绘陶瓷盘-资讯推荐

光纤入户怎么连接光猫和无线路由器 配置无线路由器的方法是什么

每日快讯!得天独厚造句_得天独厚

如何制作鬼面具

华为畅玩7c电量百分比怎么设置 观速讯

中国改革开放多少年了？ 新资讯

市场回暖券商嗅到业务扩张良机 年内已发债“补血”近1500亿元|焦点消息

每日时讯!中航电测、浪潮信息等8股获融资净买入超亿元

大自然风光优美古诗

离线同步MySQL数据到HDFS

二、配置“ConvertAvroToJSON”处理器

三、配置“SplitJson”处理器

五、运行测试

网上微信拉票怎么收费投票1000票多少钱天天信息

中证500etf期权行情价格怎么判断合适买入？天天热闻

电脑桌面怎么截屏后并保存_电脑上怎么截屏保存在电脑桌面上全球观热点

世界新资讯：纳帅：普利斯肩膀一毫米都没动这不是红牌裁判赛后没任何表示

太阳风翻译器_太阳风地址翻译资讯推荐

官方认定新疆男篮构成注册违规周琦恢复“自由身”_环球热门

环球微动态丨摩羯座男生的性格,摩羯座的男生有哪些优点和缺点摩羯男性格到底怎样

光纤入户怎么连接光猫和无线路由器配置无线路由器的方法是什么

华为畅玩7c电量百分比怎么设置观速讯

中国改革开放多少年了？新资讯

市场回暖券商嗅到业务扩张良机年内已发债“补血”近1500亿元|焦点消息

全球观热点：精锻科技：公司轻量化项目目前正在建设中预计2023年四季度形成产能

会后解密服贸会蕴含的科技密码

世界看热讯：金固股份收长安汽车定点通知函预计今年8月底开始批量供货

泰微课登录_泰微课学生注册今日热搜

微头条丨12岁男孩玩密室逃脱被吓到住院受恐惧支配一度昏迷

银河磁体董秘回复：公司在每个定期报告中披露股东人数，其余时间的股东人数，股东可以凭股东身份证明查询天天快资讯

圆周率10000位可复制_圆周率10000位天天消息

最新：致命id百度云完整致命id百度云

新冠疫苗可以打三针吗新冠疫苗加强针什么意思

软文的载体有哪些当前观察

酷我音乐歌词如何上传酷我音乐上传歌词的教程-系统之家_世界报道

山东南山纺织服饰有限公司每日看点

世界微头条丨三国群英传7最强武器你是否认识