51OpenLab-一站式ICT创新服务平台

干货｜PaddleNLP+ONNX+OpenVINO 实现微博情倾向分析

openlab_4276841a 更新于 4年前

01 数据分析与加载

1.1 数据分析

1. 数据分析与加载

数据概览：7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论
推荐实验：情感/观点/评论倾向性分析
数据来源：携程网
原数据集：ChnSentiCorp_htl，由谭松波老师整理的一份数据集
加工处理：构造平衡数据，即正向评论与负向评论数量接近，各2000多条。
数据集详细信息：

https://github.com/SophonPlus/ChineseNlpCorpu***lob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb
https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpu***aster/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

1.2 划分训练、开发、测试数据集

data_list_path="./data"

with open(os.path.join(data_list_path, 'eval.txt'), 'w', encoding='utf-8') as f_eval:
f_eval.seek(0)
f_eval.truncate()

with open(os.path.join(data_list_path, 'train.txt'), 'w', encoding='utf-8') as f_train:
f_train.seek(0)
f_train.truncate()

with open(os.path.join(data_list_path, 'test.txt'), 'w', encoding='utf-8') as f_test:
f_test.seek(0)
f_test.truncate()

with open(os.path.join(data_list_path, 'all.txt'), 'r', encoding='utf-8') as f_data:
lines = f_data.readlines()

i = 0
with open(os.path.join(data_list_path, 'eval.txt'), 'a', encoding='utf-8') as f_eval,open(os.path.join(data_list_path, 'test.txt'), 'a', encoding='utf-8') as f_test,open(os.path.join(data_list_path, 'train.txt'), 'a', encoding='utf-8') as f_train:
for line in lines:
words = line.split('\t')[-1].replace('\n', '')
label = line.split('\t')[0]
labs = ""
# 划分验证集
if i % 10 == 1:
labs = label + '\t' + words + '\n'
f_eval.write(labs)
# 划分测试集
elif i % 10 == 2:
labs = label + '\t' + words + '\n'
f_test.write(labs)
# 划分训练集
else:
labs = label + '\t' + words + '\n'
f_train.write(labs)
i += 1

1.3 准备好的数据分析

从本地文件创建数据集，根据本地数据集的格式给出读取 function 并传入 load_dataset() 中创建数据集。

def read(data_path):
with open(data_path, 'r', encoding='utf-8') as f:
# 跳过列名
next(f)
for line in f:
words, labels = line.strip('\n').split('\t')
words = words.split('\002')
labels = labels.split('\002')
yield {'text': words[0], 'label': labels[0]}

train_ds = load_dataset(read, data_path='./data/train.txt',splits='train',lazy=False)
dev_ds = load_dataset(read, data_path='./data/eval.txt',splits='dev',lazy=False)
test_ds = load_dataset(read, data_path='./data/test.txt',splits='test',lazy=False)

看前两个样例

print("训练集数据：{}\n".format(train_ds[0:2]))
print("验证集数据:{}\n".format(dev_ds[0:2]))
print("测试集数据:{}\n".format(test_ds[0:2]))

print("训练集样本个数:{}".format(len(train_ds)))
print("验证集样本个数:{}".format(len(dev_ds)))
print("测试集样本个数:{}".format(len(test_ds)))

输出结果：

训练集数据：[{'text': '宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小，但加上低价位因素，还是无超所值的；环境不错，就在小胡同内，安静整洁，暖气好足-_-||。。。呵还有一大优势就是从宾馆出发，步行不到十分钟就可以到梅兰芳故居等等，京味小胡同，北海距离好近呢。总之，不错。推荐给节约消费的自助游朋友~比较划算，附近特色小吃很多~', 'label': '1'}, {'text': 'CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风', 'label': '1'}]

验证集数据:[{'text': '早餐很丰富，服务也热情，早上很早退房时，前台值此人员办理手续也非常快．', 'label': '1'}, {'text': '沈阳市**的酒店，比较大气，交通便利，出门往左就是北陵公园，环境好。', 'label': '1'}]

测试集数据:[{'text': '这次是308的行政大床，总体感觉非常不错，就是价格稍许高了点，旁边有个五星的豪华客房才398。估计小天鹅也只有这个房型以上的，看得过去，以前住过的房间实在是很差。以后大家如果要住这里，还是选这个行政大床吧！', 'label': '1'}, {'text': '**酒店感觉很气派,而且很干净,整个酒店的房间布局也很整齐.5月份入住的,由于第一天房间不能上网,和前台协调又换了一间可以上网的,还帮忙调试了笔记本,服务很周到.正好住的两天都有人结婚,感觉酒店一楼的宴会厅很适合婚礼', 'label': '1'}]

训练集样本个数:3910
验证集样本个数:488
测试集样本个数:488

统计训练数据的正负样例

spam = 0
label_count = [0, 0]
for data in train_ds:
if data['label'] == '0':
label_count[0] += 1
elif data['label'] == '1':
label_count[1] += 1
else:
pass

print(label_count)

输出：
[1956, 1954]

02 PaddleNLP 预训练模型加载与模型 finetune

本示例展示了以 ERNIE (Enhanced Representation through Knowledge Integration)代表的预训练模型如何 Finetune 完成中文文本分类任务。

2.1 简介

本项目针对中文文本分类问题，采用 PaddleNLP 中的文本分类模型作为与训练模型来进行 finetune，
PaddleNLP 是飞桨自然语言处理开发库开源了一系列模型：
- BERT(Bidirectional Encoder Representations from Transformers)中文模型，简写 bert-base-chinese，其由12层 Transformer 网络组成。
- ERNIE(Enhanced Representation through Knowledge Integration)，支持ERNIE 1.0中文模型（简写ernie-1.0）和ERNIE Tiny中文模型（简写ernie-tiny)。其中 ernie 由12层Transformer网络组成，ernie-tiny 由3层 Transformer 网络组成。
- RoBERTa (A Robustly Optimized BERT Pretraining Approach)，支持24层Transformer 网络的 roberta-wwm-ext-large 和12层 Transformer 网络的 roberta-wwm-ext。

以下是本项目主要代码结构及说明（该结构也是 PaddleNLP 官方示例的结构）：

pretrained_models/
├── deploy # 部署
│ └── python
│ ├── onnxruntime_predict.py #
│ ├── openvino_predict.py #
│ └── predict.py # python预测部署示例
├── export_model.py # 动态图参数导出静态图参数脚本
├── predict.py # 预测脚本
├── README.md # 使用说明
└── train.py # 训练评估脚本

2.2 预训练模型加载

完整的训练代码在 train.py 文件中

mport paddlenlp as ppnlp

model = ppnlp.transformers.ErnieForSequenceClassification.from_pretrained('ernie-1.0', num_classes=2)
tokenizer = ppnlp.transformers.ErnieTokenizer.from_pretrained('ernie-1.0')

2.3 模型训练

$ python pretrained_models/train.py --device cpu --save_dir ./checkpoints

可支持配置的参数：

* save_dir：可选，保存训练模型的目录；默认保存在当前目录checkpoints文件夹下。
* max_seq_length：可选，ERNIE/BERT模型使用的最大序列长度，最大不能超过512, 若出现显存不足，请适当调低这一参数；默认为128。
* batch_size：可选，批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
* learning_rate：可选，Fine-tune的最大学习率；默认为5e-5。
* weight_decay：可选，控制正则项力度的参数，用于防止过拟合，默认为0.00。
* epochs: 训练轮次，默认为5。
* warmup_proption：可选，学习率warmup策略的比例，如果0.1，则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减，默认为0.1。
* init_from_ckpt：可选，模型参数路径，热启动模型训练；默认为None。
* seed：可选，随机种子，默认为1000.
* device: 选用设备进行训练，可选cpu或gpu。如使用gpu训练则参数gpus指定GPU**。
```
代码示例中使用的预训练模型是ERNIE，如果想要使用其他预训练模型如BERT，RoBERTa，Electra等，只需更换model 和 tokenizer即可。

代码示例中使用的预训练模型是 ERNIE，如果想要使用其他预训练模型如 BERT，RoBERTa，Electra 等，只需更换 model 和 tokenizer 即可。

(paddle_env) dd@dd:~/workspace/nlp_space/openvino_paddle_nlp$ python pretrained_models/train.py --device cpu
[2021-11-21 23:59:42,057] [ INFO] - Already cached /home/dd/.paddlenlp/models/ernie-1.0/ernie_v1_chn_base.pdparams
[2021-11-21 23:59:49,301] [ INFO] - Already cached /home/dd/.paddlenlp/models/ernie-1.0/vocab.txt
global step 10, epoch: 1, batch: 10/123, loss: 0.64730, accu: 0.58750, speed: 0.33 step/s
global step 20, epoch: 1, batch: 20/123, loss: 0.62281, accu: 0.62500, speed: 0.32 step/s
global step 30, epoch: 1, batch: 30/123, loss: 0.39669, accu: 0.67292, speed: 0.32 step/s
global step 40, epoch: 1, batch: 40/123, loss: 0.29887, accu: 0.69141, speed: 0.32 step/s
global step 50, epoch: 1, batch: 50/123, loss: 0.43363, accu: 0.70937, speed: 0.31 step/s
global step 60, epoch: 1, batch: 60/123, loss: 0.76214, accu: 0.71667, speed: 0.32 step/s
global step 70, epoch: 1, batch: 70/123, loss: 0.54669, accu: 0.72366, speed: 0.32 step/s
global step 80, epoch: 1, batch: 80/123, loss: 0.33911, accu: 0.73086, speed: 0.32 step/s
global step 90, epoch: 1, batch: 90/123, loss: 0.44415, accu: 0.73542, speed: 0.31 step/s
global step 100, epoch: 1, batch: 100/123, loss: 0.56388, accu: 0.73969, speed: 0.31 step/s
global step 110, epoch: 1, batch: 110/123, loss: 0.43487, accu: 0.74432, speed: 0.31 step/s
global step 120, epoch: 1, batch: 120/123, loss: 0.43901, accu: 0.74661, speed: 0.31 step/s
eval loss: 0.39934, accu: 0.81557
global step 130, epoch: 2, batch: 7/123, loss: 0.45157, accu: 0.85034, speed: 0.22 step/s
global step 140, epoch: 2, batch: 17/123, loss: 0.39118, accu: 0.84528, speed: 0.32 step/s
global step 150, epoch: 2, batch: 27/123, loss: 0.35139, accu: 0.83940, speed: 0.32 step/s
global step 160, epoch: 2, batch: 37/123, loss: 0.31550, accu: 0.83652, speed: 0.32 step/s
global step 170, epoch: 2, batch: 47/123, loss: 0.19468, accu: 0.84180, speed: 0.32 step/s
global step 180, epoch: 2, batch: 57/123, loss: 0.19839, accu: 0.84530, speed: 0.31 step/s
global step 190, epoch: 2, batch: 67/123, loss: 0.27514, accu: 0.84417, speed: 0.32 step/s
global step 200, epoch: 2, batch: 77/123, loss: 0.37271, accu: 0.84294, speed: 0.31 step/s
global step 210, epoch: 2, batch: 87/123, loss: 0.54216, accu: 0.83952, speed: 0.31 step/s
global step 220, epoch: 2, batch: 97/123, loss: 0.37325, accu: 0.83680, speed: 0.31 step/s
global step 230, epoch: 2, batch: 107/123, loss: 0.41819, accu: 0.83887, speed: 0.32 step/s
global step 240, epoch: 2, batch: 117/123, loss: 0.27075, accu: 0.83797, speed: 0.32 step/s
eval loss: 0.38315, accu: 0.80943
global step 250, epoch: 3, batch: 4/123, loss: 0.34273, accu: 0.85714, speed: 0.22 step/s
global step 260, epoch: 3, batch: 14/123, loss: 0.21802, accu: 0.88111, speed: 0.29 step/s
global step 270, epoch: 3, batch: 24/123, loss: 0.11573, accu: 0.88972, speed: 0.31 step/s
global step 280, epoch: 3, batch: 34/123, loss: 0.14647, accu: 0.89872, speed: 0.31 step/s
global step 290, epoch: 3, batch: 44/123, loss: 0.16664, accu: 0.90025, speed: 0.32 step/s
global step 300, epoch: 3, batch: 54/123, loss: 0.19257, accu: 0.90285, speed: 0.32 step/s
global step 310, epoch: 3, batch: 64/123, loss: 0.48683, accu: 0.90289, speed: 0.31 step/s
global step 320, epoch: 3, batch: 74/123, loss: 0.39716, accu: 0.90371, speed: 0.32 step/s
global step 330, epoch: 3, batch: 84/123, loss: 0.22350, accu: 0.89979, speed: 0.32 step/s
global step 340, epoch: 3, batch: 94/123, loss: 0.21223, accu: 0.89887, speed: 0.32 step/s
global step 350, epoch: 3, batch: 104/123, loss: 0.23067, accu: 0.89926, speed: 0.32 step/s
global step 360, epoch: 3, batch: 114/123, loss: 0.37244, accu: 0.89748, speed: 0.32 step/s
eval loss: 0.41436, accu: 0.81967
global step 370, epoch: 4, batch: 1/123, loss: 0.27889, accu: 0.90816, speed: 0.22 step/s
global step 380, epoch: 4, batch: 11/123, loss: 0.16075, accu: 0.92671, speed: 0.32 step/s
global step 390, epoch: 4, batch: 21/123, loss: 0.07455, accu: 0.93148, speed: 0.32 step/s
global step 400, epoch: 4, batch: 31/123, loss: 0.06919, accu: 0.93381, speed: 0.32 step/s
global step 410, epoch: 4, batch: 41/123, loss: 0.10401, accu: 0.93456, speed: 0.32 step/s
global step 420, epoch: 4, batch: 51/123, loss: 0.08641, accu: 0.93295, speed: 0.32 step/s
global step 430, epoch: 4, batch: 61/123, loss: 0.18302, accu: 0.93812, speed: 0.32 step/s
global step 440, epoch: 4, batch: 71/123, loss: 0.10652, accu: 0.93962, speed: 0.31 step/s
global step 450, epoch: 4, batch: 81/123, loss: 0.09389, accu: 0.93868, speed: 0.32 step/s
global step 460, epoch: 4, batch: 91/123, loss: 0.09252, accu: 0.94203, speed: 0.32 step/s
global step 470, epoch: 4, batch: 101/123, loss: 0.19676, accu: 0.94333, speed: 0.31 step/s
global step 480, epoch: 4, batch: 111/123, loss: 0.06313, accu: 0.94337, speed: 0.32 step/s
eval loss: 0.56647, accu: 0.80123
global step 490, epoch: 4, batch: 121/123, loss: 0.08893, accu: 0.95000, speed: 0.21 step/s
global step 500, epoch: 5, batch: 8/123, loss: 0.15692, accu: 0.96906, speed: 0.34 step/s
global step 510, epoch: 5, batch: 18/123, loss: 0.06714, accu: 0.96146, speed: 0.32 step/s
global step 520, epoch: 5, batch: 28/123, loss: 0.07108, accu: 0.96332, speed: 0.32 step/s
global step 530, epoch: 5, batch: 38/123, loss: 0.20807, accu: 0.96633, speed: 0.32 step/s
global step 540, epoch: 5, batch: 48/123, loss: 0.08361, accu: 0.96938, speed: 0.32 step/s
global step 550, epoch: 5, batch: 58/123, loss: 0.04429, accu: 0.97154, speed: 0.31 step/s
global step 560, epoch: 5, batch: 68/123, loss: 0.18210, accu: 0.97080, speed: 0.31 step/s
global step 570, epoch: 5, batch: 78/123, loss: 0.00777, accu: 0.97127, speed: 0.32 step/s
global step 580, epoch: 5, batch: 88/123, loss: 0.06833, accu: 0.97101, speed: 0.32 step/s
global step 590, epoch: 5, batch: 98/123, loss: 0.03139, accu: 0.97167, speed: 0.32 step/s
global step 600, epoch: 5, batch: 108/123, loss: 0.05358, accu: 0.97195, speed: 0.31 step/s
eval loss: 0.63819, accu: 0.80123
global step 610, epoch: 5, batch: 118/123, loss: 0.10503, accu: 0.97813, speed: 0.21 step/s
test result...
eval loss: 0.74529, accu: 0.80123

训练结束后：

├── checkpoint
│ ├── model_120
│ │ ├── model_config.json
│ │ ├── model_state.pdparams
│ │ ├── tokenizer_config.json
│ │ └── vocab.txt
│ ├── model_240
│ │ ├── model_config.json
│ │ ├── model_state.pdparams
│ │ ├── tokenizer_config.json
│ │ └── vocab.txt
│ ├── model_360
│ │ ├── model_config.json
│ │ ├── model_state.pdparams
│ │ ├── tokenizer_config.json
│ │ └── vocab.txt
│ ├── model_480
│ │ ├── model_config.json
│ │ ├── model_state.pdparams
│ │ ├── tokenizer_config.json
│ │ └── vocab.txt
│ └── model_600
│ ├── model_config.json
│ ├── model_state.pdparams
│ ├── tokenizer_config.json
│ └── vocab.txt

03 模型导出与 Paddle 部署预测

3.1 模型导出

使用动态图训练结束之后，还可以将动态图参数导出成静态图参数，具体代码见 export_model.py。静态图参数保存在 output_path 指定路径中。运行方式：

python pretrained_models/export_model.py --
params_path=./checkpoint/model_600/model_state.
pdparams --output_path=./static_graph_params

其中params_path是指动态图训练保存的参数路径，output_path 是指静态图参数导出路径。

├── static_graph_params.pdiparams
├── static_graph_params.pdiparams.info
└── static_graph_params.pdmodel

3.2 Paddle 部署预测

导出模型之后，可以用于部署，deploy/python/predict.py 文件提供了 python 部署预测示例。运行方式：

python pretrained_models/deploy/python/predict.py --
model_file=static_graph_params.
pdmodel --params_file=static_graph_params.pdiparams --device 'cpu'

04 ONNX 转换与 ONNXRuntime 部署

使用 ONNXRunTime 加载转换的 ONNX 模型，对 test.txt 中随机选取的评论进行分类。
环境准备

python -m pip install paddle2onnx onnx onnxruntime -i
https://pypi.tuna.tsinghua.edu.cn/simple

Paddle2ONNX 静态图模型导出
将 Paddle 模型的参数保存在一个单独的二进制文件中（combined）模式：

paddle2onnx --model_dir . --model_filename static_graph_params.pdmodel --
params_filename static_graph_params.pdiparams --save_file model.onnx --
opset_version 11

输出
model.onnx

ONNX 部署使用

(paddle_env) dd@dd:~/workspace/nlp_space/openvino_paddle_nlp$ python pretrained_models/deploy/python/onnxruntime_predict.py --model_file model.onnx
--device 'cpu'
[2021-11-22 01:23:05,213] [ INFO] - Already cached /home/dd/.paddlenlp/models/ernie-1.0/vocab.txt
原始输出: [array([[ 2.6874619, -2.9990964],
[-4.0758886, 3.3297772]], dtype=float32)]
softmax转换后的预测概率: [[9.9662024e-01 3.3797831e-03]
[6.0742983e-04 9.9939251e-01]]
原始输出: [array([[-3.7910347, 2.9819536]], dtype=float32)]
softmax转换后的预测概率: [[0.00114296 0.99885696]]
Data: 房间脏乱，服务态度不好！不过网络不太好，总是断线；早餐一般般 Label: 负面评论
Data: 3月住了4晚,感觉不错,比翠怡要好5月还来 Label: 正面评论
Data: 房间虽小，但很干净的！有点家的感觉，以后还会住！ Label: 正面评论
预测时间：966.909 ms

(paddle_env) dd@dd:~/workspace/nlp_space/openvino_paddle_nlp$ python pretrained_models/deploy/python/onnxruntime_predict.py --model_file model.onnx --device 'cpu'
[2021-11-22 01:23:12,093] [ INFO] - Already cached /home/dd/.paddlenlp/models/ernie-1.0/vocab.txt
原始输出: [array([[ 2.6874619, -2.9990964],
[-4.0758886, 3.3297772]], dtype=float32)]
softmax转换后的预测概率: [[9.9662024e-01 3.3797831e-03]
[6.0742983e-04 9.9939251e-01]]
原始输出: [array([[-3.7910347, 2.9819536]], dtype=float32)]
softmax转换后的预测概率: [[0.00114296 0.99885696]]
Data: 房间脏乱，服务态度不好！不过网络不太好，总是断线；早餐一般般 Label: 负面评论
Data: 3月住了4晚,感觉不错,比翠怡要好5月还来 Label: 正面评论
Data: 房间虽小，但很干净的！有点家的感觉，以后还会住！ Label: 正面评论
预测时间：280.334 ms

上述两次的时间相差较大

05 OpenVINO 部署模型

用 ONNX 模型作为中转，转换到 IR，实现 OpenVINO 部署，对 test.txt 中随机选取的评论进行分类。

(paddle_env) dd@dd:~/workspace/nlp_space/openvino_paddle_nlp$ python pretrained_models/deploy/python/openvino_predict.py --model_file model.onnx --device 'cpu'
[2021-11-22 01:32:25,707] [ INFO] - Already cached /home/dd/.paddlenlp/models/ernie-1.0/vocab.txt
原始输出: {'linear_147.tmp_1': array([[ 2.6874619, -2.999095 ],
[-4.075888 , 3.329778 ]], dtype=float32)}
概率输出: [[9.9662024e-01 3.3797878e-03]
[6.0742983e-04 9.9939251e-01]]
原始输出: {'linear_147.tmp_1': array([[-3.791035 , 2.9819534]], dtype=float32)}
概率输出: [[0.00114296 0.99885696]]
Data: 房间脏乱，服务态度不好！不过网络不太好，总是断线；早餐一般般 Label: 负面评论
Data: 3月住了4晚,感觉不错,比翠怡要好5月还来 Label: 正面评论
Data: 房间虽小，但很干净的！有点家的感觉，以后还会住！ Label: 正面评论
预测时间：194.682 ms

(paddle_env) dd@dd:~/workspace/nlp_space/openvino_paddle_nlp$ python pretrained_models/deploy/python/openvino_predict.py --model_file model.onnx --device 'cpu'
[2021-11-22 01:32:33,518] [ INFO] - Already cached /home/dd/.paddlenlp/models/ernie-1.0/vocab.txt
原始输出: {'linear_147.tmp_1': array([[ 2.6874619, -2.999095 ],
[-4.075888 , 3.329778 ]], dtype=float32)}
概率输出: [[9.9662024e-01 3.3797878e-03]
[6.0742983e-04 9.9939251e-01]]
原始输出: {'linear_147.tmp_1': array([[-3.791035 , 2.9819534]], dtype=float32)}
概率输出: [[0.00114296 0.99885696]]
Data: 房间脏乱，服务态度不好！不过网络不太好，总是断线；早餐一般般 Label: 负面评论
Data: 3月住了4晚,感觉不错,比翠怡要好5月还来 Label: 正面评论
Data: 房间虽小，但很干净的！有点家的感觉，以后还会住！ Label: 正面评论
预测时间：581.982 ms

速度方面：虽然测试的数据量较少，但是OpenVINO和 OnnxRuntime 推理时间还是少于 Paddle Inference 的，多测试几次，会发现 OpenVINO 和 OXNNX 的预测时间不太稳定，有待下一步研究。

上述模型由于没采用 GPU 训练，因此训练数据不够，在测试集上只到80%左右。训练不够充分。

06 总结

一开始使用4类情感的文本分析数据在 ’ernie‘上进行微调，初始时 acc 在30%左右，需要迭代的更多 epochs，后续会研究下多情感的分析。
环境，因为是使用自己的笔记本，GPU没配起来，做实验就慢了很多，只能在小数据集上完成整个
过程
本次在 win11 的 WSL2 中完成的，环境搭建，在搭环境的过程和使用 OpenVINO 的过程中，
OpenVINO 的官网提供的非常好的Demo学习。后续会针对 OpenVINO 与 kaldi 的语音识别的模型部署进行继续研究。

本文转自【OpenVINO 中文社区】

0个评论

提交