该敏感词库从70W多词组中整理出来的,外加18W多组常用分词、2W多字的拼音扩展、14066个左右拆字、4000组繁简转化,4850组同音同形字,1160组异形字……
免费领取方法: 加QQ1665690808,发送申请人照片,要求手执【免费领取敏感词库】纸条,并且站在带公司Logo的墙前(或校门口)。
如不想拍照,可花300元赞助【敏感词库】项目,并赠送【程序数据包】,加入【敏感词库交流群】获取更新提示。
为什么会有免费领取【敏感词库】?因为一套敏感词库无法满足各种场景,而每个公司使用的场景又不同。如你妈,在熟人环境下是正常词,在商品评价绝对是脏词,在游戏中绝大数为脏词。
敏感词库(300元): https://mbd.pub/o/bread/YpaXmZdv
源码仅供购买者使用,禁止二次分发、传播,请您尊重我们的劳动成果。可供公司内部使用。
ToolGood.Words算法过滤敏感词优化原理(30元): https://mbd.pub/o/bread/mbd-YZ2Yk5hy
正则转DFA算法(30元): https://mbd.pub/o/bread/Y5ubl5w=
ToolGood.TextFilter开源代码优化详解(300元): https://mbd.pub/o/bread/mbd-YpWXlp9u
C#版图片鉴黄源码(50元): https://mbd.pub/o/bread/mbd-YZ2Yk5hw
联系QQ:1665690808
站在巨人的肩膀上看得远。 ToolGood.Words 是一款高性能敏感词检测组件,在48k敏感词库上的过滤速度超过3亿字符每秒。
《ToolGood 内容审核系统》由多组高性能算法组成:
(1)在ToolGood.Words 高性能基础上再次改进,十几处修改,性能更高;
(2)优化繁体与简体、全角半角、英文大小写匹配性能;
(3)改良算法,在不减性能情况下,压缩字典量,减少内存使用量;
(4)加入多组敏感词检测,减少误杀;
(5)加入NLP分词功能减少误杀概率,NLP算法使用动态规划,功能增加性能不降多少;
(6)改良联系方式匹配,减少跳词的误测;