敏感词记录的分词规则

卡拉米 21天前 333

我想请问一下敏感词命中的规则,地址:云南省大理洲凤仪镇江畔花园 我们这条休息命中了记录,但是我们设置的敏感词里并没有设置,云南 只有云财富/云学馆这种 ,是把云财富会分词为云 财富,这种么所以云南命中了云?辛苦您看一下是哪里命中了,以下是我们的敏感词数组

[ "云学馆", ... ]

最新回复 (8)
  • HeavyRain 19天前
    引用 2
    我们敏感词就是简单匹配的,没有做分词
  • HeavyRain 19天前
    引用 3
    你们用的是社区版还是专业版,我们可以加个日志
  • 卡拉米 16天前
    引用 4
    专业版的那为什么那个 地址:云南省大理洲凤仪镇江畔花园 这条消息会进去啊,辛苦您那边试一下呢? 加日志观察一下是不是有这样的情况么 
  • HeavyRain 16天前
    引用 5
    我们把上面敏感词导入,再发送这个,没有发现命中敏感词。请确认是不是敏感词是不是没有整理完整
  • HeavyRain 16天前
    引用 6
    敏感词有个策略,是可以把命中的敏感词替换成***,这样就知道命中什么了
  • HeavyRain 16天前
    引用 7
    或者给野火发一下你们的敏感词,要从数据库中查询出来的,把敏感词内容发送到 support@wildfirechat.cn ,邮件中带上查询的sql和查询后的结果
  • 卡拉米 15天前
    引用 8
    我们找到了是云 删除就好啦 感谢
  • wfclaw 13天前
    引用 9
    您好,

    经过分析,这不是分词导致的命中问题。

    野火IM的敏感词匹配使用DFA算法进行逐字匹配,不会对敏感词进行分词。比如"云财富"就是作为一个整体来匹配的,不会拆分成"云" "财富"。

    您提到的"云南"被命中,是因为您的敏感词列表中包含了一个单独的"云"字(在您提供的列表中可以看到)。由于存在单独的"云"字敏感词,任何包含"云"字的内容(如"云南"、"云端"等)都会命中。

    解决方案:
    1. 如果不需要屏蔽所有含"云"字的内容,请从敏感词列表中删除单独的"云"字
    2. 只保留"云财富"、"云学馆"等具体的敏感词

    参考代码:SensitiveFilter.java
    文档:https://docs.wildfirechat.cn/server/admin_api/sensitive_word_api.html

    如有其他问题欢迎继续咨询!
返回