ssword
简介
敏感字符过滤
- 两种敏感词过滤方式:
- Tire树
- 正则(regex_pcre2)
组件接口
Collection.gs
一组敏感词黑白名单集合
- 基本规则优先级:
-
- 匹配正则白名单的不是敏感词
-
- 匹配正则黑名单的是敏感词
-
- 匹配词典树黑名单并且匹配部分不在词典树白名单的是敏感词
-
函数原型 | 函数作用 |
---|---|
bool has_any_match(string content) | 是不是敏感词 |
string filter(string content) | 过滤敏感词 |
RegexBlacklist.gs
正则表达式黑名单
函数原型 | 函数作用 |
---|---|
bool is_regex_blacklist() | 是否为正则黑名单(敏感词)库 |
bool reset() | 重置正 则黑名单(敏感词)库 |
bool has_any_match(string content) | 有没有敏感字符 |
string filter(string content) | 过滤敏感字符 |
RegexWhitelist.gs
正则表达式白名单
函数原型 | 函数作用 |
---|---|
bool is_regex_whitelist() | 是否为正则白名单库 |
bool reset() | 重置正则白名单库 |
bool has_any_match(string content) | 有没有敏感字符 |
ssword.gs
函数原型 | 函数作用 |
---|---|
bool setup_from_config(map cfg) | 通过配置进行初始化特殊字符 |
void setup(array special_chars) | 设置特殊字符 |
bool is_special_char(string c) | 是不是一个特殊字符 |
bool contain_special_char(string text) | 是不是包含特殊字符 |
string trim_special_char(string text) | 裁剪掉文字中的特殊字符 |
object new_trie_blacklist(array words, array nonsences) | 新建一个词典树黑名单 |
object new_trie_whitelist(array words) | 新建一个词典树白名单 |
object new_regex_blacklist(array patterns) | 新建一个正则黑名单 |
object new_regex_whitelist(array patterns) | 新建一个正则白名单 |
object new_collection(map para) | 新建一个词库集合 |
string T(string str) | 将控制台输入的文本进行编码转换(GBK->UTF8) |
TrieBlacklist.gs
敏感字符过滤(trie树过滤)
函数原型 | 函数作用 |
---|---|
bool is_trie_blacklist() | 是否为dfa黑名单(敏感词)词库 |
bool reset() | 重置dfa黑名单(敏感词)词库 |
bool has_any_match(string content) | 有没有敏感字符 |
string filter(string content, string placeholder = "*") | 过滤敏感字符 |
TrieWhitelist.gs
敏感字符白名单
函数原型 | 函数作用 |
---|---|
bool is_trie_whitelist() | 是否为dfa白名单词库 |
bool reset() | 重置正则白名单词库 |
Util.gs
一些工具函数
函数原型 | 函数作用 |
---|---|
array read_words_from_config(map m) | 读取字符列表 |