Sensitive-lexicon一个持续更新的中文敏感词库,旨在帮助开发者和内容审核者快速识别并过滤不当文本。

开源 作者:云秘书 2025-08-19 09:02:38 阅读:23

一个持续更新的中文敏感词库,旨在帮助开发者和内容审核者快速识别并过滤不当文本。它提供了一份广泛覆盖政治、色情、暴力等敏感领域的词汇列表,方便快速嵌入任何文本审核流程,并通过社区协作保持长期更新。

Github地址

https://github.com/konsheng/Sensitive-lexicon

功能特点

  • • 广泛覆盖:涵盖数万条词汇,覆盖主流敏感领域,能够满足多种文本审核场景的需求。
  • • 持续更新:根据社会语境的变化定期更新,保持时效性与准确性,确保词库始终符合当下环境的需求。
  • • 易于集成:采用纯文本格式,可在任意语言/框架中直接引用,方便开发者快速将其集成到自己的项目中。
  • • 社区驱动:欢迎用户通过Issue或PR参与贡献,携手打造更完整的词库,借助社区的力量不断完善内容。

目录结构

Sensitive-lexicon/ ├── ThirdPartyCompatibleFormats/        # 用于第三方格式 ├── Vocabulary/                         # 词汇库 ├── LICENSE                             # 许可证 └── README.md                           # 项目说明

  • • ThirdPartyCompatibleFormats:存放用于第三方格式的文件,方便与其他工具或平台进行适配。
  • • Vocabulary:存放词汇库文件,这是项目的核心部分,包含各种敏感词汇。
  • • LICENSE:项目的许可证文件,说明了使用该项目的法律条款。
  • • README.md:项目的说明文件,介绍了项目的基本信息、使用方法等内容。


赞助链接

Copyright © 2024 5xcloud.com All rights reserved.

蜀ICP备20006130号