Bloom过滤器

它要解决什么问题

假设我们有一个1000W行的手机号黑名单数据库，现在有一个需求，给一批用户发送短信推送，要求用户手机号不在黑名单数据库里面。

如何判断A在集合B中？

有哪些数据结构可以表示一个set？

上面的数据结构大都要求把实际数据存储到数据节点中，有些不够快、有些太大了

Bloom过滤器粉墨登场

核心原理是：

⼏个hash函数, 计算出n个结果, 并在ﬁlter数据中将对应的位置为1

查询是否在结果集中, 要⽤同样的hash算法, ⽐对是否所有结果位都为1

看到下面这些，你就可以放心大胆的用啦

不支持删除操作，如要支持，需要使用counting bloomﬁlter ﬁlters的变种

下面是一个神奇的公式

合理的k值