资讯中心

数据结构及其反诈骗建筑技术挑战

  

反欺诈系统架构的一半的工作可能是在一个强大的和灵活的数据基础设施。如果没有数据,规则和模型将无法播放。很多时候,你需要从不同的角度和距离看同样的数据,还需要能够继续以低成本获得新数据;你会发现自己有大量的迟早的数据,所以具有可扩展性和强大的基础设施来管理这些数据是核心。
数据、规则和模式,这是反欺诈软件系统的基本构建块。我将介绍一系列的文章,这些基本模块。
关键:适当的数据格式正确的在正确的时间
一半的工作在反欺诈系统体系结构可能是一个强大的和灵活的数据基础设施。如果没有数据,规则和模型将无法播放。很多时候,你需要从不同的角度和距离看同样的数据,还需要能够继续以低成本获得新数据;你会发现自己有大量的迟早的数据,所以具有可扩展性和强大的基础设施来管理这些数据是核心。
这可能是太简单了。让我们在你处理的数据的一些常见类型看:
聚集
例子:顾客的终身支出(总),纠纷的数量(数量)的,所有地址使用客户(聚集和重复数据删除),和国家的最新的采购周期(分钟最大)。
目的:迅速从不同的角度理解一个特定的项目或实体,你可以了解整体状况和相应的交易。
技术挑战:
实时采集,或预聚合吗?“实时”
优点:最新的数据可以获得更细的粒度。
“实时”的缺点是运行成本是非常大的,特别是当数据量大。
预聚合的优点是昂贵的数据处理的异步处理机制,决定数据的检索速度,成本低;决策服务完全取决于数据的汇总及特殊的欺诈,而不是原来的交易数据源。
预聚合的缺点:由于异步性,汇总数据可能是过时的。
一般,数据是在决策的时间阅读,但不带变化(添加、更新和删除)的活性的影响数据。例如,您可能需要评估用户返回到签出决定的次数。返回过程不同于正常结帐,并有不同的生命周期。因此,没有意义的金额收集在结帐。此外,一个正常的用户帐户的收益应该比账户数量低得多,所以算回报金额是浪费资源,浪费资源。
一般来说,预聚集比实时聚集更多的可扩展性。
增量聚集尽可能
一简单的例子,同样是购买的最大数量。一般来说,您将保存用户输入的最大数目,如果新的数字大于最大数之前,您将被一个新的数字替换;否则,您将忽略。当你需要收集用户检索的所有交易,并找出最大数是没有多大意义。
更复杂的例子是纠纷的数。当你收到一个新的纠纷,你可能只是想所有纠纷为的最后一个号码而不是查询。当然,这需要一个触发系统(可能是一个消息分配框架)保证分布,只有一次。
λ建筑
想把它们全部?使用架构?通过聚集一批层(通常是在“慢”更可扩展的大数据基础设施层的旧数据(执行)和最新的数据实时增量聚集的速度,在或火花像基于流处理设备流的实现,可以同时获得)的可扩展性和新鲜。

例子:在过去的秒,从地址登录数;从用户添加信用卡“数分钟;新注册的小时内从过去同数。
目的:骗子经常使用暴力企业恶意活动的攻击力。例如,蛮力登录攻击的症状是相同的地址在很短的时间内试图登录。骗子仍然在很短的时间内,通过商家的信用卡处理的嫌疑,被盗的信用卡测试的数量。
差异和积累的速度?测量速度通常在相对较短的时间内活动(如秒、数分钟或数小时)发生得更快,和更长的时间通常聚集。
技术挑战:
由于其潜伏期短,可用延迟是主要的方面