1、 引言
因行业处于特殊位置,经常会出现账号被盗、资金被刷、异常登录、交易风险产生,以至于很多平台面临被互联网”灰产”从业者盯上,刷平台漏洞、刷跨平台,故此,做好平台风控势必是为产品保驾护航;免受不可预估的经济和财产损失而绰手不及;特别是我们所处的行业与安全、金钱打交道的菠菜行业,风险控制更加重要,资金安全的本质就是风控。因此,可以看到,各种菠菜企业都会有大量的风控人员、运营人员,通过各种调查、规则建立、人工审核来保障业务顺利运行。像互联网金融行业支付、P2P、供应链金融等互联网金融,大部分交易都在线上进行,因此比我们这个行业,交易各个方面的风险控制更加信息化。并且,大数据的兴起,为风险控制提供更好的技术手段;本身风控系统的建立就是依赖于数据的积累做规则与分析。
业务安全从流程设计维度可划分为账户体系安全、交易体系安全、支付体系安全、用户信息存储安全、数据体系安全、风控管理。对于我们这个行业来说,其实很多都是在前端可看,并且也做到了初步的风控规则,例如登录账户、取款。
业务安全模型
2、 风控的设计范围
1、风控系统需要考虑的问题
1.1、 性能
首先,我们要做的就是考虑系统性能; 因为性能的好坏直接影响产品的使用频率,也是考验一个平台的重要指标,再优秀的平台没有一个良好的性能,也是不完善的;需要在特殊场合采用最合理的架构模式设计。
性能指标:
1、 登录流畅,响应时间短;
2、 可根据时间随意查询数据,吞吐量大;
3、 资源使用率低(cpu占用率、内存使用率、磁盘I/O、网络I/O)
4、 每秒点击数(客户端每秒向服务器提交的请求数量,如果客户端发出的请求数量越多,与之相对的平均吞吐量也应该越大;)
5、 并发用户数( 客户端的同一批用户同时执行一个操作的数量。)
1.2、 扩展性
多数的平台系统是基于基础平台分析而来,这时候需要在现有的系统上做兼容,不能破坏原有系统的流程,也要兼顾老系统的业务支撑,在现有系统上做风控调整预估;才能更加合理安排,需要系统在短时间内对于业务逻辑的扩展进行较好的支持,是系统建设中的一个挑战。
主要表现为:基础设施不需要经常变更,应用之间较少依赖或耦合,可以对需求变更快速响应。它对扩展开放,对修改关闭。架构设计会考虑到未来功能的可扩展性,所以当系统增加新功能时,不需要对现有系统的结构和代码进行修改。
1.3、 大数据
特指在分析过程中需要用到海量的数据用户辅助分析,如何提取海量数据中有价值的信息,松耦合地嵌入到实时分析过程中,是系统建设中的一个挑战,这个时候我们需要综合考虑在实际业务中的数据兼容模式。
数据来源:
1、 网站流量
1、 访问量
2、 日均访问量
3、 最高访问量
4、 PV%
5、 独立IP
6、 独立访客
7、 UV%
8、 重复访客
9、 重复访客百分比
10、 重复访问数量
11、 人均访问页面数
2、 用户行为
1、访问深度
2、新访客
3、同时在线人数
4、最高小时在线人数
5、访问入口
6、访问出口
7、访问最多的页面
8、退出最多的页面
9、首页访问数
10、站点覆盖
11、访客所用搜索引擎
12、访客所用关键字
13、最频繁的关键字
14、访客停留时间
15、访客平均停留时间
三、数据来源
1、 登录
2、 注册
3、 充值
4、 取款
5、 投注
6、 活动
7、 下载
8、 团队报表
1.4、 防欺诈手段
互联网是一把双刃剑。进入互联网时代以来,技术的飞速发展不断的提升效率降低成本。遗憾的是,在提升服务的同时,互联网也大幅的降低了欺诈成本,提高了欺诈的效率。更加不幸的是,由于互联网服务的高度自动化,很多在过去需要有人工介入的环节都由系统自动化进行操作。缺少的人的主观判断,使得欺诈更加容易发生。
看似公开透明的网络空间本质上如同一个群狼环伺的暗黑深林,一旦互联网平台出现了反欺诈漏洞或者出现了一种新的欺诈形式,各种黑产团伙便会群攻而上。在互联网的加持之下,这种攻击造成的损失规模巨大,轻则导致互联网平台伤筋动骨,重则直接倒闭。而由于法律法规和监管的滞后性,互联网欺诈受到的威慑和惩戒又往往不足,导致当前互联网领域的反欺诈压力不断增大。
在平台内部需要有一套完善的防欺诈手段系统维护机制,保证用户的资金不受损失,在这个基础上我们应该对现有的互联网环境做风险预测,给予一定的建议,发现问题技术纠正用户选择和引导。只有了解了欺诈手段,从根源上才能做好防范;常见的互联网欺诈形态:
薅羊毛:利用互联网平台业务逻辑、技术上的漏洞,冒充正常用户套取返现、积分、奖励等;
骗贷:利用虚假资料骗取原本无法取得的互联网平台授信额度;
刷单:通过与卖方勾结,通过人工或利用技术手段,制造虚假交易量或访问量;
刷好评:通过人工或技术手段,在互联网平台上进行留言,制造虚假的好评率;
……
1.4.1防欺诈手段及技术:
1.4.1.1防欺诈手段
1、 资金需审核
2、 多种验证方式(绑定手机、邮箱、微信、QQ、GA密码等)
3、 建立信誉库
信誉库即传统的黑、白名单,通过内部积累、外部获取的各种人员、手机号、设备、IP等黑、白名单对欺诈行为进行判断,是一种实施简单、成本较低的反欺诈手段。与此同时,信誉库也存在着准确度低、覆盖面窄的缺陷和不足,仅可作为互联网反欺诈的第一道过滤网使用。
4、 建立专家规则:
专家规则是目前较为成熟的反欺诈方法和手段,主要是基于反欺诈策略人员的经验和教训,制定反欺诈规则。当用户的操作请求和操作行为触发了反欺诈规则时,即被认定为欺诈行为并启动拦截,常见的如各种聚集度规则等。
专家规则的优势在于实现较为简单、可结实性强,但缺陷在于专家规则存在有严重的滞后性,对于新出现的欺诈手段和方法无法及时的进行应对,往往需要着付出大量损失后才能总结教训提取新的规则。此外,由于人脑的限制,专家规则只能使用一个或几个维度的标量进行计算和识别,往往存在有较大的误报率。
专家规则严重依赖于策略人员的经验和教训,不同水平的策略人员制定的专家规则效果也会纯在较大区别,主要可以作为互联网反欺诈的应急响应手段和兜底防线。
5、 机器学习:
机器学习反欺诈是近年来比较火的一种反欺诈方法,目前也取得了一定的成果,最为常见的如芝麻信用分等。机器学习反欺诈是通过机器学习方法,将用户各个维度的数据和特征,与欺诈建立起关联关系,并给出欺诈的概率。
常见的机器学习反欺诈包括有监督和无监督两种:
A、基于有监督机器学习的反欺诈:
有监督机器学习反欺诈是目前机器学习反欺诈中较为成熟的一种方法。其基本思路是通过对历史上出现的欺诈行为进行标记,利用逻辑回归等机器学习算法,在海量的用户行为特征、标签中进行分类,发现欺诈行为所共有的用户行为特征,并通过分值、概率等方式予以输出。
由于互联网欺诈行为的多样性,很难百分百的将欺诈行为与正常行为完全进行区分,因此有监督机器学习反欺诈等最大难点在于如何准确获取大量欺诈行为的标记。
1.4.1.2技术
互联网反欺诈常用的技术主要包括数据采集、特征工程、决策引擎、数据分析等几个类别:
1、数据采集技术
数据采集技术主要是应用于从客户端或网络获取客户相关数据的技术方法。值得强调的是,数据采集技术的使用,应当严格遵循法律法规和监管要求,在获取用户授权的情况下对用户数据进行采集。
2、设备指纹
设备指纹是目前在互联网领域被广泛使用的一种技术手段,其在反欺诈体系中的作用也从最早的设备唯一标示,变为了客户端数据采集器。
设备指纹服务目前市场上有大量的服务提供商,评价一个设备指纹服务的优劣应当综合考虑覆盖度、唯一性、全面性等几个方面。
3、网络爬虫
网络爬虫技术即可以用于用户运营商数据、信用卡数据、网络交易数据等各类数据等的爬取,也可以应用于司法老赖名单、网络核查数据的爬取。
4、特征工程技术
特征工程技术是指可以从原始数据中进行数据挖掘的各类技术。常见的特征工程技术如生物识别、活体检测、文本语义分析、知识图谱等。
5、生物识别
生物识别,如声音识别、人脸识别等,是指对用户特定生物特征进行检测和识别一种技术手段,通过比对用户的生物特征信息,判断用户身份,主要用于用户身份的核实等场景,防止出现用户帐户被盗用的情况。
6、活体检测
活体检测技术主要通过要求用户做特定动作或朗读特定内容,对用户是活人还是机器进行判断和检测,是防范欺诈团伙批量攻击的一种有效手段。
7、文本语义分析
文本语义分析主要用于对文本类数据的解析和挖掘,从用户评论等文本内容中提取用户特征。
8、知识图谱
知识图谱是利用图数据库,从特定维度对不同用户和不同操作行为之间进行关联和计算,从而发现不同用户和不同操作之间的关联关系,可以用于团伙特征检测等场景。
9、数据分析技术
随着互联网反欺诈方法等不断演进,数据分析技术也成为反欺诈能力构建的一个核心能力。海量数据和特征的处理也对数据分析技术提出了更高的要求。常见的数据分析技术包括实时分析(如Storm)和离线分析(如Hadoop)两类,具体介绍可以参见大数据相关技术。
10、决策引擎
反欺诈决策引擎是互联网反欺诈体系的大脑和核心。一个功能强大的决策引擎,可以将信誉库、专家规则和反欺诈模型等各类反欺诈方法有效的整合,并为反欺诈人员提供一个操作高效、功能丰富的人机交互界面,大幅降低反欺诈运营成本和响应速度。
对于决策引擎好坏的判断,应当从引擎处理能力、响应速度、UI界面等多个维度进行综合判断。
反欺诈技术能力犹如锅碗瓢盆灶,反欺诈技术能力的高低,决定了互联网反欺诈能力的高度。与线下反欺诈不同,互联网反欺诈是攻守双方在技术上的对抗。特别是在欺诈团伙已经开始产业化,并且广泛使用大数据、人工智能等前沿技术的时候,反欺诈技术能力直接影响着互联网反欺诈效果的好坏。
1.4.1.3数据
数据是互联网反欺诈能力的基础。互联网反欺诈体系的建设,对于数据的广度和深度都提出了非常高的要求。业内目前常用的数据从类别上可以分为以下几类:
1、设备类
设备类数据主要指用户客户端(如手机、平板电脑、笔记本、PC等 )等各类参数,主要通过页面、APP内嵌入各类sdk、js脚本等方式进行采集和获取。
2、环境类
环境类数据是指用户发起操作请求时所处环境的相关数据,可以分为虚拟环境和物理环境两大类。
虚拟环境数据,主要指用户所的IP、WiFi等网络环境相关数据。
物理环境数据,主要指用户的手机定位、基站位置等相关数据。
3、行为类
行为类数据是指用户在网页或APP上进行各种操作时的各类数据,如用户页面停留时长、文本输入时长、键盘敲击频次等。
4、第三方数据
第三方数据指通过从公开途径或第三方数据服务商处获取的各类数据,包括但不限于用户的运营商数据、电商消费数据、银行数据、司法数据等各类数据。
反欺诈是一个跨安全、风控、数据、研发、内控等多学科的一个新兴领域。正如本文开头所诉,反欺诈作为一个职能,在互联网、金融、传统零售等各行各业广泛的存在,但却没有一套完整的理论框架和方法论。
2、风控系统的措施
1.5、 风险等级
等级的划分根据业务风险来划分,安全始终是我们这个行业的重点;从用户的心理可以看出,账户的安全、资金的安全始终是用户的关注点;按等级划分:低、中、高;常见的风险如下:
1、 交易安全
2、 支付安全
3、 登录安全
风险分析——从业务层面去解析我们的风险,主要来源如下:
1、 订单日志
2、 支付日志
3、 取款日志
1.6、 根据等级制定策略
不建议加强图形验证码复杂程序方式,因为在专业羊毛党的角度看,这只不过是1分钱还是两分钱的低微成本区别,而且从用户体验角度看;严重影响用户体验。
运营策略上阻绝刷机、刷奖、刷活动行为,可以在活动规则中增加诸如”针对非法批量参与刷机、刷奖、刷活动的用户行为有权拒绝发奖”的前置文案;
设置异常触发监控,当用户通过非常规渠道(如直接刷接口、调用接口)参与自动ban掉或列入重点监控名单,定期集中处理。
收集非法IP库(段)和有过不良记录的机器码,针对这些IP段直接ban掉,使用这些机器码的账号直接封号或列入监控。
根据系统特定条件进行搜索,风险的分析有赖于对用户行为数据的收集与
4、 业务风控
3.1、拿到足够的数据
1、用户更让人中心数据
2、用户历史日志、平台交易数据
3.2、做足够灵活的分析平台去分析风险
3.3、产出风险事件进行阻拦风险
3.4、量化风险拦截的价值和不断分析案例和策略优化
4、 现阶段需要解决的问题
4.1、定义高危风控事件
通过系统级的定义,需要区分出来那些是属于高危风控事件,注册、登录、转账、链接开户等,需要对这些事件做实时的监控加强风险防范。
对于什么样的事件会列入高风险事件,需要通过一些列的统计范畴来区分,以那些维度出现的数据作为基准来权衡,出现了恶意的风险后,对于善后的风险我们能做什么,能给我们带来多少的问题,能解决现阶段的什么问题。自动化以后,还需要人工干预规则加入,这样可以避免有做不尽职责的地方,能够及早发现问题,对于一些灵活的数据多次做重复重新组织规则,增加对风控引擎的算法。支持历史数据的回溯,能够发现以前的一些风险,找到有参照的数据。做基础的数据对比,防范于未然。
风险的口径把握:登录频率、登录次数、交易次数、关闭订单次数、时间频率出现高的、单用户操作习惯等,最近统计等,对一系列的数据做重组排序。
解决内审介入前已经有了一套成型的应用体系,不用为了准备复杂的资料和文档而烦恼,很快得解决了历史数据的风险把控问题。
5、风控平台的几个重要模块
个人中心数据:个人数据绝对了企业的生存,更应该加强风险防范和评估。
用户历史日志分析:记录用户的实际交易操作行为。
平台交易数据:对于用户的交易来说,记录每一笔资金的灵活变动,及时做风控调整。
个人信贷征信:解决在投资方之间的一个信誉度不同给予的特殊行为,此模块和个人征信挂钩。
社交数据:记录了用户的一些常用社交圈行为。
行为方数据:记录从各种渠道的实际发生的交易数据。
运营方行为:根据用户的实时交易数据可以有效控制一次活动中单词投入的总预估和实际的达到的效果。
对账中心:如何保证出账和入账的准确无误差,需要在风控系统中引入对账系统和第三方支付系统的授权保护,防止出现异常掉包情况,在必要的时候需要用户自行下载对账单和实际发生的交易数据做比对,找出有问题的和需求方做确认核查。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。