坦白讲如果没有拥有数据思维,那即使拥有了很多数据,而且不管这些数据有多大,都不能说你在做大数据,所以大数据的核心其实是要拥有数据思维。”
一、数据思维——利用数据解决问题
什么是数据思维?数据思维的最核心是利用数据解决问题,利用数据解决问题的最核心是要深度了解需求,了解真正要解决什么样的问题,解决问题背后的真实目的是什么。在解决问题的过程中我们使用数据的方法,通常可以叫量化的方法。
所谓量化的方法,就是解决问题的过程要可衡量、可评估,有非常明确的定义
通过量化的数据解决问题,就是我们所谓的数据思维。在金融行业的实际案例来看:我们先思考一下,金融行业里银行、保险或证券公司经营的目的是什么?这是核心,考虑大数据也好,考虑数据思维也好,首先是要分析出所做事情的真正目的是什么?然后再进行量化分析。
实际上,金融行业企业最核心的是风险控制问题。银行获取存款的过程做一个最基本的存款操作就行了,是没有任何风险的。但当银行想盈利的时候,存款业务因为要支付储户利息成为非赚钱手段,想赚钱要通过贷款实现。银行把收过来的存款贷出去,两者之间的利差是银行的利润。
所以对于银行来讲,真正的核心诉求是如何在贷款过程中降低风险,尽量减少贷款个体或企业不还款的风险。这个风险越低,银行的利润空间就越大。因为整个贷款利差并不高,可能只有几个点,最多也不会超过十个点,即便是现在的小贷,也不会超过十个点。但一般一个贷款人还不了款的话,银行利润就会被大打折扣。现在整个市场上的风险率或坏账率有时会高达百分之三、百分之五,即便比较低的时候可能在很多银行有百分之一点几、百分之二点几。所以如何有效的控制这个风险对银行很重要。
所以对于银行来讲,他需要了解贷款人的还款能力。而且还款能力从他贷款到还款过程中也在时时发生变化,有消费者在贷款瞬间是有还款能力的,但在还款之前的整个周期里他经历的状况其实在不断发生变化。企业更是这样子,每个企业在经营过程中的状态是瞬息万变的。所以对于银行来讲了解消费者或企业的整个经营状况、资产状况、风险状况是非常关键的,中间的每个环节都可能造成贷款人最后无法还款,银行需要评估这里面的每一个因素与最后能否发签证的关系。
在传统金融行业里,很多银行只会考虑发贷款或者发信用卡之前的风控分析。很多银行到人民银行拿到一些个人消费者征信报告,这些数据包含了消费者以前其他的贷款、每个月工资情况等等这样一些最基本的信息。银行根据信息打分,然后这个分数之上的消费者可以获批贷款,在分数之下的就不会获批。这整个过程是成本较高的,因为任何一个报告都是要花钱去买。第二点是很多情况下需要面访,现场进行风险考察,然而这个考察过程中数据的真实性和有效性也是值得商榷的。
比如我们的一个客户-某某银行。向他们贷款的很多客户是农民,他们在种植或者养殖生产中需要资金支持,比如用来投资买种子或者购买种植养殖的基本设施。但是当面谈的时候他或许假装家里有一头牛,我将来可以卖掉这个牛还款,但这个牛有可能是从他的邻居家拉过来的。所以真正证明贷款申请人信用的数据真实性和有效性是解决这个问题过程中非常核心的问题。数据是否是真实有效的、数据是否跟最后结果有关系,这就是我们在数据思维决策过程中需要考虑的两个非常核心的问题。
“ 其实我是有一点近视眼的,我看很远处的一个广告牌,上面的文字有时我看得不是很清楚,但我的大脑是能够猜出来文字大概是讲什么的。本质上是因为在我的大脑是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。"
二、数据治理——还原推测到“高分辨率”
我接下来就给大家讲讲处理数据里面最核心的两个工作。第一个工作我们称之为数据清洗或是叫数据治理。
很多公司拥有大量的数据,但如果这些数据没有办法整合到一起,没办法清洗、在线化,没办法让使用者方便取用,那即便数据量再大也不能说这个公司有大数据。所以清洗和整合数据是非常重要的。通常在技术领域有一个概念叫“ETL”,ETL其实只把数据抽取到一起,进行数据格式统一化,最后再加载到一个可应用的平台上,这是整个数据治理行业里面最核心的几个环节。但在大数据概念出来之后,跟传统ETL有一个挺大的区别在于数据格式跟以前相比更加复杂。通常我们所谓的大数据、我们处理的数据除了包括以前的结构化数据,还包括新的非结构化数据。
非结构化数据是指数据里每一条记录之间的格式并不统一,甚至很多数据都是脏数据。大家可以想象银行的很多数据,比如消费者注册信息:姓名、年龄、手机号、身份证号,包括月收入可能都要求填,但很多情况下大家填信息的时候格式都不一定统一,比如说手机号可能有一些人填没有加“86”,再比如说身份证号有人填的是18位的,有人填的是15位的,这些信息是否是统一格式对于未来的数据应用非常关键。
今天很多互联网公司都是拥有大量数据的,中国最大的三巨头BAT都拥有海量消费者网名数据。百度云每天一个人搜索数据,阿里拥有每个人每天购物的浏览数据和下单采购数据,腾讯就不用说了,他有我们每个人的聊天记录、通信记录。他们拥有的数据都是非常可怕的。这些数据有一个很主要的工作在清洗过程中,就是需要把数据的唯一用户标识进行统一,因为很多的数据是散落在不同的子平台上的,在不同的平台上的可能会有不同的唯一标识,在有的情况下一个网名是处于登陆状态,而有些情况下是处于没有登录的情况。如何把不同的数据都打到同一个标签上是很多公司正在做的事情。
而我们真正记录下来数据,记录得越全面,对还原真实世界就还原得越好。但是很多情况下,如果真正的技术、好的算法或者数据清晰的整合能力很强的话,可以把一个低分辨率的信息,还原成原来很高分别率,很真实的情况。就像我们的人眼其实就很厉害,因为其实我是有一点近视眼的,但是我看很远处的一个广告牌,上面的文字有的时候我看得不是很清楚,但是我的大脑是能够猜出来到底这个文字是讲什么的,本质上是因为在我的大脑里面是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。
三、数据关联——同一趟火车到互为同事的推断
前面我给大家介绍的是数据的清洗整合。实际上大数据技术除了信息整合之外,另外一个很核心的技术是数据的关联。
前面我也提到了很多大数据客户不管是政府还是企业都有很多不同的数据,因为数据本身是需要关联起来,在数据真正联系到一起之后,在数据内部我们可以发现很多数据和数据之间的关系,而这些关系真正的挖掘好了之后,它的实战价值是非常大的,可以起到1+1远远大于2的作用。
在美国有一家非常有名的大数据企业叫“Palantir”,这家公司现在虽然还没上市,但市值已达两百亿美金,是全球没有上市的企业里市值排名前五的企业。这家企业之所以厉害是因为其在利用数据关联这种能力去给美国情报机构,包括CIA、美国国土安全局提供数据挖掘服务,帮助他们进行反恐和非常重大的刑事案件追查,数据的关联在很多情况下能够帮助政府很好的发现犯罪份子。
总结
大数据的核心有两个:第一,要知道数据是如何获取的。第二,要拥有“数据思维”,拥有数据思维最核心是我们要考虑到一个事物从起因到结果的发展过程,所有的数据其实是记录这个过程中的证据。
当一个机构在给一个消费者、一个个人提供服务的过程中,这些数据很多情况下就被存储下来了。存储下来的数据可以通过大数据技术来还原最开始的真相,通过统计学的模型可以把缺失的信息补全,用来预测未来的信息,这就是大数据的本质。
文章评论
0条