雷涛,天云大数据CEO

AI很热,作为一个产业的服务者,一个实施的路径工作提供者,或者是平台提供者,我们必要把我们做的一些实践和我们的思考对整个行业看到AI是不是我们今天看到的,和对我们今天上午听到了工业4.0,以及耳熟能详的AI项目,我们能够提供什么,希望我的演讲能给大家一些启发。

其实AI和DT这两个内容会有渗透,在我们最早期做DT的时候,2011年看中国移动的第一个项目要用到自然语言去规模化的服务1.2亿用户,它是一个数据科学加上数据处理的一个综合体系的系统工程,像现在很主流的一些平台出现是因为ANP的概念出来。P更多讲是商业的数据产品,定价、流通,商业事件。我们今天看人工智能,ABC又把大数据作为第二个B,又反过来包容了,所以现在在人工智能这个领域,大家看的视野差异非常大。在媒体里边看的就是阿尔法狗,我们现在看到的是大数据应用端,就是人脸级别,自然语言处理,通过人机交互的处理达到很多漂亮的路径,很多漂亮的应用。我们看到投资的项目都是在神经网络在看什么,在推理什么东西,固化在应用端,大量基于视觉的项目越来越多。

AI帮助我们改变了很多,它每天在完成上百万次的路径计划,比如说打车的服务,像端到端的AI服务,它已经渗透在我们的生活和行业当中了。我们在一个什么大的背景之下,今天想跟大家分享的一个主题,这个概念非常多,我们在经历一个大机构的转型,从一个大的IT到DT的变化,我们IBM有一个知识体系,从数据到信息到知识,到智慧,它是一个逐级上升的过程,现在我们处理一个低级的内容呢?原来我们更多的IT是服务于业务人员,业务定义的一个具体流程之后,ERP也好,还是什么也好所有的规则都是清晰明确的。我参与的15年以数据库为导向,以这样的技术堆站完成我们对AI的构建。

原来机器的角色是机器执行我们的指令,现在它可以达到我们模糊的一个技术边界指令,我们在DT里边处理的数据越来越LOW了,这样的DT的信号和数据,我们用几个大量的V去描述它,就需要不同的T,早期是以结构化为主的含金量很高的体系,在T这个方面就是ABC了,这个T改变的是就是我们整个行业从无论是技术内部的迭代,还是它所服务的内容。

数据本身也发生了很大的变化,数据本身我在下面列了三个定义:第一个就是交易性的数据,这些数据是银行里边的核心的帐务系统,或者是某一个医院的挂号系统,因为这些流程设置的数据资源,这些数据资源存储在一个昂贵的阵列里头,这个是由应用产生的数据,由信息化系统产生的数据,它无疑诞生了六千亿美金的大公司,主导了我们整个希望信息化产业内部的三座大山。

2微信图片_20180717100457.jpg

第二个数据是我们行为交往过程当中产生的数据,而这部分的数据更多的是我们在分享、创建,我们的微博微信,我们的网页这些互联网里边产生的行为数据,这些行为数据的沉淀数据几十倍于我们前面所说的数据。我们增量的数据要处理1700多条,传统的数据处理方式是处理不了的。那么这部分的数据就进入到大数据,同时这些大量的数据也产生了谷歌公司,它也产生了一个很大的应用的环境。

我们看到传感器、可穿戴的手环、物联网大量的设备,这部分的设备更是几个数量级比以前更多的数量,我们看到个别的独角兽也在每一个局部领域,每一个垂直的行业里边开始发力,大公司我们相信应该是出现在MI这个领域,更多是以传感器和物联网为出发大规模的数据资源,它的出现的技术那么是Facebook和谷歌的技术。

最根本的问题还是在商业模式,我们更多讲的是还是在技术迭代的过程,在DT使用的时候,人工智能它在三个层级发生作用,第一个在BI优化流程,通过一个算法的分类也好,聚类也好建模也好,把更好的信息流得到更好的优化,我们做一个专家的系统,每一个专家系统都是一个决策数上的数点,今天我们开始应用一类新的方法,把原有的流程给覆盖掉,比如说我们在信用卡里头用一些算法,原来的决策数种一万棵树,这是对已有流程的优化。AI不仅仅是对已有流程的优化,更多的是两个,一部分是我怎么延展我的服务,把供应链的下游和消费者的上游两个能够通过人工智能的手段连接回来,形成一个数据的闭环,这也是我们现在在AI里边看到的常见的体量的内容。

第三个是最激动人心的阶段是对商业流程的完全替代,就是原来我们基于经验大量的商业经验被AI扁平化了,我要买一个东西,我们要通过商场的货架才能找到,它都是有精确的摆放的,以前都是规则摆放的。一个算法会改变我们所有的商业流程,商业流程被重构,这个是AI带来的改变。很多都是由算法来改变,而不是听业务来做业务指导。

一个航班的信息优化,我们是用不同的算法来完成是做预测,航班会不会晚点,还是说我要调度一下摆渡车,这是一个动态规划的问题,你会发现算法开始决定了很多商业体量,而且很多法是很精巧的,把我们没法定义的特征用数学来表达,数学是我们在一个长过程里头很难回溯里头它可以明确的表达出来,它的有这样的表达能力。这也是阿尔法狗做的。管道泄露,我们把两个口的两个差做出来,然后做一个压力差就可以了,实际上现实当中不是有很多个头,所以你要做很多的管道内容才能真正做出来。真正的问题是没有那么多的图纸,多数的管道都只有一个图表,没有CAD的图纸你怎么做,当人类做的工作都没有办法做出来的时候,你做一个基于概率统计方面我们是可以找出方法,当然这个要放在深度学习的框架里边去做。那么一个算法决定了商业时代的发展。

面向这种AI服务的时候,在DT里边我们看到了需要大量的AI的能力来替代商业流程和规则的能力了,任何人都开始需要访问AI了,但是AI是不是少数人的专利,每一个新技术的出现,其实都经历一个漫长的过程。第一部的手机出现,到今天的普及它经历了一个很长的周期,大家想象第一部电动汽车特斯拉,其实第一部装电池的汽车是在1988年。第一个算法的出现,1994年银码用谷歌的计算分子,打败了IBM40年,基于人类的语言学家,你我他这样的主谓宾的体系,用循环嵌套的方法,但是这个方没有被大量的应用在行业里头。

现在对于人才的稀缺,德勤有一个报告,AI的毕业生98%被谷歌、苹果他们给囊括了,毕业生可起薪都是30万美金,相比北美的毕业生才8万多,所以AI在人才上面是非常短缺的。而培养一个人也是需要很长的时间,有一个人说需要花数年的时间来培养一个博士。以前我们做一个大规模的语言项目处理的时候,第一期没有用现在的新的技术,NOP的方法。博士交给你的项目,所有的照会率都很完整的时候,连回收都不能做那就是逻辑包,一部分是云计算代表的核心的技术人员,工程人员,还有一类是以学数学,学物理、学控制的PHD,怎么把这两类人才,两类能力做有效的融合,其实在整个市场去扩展AI的时候都碰到了一个高昂的成本问题。

像BAT能够赋能与程序员一样,我们能不能给AI也做一个蓝翔技校把这些功能赋能。从2015年开始有大量的公司投入这个领域里头,这个图是原来Facebook的负责人,后来他去了另外一个公司,在整个AI的工程里头它是一个系统性的工程,从数据的获取到探查,特种工程这是是一个很大的工作,然后到后面的评估,上线这是一个整个的体系,这个在整个AI里边最重要的是调参。现在的AI体系的内容只是完成了一小部分,所以我们的观点是像移动互联网一样,我们需要一个新的平台机制,谷歌在2016年底的时候定义了,他们的CEO讲,我们谷歌要从移动有限转向AI有限。在这样一个15年的大的企业转型的时候,我回顾一下,当我在做业务的时候,我们做移动应用,那个时候的移动应用都是很简单的,俄罗斯方块800里头可以卖到八千,你只有原有的系统里边才能做这个应用,当时只有大公司的才能写移动的智能应用,当安卓出现以后一个大学生就可以定义这个平台。当这个平台降低之后有越来越多的行业跳到这个行业里边来,可以把业务的定义出来,这是我们面对很多的问题。我们在自然语言处理,在相对的比较聚焦的场景里头,它的算法是非常特定的,神经网络包打天下,在企业的应用环境里头,给你一个航班记录,你的需求不一样,你总的可能是回归问题,还是回归的预测的问题还是一个动态问题,这个时候用安卓的环境来做,它需要做什么呢?

我们把主流的九大类算法用新的分布式体系重构一边。三年以前提的时候大家的关注度并不多,今年上半年英特尔这些巨头也开始推X86,整个算法库包让大家重新意识到CPU来跑算法很明显,尤其是结构化数据的深度学习,在金融里头一个简单的全子网络,它的效果远远要超过其它的内容。

第一个我们怎么通过算例来提供一个算法的支撑,第二个就是数据资源的全量再现,数据我们在不断的挖掘。我们做了一个项目,现在实时的我们基于微信的营销流数据的形态越来越及时化,这些数据不可能一个星期后再做处理。我们对于一个服务行业而言,催收的数据有一百万级别,被催收的数据其实就是违约数据,这也是银行的坏客户已经被标注出来,我们把它回到审批端,做审批端优化的,这样的学历背景的人是不是可以做贷款或者是发信用卡。那么这个也是要做训练,每天有一百万条的训练记录。把ABC的要素融合是平台要通过一个流水线。

这是一个在线反欺诈,原来申请的这个人写的内容大量的规则来描述,它是不是一个欺诈用户,现在犯罪到农工去招工,拿了一些钱去收集一些身份证号办一个卡。我们把大量的特征值,每天上百个件彼此的关联性,我们寻找网络特征,我们输入到端里边然后来识别是不是欺诈行为。

我们在白条业务上不还钱,你想还一个身份,重新注册一个新的身份,我们如何把你关联出来,NLP替代了一些高阶的人员,汤森路透是一个金融财经的服务商,他每年要读几十万份公告,然后把一级市场的金额波动分析出来,怎么重组,什么时候增发,怎么做可转债,这个以前是靠人去做解读的,后来我们做分析器给它出了一个的解决方案。

心血管疾病的案例,这些案例有些是我们直接参与的,有一些是我们的赋能平台,就像APP商店和IP的关系,通过平台的赋能,像刚才我讲的能源还有心血管的都是我们赋能给我们的合作伙伴,让他们在AI的平台上,平台免代码,不用写代码的情况下来完成深度学习这样一个复杂的操作。


关于我们

订阅大会消息

关于主办

中国大数据专家委员会
中国电子信息产业集团有限公司
中国电子学会

联系我们

于 博 电话:010-51662329转64
邮箱:aaron@ceac.com.cn QQ:23130699
安 然 电话:010-51662329转65
邮箱:anran@ceac.com.cn QQ:327499282