从数据回到数学,张靖笙授课见证 -【讲师网南京站】张靖笙授课见证,张靖笙博客,张靖笙网站,张靖笙文章,张靖笙最新文章

张靖笙:从数据回到数学

数据数学人工智能

2020-04-13 2300

从数据回到数学

张靖笙

我相信我和大多数人一样，对数学始终充满了一种敬仰而神秘的感觉，还掺杂了很多不自信的情愫，而由于工作的关系，这种不自信也一直伴随着我的职业生涯，时至今日，我只敢对别人说，我是搞数据的，还不敢说自己是搞数学的。我最近承接了中山大学导师的一项学术任务，让我不能不硬着头皮去面对一些比较复杂的数学方法，因此也在消化导师给我的课件的基础上做了一些深入的学习与思考。

这几十年来，计算机信息科技发展很快，各种新概念层出不穷，很多IT大咖成为全球名人，比如乔布斯、比尔.盖茨、雷军、马化腾等等，可很多人不知道发明计算机背后的都是大数学家，比较公认的就是下面这位仁兄。

阿兰·麦席森·图灵（Alan Mathison Turing ，1912年6月23日-1954年6月7日），英国著名的数学家和逻辑学家，被称为计算机科学之父、人工智能之父，是计算机逻辑的奠基者，提出了 “图灵机”和“图灵测试”等重要概念。人们为纪念其在计算机领域的卓越贡献而设立“图灵奖”。

这位仁兄提出的“图灵机”就是今天我们广泛使用的计算机的原型。所谓的图灵机就是指一个抽象的机器，它有一条无限长的纸带，纸带分成了一个一个的小方格，每个方格有不同的颜色。有一个机器头在纸带上移来移去。机器头有一组内部状态，还有一些固定的程序。在每个时刻，机器头都要从当前纸带上读入一个方格信息，然后结合自己的内部状态查找程序表，根据程序输出信息到纸带方格上，并转换自己的内部状态，然后进行移动。

图灵的基本思想是用机器来模拟人们用纸笔进行数学运算的过程，他把这样的过程看作下列两种简单的动作：

1、在纸上写上或擦除某个符号；

2、把注意力从纸的一个位置移动到另一个位置。

而在每个阶段，人要决定下一步的动作，依赖于

(1) 此人当前所关注的纸上某个位置的符号和(2) 此人当前思维的状态。

为了模拟人的这种运算过程，图灵构造出一台假想的机器，该机器由以下几个部分组成：

1、一条无限长的纸带 TAPE。纸带被划分为一个接一个的小格子，每个格子上包含一个来自有限字母表的符号，字母表中有一个特殊的符号表示空白。纸带上的格子从左到右依此被编号为 0，1，2，... ，纸带的右端可以无限伸展。

2、一个读写头 HEAD。该读写头可以在纸带上左右移动，它能读出当前所指的格子上的符号，并能改变当前格子上的符号。

3、一套控制规则TABLE。它根据当前机器所处的状态以及当前读写头所指的格子上的符号来确定读写头下一步的动作，并改变状态寄存器的值，令机器进入一个新的状态。

4、一个状态寄存器。它用来保存图灵机当前所处的状态。图灵机的所有可能状态的数目是有限的，并且有一个特殊的状态，称为停机状态。

注意这个机器的每一部分都是有限的，但它有一个潜在的无限长的纸带，因此这种机器只是一个理想的设备。图灵认为这样的一台机器就能模拟人类所能进行的任何计算过程。

图灵提出图灵机的模型并不是为了同时给出计算机的设计，它的意义有如下几点:

(1)它证明了通用计算理论，肯定了计算机实现的可能性，同时它给出了计算机应有的主要架构；

(2)图灵机模型引入了读写与算法与程序语言的概念，极大的突破了过去的计算机器的设计理念；

(3)图灵机模型理论是计算学科最核心的理论，因为计算机的极限计算能力就是通用图灵机的计算能力，很多问题可以转化到图灵机这个简单的模型来考虑。

通用图灵机向人们展示这样一个过程:程序和其输入可以先保存到存储带上，图灵机就按程序一步一步运行直到给出结果，结果也保存在存储带上。

图灵敏锐的意识到了计算和智能之间的密切联系，并开始了关于人工智能的研究。1950年，图灵发表了“计算机器与智能”一文，提出机器可以“模仿”人的思维活动(Turing,

1950)。图灵认为在没有真正理解人的心理和意识活动之前，我们只能以“模仿”方式进行机器思维的研究和测验。很遗憾，图灵在其有生之年，没有进一步对该思想进行更为透彻的阐述。

我们在图灵机的纸带TAPE上，清晰地看到今天所有的大数据始祖的样子，就是那些符号。在图灵机身上，我们也清晰地看到计算机是如何发挥计算作用的，就是一个读写头 HEAD和一套控制规则TABLE，其实就是与y=f(x)函数等价的数学模型，从头到尾，计算机原理的背后就是数学模型。

如果大家最近有听过我网络直播公益课《全球抗“疫”与企业数字化转型》，我谈到了业界对企业信息化看法的变迁，其中第一个阶段就是典型的计算机时代的观点。在计算机时代，核心是算法，就是y=f(x)中重要的是f函数, y和x只不过是临时门票一样的存在，无论y和x怎么样，都不足以影响f的计算能力。在计算机里面，数据就是图灵机纸带 TAPE上的那些符号，算法y=f(x)的y和x,倒退到二十年前的中国，常常把数据看成是参数，目的就是让计算机算法程序能正常运行起来的。

所以在计算机时代，计算机解决问题的能力依赖于强大的算法，而支持强大的算法背后是各种复杂的数学方法，理论上这并非不对，诚如刘薰宇老先生说的：“我们没有充分抽象的力量，不能将一些事实聚在一起，发现它们真正的因果关系。因而我们也找不出一条真正趋吉避凶的路！”运用数学所赋予的强大抽象力，我们用几个简单的符号即可以链接一个个特定事物与其背后无限宇宙背景的各种关系，这种抽象力给我们人类创造了强大的探索未知和解决问题的能力。

数学可以让人脑更加强大，可在电脑上就遇到那么点尴尬了，我们从上面图灵机所呈现出来的计算机原理就能了解到，电脑的思维是如此地程式化（或称刻板化或机械化），这个f的计算能力还是要依靠控制他的人-----程序员。本人也曾经有近二十年的编程（coding）经验，深知这份工作的郁闷与激动，当然百分之九十的编程时间是郁闷的，如果你和我一样做过这么长时间的码农，我常常在编码的时候内心抱怨计算机怎么这么笨！早年我还在用汇编语言的时候，就在与、或、非这三板斧上反复做文章，实现个简单的乘法都费老大劲了，刘老先生所说的充分抽象力肯定不是电脑的强项。但当程序可以run(运行)的那一刻，内心又是激动的，男人没有怀胎十月的体验，但辛辛苦苦开发的程序将要出炉那一刻应该有类似的欣慰吧。

在人工智能的发展历史上，恰恰是这种算法至上的观念在相当一段时期内制约了人工智能的发展，我们非常多优秀的前辈耗尽了一生的努力希望在人工智能算法上取得重大突破，但成效并不彰显，特别是到上世纪70年代，这条道路几乎搞不下去了，如上分析，在大数据出现之前，计算机并不擅长解决需要人类智能来解决的问题。

幸亏计算机积累下来的数据越来越多了，逐渐显露出了革命性的作用。计算机和通信技术的结合，进入网络时代特别是互联网之后，数据的重要性就凸显出来了，原因很简单，没有网络前，计算机是单兵作战，种种原因造成数据积累非常困难，过去的数据量非常少，网络出现后，计算机之间通过数据交换让双方都获得显而易见的好处，双方没有任何损耗的情况下获取了各自需要的数据。越来越多的计算机联网，就愈发刺激对数据的需求，所以在上世纪90年代互联网兴起之后，大量数据的获取也变得非常容易。

当数据量足够大之后，很多原来智能的问题就可以转化成数据处理问题而取得突破。今天的人工智能获取智能的方法不是和我们人类一样靠抽象力和推理，而更多是利用大数据，从数据中学习获得信息和知识，如果我们能确保这些数据是事实的反映，那么人工智能这种简单直接的方法明显比我们人类的推理更能直指问题的核心，基于事实的判断和经验的总结，而且人工智能还不会受到人类常有的情绪的干扰，只要数据量足够大，得出的结论比我们人类的抽象和推理更实事求是，这样的智能革命导致计算年纪在越来越多的领域超过了人类，并使得我们的社会产生了翻天覆地的变化。

我们还是用y=f(x)来简单解释下这背后到底发生了什么，以前计算机要解决问题只能依赖这个算法f,如果遇到的问题越复杂，则与之对应的算法f也越复杂，这个f是靠人编码出来的，如果一直是这个套路计算机不应该有超过人类的智力水平。

而当数据量非常非常大的时候，则可以从中找到大量的y和x的组合，当这个量大到某个程度，只要给一个相对简单的数据处理方法,这个算法f完全可以从大量的y和x的组合之中让计算机自己归纳总结出来，这时候说明原来编制算法f的人类智能可以不要了，计算机自己可以从y和x中学习并产生解决问题的算法f。其实本质上人类也是从对物理世界的观察中抽象出解决问题的模型和算法y=f(x)，而计算机通过数据所积累的y和x的大量经验明显多于人类个人的时候，计算机产生的算法f超过人类的抽象和推理能力也很靠谱了。

接下来很容易会让人联想到的问题是：“人类智能迟早都会被人工智能彻底打败吗？”“奇点”是用来描述AI技术及其社会影响的特有概念。在此之前人类技术都是用“人的智能”来发明的，而目前以及未来，技术也可用“机器的智能”来发明，而AI奇点来临的重要标志是“用机器智能生产智能”。如此，人类一切技术发明创造的智能源泉将从机器无限涌流，詹姆斯·巴拉特采访了许多AI技术开发和理论研究专家，撰写成《我们最后的发明：人工智能与人类时代的终结》一书甚至指出AI称作人类“最后的发明”，人类的“终极命运”正在被开启。如此看来人可以成为“黑客帝国”中的电池活在一个完全虚拟出来的人工智能空间里面就可以安生了。

要是没有这次疫情冲击，我也相信会在不久的将来就能看到这个神奇的“奇点”，可这次“机器的智能”并未能帮助人类成功抗“疫”，反而是人类用一百多年前的老办法才让防控趋势向好，这不得不让我们反思一下这类曾甚嚣尘上的AI奇点论调。

问题还是出在数据身上，数据本身就是人类认识的产物，我们可以通过y和x让机器造出算法f,却没有办法机器自己无中生有造出数据y和x。y和x从哪里来？还是要从人类对客观物理世界的认知中来，即使现在数据采集已经运用了大量的传感器和物联网，那也就是一种自动化的数据采集手段而已，采集什么信号，什么时候采集，采集了之后怎么处理，还不是要依赖于人的认知和设计？人类没认知到的事物，又哪里会有与之对应的数据呢？

任何一种生命，为了生存都有本能的对环境信息的感知能力，既然AI没有生命，也不知道什么信息会要命，我到现在也无法想象AI如何能无师自通地决定感知什么信息，那这个y和x又如何能无中生有呢？

这样一来，我们就可以明白，这个人工智能的新方法其实是新瓶装了老酒，是因为人类积累的数据里面本身就饱含了人类智力的成果，人工智能只不过用机器学习的方法把这些人类历史智慧财富重新发掘出来而已，是大数据本身就暗含了解决问题的办法。

于是，解决问题的办法还是要回到了人类解决问题的能力，还是刘老先生所描述的，一条运用充分抽象的力量让我们找出真正趋吉避凶的路，绕来绕去还是要靠数学！硬着头皮是我们的宿命。

最后，我的结论是，数字化时代我们需要“数据处理的水平和数学抽象的能力”，这本来是我原来为这篇文章拟定的题目。

（初稿完成于2020年4月13日）

上一篇中国模式需要数据引领数学支撑

上一篇疫情对人工智能的大考和启示