资讯处   4.1.2012

390

陈丽云教授(中)与学生
研究人工神经网络,旨在教电脑自动学习,并解决问题
 
《中大通讯》第390期 > 洞明集 > 网络留痕的玄机:从人工智能到数据挖掘

网络留痕的玄机:从人工智能到数据挖掘

previouspausenext

英国生物学家和科普作家道金斯是著名的无神论者,服膺达尔文的进化论,绰号「达尔文的罗威纳犬」。他对那些认为「电脑不及人脑,只能按指令行事,永远不会有创造力」的论点很不以为然,在1986年出版的《失明钟表匠》一书里,他直斥这是陈腔滥调,就像说「莎士比亚写的,除了文字这启蒙老师教过他写的东西外,其他什么也没有。」

专研人工神经网络的中大计算机科学与工程学系陈丽云教授指出,人脑和电脑在创造功能上确实有距离,但两者的学习过程却非常相似。

人工神经网络(简称「神经网络」),是人工智能的一个类型,基本概念是模仿人类神经系统进行信息处理的计算模型,换句话说,那是为电脑建立一套学习过程,即是教电脑学习。人工智能的目标,是令电脑系统具备人类的智识和行为,所以建立学习过程是关键的环节。电脑懂得自动学习,便能够按已有的知识进行推理和判断,从而解决问题。

不容否认,电脑的学习过程只能根据输入的学习材料进行。陈丽云教授解释,例如教电脑辨识字母A,电脑会从输入的A及非A的各种图形中,推理出这个字母的特质,而把字母A辨识出来。

不过电脑学习了一种知识后,输出的答案有时是出乎意料。两个不同的网络,在学习同一知识材料后,处理相同的输入资料时,输出的信息可以有别。举例说,一个网络会告诉你,数列中1、2、4之后的数字是8;但另一个会说是7。两个答案也没有错,因为网络是从学习过程中去推算出答案,答案多于一个时,便视乎其在学习的过程中先推算到的是什么答案。

与人类一样,不同网络的学习进度会有差异。主要原因是网络会有不同设定,这些设定会影响网络的学习情况,包括对不同问题有不同的准确度和学习速度。「像有些人精于数字,有些对文学特别敏感。用电脑语言来说,就是设定不同。」此外,人类处理繁复的问题时,穷十年二十年也未必解决得到,电脑也一样。但如果把问题分拆,逐一处理,解决起来便容易得多。过往需要专家来帮电脑去分拆,最近研究出电脑能自动分拆问题的计算模型,「这是神经网络近年的发展方向,也是人工智能研究的一项突破。」

陈教授的另一研究重点为数据挖掘。她说,数据挖掘的研究大概始于上世纪九十年代,资讯科技愈发达,所记录和处理大量数据的能力便愈高,从数据中找出隐藏意义或知识的技术于是发展起来,即所谓数据挖掘。

数据挖掘和神经网络息息相关,前者从后者衍生出来。举例说,神经网络学习从大量数据中辨识某种特质,从而找出其中模式的方法,在数据挖掘上便大派用场。陈教授主要研究金融数据的挖掘,找出不同股票或者不同类别股票的关连及共通的因素。她运用算法寻找出数据之间有一些完全独立的成分,每一个成分都不受其他因素影响,只须观察这个成分,对股价的上落便可有较清楚的了解,这在风险管理上有很大作用。「以前技术上认为每一成分互不关连,但我们发现提取和处理完全独立成分,比没有关连成分优胜得多,」陈教授说。

今天的网络世界覆盖万千,无所不包,除非从未踏足其中,否则所留下的痕迹,如电邮通讯内容、网上交易记录、浏览网站的历史、社交群组的资料,全皆是可供挖掘的数据,挖掘所得可用作设计及推销市场、产品和服务的参考。

一进入网络世界,我们会不自觉地遗下无法磨灭的足印,那还有什么私隐可言?「数据挖掘不是针对个人,而是群组。我们是试图从人的数据来了解人,」陈教授解释说。「数据挖掘的应用非常广泛。举例说,闹得热烘烘的选举登记问题。我们可以利用数据挖掘,找出在某几类情况或特征之下,会有弄虚作假的成分,便可以有效地作出相应的预防措施。」

各期刊物

最新10期

2020年代

2010年代

2019–20

2018–19

2017–18

2016–17

2015–16

2014–15

2013–14

2012–13

2011–12

2010–11

2000年代

2009–10

2008–09

2007–08

2006–07

2005–06

2004–05

2003–04

2002–03

2001–02

2000–01

1990年代

1999–2000

1998–99

1997–98

1996–97

1995–96

1994–95

1993–94

1992–93

1991–92

1990–91

1980年代

社交网路书签

twitter   facebook   谷歌   百度   qq

快速连结