人类大脑的起始学习 — 用统计规律统计学习

一个婴儿突然坠落到这个星球。她哇哇落地,降生到一个平凡的人家。出生的时候,她仿佛一张白纸,什么都不会,什么都不知道。那么她是怎么学习到在这个星球活下去的必需知识呢?在短短的两到三年之内,她是怎么学习语言这个庞大复杂又精细的逻辑符号系统呢?

具体来说,她怎么知道她的母语里有那些音?这些苜怎么串成一个词?词和词之间的边界在哪 里?每个词具体是什么意思,指向哪个概念?词是怎么组成短语的?词语怎么能纟且成句子?每个 词语和句子该用什么样的语气说?哪个词应该用重音?像汉藏语系里这些苜调语言(普通话,上海 话,粵语等),婴儿又是怎么学会复杂的昔调结构的?她们是怎么能够掌握语感和平仄的?

对于双亲说两种语言的儿童,又是怎么知道apple和苹果这两个词是指向同一个概念的?她又是怎么 知道apple是英语的词,苹果是属于中文?她是怎么互相转換的?

Saffran: Aslin和Newport发现,婴儿切分语言词汇,用的是统计概率处理[1]。这个伟大的科学发现 是怎么来的呢?

1996年,心理学家刚刚掌握了一个让”婴儿回答问题”的实验方法。以往做婴儿行为学实验是很难的,因为孩子不会说话,她不能告诉你,她是究竟怎么学习的。这时心理学家发明了这个”扭头实验 方法”:让6-8个月大的宝宝坐在家长的膝盖上,实验员用一个玩具吸引着他(蓝色企鹅),同时背景放各种各样的音,当宝宝听到她感兴趣或者她学会的音的时候,就会看向另一边,这时候一个大熊猫敲鼓的玩具就会发光,然后熊猫就会开始敲鼓,给他鼓励,告诉他她做对了。

实验过程

用这种方法,Saffran et al. 开始研究八个月大的婴儿是怎么学习语言的。我们知道,孩子会听到成年人说的各种各样不同的语句。面对这些传来的连续的声波,孩子要学习语言,第一步就是要对声波进行切割 (word segmentation)。比如一个母语是英语的小朋友,听到妈妈说”pretty baby”这段音节的时候,她怎么能够知道,pretty是一个词,而baby是另一个词呢?

Saffran et al. 假设是,婴儿切分词语用的是条件概率。所谓条件概率是指,如果一个事件A已经发生了,那么下一个事件是B的概率是多少。用下面的数学公式表示:

P(B|A)

所以婴儿在长期接触语言的过程中,对事件发生的顺序的概率分布,逐渐熟悉了。她发现, pre这个音,和tty这个音发生在一起的概率,远远高于tty 和ba这个音发生在一起的概率,也就是:

P(tty|pre ) > P (ba | tty)

也就是说,pre和tty常常在一起出现,而tty和ba不常常一起出现。根据这种概率分布的不同,婴儿就可以切分单词。

为了验证自己的假说,Saffran et al. 发明了几种不同的人造语言(artificial languages),然后让婴儿听这些人造语言。人造语言的单词和单词之间,没有时间上的间隙。只是同一个单词的两个音在先后一起出现的概率,比单词边界上属于两个不同单词的的两个音,先后一起出现的概率大。

通过上面提到的扭头方法,他们让八个月大的婴儿“回答 “ 哪里是单词的边界。实验的结果是惊人的。八个月大的婴儿可以通过条件概率,在几分钟之内,毫不费力的切分这个外星语言的所有词语

这篇paper,彻底巅峰了人类脑认知科学的很多领域。渐渐的,人们发现儿童学习语言的很多方面都是利用统计规律。

比如,学习汉语的小朋友要区别四个语调发声(妈,麻,马,骂),这些音调和平仄规律,也是靠统计概率获得的[2]。

再比如说,很多语音只在特定语言里存在,其他语言并不区分。比如,【r】和【l】在日语里不区分,而吸气的【p】和吐气的【p】在Hindi里面是区分的,在英语里中文里都不区分。​

婴儿刚出生时候,能听出所有音的区别。【r】和【l】的区别,没问题;中文里四个声调,没问题;Hindi里面的吸气的【p】和吐气的【p】,没问题;英语里面的齿间音(inter-dental),也没问题。​

他们生下来就是”世界的公民”,只不过他们的大脑正在发生巨大的变化:​去掉那些母语不需要的音。​

怎么去掉呢?也是靠听母语中的统计学规律。如下图所示:

实验过程

​​左边是一个美国的妈妈,右边是一个日本的妈妈。左下角是美国妈妈发音的分布,可以看见【r】和【l】有清楚的分布两个峰,右下角是日本妈妈的发音的分布,【r】和【l】都挤在中间。

日本的婴儿在此时,通过这个统计规律,就知道【r】和【l】的区分,在日语中不重要。​所以他们就要去除这个音的分布[3]。

用统计规律,也有不同的统计学指标。婴儿可以靠一个事件出现的单纯频率来学习(frequency), 也可以靠两个时间同时出现的频率 (occurrence frequency),还可以靠上面提到的前后事件出现的条件概率(conditional probability)来学习。

除了学习语音之外,孩子们还可以用统计规律来学习每个词的意思。当词汇已经被切分了,孩子们就把已经切分好的词汇,当作新的单元符号,来做更深的意思理解。比如说,当一个孩子看见面前有一个苹果,和一根香蕉,而她的妈妈说:“香蕉”,那么这个时候到底香蕉这个词,是指代那根黄色的条形水果,还是圆形的红色水果,是不明确的。 但是下一次,当一个孩子看见面前有一根香蕉,和一个橘子,妈妈依然说:“香蕉”的时候,她就懂了,“香蕉”是指那根黄色的长长的水果。

我们的视野里常常有很多很多不同的事物。而妈妈很多时候,没法真的用手指着每个事物去教小孩这个叫什么(实际上也不需要), 孩子能够通过场景和一个单词的同时出现的统计规律(即香蕉这个东西和香蕉这个词同时出现的概率是100% ,而其他事物和香蕉这个词同时出现的概率不是100%)来学习词的意思。

用统计概率来学习,甚至到了语法甚至结构的层次。比如说当你学会了一些语句的大约结构,当你听到了“the apple and the jabberish” 这个短语时候,虽然你没见过jabberish这个词,但是你知道它是个名词。而当你听到“I qacked you” 时候,你知道quacked是动词 (当然,这两个怪词,都是我瞎造的)。母语是英语的小孩子,没有学过名词之间用连词,或者动词后面跟宾语的正式语法,他们靠的是不断从大人的话里面提取统计规律,来学习到这个认知模式的

所以说,人们常常说的“语感 ”,是产生于 常常听见同一语言的很多样本,于是总结出来的规律。

进而言之,孩子们学习其他一些规律,如物理规律,也是靠统计学习。婴儿常常把手上的东西摔到地上,其实是测试这个东西是往那个地方飞(孩子们并不知道物体是下落的)。

从这个角度讲,我们的整个学校教育体系,很多时候是不符合人脑学习规律的。儿童是靠统计规律总结的直觉来学习的。AB总在一起,所以AB应该有所关联—这种思维模式,是进化带给我们的。而学校教育常常要抹杀这种统计式的直觉,而是用代数式样的逻辑符号系统来(algebraic symbolic system)来代替统计学习 (statistical learning)。而统计学习出来的规律,往往被学校和老师打击。

所以,如何平衡这组矛盾,让儿童的统计学习和逻辑符号系统,这两个强大的系统都得到互相制约平衡的健康发展,是一个发育脑科学和教育心理学要共同解决的难题。

转载自:https://www.cnmlgb.org/2017/post-13/

你也许想看