刘娟:缘木求鱼的电脑作文评改
《联合早报》(2011-09-19)
刘娟
我们的华文教学年年改革,为了华文水平的提升,十八般武艺、十八般兵器可谓全部用尽,而体现学生华文水平的作文成绩却总是差强人意。近日一则新闻更是令人惊艳:新加坡华文教研中心研发,并拟于明年投入使用的自动作文评改与学习系统。
作文评改是作文教学中的重要一环,明眼人一看便知,华文教研中心研发的这个所谓作文批改平台,充其量只能在侦测错别字方面派上些用场,根本谈不上对作文内容、语境的评定,更不用说给学生下作文评语。而作文评语恰恰是作文教学环节的亮点,点睛之笔。
本地的华文作文教学,长期以来一直在低谷徘徊,症结之一在于作文教学模式自我封闭、僵化呆板,训练效果少、慢、差、费。教师精心批改,但着墨最多的还是错别字、文法的纠正;学生草草一翻,或干脆看都不看就往书包里一塞。僵化教条的评改方式,不仅不能激发学生发扬优点和修正错误的积极性,更谈不上对学生健康的写作心态的引导和高尚人格的培养。
研发者强调:“这个项目的目的不是为了取代人工评阅”,但把学生的作文用电脑“过”一遍,侦测出错别字,给老师减轻了工作量,批改一篇作文竟也成了流水线作业!对于一名合格的专业华文老师,阅读批改作文时挑出错别字会是工作负担吗?华文教研中心煞费苦心研发的所谓作文评改系统,不过是侦测错别字尔尔,这让人不由心生困惑:难道作文的评改只是挑错别字?通观本地作文教学现状,的确存在的一个见怪不怪的现象是:一些批改后的作文,也不过是错别字的纠正而已,人文评语寥寥无几乃至没有;普遍的事实是,许多学生对纠正过的错别字视而不见,再写作文时,错别字照写不误,甚至更多!
“人文评语”能激励作文兴趣
作文应该是个性化的“我”写个性化的“文”的过程,是为生活而作文而不是“做文”,将生活和作文紧密连缀在一起,以我笔抒我口,写出真感受。一旦回归到作文的本真状态,消除了作文在学生心目中的神秘感、不可企及性,作文就会成为学生向生活、社会、他人沟通的最愿意采用的形式。
能引导学生敢于写作文、愿意写作文甚至以写作文为乐的最有效手段,莫过于细水长流而又不占用有限的课时时间的作文评语了。赏识激励式评语、点拨启迪式评语、平等商讨式评语、委婉幽默式评语、讲究文采式评语、鼓励期望式评语、劝勉奉告式评语等不同类型的评语,犹如真诚的桥梁,沟通了师生间情感,激发学生潜在的表达欲望,提高学生的写作兴趣与热情,促进学生写作能力和写作水平提高的作用。
教育教学理论将这种评语形式命名为“人文评语”。发展心理学认为,青少年自我意识强烈,“自我中心”再度凸显,意识里或者潜意识里把作文写作和学习当做表现自己的一种方式,并期望获得赞赏和满足。对作文评语的心理需求也典型地表现为期待教师的肯定、赏识和鼓励。学生辛辛苦苦完成一篇作文,都有一种急于知道教师会如何评价的心理欲望。
因此教师应给予及时批改,教师的评语要肯定优点、指出不足,它应当对所有为作文付出心血的学生以心换心、以情感情,既要为水平高的锦上添花,也要为程度差的雪中送炭。那种不痛不痒、千篇一律的批语,只能让学生视而不见、麻木不仁。甚至有的教师只打个孤零零的分数,或写一个冷冰冰的“阅”字代替,或凶巴巴来句:“错别字太多”、“文不对题”、“太罗嗦”、“不要写成流水账!”等等,那就更让学生徒有一双热切期盼的眼睛。如此冷冰冰的批语,只能抑制学生的观察力,挫伤学生的进取心。
中国教育学家叶圣陶先生说:“批改不是挑剔,要多鼓励,多指出优点,此意好。”辛勤耕耘的老师花费大量时间、精力对学生作文的字斟句酌、精细批改,以及绞尽脑汁地打了个所谓恰当分数,得到的却是这样的难言结局:一个个生机勃勃的青少年面对作文“哑口无言”、“缄口不言”,高百分比的厌作文率,个中的原因方方面面,但其中很重要的一条竟是因为老师的评语。学生说,老师总喜欢写千篇一律的评语,什么“中心明确”、“结构合理”、“内容恰当”等等,很闷;还老是指出文章的缺点,这让他们越发没了写作的信心和兴趣。
这就不能不引起我们在作文批改方面的深思:传统的作文评语是否大多太公式化,忽视了培养人、发展人的要求?僵化教条的思维或语言,不能激发学生发扬优点和修正错误的积极性。作文批改要改,要找寻能走进学生心灵的批改方式,要能调动学生写作的主观能动性,多采用启发性的提示或暗示,用商量的方式,使用“可否……?”等字眼,亦即所谓的点拨启迪式评语、平等商讨式评语等人文评语,给学生留下更多的自由思考的空间,让学生“自去领会、自去体味、自去感悟”,自己去斟酌、去调整、修改、润色乃至重做,只有他们想写了,作文水平才有可能慢慢提升。老师在学生作文中写下的一句话,可能会影响他的一生。请不必吝惜激励之辞,不必担心你的激励会捧杀学生,让学生从老师的评语中看到自己的劳动和努力,从而带来精神上的满足,引发作文兴趣。
请让人文评语成为作文教学的亮点,多一些人文评语,少一写批评责备;多一些具体指导,少一些套话、空话;多保持学生个性,少一些模式化、僵化。作文评语不仅要评价学生作文的优劣,更重要的是能够与习作者实际心灵上的交流和沟通。唤起学生的情感共鸣,培养学生的审美情趣,使学生通过长期的评语感染,领悟写作技巧,磨练意志品质,循序渐进地提高写作能力。于老师而言,如此训化学生呈上的作文,批改起来应该多了成就感而不是负担。
Hold住吧,缘木求鱼的电脑作文评改!报章报道说,两年多前为提升乌节路景致而“盛装登场”的20个花柱,由于难以照料而沦为凋零残花,有碍观瞻,终于得黯然“退场”。花柱伤得起,屡被当做教改实验品的孩子伤不起!
作者是自由撰稿人
当时,读了报纸,看了新闻
真是匪夷所思啊~~~
这孩子们的华文怎么办呀? 真是操心.
花柱伤得起,屡被当做教改实验品的孩子伤不起!
是呀。
真够哗众取宠的。
在新加坡教华文还真不容易。
商家千方百计寻找商机无可厚非,但教育部如此官僚和弱智就说不过去了。怀疑那些官员们没有一个是真正地出身于教育届。。。
把教育改革如此重任托付于这帮官僚身上,似乎是在儿戏。今天能弄出个电脑给作文打分,明天或许就改聘电脑程序员当华文老师了。
看看前些日子的两篇相关报道~~~
华文教研中心研发,自动作文评改与学习系统
《联合早报》王珏琪 报道(2011-09-07)
要批改堆积如山的华文作文,是不少华文教师头痛的工作,新加坡华文教研中心研发了一个自动作文评改与学习系统,利用电脑自动评改小学生的作文,8秒内就能评改一篇300字的文章。
这个针对三年级到六年级小学生的系统,分成作文评改平台和作文学习平台。作文评改平台能侦测字、词和句子错误。
除了教师,研究员指出,学生可利用这个系统在家自主学习,在完成作文后,获得即时反馈,进而改正错误、提升写作能力。
华文教研中心院长也是这个项目研究小组总监陈之权博士指出,他们在2008年针对华文教师进行调查和座谈,发现华文教师的两大负担是教学量大和作文批改量大,教师一般难在作文上给每名学生个别指导。他们因此研发了这个系统,减轻教师的批改量,这么一来他们花更多时间能针对每名学生的情况,给予适当的引导和评价。
研究员收集本地不同类型小学的小三到小六作文为系统进行测试,发现系统对常见题目和程度中等的作文侦错误的准确率为约83%,而对程度较好和较差的作文准确率为约70%。
目前,这个作文评改平台只能侦测语言表达方面的问题,还不能做到评分、评定作文内容和语境等。研究小组组长谢育芬博士强调:“这个项目的目的不是为了取代人工评阅。”
研究小组将测试和提升系统的侦测率及分析速度,并将在明年在几所小学试用。教师可能在一年多后就能使用这个系统。陈之权说,他们还要测试系统的批改和评分的准确度。
其实有些本地学校几年前已开始试用英文作文评改软件,那套系统还有自动评分的功能。但有媒体报道,学校、学生和家长对这类系统褒贬不一。
孺廊小学华文教师兼资讯科技科主任关德顺对华文作文评改平台表示欢迎,认为这方便老师批改作文,可为教师省下时间,但他也提出这只能作为练习用途,因为小学华文作文考试还是要通过纸和笔的形式,而不是电脑作答。
另外,华文教研中心去年被教育部委托研发一个“小一华文口语能力诊断工具”,来协助小一华文教师有效地评估学生的口语能力,并进行针对性教学。有8所小学的1200多名学生已经参与这个项目的试验,教育部将在明年起,在所有小学推广这个工具。华文教研中心也将在今明两年为所有小学华文教师进行相关培训。
这个工具包括了一套诊断量表和教师手册,诊断量表针对学生的语言能力和交际能力进行评估。教师在给学生进行小组口语活动时,可从旁观察学生之间的语言互动,并利用诊断量表来诊断学生的口语程度。教师了解班上学生的口语能力后,再进行针对性教学,提高学生的口语能力。
这项研究小组的组长范静哗指出:“目前传统的测试方式用的是单向评估,如学生看图说话。这实际上不一定能真正测试出学生水平和实际运用能力,因为他可以预先准备,而不是在实际生活中的互动,自然地去使用语言。”
华文教研中心将在明天举行为期两天的第二届“华文作为第二语言之教与学”国际研讨会,并将在研讨会上展出这两项研究。到时将有900多名来自十多个国家的与会者出席。
[email protected]
自动作文评改系统 获国际学者高度赞扬
《联合早报》 陈能端 报道 (2011-09-09)
新加坡华文教研中心昨日在一场汇集国际顾问及教育部官员的高峰会议上呈现两项正在进行的研究项目,其中,针对小学母语教育打造的自动作文评改与学习系统获得国际学者的高度赞扬,认为这是突破性的“前沿研究”。
这些国际专家一致认为这个系统若能完善并落实到教学上,将能大大提高教师批改作文的效率,让教师可以集中精力提升学生更高层次的写作能力。如果项目成功,还可带动相关研究,为新加坡以外的华语教学工作做出贡献。
配合华文教研中心今明两天举行“华文作为第二语言之教与学”国际研讨会,中心昨日举行了高峰会议。与会学者包括香港大学教育学院副院长谢锡金教授、国立台湾师范大学华语文教学研究所的信世昌教授及英国剑桥大学东亚系的袁博平教授。这三位教授也是华文教研中心学术咨询团的顾问。
信世昌指出,传统语料库的组建过程一般会先把所有的语言规则和词汇整理出来,所以理论上输入任何程度的文章,一律都能使用。不过,华文教研中心颠覆了这样的思维,针对特定的族群建构这个系统,使系统具备更高的操作价值。换句话说,这个系统可“无穷尽用”,发展适合中学或更高年级使用的版本。
但这并不意味自动系统能取代人工评阅。信世昌就建议系统应主要用于协助教师处理最基本的语言问题,如别字、错误词组等。这样一来,教师就能够花多点精神评估学生在内容,段落、思路等各方面的表现。
他也提醒,小学生的作文大多是书写的,系统若要做到提高批改效率,应该注意如何将书写作文快速转为文档的过程。
谢锡金则认为,这个系统暂时累积的语料倾向于叙述类型的,如果考试也测试学生的创意写作能力,语料库应该具备这样的参考例子或评估功能。他说:“建立完善的语料库已经不容易,这是好的开始。或许以后还能全球发行。”
华文教研中心前天首次与媒体分享这项研究的初步结果。自动作文评改与学习系统是中心2008年针对教师进行的调查所衍生出的发展项目。为了减轻教师批改文章的负担,他们目前研发出的系统可在8秒内评改一篇300字的文章。研究团队计划明年在几所小学试用系统。
袁博平说:“这是领先国际的研究项目,但这不是个人或一家机构能够支撑的。如果能长期获得政府支持,会更好。”
作为一名教师
我其实应该迫切的期待着这一天的全面到来~~~
这一天到来的时候语文也就快”死”了。
我儿子的华文老师告诉学生们,华文作文高分的学生将来几乎都无法成为作家,因为他们的文章平淡如水,毫无生气,只因为全面符合了”要求“才能拿到高分。而很多作文中等成绩的孩子却具备成为作家的潜力,因为他们的作文虽然不能完全符合规范,但却胜在文笔出色,结构新颖,故事引人入胜。作为老师他无法改变现状,但他可以教给学生们什么才是好的文章。。。
让电脑批改
没有灵魂、徒有一身华丽衣裳的作文
娃哈哈哈哈哈哈~
电脑能读出思想!读出喜、怒、哀、乐!
娃哈哈哈哈哈哈哈~
不过,正经话,
让电脑帮忙改错别字、病句
作为阅卷第一关还是可取的
老师接着审结构、内容、文采,给出批语
问题是有几个学生肯工工整整写字的?
看来纸和笔即将被淘汰了
电脑输入代替学生写字
电脑阅卷代替人工阅卷
除了思维,
数码统治一切的时代来临
电 脑 真 能 自 动 批 改 作 文?
《联合早报》(2011.9.14)
桑晓灿
9月7日,《联合早报》刊登了一篇题为“华文教研中心研发,自动作文评改与学习系统”的新闻。乍看这个题目,我吃了一惊,心里猜测,难道新加坡真的要采取这种电脑打分形式来批改学生作文吗?带着疑问我看完了整篇文章,果然是事实,并且该系统已准备在明年起投入试用。
这个由新加坡华文教研中心研发的自动作文评改与学习系统,据报道主要是针对三到六年级的小学生,可以在8秒内改完一篇300字的文章,包括侦测字、词和句子错误,而研发这个项目所给出的原因是教师作文批改量大,需要减轻教师的工作量。
诚然,任何部门领域都会想尽量减轻工作量,想提高效率,我们也理解教师所承受的压力,然而若是以这种“科研产品”改作文来缓解压力,却有些让人质疑其可行性。众所周知,教育并不是简单的ABCD选项,也不是单纯的知识复制粘贴,而是在不断地创新和突破,在写作方面尤为明显,因写作者掺入主观意志成分较多,自由发挥想象空间广阔,所以,如果不充分了解背景及意境,根本无法草率地用电脑的模式思维代替人脑的理性与感性的结合,对文章做出更加准确的判断。
2009年11月,英国《每日电讯报》有篇新闻报道指出,英国曾计划用电脑批改高考作文,结果发现按照电脑打分后,丘吉尔的演说被评为“低于平均水平”,海明威的小说被评为“不认真、少细节”,威廉•戈尔丁的作品被评为“缺乏连贯性”……很多名家之作被严重低估,这使得考试委员会不得不重新考虑使用电脑软件批改作文的可行性。正如英国特许教育评估学会负责人格雷厄姆•赫伯特所说“电脑不理解意志和情感”,每个人的思想意志不尽相同,表达方式和深度层次也各有差异,单纯地用电脑阅卷可能不能完全理解写作者要表达的内涵与意境,或是在“口味”与系统要求不符的情况下被一概“抹杀”。
例如:王安石的“春风又绿江南岸”,放在系统中,也许会出现“形容词误作动词”的提示;鲁迅的“孔乙己大约的确已经死了”若是放进去,怕是不死也会被批得“遍体鳞伤”;海子可能更惨,诗集从头到尾应该到处都是下划线,被评为“逻辑混乱,用词不当,语法错误,病句百出”,朦胧派再也不敢朦胧,跳跃性的思维怕是全给系统按得老老实实了。若真如此,文坛早已是百花凋敝,一片荒芜。所以我认为,语言是充满活力和弹性的,不应过于拘泥和硬性剖解。
当然,这个系统只是针对小学三到六年级的学生,小学生无论是思想境界和写作水平都无法与名人作家相提并论,但是不可否认,任何人都有潜质,小学生有自己的童真世界和漫画语言,其表达语言的方式虽然与成人不尽相同,却富有创造力与新鲜感,尤其是现代网络文学蓬勃发展,遣词造句方面也相当幽默活泼,彰显个性,体现出语言不拘一格的另一种魅力。若是这种富有“棱角”的作文放到自动测评的“打磨机器”里,我想很多学生的特性会被这种“循规蹈矩”的系统湮没,打磨得“中规中矩”,扼杀了学生的想象力和创造力,甚至可能因此而埋没了对写作有天赋的人才。
报道当中还提到“这个作文评改平台只能侦测语言表达方面的问题,还不能做到评分,评定作文内容和语境等”,在我看来,即使语言表达方面也根本无法用电脑去判断,而是用富有想象和感知的人脑,该系统也只能在测错字方面派上些用场。研究小组组长谢育芬博士也强调“这个项目的目的不是为了取代人工评阅”,既然都已经意识到系统所存在的弊端,意识到不可取代人工评阅,那么为何还要一再地强调为减轻教师工作负担而试用这个工具呢?只是为了臆想中透视后的效果而不断正面化该系统的作用吗?也许会有人说,只是在试用,侦测准确率可以提高,系统可以更加完善,但是我认为,无论该系统再完善,也根本不是教育创新的明智之举,相反,只是南辕北辙、操之过急的“科技产品”中的“次品”。
看看新加坡华文教研中心的官方申明~~~
回应 电脑批改作文有其实践价值
《联合早报》(2011-09-22)
最近报章言论版刊载了桑晓灿和刘娟两位读者,对于新加坡华文教研中心目前正在研发的“作文评改与学习系统”的文章。桑、刘两位读者的作文教学观,非常值得敝中心和华文教师深思、借鉴。敝中心衷心感谢桑、刘对系统的关切和指教。
其实,桑、刘的许多意见,在我们研发系统的过程中已经注意到,并在系统的开发初期认真思考过、辩论过;我们会继续在系统的研发和应用上小心处理,让系统尽可能发挥其应有功用。这一系统目前还处于开发阶段,敝中心并未计划在明年推出学校使用,但会在明年有选择性地在一些学校试用,进行人机批改的对比研究,并收集教师和学生的反馈,以提升系统的评改功能,完善使用者界面。
这一系统共有两个板块,即:“作文评改板块”和“作文学习板块”。第一板块第一阶段的成果,刚于最近举行的“第二届华文作为第二语言之教与学”国际研讨会上呈现。这一阶段主要在字词句层面,针对真实的小学生作文,进行侦错与修改试验,取得了一些技术上的突破。接下来,我们还会继续提高其侦错的准确率,并提升语言批改与反馈的功能。
第二个板块为“作文学习板块”,这一板块将以“作文评改板块”为基础,从认知的角度,以“过程写作”的模式,配合小学华文教材进行开发。这个板块也将结合差异性教学设计原则,根据学生的语言程度进行目标具体、过程清楚的作文指引。在过程中,系统将在语言方面及时提供学生反馈,并在内容、组织方面提供引导,逐步提升学生的书面表达能力。
“作文评改与学习系统”能协助华文教师减轻语文层面的批改负担,让教师能集中精力为学生提供高层次的写作指导,针对学生作文的内容提供详细具体的反馈与评点。同时,系统也能提供学生一个自主学习的空间,促进表达能力的提升。这一系统的服务对象,是华文作为第二语文的本地学生,尤其是书写表达能力较不足的学生,协助他们在写作过程中较准确地应用字词,写出完整的句子。
这个系统不是一个放诸四海皆准的系统,也不是一个创意写作系统。系统有它特定的服务对象与明确的教学目的。
照顾在作文方面有困难的学生
根据教育部去年公布的小一学生家庭语言背景调查,现在就读于新加坡小学的小一学生,已有超过六成来自讲英语的家庭。这些孩子在华语学习上遇到很多挑战,最大的挑战莫过于写作。一般而言,在华文作为第二语文的作文教学上,如何指导学生准确、完整地表达自己的意思是基本的目标。至于较高层次的文采、个性化写作、甚至创意等,相信必须在学生已经掌握了基本的语文写作能力后才能达成。
现在的小学生所写的作文,主要问题有错别字多、用词不当、句子语病多等,而嵌套英文句式的问题尤其明显。从教师的角度看,学生语言表达错误多,在评改时自然十分苦恼。因此,教研中心开发这一系统,是为了帮助教师快速、准确地评改作文中的语言表达错误,希望借此减轻教师反复批改及纠错的工作量,让教师能更有时间、精力进行针对性的指导,比如刘君所强调的“人文评语”;桑君所强调的文采、创新和突破等。
从学习者的角度来看,这个系统也能作为自主学习的管道。学生将能和系统进行互动,在系统的引导下输入作品。系统将会立即对其语言表达进行侦错并提供修改建议。根据电脑辅助语言学习(Computer-assisted Language Learning)的研究结果,电脑辅助学习有助于降低学习上的挫折感,增强与建立自信心,进而提升学习效果。学生将作文输入系统后,平台的即时侦错与所提供的修改建议,不但能让学生及时掌握学习点,同时在呈交作业时也更具信心。教师发回作文后,学生也会因为红色的圈圈、线线减少了而减轻挫败感、增强学习动力,而教师适当的“人文评语”会在这时发挥更大的作用。有了系统的辅助,学生在作文上将能较流畅、准确地表达,其行文也会更完整,这是我们开发平台期望看到的效果。
电脑技术让自动评改变得可行
以电脑评改作文的做法,国际上已有先例。在英文方面,TOFEL就有电脑自动评改系统。华文方面,台湾心测中心与中国大陆的一些单位,也在积极开发不同功能的自动评改系统。甚至在书写系统复杂的印度,也在研制作文自动评分系统。这些国际的研究,意味着现今的电脑技术已日趋成熟,能够支援复杂的运算程序,让自动化评改变得可行。此外,人工评改的侦错率与精确性,会受到个人语文素养和体力的局限;只要有足够的语料支撑,电脑评改的侦错率与精确性则相对稳定;尤其在评改语言表层错误的工作上,电脑将是人工评阅的一大助力。当然,在系统开发的过程中,我们也意识到技术层面仍存在许多挑战与局限,必须不断地研究、探讨和解决。我们会谘询专家学者的意见,不断地完善系统。
综上所述,中心研发自动作文评改与学习系统,绝对不是为了以“电脑打分形式来批改学生作文”,或全面取代人工评阅,也无意扼杀学生的文采和创造力。电脑仅是一种工具,其可能性与可行性,需要靠设计者和应用者不断地发掘和运用,从而得到改善。我们相信,只要不断提升系统,且运用得当,电脑科技的局限也可以成为潜能。推动华文学习与提升华语文的学习效益是敝中心的使命,只要是有益于华文教学事业的事情,我们都愿意尽力尝试。各界的支持、关心、提醒与指正,我们都会认真思考、细心斟酌,并作为系统开发时的参考。
最后,本人代表新加坡华文教研中心研究团队,对大家的关注表示衷心的感谢。有了各界的支持,我们有信心为新加坡的华文教学作出更大的贡献。
新加坡华文教研中心研究主任(代)吴福焕敬复
文盲幫你改作文(转载)
人工智慧(AI)已經悄悄潛入人類生活的各個層面,連托福、GMAT這些重要的檢定考試,也逐漸引進電腦閱卷,代替專業的教師批改作文。這不禁讓人懷疑,電腦怎麼看得懂作文?電腦怎麼判斷文章的優劣高低?
一般人對人工智慧的印像,莫過於機器人和電腦西洋棋程式。具有人類的外貌,敏銳、聰明、能與人類流暢溝通的機器人,是我們對人工智慧終極的夢想。在過去的一百年間,小說中、電影中、科學著作中,人類不停地勾勒機器人的功能和型貌,不停地預告機器人的實現,甚至為機器人的「人權」制定了規範。然而,一個世紀過去,機器人只能化為Roomba(智慧型自動吸塵器)的型態出現我們眼前,與人類摹想的目標──長得像人、會思考、會聊天的機器人──仍然相距甚遠。假如我們放下對人類型貌的執著,人工智慧其實有驚人的進展。其中,最富宣示義意的,莫過於IBM的電腦棋手深藍(Deep Blue),在1997年擊敗當時世界西洋棋王卡斯巴羅夫(Garry Kasparov)的軼事。有些誇大的報導,將此事解釋為人工智慧已經超越人類智慧,電腦比人腦更聰明。事實上,下棋的學問,無非是一連串邏輯推演,而電腦在邏輯運算上,向來就遠比人類優越。在相同的時間裡,電腦比人類算計得更深更遠,足以預知許多步棋之後的各種盤面,決定最好的落子。所以,電腦在棋類競賽中勝過人類,本來就是遲早發生的必然結果。
機器人的研究,處處以模仿人類、再現人類為目標,顯得困難重重,遲滯不前。深藍則擅用電腦先天的優勢,徹底發揮高速運算的能力,終於勝過了人類最頂尖的西洋棋手。擊敗西洋棋王之後,IBM宣布終止這項計劃,讓深藍「退休」。西洋棋規則明確,步驟分明,完全受邏輯運算支配。隨著電腦硬體速度加快,記憶容量增加,電腦的棋力只會越來越高明,超出人腦越來越多。所以,深藍勝過人類之後,它的任務已經圓滿。然而,並不是所有的事情都像西洋棋這麼純粹有條理。遇到不能完全透過推理和邏輯來解決的問題,如何讓電腦運用計算和記憶的優勢,做得和人類一樣好,甚至比人類更好呢?面對這樣的挑戰,自動作文評分(Automated Essay Scoring)研究的發展,是很好的示範。
早在1960年代,人類就冀望電腦能分擔教師的工作,自動批改學生作文。對人類而言,批改作文是一種高難度的心智工作。首先,批改者必須具備敏銳的語文能力,挑出學生作文裡的錯誤。錯誤有很多種,包含文法句式上的錯誤、字詞使用的錯誤、標點符號的錯誤等。排除了錯誤,作文還有好壞之分。所謂文章好壞,由各種細緻的因素交互作用所決定,這些因素包括形式、結構、內容、意境等。這時,必須仰賴批改者的文學品味以及文化素養,評估文章的整體成就。敏銳的語文能力、文學品味、文化素養,看來都是人類心靈幽微之處,最難以捉模的素質。由此可見,人類批改作文所涉及的心智活動,有許多經驗和直覺的成分,與下棋不同,難以訴諸邏輯計算和純粹的理性推演。既然如此,科學家如何跨越性質上根本的矛盾,讓沒有感情、不通世務、只會計算的機器,來閱讀人類的心靈產物,評判高低呢?令人訝異的是,透過這四十年來,自動作文評分的研究,我們親見機器與心靈之間的鴻溝,並不是永恒的平行線。反之,在批改作文這件事上,人類與電腦,沿著截然不同的途徑,取得了相當的共識。
如何教電腦「閱讀」文章,是作文評分研究最大的挑戰。電腦處理的對象是數字,電腦一切的功能,都立基於一串連的加減乘除和邏輯運算。構成文章的元素卻是單字、詞彙、句子、段落、篇章,與數字毫不相干。一篇文章對電腦而言,不過是一連串數字,每個數字代表一個對應的字,這些數字對電腦全無意義。「紅」、「橙」、「黃」、「綠」這些字,人類一看就立刻產生色彩、光澤、溫度的連結,甚至同時浮現相關的記憶聯想。「大漠孤湮直,長河落日圓」對人類來說,是一幅圖畫、一組意象、一種境界。然而,對工於計算卻不解風情的電腦來說,這些字句只是一串雜亂的數字,沒有色彩、沒有光澤、沒有溫度,更不可能體悟其中的意境。
冀望電腦像人類一樣感受文章的意境,恰似我們期待機器人具備人類的外表、模仿人類的行動溝通,這些都是太困難,太吃力不討好的挑戰。對於這個難題,自動作文評分的先鋒艾利斯〃佩吉(Ellis Page),在1960年代提出一個新奇的觀點:電腦根本不需要真的「讀懂」文章,就能改作文。在他實作的系統裡,每篇文章都轉成了一組對電腦而言有意義的數字,稱為「特徵值」,並以特徵值代替原文,作為電腦評分的對象。所謂「特徵值」,是一群從原文中統計出來的量化數值,包括字數、句數、子句數、詞的平均字數、罕見字數等等。接著,佩吉把一批英文作文,請專人評分,作為樣本,再利用統計的方法,分析樣本文章的分數和這些特徵值之間的關聯。他發現,字數越多、句數越多、詞的平均字數越多,文章的分數通常越高。而高分的文章裡,卻不會出現太多罕見字。所以,這些特徵值和文章優劣的相關程度,就是每一個特徵值的「權重」。假如文章的字數和分數明顯成正比,表示批改文章時,字數多寡有相當重要的參考價值,字數越多,分數越高。於是,字數這個特徵值就會得到較高的權重。而罕見字太多的文章,分數通常不高,因此罕見字數這個特徵值就會有負的權重。配合這組權重,對於每一篇新文章,電腦統計出該文章的特徵值之後,就能算出文章的分數。
將數千字的文章,約化成幾個統計數值,就此判定文章的成就,這一切聽起來多麼的粗糙、多麼的荒誕。然而,佩吉透過實驗,證明這個方法其實並不虛妄。他實驗的方式也頗有新意,他將同一批文章,交給兩位作文老師批改。由兩位老師對每一篇文章給的分數,可以算出他們的「共識度」,代表這兩位老師對作文評分的一致性。然後,佩吉也將同一批文章,交給自動評分系統批改,也算出評分系統和作者老師之間的共識度。結果,兩位老師之間的共識度是0.85,而作文老師與自動評分系統之間的共識度則是0.78,差距不遠。也就是說,佩吉的自動評分系統,批改能力已經接近作文教師了。
佩吉的方法學,不模仿人類批改作文的程序,而擅用電腦統計運算的優勢〃從純粹量化的角度解決問題。這套方法成為自動作文評分研究的基礎,後來40年的發展,都不脫這個框架,只是特徵的設計,越來越細緻,計算權重、決定分數的數學模型,也更加精巧。除此之外,也加入拼字文法檢查器,挑出文章的語法錯誤。1990年代之後,自動作文評分系統,不只評估遣詞造句和結構組織等基本的寫作能力,對於命題作文,系統還能評判內容是否切中題旨,論述的組織發展是否完整連貫。這些神奇的功能,背後仍然是一連串統計運算:科學家根據語言學和資訊擷取(Information Retrieval)的知識,從文字中找出上百個與修辭、結構、組織、內容相關的量化特徵值,讓電腦從經過專人評分的樣本文章裡,計算出每個特徵值的權重,於是便能評判新的文章。
隨著語言學和資訊擷取等相關領域的成長,自動作文評分的研究也不斷的進步。最近幾年,著名的自動評分系統E-Rater達到極高的效能,與專業的寫作教師有97%的共識度,比任兩位教師之間的共識度更高,實用價值無庸置疑,已經普遍應用在托福和GMAT等大型英文能力檢定的批改作業中。除了GMAT,目前有越來越多語言能力檢定採用電腦評分,而且不只是英文,在各種不同的語言上,自動作文評分研究都有活躍的發展。即使是較不易處理的中文,也有效能不錯的評分系統。
電腦透過機械式的統計運算就能改作文,甚至比專業的教師改得更好,這代表什麼?寫作是人類溝通的方式,是智能的展現,是心靈的脈動,是靈魂的窗口。冷酷的電腦完全不理解人類的情感,根本無法「看懂」人類寫的文章。為什麼自動作文評分系統靠著字數、句數、用字頻率這些無機的統計數據,卻有驚人的批改能力?
閱讀與寫作看似微妙,在不可捉摸的心智活動底下,是否也隱約受到潛藏的機械法則支配呢?
哈哈,不要轻视文盲哈
有些文盲很伟大的~~~
我只是有点好奇
你看教研中心说了,明年开始试点
不知道本版的爹妈们
介不介意明年让电脑评改自家孩子的作文呢~~~
精确的计算和个人体验的写作
根本就是风马牛不相及~~~
这些制定政策决定方向的人,唉
如果不是对实际上是第二语文的真实水准的无知
就是对科技盲目的崇拜和精英的傲慢~~~
就是名利的驱动。。
华文讲究的韵味,电脑能识别出来吗?
实际上就是文字纠错。牛皮吹大了一点。
估计系统里面应该会设定很多成语,谚语,俗语,以及诸多好词好句,让孩子多背一点就好了。。。。
至于思想类,意境类,情感类的东西,就丢了吧。。。估计电脑也看不懂。。。。哈。。。。
干脆孩子们也一起进化成机器好了。。。
偶迫切需要一台电脑帮偶改作文!
偶两个同事改作文改中风了~