我是怎样做大学排名的

光说不练假把势。说了几次大数据,这回来点真的。在进入正文之前,建议大家到http://nicksrankings.com先看看,了解下背景。大学排名是一项诡异而又备受关注的生意。最有名的当属《美国新闻与世界报道》(US News and World Reports)的排名。他们每年一排,不光在自己的网页上发布,也出书,一般都是每年年底(9月到11月)出版来年的排名,这大概是因为年底是美国孩子们报考大学的时间。他们每年的排名都略有不同,要不然,谁买那玩意儿啊。

US News之外,美国还有《福布斯》排名(《福布斯》啥玩意都排名,富豪榜坑了多少中国土豪),英国有《泰晤士报》排名(也不知谁瞎起哄,把Times翻成泰晤士)。而中国更是把排名当作不得了的事,最早有家网站Netbig发起大学排名,后来几家大学也开始搞排名,一开始国际名声并不好,但近来似乎上海交大的排名慢慢开始有人关注,因各种原因,“上海交大排名”现在已该名为“上海排名”了(shanghairanking)。

无论是什么排名,总要有一些方法。在US News的排名中,美国正经的大学大致被分为两类,大学和文理学院(Liberal Arts Colleges),大学再分为全国性大学和区域性大学,这里不去细表,感兴趣的可上US News网站。把文理学院和大学一起排名对文理学院确有不公,因为文理学院以本科教育为主,规模都很小,US News排名前三位的老牌文理学院,AmherstWilliams,和Swarthmore每校每年招生只有400左右,这相对于大型公立学校动辄几千上万,差了至少一个数量级。US News为文理学院专门搞了个排名,也就是说它们自摸,不带大学校玩儿。本来文理学院在美国素有贵族传统,在马萨诸塞州的阿默斯特(Amherst)城有一所公立的马萨诸塞大学阿默斯特分校,另加四所私立的文理学院。其中有著名的女校史密斯学院(现在也招男生了),每逢周末,史密斯的女生只date阿默斯特学院的男生,从来就不正眼瞅一眼马萨诸塞大学的孩子们。假装的白富美就是不愿意和穷人家孩子一起玩,高、帅但不富也不行。

关注排名的人很多,但很少有人真正去了解排名的数据是怎样构成的。我们先简单解构一下US News的排名数据。首先是SATACT的分数,也就是中国的高考成绩,理由当然是入学学生的成绩越高,学校自然越好。有些参数看起来并不靠谱,比如,学生的毕业率。US News的道理大概是:如果入学成绩是教育系统的输入,那毕业率就是输出。但毕业率是好的输出标准吗?毕业生的质量,在没有大数据分析手段之前,确实很难衡量。还有一些其他参数,例如同行打分等,我们就不一一列举了。

《上海排名》以学术成绩为主,一项重要参数是本学科最高奖项的数目,包括诺贝尔奖、菲尔茨奖等。另外,还有一些排名中,把研究生在学生中的比例当作一个重要参数,好像研究生越多,学校就越好。

在我的排名中,目前关注的参数不多,其中一个主要的参数是《维基百科》的引用数。《维基百科》英文版至今已有440万篇文章(articles),所有知名大学(包括中国的),都在《维基百科》中有相关的词条文章。《维基百科》中的文章在引用相关其他资料时,都会首先看在《维基百科》内部有无相关内容,如果有,就会创建一个链接,例如在关于伟大的物理学家Steve Hawking(斯蒂夫霍金)的文章中,就提到他曾就学于牛津和剑桥,后来在加州理工学院做过访问学者,那么牛津、剑桥和加州理工都会因为霍金的这一词条而多一个引用。我的方法就是挖掘这440万篇文章中对各大学的累计引用次数,以此作为对大学声望的衡量参数之一。这听起来容易,做起来也不难。

简单的引用链接数并不反映学校的好坏。有些学校出名并非因为是纯学术,某些事件会增加学校的引用数,比如美国俄亥俄州的肯特州立大学(Kent State University)。这学校总的名声还可以,是俄亥俄最大的学校之一,但它出大名是因为尼克松时期的肯特州立大学的枪击事件。197054日,肯特州立大学的学生抗议政府轰炸柬埔寨,尼克松悍然下令向手无寸铁的学生开枪,导致了被称为肯特州立大学的屠杀事件。在《维基百科》中,有很多关于此事件的文章都指向肯特州立大学的词条。自然对学校的排名有影响。这样的事件尽管和学术无关,但我们也必须承认,总的来说是和学校的声望有关系的。

我的排名的第一版(2014-01)主要是基于维基引用数的,结果见:http://www.nicksrankings.com/index2014-01.html。我的第二版(2014-02http://www.nicksrankings.com/index2014-02.html)添加了另一个参数,力图反映学校的毕业生质量,也就是学校的产出水平(productivity)。我是这么做的:在《维基百科》英文版中,找出二十三万个人,再顺藤摸瓜,找出这些人的母校。然后按照毕业生的权重(即他们在维基中的被引用数)给学校打分。比如,前花花总统比尔克林顿,在维基中引用数是8465,而比尔的老婆希拉里的引用数是3428,二战英雄艾森豪威尔的引用数则是4557,那么克林顿给他的母校耶鲁和牛津则比他老婆和艾帅给他们分别的母校韦尔斯利学院和西点贡献了更多的点数。《维基百科》在母校的引用上并不规范,例如有时只说某人的母校是哈佛法学院,在计算这一参数时,我利用了维基百科的一些特点,例如通过维基分类(Category),我找到哈佛法学院(Harvard Law School)这一词条隶属于“哈佛大学”这一母分类,由此算出这人的母校应是哈佛。在统计母校时,我也利用了DBpedia等其它大数据源。加入母校这一参数后,一些小学校,特别是文理学院的排名,略有提升,例如,Amherst College2014-01版中,排名125,而在2014-02版中,则排108。但总的说来,小学校、新学校还是吃亏,加州理工只排58,天理不容。

我的第三版(2014-03)排名又加入了两个参数来衡量每个学生得到的教育资源。一个是每个学生得到的捐款数目(endowment),另一个是教授/学生比。这两个参数进一步提高了文理学院的排名,Amherst, SwarthmoreWilliams分别排名394950。而加州理工则提升到30。有两所学校格外引人注目,一所是洛克菲勒大学(27);另一所是位于沙特的阿卜杜拉国王科技大学(34)。洛克菲勒大学在医学和生物学界享有崇高地位,只有200多博士生,但有16.5亿美元的endowment,平均数远超哈佛耶鲁。而阿卜杜拉国王科技大学是一所后起之秀,成立于2009年,却有100亿美元的捐助,主要来自沙特石油公司Aramco,他们自称“阿拉伯的MIT”。这学校为所有学生免学费,且提供高额奖学金,学生以中国学生最多,然后是印度学生和沙特学生。校园内实行特区制,没有宗教警察,女生也不带面纱。现任校长是加州理工前任校长。学校从世界各地高薪聘请老师,论文引用次数等学术指标已进入前茅。

给学校的打分,为了不致学校之间差别太大,我采用了对数的方式,即第一名得100分,其它学校的得分数以log(本校引用数)/log(第一名引用数)×100

另外我还做了专业的排名,专业排名的道理是,在相关专业的所有文章中,找出对所有学校的引用次数。例如,数学,我在数学分类(Category: Mathematics)下的(几乎)所有文章中,找出对各大学的引用,以此作为大学在该专业的声望的衡量。

美国大学一般不会轻易分系,更不会动不动就把系升级成学院。例如,在麻省理工学院和加州大学伯克利分校,电机和计算机都还是一个系(EECS),这要是在中国那得分成至少5个学院。有些学科并不一定固定在一个系里,比如,逻辑学,就有可能分布在数学、哲学和计算机系里,而有些计算机的课题则可能分布在计算科学机系和电机与计算机工程系(ECE)。我的方法其实也可以对这样的学科排名。有些学校,尽管没有对应的科系,但专业排名还是很靠前。值得注意的是加州理工学院的哲学排名很靠前,这估计和这学校的几名物理学教授爱对哲学说三道四大有关系。我的排名更多看重学科和学校的关系,而不是学校某个系科的声望,当然一般这两者之间有某种密切关系。

中国承继苏俄的传统,很多专业的学院是独立的,特别是艺术类的,如电影学院、美术学院等。此次北京电影学院、中央音乐学院、中央美术学院及中央戏剧学院排名都不俗。这并不一定说在中国演员和画家的影响和声望就比科学家及工程师要高。中欧商学院在中国的排名也不弱,考虑到这家学校较短的历史,这值得一提。看起来长江商学院的绯闻还不够多,或者还没到要被维基百科关注的程度,这至少说明文艺界的影响只限于国内。作为对比,把著名的茱莉亚音乐学院也列入全球综合排名,她可排到60+名,不容小瞧。

普遍地说,非英语国家的排名要吃亏一些,而我的排名里可能这个倾向略微严重些,主要原因是我只用了英语的《维基》作为原材料。中文的《维基》无论是数量还是质量,目前都到不了大数据的规模。德文维基目前已很可观。以后这是我需要修正的地方,但偏差没我预想的大。例如,欧洲排名最前的学校是柏林洪堡大学,第50(第一版为第61,第二版也是50),而在泰晤士报排名则为99,而泰晤士报排名最前的欧洲大学是苏黎世联邦高工(ETH),在我的排行中只在160+

文理学院教育是美国的一大特色。中国人一般不太知道,即使在美国生活了很多年的中国人也不甚清楚。其实对中国近代政治颇有影响的宋氏三姐妹都是美国文理学院卫斯理学院(Wesleyan College,注意别和另一所文理学院Wesleyan University混了)毕业的,这是第一所给女子授予学位的学校。文理学院在早期美国教育体系里属贵族教育,强调通识教育和教育质量。但在自由平等的当下,文理学院更注重差异化和个性化教育。大部分文理学院都在美国东北部,文理学院主张小班教学,一般课都没有超过20人的,也没有TA,都是教授亲历亲为。这同大学校本科生的大课教育完全不同。伯克利之流,许多基础课程都是人满为患,如微积分,计算机程序设计入门的课程,一般都是几百人一起上,也常有TA代课。很多TA都是刚来美国的外国研究生,自己英文还说不利索,有点误人子弟。在加州大学体系,经常听到学生抱怨,但没办法,学校的经费不容许小课。而文理学院则没有这样的问题,文理学院的教授也不是不做研究,考虑到他们教学任务繁杂,很多文理学院的教授采用三年休假制(Sabbatical),而大学校则一般为5-7年休一次假。文理学院一般没有研究生,但也有例外,如Wesleyan大学的研究生教育还很强,按说这样的学校论规模和体制应该不算传统文理学院了,但US News按照当年卡内基基金会定的老规矩,死活把她当文理学院,相反,性质类似的Boston College,则被算为全国性大学。在此我们也不破例。另外,美国的三所军校:陆军学院(即赫赫有名的“西点”)、海军学院和空军学院也算文理学院。这三所学校论难进的程度,也确实属“蜀道难”级别的。“西点”在我的排名中灭了传统排名的老三样AmherstWilliamsSwarthmore,也不算太大的意外,西点毕业的那帮四五星的将军们即使是在和平年代也都是传奇,维基中对他们有太多的引用。创造历史的人当然比写历史的人更有影响力。

加州最著名的文理学院Pomona College(波蒙娜学院)位处洛杉矶附近的大学城克莱尔蒙特市(Claremont),该学校的戏剧系名声很好,专门有人研究亚洲戏剧,当年梅兰芳访问美国时,Pomona曾经给梅大师发过荣誉博士,回国后,梅大师不断被鲁迅戏称“梅博士”,弄得梅、鲁两家老死不相往来,这是后话。此地还有另外四所文理学院,和一家和这五所学院密切相关的克莱尔蒙特研究生大学(Claremont Graduate University)。这几所学校比邻而居,学生们可到任意一所学校选课,饭票在各学校也通用。克莱尔蒙特大学城自称是模仿牛津和剑桥的学院制建成的。她们的存在,算是给西部的新式大学教育加的一道传统小菜。

我的排行榜中各学校的名称以《维基百科》英文版的词条名称为准,中文名(包括中国大学的中文名)则是通过Google翻译器翻的,我只做了个别改动,如果你觉得不合意,可以提出来,但别拿我开涮。一千多所学校,肉眼看不过来。另外,我的网站上的HTML页面也都是Java程序自动生成的,现在还顾不上美观。我是以一人之力,蚍蜉撼树。只不过这个老蚍蜉有大数据做工具,流氓会武术,谁也挡不住。

相比其它排名,虽然我的参数简单,却不失公平,而且改进空间很大。另外,因为所有参数的获取和计算都是通过算法自动完成,理论上,我可以做到实时排名,至少,我可以每月一排。作为便民措施,我还整合了Google地图。这样,大家就可以直观地看到大学的地理分布(http://www.nicksrankings.com/College_2004_03/OverallMap.html),既是工具,也是玩具。老话说:一幅画儿顶得上一千句话。总体看,好大学在美国东北部和西欧分布较密集,再次是美国西海岸的加州,这一点也不令人惊奇。我们还可以借助地图做些简单的发现,例如,一眼就可以看出最北的大学是阿拉斯加大学和几所挪威的学校。

大学排名本身就是仁者见仁智者见智,各位看官可以发挥想象,做各自的深入解读,我就不操那个心了。