2019年,评估创新中心(Center for Evaluation Innovation)对北美161家基金会的评估状况做调查(点击可查看原文),列出了评估遇到的核心挑战,排在前三位的是:
▪ 对基金会形成有意义的洞察(73%的受访者)
▪ 对所在领域有贡献(73%)
▪ 对资助伙伴有帮助(69%)
这三者涵盖了评估可以发挥作用的全部三个方面:议题领域、基金会自身以及资助伙伴。可见,基金会从业者们大多认为监测评估的作用尚未充分发挥,人们期待更加有用的监测评估。
但我们不能回避,必须直面监测评估难题。因为,公益实在逃不掉这个问题:你做的事情有什么用?我们必须做出回答。我们越是跨界,与政府、企业、公众互动得越多,我们就越是逃不掉这个问题。
当然,监测评估也有助于构建公益机构的竞争力。试着想象一下,如果有两家做就业培训的机构,一家只能讲自己做过多少场培训,培训了多少人,另一家却能讲清楚有多少人获得了持续稳定的就业,哪家机构会更受青睐?
因此,我们看到很多机构在积极创新,希望能摸出有用的路子来。这节课,就我了解的范围,介绍一些国际前沿,尤其是北美公益界探索的四条路径。
一、更及时的成效监测
评估一般几年做一次,它的作用主要是支持机构的重大战略决策。在平时工作中,我们经常感受不到评估的作用。如果想增强监测评估与日常工作的联结感,就需要一种更加及时、可以快速反馈的成效监测。
为了突出及时这个特点,成效监测就必须有所放弃:
1.放弃系统性。放弃全面指标,只监测几个关键指标。如同开车,只需要监测车速、油量、胎压等几个指标,系统车辆检修日常不需要做,几年一次就够了。
2.放弃对照组。严谨的影响评估需要对照组,内部监测没必要做。
3.放弃监测远期影响。因为我们需要及时的信息,因此只能监测近期数据。
4.放弃抽象影响。如心理健康、读写能力等需要借助专业量表和专业测量手段,日常监测有一定难度。
一般而言,成效监测更加注重:
1.测量直接用户的变化。因为机构与直接用户打交道多,与间接用户打交道少,直接用户的变化更便于观察。
2.测量行为变化。意识、能力的变化不可见,且较难测量,成效监测侧重可见的行为变化。
成效监测的典型探索是“精益数据”(Lean Data)以及“成效监测”(Outcome Mapping),点击文字可查看相关资料,下同。
成效监测的流派与影响评估的流派,同样值得重视。虽然成效监测的科学性肯定不能与影响评估相提并论,但它完全可能因实用性而崛起。随着中国公益机构组织管理精细水平的提高,成效监测的本土案例会越来越多。
我们也正在收集相关案例,如果你知道一些,欢迎告诉我们。
二、共享评估指标、工具甚至数据库
开发监测评估指标并不容易,很多公益组织不具备开发良好指标的能力。于是有人想,相同类型的项目,为何不开发通用的评估指标、工具,大家共同使用呢?
国际上这方面的努力,已经有不少。比如国际影响力投资网络开发的IRIS+,是影响力投资者们共同关心的标准和指标集合,比如“健康社区指标”(Metrics for health communities)是一个卫生健康方面的指标库。
其它很多领域,都有一些通用的指标,无需从零开发。阅读领域、儿童早期发展领域、环境污染领域、心理健康领域,我们都能找到前人经过验证的指标和测量工具,它们在效度和信度上,都比我们重新开发一个好。
有了通用指标,如果大家使用较多,还可以继续深入,开发在线工具,大家都用这个工具来记录和管理自己的绩效指标,数据多了,就会有行业基准数据,便于机构与行业基准做比较。
国际共享评估的探索,对我们有哪些启发?
三、倾听用户
大家都听说公益价值链存在权力问题。与公益伙伴相比,基金会更具权力优势。与服务对象相比,公益组织更具权力优势。如果不能处理好这个权力问题,下游的需求、反馈就不能递送到上游,造成服务针对性不强,效果不佳。缺乏有效直接的反馈,就像一个怪兽,它会反噬上游机构,最主要的影响就是上游机构整体上成长慢、专业性低、效果和效率都容易低下。
与此同时,社会组织通常是平等、参与、包容性的倡导者。我们自身就是民间的力量,特别关注弱势群体,重视自下而上的工作方式。我们在自己的组织管理中、与伙伴的关系管理中,也可以融合这些原则。
评估一方面可以服务于自上而下的管控,另一方面可以为用户赋权。国际评估领域特别重视平等、参与、包容性在监测评估环节的应用,强调倾听服务对象的声音,重视与他们沟通,倾听他们的反馈。
美国有一家“有效资助中心”(Center for Effective Philanthropy),服务于基金会与公益伙伴之间,专门协助基金会收集伙伴反馈。美国很多知名的基金会,类似于盖茨基金会、福特基金会,定期(大约每两年一次)订制他们的服务。盖茨基金会甚至在网站上,公开自己对伙伴的服务承诺,公布投诉热线,接受反馈。
在公益机构与目标群体之间,美国十余家基金会联合发起了一个资金池,称为“共享洞察基金”(Fund for Shared Insight),主要目的是支持美国公益界倾听那些容易被忽视的声音。2016年他们发起了一个项目“善倾听”(Listen4Good),为NGO设计了一个标准化问卷,并提供资金支持,帮助NGO将倾听服务对象的声音纳为监测评估的一部分。
类似的尝试,在一些细分领域也在开展,例如盖茨基金会支持了一个叫Youth Truth的项目,收集学生等相关方对学校的反馈,用于改善学校的表现。
上述在国际上、商业上已经成熟的做法,在国内公益界也很值得实践。比如国内基金会同样缺乏来自于伙伴的有效反馈,而伙伴中的优秀者对实地情况有很好的观察。CDR今年也计划推出“反馈报告”服务,协助基金会收集伙伴的反馈,用于改善基金会的战略和实践。虽然一直有朋友提醒我,中国基金会还没有发展到重视用户满意度的阶段,可能太早了,但总得有一批人率先开始。
在倾听用户这个方面,我们基金会不妨先从自己做起,以后再推动公益伙伴们倾听服务对象的反馈。
四、更大范围的分享学习
系统性的评估工作,包括影响评估以及总结性评估,都需要花费较高的时间和资金成本。然而辛苦得出的评估发现会在什么范围内被分享讨论呢?北美基金会评估调研显示,在秘书长和员工之间分享讨论的最多(50%左右),理事会和资助对象较少(25%左右),外部公众和其他基金会最少(5%左右)。评估发现只能供一家机构内部使用,就有点可惜。对于其它做类似项目的机构,以及后来者们,你的评估发现,也许可以帮他们避免重复的探索。
原美国基金会中心(foundation center,现已与GuideStar合并为Candid)发起了Open For Good运动,鼓励基金会建立知识共享的机制和文化。另外国际上有很多知识中心,支持研究或整理了各领域的评估报告,指出哪些干预是有效的,哪些干预是无效的,可供众多发展组织、公益组织以及政府参考借鉴。
3IE(International Initiative for Impact Evaluation)是其中的重要行动者和倡导者,现已汇总共3725个影响评估案例,涉及教育、健康、农业等各领域,并开发了18个分领域的证据差距地图,用一张图片展示某领域现有的干预有效性循证研究结果,并区分证据有效性的高低程度。另有Campbell Collaboration,功能与3IE相近。
当然,在做系统评估的时候,如果全文公开,我们可能有所顾虑,但如果不公开,似乎也不够透明和坦荡。因此,我们建议基金会做两个版本,一个是为了内部改进使用的版本,一个是为行业贡献知识的版本。
与此同时,贡献知识,就需要有客观的角度,不能只披露正面信息,不披露负面挑战。还好,我们国内几家已经公开的评估报告,几乎都进行了客观披露,没有隐讳。实际也证明,这样的公开,对品牌声誉并没有造成负面影响。
更大范围的分享学习,值得做,也可以做。
延展阅读:
以下是CDR已编译的部分相关案例,供大家研习参考。
多家组织共同开发通用指标的过程中如何能够有效协作?最终开发的通用指标可以如何应用?能否回应不同组织的独特需求?本案例中介绍了6家致力于服务青少年的组织是如何合作开发统一的成果框架,并让每个组织明确自身职责,认同以成果为导向的服务理念的,以及最终各家如何根据自身需求有选择性地使用共同成果框架中的指标。
高质量的陪伴辅导项目有哪些关键要素?有能力执行陪伴辅导项目的组织什么样?陪伴辅导项目有哪些类型?适合哪些青少年?他们的成本和成效如何?执行时有哪些注意事项?本文对以上问题一一进行了回答。
如果你关注青少年课后教育与发展,希望了解从青少年、项目和系统三个层面可以如何评估此类项目,该案例将为你提供强操作性建议。本案例中的评估框架由美国市级公益机构组成的全国性联盟牵头开发而成,共包含青少年、项目和系统,3个层面、8个维度、28个预期目标,成果指标清晰简单。每个层面的成果指标中,都包含数据收集的内容、建议频率和相对工作量、对数据用途的建议等,操作指导性强。
除了人们常关注的儿童青少年项目成效指标以外(比如儿童自信心),执行过程中需要关注哪些运营要素(比如提供安全的环境)?可以如何监测?本工具是针对儿童参与的各类形式项目(课余、社区、学校、暑期学习和活动)的质量测评工具,主要目的用于评估项目实施质量和识别员工的培训需要。该工具提供了最佳项目实践的评分标准,并协助人们和机构设想儿童发展项目的理想情况。
不同的教育干预路径有哪些?其中真正起效的关键要素又有哪些?哪些干预措施已经得到有效性验证?该报告综合了52个中低收入国家216个教育领域发展项目对学生入学情况和学习效果的影响评估结果,介绍了不同干预模式的影响路径,可能影响不同干预模式有效性的关键因素,以及不同干预措施的有效性证据。
几个相关的问题和思考
问题1. 你觉得本文中的哪些做法适用于你所在的基金会?哪些不适用?为什么?
问题2. 你见过哪家公益组织成效监测做得不错吗?他们监测了什么?注意是成效监测,而不是活动、产出监测。欢迎推荐给我们。
问题3. 你们机构曾经较为系统地收集过用户反馈吗?如果没做过,为什么?如果做过,有什么帮助吗?
我们探讨了国际评估领域的前沿探索,感谢几位朋友回答问题,分享自己的见解。其中一位朋友分享了影响评估与成效监测之间的区别与联系,也有伙伴真诚分享了自己机构的成效监测和用户反馈实例,特别棒,今天我们就此进一步交流。
的确,影响评估才能客观严谨地讲清楚项目的效果。影响评估的方法中设有对照组,而周一介绍的成效监测和用户反馈,不做对照组,因此严格说来,成效监测、用户反馈是不能讲清楚项目效果的。
但是每一件事情都是有成本的。影响评估的严谨程度高,投入的资金、时间也很高。这一点相信很多伙伴都清楚,但仍然有很多伙伴面临的是预算有限、精力有限、人手有限的现实情况。
影响评估、成效监测、用户反馈,到底选哪一个,可以说是具体需要和具体约束条件下的策略选择。
有的时候,在资源有限的情况下,我们不妨先从不那么严谨的用户反馈和成效监测做起,虽然看似是退而求其次,但这些成本更低廉、速度更快的方法同样能够为项目实际开展提供重要的参考价值。与此同时,有效的用户反馈和成效监测数据也是开展影响评估的基础。
成效监测能够帮助我们了解项目是否按计划开展,关键的节点是否达成了关键的阶段性目标;用户反馈则能够帮助我们深入一线,看到伙伴们真正的问题和困难,了解项目是否有关键链断裂,从而为项目的顺利开展、服务改进提供保障。
有位伙伴分享了他们收集的用户反馈是如何实际帮助到项目本身的。他们开展了一个学前儿童营养改善项目,并为之搭建了成效监测数据管理平台,让老师们通过平台每月填报孩子的身高、体重等监测数据。最初的数据统计方式是让老师们直接填报电子数据,但后来项目组人员发现很多老师的填写率不高。
于是项目组开始收集老师们对平台的反馈,发现“大部分老师由于年龄较大或者是时间问题,觉得在线填写孩子身高体重很麻烦,而且还容易输错数字。所以渐渐的就不做了。所以我们决定改成符合大部分老师使用习惯的纸质手册,填写完后对应页拍照上传即可,对于我们来说后期统计也好,观察也好都更麻烦了,但是解决了最开始老师不愿上传的基本问题。”
在这个案例中我们可以看到,监测体系的建立本身是有成本的。即使建立了监测体系,也并不是数据会随之自然出现。随着互联网的发展,开发平台收集监测数据成为越来越多伙伴的选择,但如果我们的服务对象他们不接受、不适应这种形式,那么整个监测体系的链条从最初源头就断裂了,及时的用户反馈在此发挥了不可磨灭的作用。
因此,我们不认为哪一种方法更好或最好,我们希望帮助大家看到每种方法的利弊,然后能够选择出最适合自己的方法。
今天继续为大家剖析案例:美国课后教育项目的一系列评估,它们几乎符合上述课程中提到的全部特征(具体案例参见文末推荐阅读)。
项目背景
儿童能否接受公平的教育,关系到将来有没有公平的人生机会。教育公平,包括校内教育公平,如上什么样的学校、校内教育的好不好,也包括课外教育公平,低收入家庭的儿童在课后辅导、课外活动、暑期学习和活动方面,也处在落后状态。
美国政府,以及众多企业和基金会都大力支持课后教育,为弱势儿童提供安全照管、学业辅导以及社会技能方面的培养。这类项目数量非常非常多,以至于美国出现了几个不同的课后教育联盟/平台,比如“21世纪社区学习中心”(21st Century Community Learning Centers)是美国政府发起的资源与技术平台;“课后教育联盟”(Afterschool Alliance)是州级课外教育网络,包括26000个服务提供者、社区组织及支持者;“关键每小时”(Every Hour Counts)是市级公益组织组成的全国联盟。
当一个项目涉及到如此众多的层面(政府、基金会、社区组织),影响面如此之广(几万个服务提供者),它所需要的监测评估体系也就非常多元。幸运的是,我们看到美国的同行们做了大量工作,并且把他们的评估工具、评估指标、评估发现,都公布出来了。
我们来看看他们的工作。
一、绘制变革理论
首先,他们都绘制了项目的变革理论,如下是一个分类汇总范例。这个变革理论,可以供众多从业者借鉴使用。
这个变革理论框架,概括了课后教育的共同特征,比如:
二、开展影响评估
当一类项目达到如此大的服务规模,消耗资金量巨大,需要从根本上回答一个问题:课后教育对孩子能力提升有没有帮助?有多大帮助?这是项目必要性的根本。如果项目模式是无效的,对孩子没有帮助,这会从根本上推翻项目。不管项目筹多少款,有多大的知名度,管理效率有多高,都没有意义。
对这个问题的回答,需要做严谨的影响评估。在美国,与基金会们合作紧密的兰德公司(Rand)、哈佛家庭研究中心(Havard Family Research Project),曾对课后教育开展了影响评估,并给出了肯定回答:课后教育对儿童的学习和其他方面的发展有积极作用。
影响评估需要非常严谨的研究设计和研究管理,因此一般都是由学术研究机构进行。他们的研究结论,也具有更强的权威性。这种影响评估在学术界也很受尊重。2019年诺贝尔经济学奖获得者阿比吉特·巴纳吉(Abhijit Banerjee)、埃丝特·迪弗洛(Esther Duflo)和迈克尔·克雷默(Michael Kremer),获奖原因就在于他们“在减轻全球贫困方面的实验性做法”,也即影响评估。阿比吉特·巴纳吉和埃丝特·迪弗洛所在的工作单位——麻省理工学院的Abdul Latif Jameel贫困行动实验室——也是一家国际顶尖的影响评估机构。
咱们常见的在公益界活跃的非学术性第三方评估机构,一般不具备开展严谨影响评估的能力。非学术性第三方评估做的事情,更多的是项目逻辑梳理以及收集相关方反馈,也很有价值,但与影响评估不同。当我们需要开展严谨影响评估的时候,一般不委托这类机构。
当然,由于严谨,影响评估一般耗时长、耗资大,通常用于特别重大的事项。比如,项目投入资金量巨大,几千万甚至上亿,如此体量的公益项目还是大量存在的;再比如,希望推动政策,政策影响的资金常常是百亿级的,政策影响的人也常常是百万、千万级别的,此时影响评估所花费的数百万元,占比其实已经很小了。
三、开展成效监测
即使影响评估证实了课后教育对儿童发展有益,接下来执行机构也并不是高枕无忧了。一个好的项目模式,如果在设计细节上不能符合当地的具体需求,或者操作不规范不到位、管理不严谨,仍然可能会导致项目无效。
执行机构需要持续地收集信息,以便调整项目设计或执行。
除了影响评估所需验证的根本逻辑外,课后教育项目与其它众多类型的公益项目一样,也会面临很多挑战和质疑,比如:
为了管理好项目,也为了更好地回应上述问题,就需要监测体系。不同的联盟也都尝试了为伙伴们开发监测指标和工具。
比如,儿童层面的指标有:
比如,活动中心支持性环境方面的指标有:
比如,项目管理层面的指标有:
基于这些指标,联盟也开发了监测工具,从而让各家伙伴的监测更可操作,尤其是对其中较难观察的部分,比如社会能力部分,提供了量表。
四、倾听服务对象
从文首的小例子中,我们已经一窥倾听服务对象的价值。从国内外的案例资料中我们也看到,基金会作为牵头的枢纽机构,常常会出资做行业的需求调查,包括家长和儿童对课后教育的需求,对现有项目的满意度,他们感受到的项目的作用等等。
这些工作,除了收集到有价值的信息之外,也是一个重要的姿态,表明项目很重视儿童和家长,愿意倾听他们的声音,能够增加儿童、家长对项目的认同感。
五、共享评估工具与结论
我们要特别感谢美国同行分享他们在课后教育方面所做的大量研究与评估,他们连最基本的工具也都公开出来了。这有点像公布病毒基因图谱,公布疫苗方案。
这首先会对联盟中的众多中小组织很有帮助。中小公益组织具有服务能力,但不一定具有研究能力,自行开发监测评估工具的难度很大。
这对后续的项目开发和迭代也很有帮助。随着课后教育的研究与评估不断积累,会出现越来越多新的证据,可以指导后续项目设计。比如,我们在上一篇问题交流环节中讲的案例提到:有研究显示,如果课后教育的内容与校内的内容缺乏关联性,对提高孩子学业成绩、提高正常升学率帮助不大;也有研究显示,阅读对于提高孩子的学业表现有较好的促进作用,一些课后教育项目因此调整了自己的策略。
这些公开的内容,对于其它国家也有帮助,比如我们。随着我国经济条件改善,为孩子提供的课后教育也越来越丰富。不同儿童在课后教育方面的差距也在不断扩大。农村儿童、流动儿童的课后托管与教育、暑假学习与活动,目前已经出现了大量公益项目,将来还会持续扩大。国际的研究以及评估经验,可以帮助我们减少研发成本。
若您想深入了解本讲案例,欢迎阅读以下内容(点击即可查看):